Domanda:
Lettere maiuscole e minuscole nel genoma di riferimento
Scott Gigante
2017-05-24 08:26:50 UTC
view on stackexchange narkive permalink

Sto usando un genoma di riferimento per il topo mm10 scaricato da NCBI e vorrei comprendere più in dettaglio la differenza tra lettere minuscole e maiuscole, che costituiscono parti più o meno uguali del genoma. Capisco che N sia usato per "mascheramento duro" (aree del genoma che non è stato possibile assemblare) e lettere minuscole per "mascheramento morbido" nelle regioni ripetute.

  1. Che cosa significa effettivamente questo mascheramento morbido significare?
  2. Quanto posso essere sicuro della sequenza in queste regioni?
  3. Cosa rappresenta una n minuscola?
Tre risposte:
#1
+25
rightskewed
2017-05-24 11:01:33 UTC
view on stackexchange narkive permalink

Cosa significa in realtà questo mascheramento morbido?

Molte delle sequenze nei genomi sono ripetitive. Il genoma umano, ad esempio, ha (almeno) due terzi di elementi ripetitivi [1].

Questi elementi ripetitivi vengono mascherati mediante la conversione delle lettere maiuscole in minuscole. Un importante caso d'uso di queste basi soft-masked sarà nelle ricerche di omologia: un atatatatatat tenderà ad apparire sia nel genoma umano che in quello di topo ma è probabilmente non omologa.

Quanto posso essere fiducioso riguardo alla sequenza in queste regioni?

Come puoi essere in posizioni basate non mascherate. Il soft-masking viene eseguito dopo aver determinato le porzioni del genoma che sono probabilmente ripetitive. Non c'è incertezza se una particolare base sia 'A' o 'G', solo che fa parte di una ripetizione e quindi dovrebbe essere rappresentata come una 'a'.

Cosa significa una minuscola n rappresenta?

UCSC utilizza Tandom Repeat Finder e RepeatMasker per potenziali ripetizioni con mascheramento debole. Molto probabilmente NCBI utilizza TANTAN. 'N rappresenta che non sono disponibili informazioni sulla sequenza per quella base. È probabile che sia sostituito da "n" è probabilmente un artefatto del software di mascheramento della ripetizione in cui maschera una "N" con una "n" per indicare che anche la porzione del genoma è probabilmente una ripetizione.

[1] http://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1002384

Risposta informativa, ma penso che sia controverso dire che il genoma umano è "(almeno) due terzi di elementi ripetitivi"; il metodo P-nuvole che citi è abbastanza permissivo e metà è una cifra più comunemente accettata. E il soft-masking non implica mascherare tutte le ripetizioni in generale, ma solo ripetizioni intervallate e sequenze a bassa complessità. Inoltre c'è sempre incertezza sull'identificazione delle basi e sulla costruzione di assemblaggi, e ancora di più per le sequenze ripetitive, sebbene mm10 sia uno dei migliori assemblaggi ovviamente ...
#2
+11
Chris_Rands
2017-05-24 13:16:19 UTC
view on stackexchange narkive permalink

L'uso di lettere maiuscole / minuscole e lettere N / n nelle sequenze genomiche non è completamente standardizzato e dovresti sempre controllare le specifiche della risorsa che stai utilizzando .

Le lettere minuscole sono più comunemente usate per rappresentare "sequenze mascherate", una convenzione resa popolare da RepeatMasker, in cui le ripetizioni intervallate (che copre trasposoni, retrotrasposoni e pseudogeni elaborati) e le sequenze a bassa complessità sono contrassegnate da lettere minuscole. Nota che le ripetizioni più grandi, come le ripetizioni tandem di grandi dimensioni, le duplicazioni segmentali e le duplicazioni dell'intero gene non sono generalmente mascherate.

Tuttavia, ci sono altri usi per le lettere maiuscole / minuscole, ad esempio hanno utilizzato lettere maiuscole / minuscole per rappresentare rispettivamente le sequenze esoniche e introniche.

N e n nucleotidi possono rappresentare "sequenze hard masked ", Dove le ripetizioni intervallate e le sequenze a bassa complessità vengono sostituite da N s. Ma N / n possono rappresentare alternativamente nucleotidi ambigui, in effetti questa è la specifica IUPAC.

Nota anche occasionalmente ( sebbene fortunatamente raramente) X / x è usato per rappresentare nucleotidi ambigui o anche "sequenze hard-masked".

#3
+4
Kamil S Jaron
2017-05-24 17:29:31 UTC
view on stackexchange narkive permalink
  1. I nucleotidi minuscoli indicano comunemente sequenze mascherate morbide . Come è stato mascherato esattamente il genoma, puoi trovare nelle FAQ di NCBI:

Le sequenze ripetitive nei genomi eucariotici sono mascherate?

Le sequenze ripetitive nei file di sequenza di assemblaggio del genoma eucariotico, come identificate da WindowMasker, sono state mascherate in minuscolo.

La posizione e l'identità delle ripetizioni trovate di RepeatMasker sono forniti anche in un file separato. Questi intervalli potrebbero essere utilizzati per mascherare le sequenze genomiche, se lo si desidera. Tieni presente, tuttavia, che molti organismi meno studiati non hanno buone librerie di ripetizioni disponibili per RepeatMasker da utilizzare.

  1. IMHO, le regioni a bassa complessità sono è sempre più probabile che siano montate male rispetto alle sequenze ad alta complessità. Tuttavia, questo sarà un problema per gli organismi non modello. Immagino che l'affidabilità delle regioni con maschera morbida del genoma del topo sarà molto alta.

  2. Non ne ho idea, sembra un artefatto.

  3. ol >

    Un esempio di utilizzo della maschera morbida

    La mappatura della sequenza a riferimento di solito inizia con le corrispondenze perfette dei semi (sottostringhe) delle letture mappate e della sequenza di riferimento. Le regioni con maschera morbida (bassa complessità) non vengono utilizzate per le corrispondenze dei semi, ma vengono utilizzate solo per l'estensione dell'allineamento se c'era un seme in una regione vicina. Questa applicazione di softmasking applicata al problema dell'assemblaggio a lettura lunga è descritta in questo blog.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...