Assemblaggio del genoma da letture soggette a errori

Domanda:

Assemblaggio del genoma da letture soggette a errori

gagro

2017-10-22 17:20:58 UTC

view on stackexchange narkive permalink

Capisco come assemblare il genoma da letture senza errori. Ho implementato in questo modo:

Costruisci un grafo di sovrapposizione diretto con letture come vertici e bordi come massima sovrapposizione tra due vertici. I bordi rappresentano la lunghezza della sottostringa massima sovrapposta di un suffisso di lettura con un altro prefisso di lettura. Trova il percorso che visita tutti i vertici solo una volta nel grafo di sovrapposizione. Con il grafico piccolo possiamo usare l'approccio avido: partendo dal primo modello scegli sempre l'egde del peso massimo e memorizza la superstringa comune più corta scritta da questo percorso nella stringa risultante. La stringa risultante scritta per percorso è la superstringa comune più breve di tutte le letture, ovvero il genoma assemblato.

Ad esempio

  AACTAG CTAGAT

Fornisce AACTAGAT come risultato

Ora diciamo che due letture soggette a errori hanno al massimo un errore (mancata corrispondenza):

  AACTAG CTCGAT

Come puoi vedere la seconda lettura ha una sostituzione nel terzo carattere da "A" a "C" .

Quindi, come dovrebbe apparire il genoma assemblato per le letture soggette a errori? Prendo A o C alla stringa risultante? O mi manca qualcosa?

Nota: ho usato letture brevi, ad esempio, per semplicità. Lavoro con un numero molto maggiore di letture che sono lunghe 100 nucleotidi e hanno al massimo una sostituzione di carattere. Quindi questo è un grande grafico di sovrapposizione. So di poter usare il grafico De Bruijn, ma posso usare un approccio avido (come nell'esempio senza errori)?

Due risposte:

user172818

2017-10-22 19:13:23 UTC

view on stackexchange narkive permalink

Per le letture brevi, la soluzione tipica e più utilizzata è quella di correggere gli errori di sequenziamento prima dell'assemblaggio. Puoi correggere gli errori con lo spettro k-mer, un trie o il multi-allineamento. Ci sono molti documenti su questo argomento.

La sola correzione degli errori non risolverà tutti gli errori di sequenziamento. Gli errori rimanenti possono portare a bolle e suggerimenti nel grafico di sovrapposizione / de Bruijn. È possibile identificarli ispezionando la topologia locale del grafo di assieme.

Quindi quale sarebbe la soluzione dal campione soggetto a errori sopra?

Nessuna soluzione al tuo esempio. È possibile identificare solo gli errori con una copertura sufficiente.

gringer

2017-10-22 23:47:50 UTC

view on stackexchange narkive permalink

È normale che gli assemblatori abbiano una soglia di copertura per assicurarsi che ci siano abbastanza letture nella stessa regione per assemblare correttamente un contenuto.

Non è possibile trovare una soluzione ideale da una situazione in cui la sequenza del consenso è ambigua. Se la tua sovrapposizione fosse rappresentativa (ad esempio una variante eterozigote in un genoma diploide, basata su poche decine di letture di 100 bp, anziché 6 bp), l'assemblaggio risultante avrebbe una bolla nel grafo di assemblaggio nel punto della variante.

  A / \ AACT GAT \ / C

Un assemblatore conservatore potrebbe produrre due contig assemblati corrispondenti a questi due percorsi, AACTAGAT e AACTCGAT. Un avido assemblatore sceglierebbe semplicemente un percorso e lo userebbe. Le fasi successive dell'assemblaggio potrebbero tentare di cercare bolle e annotare i contigui assemblati con posizioni delle varianti.

Per tutte le sovrapposizioni di lettura breve tradizionali, se c'è una mancata corrispondenza, la sovrapposizione verrà persa del tutto. Non ottieni una bolla. Di solito sono necessarie almeno 4 letture per vedere una bolla e la bolla non è a base singola nel grafico stringa / sovrapposizione.

Sì, per l'esempio particolare che è stato fornito, non si formerebbe una bolla. Presumevo che le letture fossero rappresentative di qualcosa con una copertura migliore (ad es. Sovrapposizione di 50 sequenze lunghe, metà con una variante e metà no)

ⓘ

Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.

a proposito - legalese

Loading...