Domanda:
Come trattare l'eterozigosi durante la lucidatura dell'assemblaggio del genoma sulla base di lunghe letture?
Kamil S Jaron
2017-05-21 16:49:59 UTC
view on stackexchange narkive permalink

Tutte le piattaforme di sequenziamento a lettura lunga si basano sul sequenziamento di singole molecole che causa tassi di errore per base più elevati. Per questo motivo è stato aggiunto un passaggio di lucidatura alle pipeline di assemblaggio del genoma: mappatura delle letture grezze all'assemblaggio e correzione dei dettagli dell'assemblaggio.

Ho un set di dati PacBio RSII decente del singolo genoma individuale di specie non modello fortemente eterozigoti . L'assemblaggio è andato bene, ma quando ho provato a lucidare l'assieme usando quiver non è riuscito a convergere su un paio di iterazioni e scommetto che è a causa di una divergenza troppo grande di aplotipi.

Esiste un altro modo per perfezionare un genoma con tali proprietà? Ad esempio, esiste un modo per separare le letture lunghe per aplotipo, in modo da poter lucidare utilizzando un solo aplotipo?

Due risposte:
#1
+4
roblanf
2017-05-22 08:36:12 UTC
view on stackexchange narkive permalink

Alcune possibilità:

Falcon

Prova falcon e falcon-unzip. Questi sono progettati esattamente per il tuo problema e i tuoi dati: https://github.com/PacificBiosciences/FALCON

Not Falcon

Se pensi di aver assemblato aplotipi (il che sembra ragionevole aspettarsi una copertura sufficiente), dovresti essere in grado di vedere i due aplotipi semplicemente eseguendo tutti gli allineamenti a coppie dei tuoi contigui. Gli aplotipi dovrebbero apparire come coppie di contigui che sono MOLTO più simili (anche con molta divergenza tra aplotipi) rispetto ad altre coppie. Una volta che hai tutte queste coppie, puoi semplicemente selezionare una di ciascuna coppia da lucidare.

In effetti ho entrambe le sequenze di aplotipi. Li ho ottenuti usando uno strumento chiamato [haplomerger2] (http://www.ncbi.nlm.nih.gov/pubmed/22555592). Ma questo strumento produce un assemblaggio aploide chimerico, quindi non sono realmente aplotipi fasati correttamente. Falcon-unzip è davvero un software che potrebbe funzionare. All'epoca era troppo giovane per provarci, ma ora potrei provare a fare un altro tentativo.
#2
+3
gringer
2017-05-22 13:12:38 UTC
view on stackexchange narkive permalink

Potresti anche provare Canu. È progettato per l'assemblaggio a lettura lunga (sia PacBio che Nanopore), sebbene non specificamente per il sequenziamento di popolazioni complesse. Cerca di scomporre un genoma nei suoi componenti unici e genera percorsi da quei componenti che sono ben supportati dalle letture.

Per quanto riguarda la lucidatura, sembra che la lucidatura non lo faccia convergono e ci saranno molte varianti che oscillano tra due possibilità. Per me e almeno un'altra persona alla London Calling quest'anno, praticamente non c'è stato alcun guadagno in termini di precisione per la lucidatura oltre la terza iterazione. Ho usato il mio algoritmo di correzione degli errori, ma hanno usato la lucidatura più "standard" con Pilon. Per quello che vale, il consorzio nanopore WGS ha utilizzato Racon per lucidare i propri assemblaggi Canu.

In realtà ho assemblato il genoma usando Canu, ho ottenuto ~ 2x dimensioni aploidi del genoma, che ho ridotto a aplotipi usando [HaploMerger2] (http://www.ncbi.nlm.nih.gov/pubmed/22555592) .I sappi che a livello globale l'assemblaggio è buono. Deve solo essere lucidato.
Oh si. Scusa, ho guardato la prima risposta e avevo pensato che si trattasse solo di assemblaggio. Mi rendo conto ora che la domanda stava discutendo * lucidatura *, piuttosto che assemblaggio.
@gringer Stavo anche cercando di lucidare un assemblaggio genoma altamente eterozigote (generato da canu), usando Racon (Quiver collasserebbe aplotipi), ma non riuscivo a ottenere un risultato soddisfacente (in pratica, nessuna statistica è cambiata). qualche consiglio?
La mia raccomandazione generale al momento sarebbe quella di utilizzare nanopolish in modalità di metilazione per correggere, quindi Pilon con Illumina legge * solo * per correggere i frammenti di omopolimero (cioè nessuna correzione SNP e nessuna impalcatura a lungo raggio). Basato su questo: https: //github.com/rrwick/Basecalling-comparison#methylation


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...