Domanda:
Migliora un genoma di riferimento con i dati di sequenziamento
Scott Gigante
2017-05-18 08:11:37 UTC
view on stackexchange narkive permalink

Ho un campione di DNA che so non corrisponde abbastanza al mio genoma di riferimento: la mia cultura proviene da una sottopopolazione che ha subito una mutazione significativa da quando è stata creata la referenza.

Dall'ispezione visiva con IGV, sembra essere presente un numero significativo di SNP e SV, ma un assieme costruito interamente dai miei dati di sequenziamento non è di qualità sufficientemente elevata per i miei scopi.

Come posso modificare questo genoma di riferimento per abbinare il mio campione con i nuovi dati di sequenziamento (preferibilmente con le letture lunghe di Oxford Nanopore Technologies, ma posso anche usarle per impalcare letture brevi se necessario), sfruttando le mie conoscenze che il riferimento esistente è per lo più molto buono, senza dover accedere alle letture originariamente utilizzate per costruire il genoma di riferimento?

Come sarai mai in grado di fidarti veramente di un assembly se le origini dati di input sono così varie come dici (quantità significativa di SNP e varianti strutturali)?
C'è un motivo per non voler creare un nuovo riferimento? Una corsa MinION produce ~ 5 Gbp di dati, il che significa che anche se codifichi a barre i tuoi campioni dovresti avere una copertura sufficiente per costruire il genoma de-novo Qual è l'obiettivo del progetto? Modifica: supponendo che tu lavori con alcuni batteri
L'esempio che ho in mente è E.coli, sì. Abbiamo provato l'assemblaggio utilizzando un paio di strumenti diversi e l'assemblaggio de-novo non è di alta qualità come vorremmo, nonostante abbia tonnellate di dati. Avvicinandosi a questo da un punto di vista bayesiano, il genoma di riferimento fornisce un ottimo precedente se potessimo usarlo con saggezza.
È buono a priori, ma se l'obiettivo del progetto è scoprire quanti SV si sono accumulati, mediante l'assemblaggio basato sui riferimenti si polarizzerà l'output. Inoltre non è chiaro cosa significhi "alta qualità".
L'obiettivo del progetto non è determinare dove si trovano gli SV, ho solo bisogno di un riferimento che rappresenti accuratamente il mio campione al fine di utilizzare i dati per l'analisi a valle (come il set di addestramento per l'apprendimento automatico). Quindi da un riferimento di alta qualità , Intendo uno che rappresenta nel miglior modo possibile il campione che è stato sequenziato. A peggiorare le cose, questo potrebbe non essere quello che ha la più alta identità di allineamento se ci sono errori di sequenziamento sistematico, come nel sequenziamento dei nanopori!
Cinque risposte:
#1
+4
roblanf
2017-05-18 16:07:14 UTC
view on stackexchange narkive permalink

Un approccio a questo è utilizzare tutti i dati a disposizione per aggiornare iterativamente il genoma di riferimento. Puoi mantenere i file a catena lungo il percorso in modo da poter convertire le coordinate (ad esempio nei file gff) dal riferimento originale al tuo nuovo pseudoreferenziato.

Un approccio semplice potrebbe essere:

  1. Allinea i nuovi dati al riferimento esistente
  2. Chiama varianti (ad es. Samtools mpileup, GATK o qualsiasi altra cosa sia meglio per te)
  3. Crea nuovo riferimento incorporando varianti da 2
  4. Risciacqua e ripeti (es. Vai a 1)

Puoi tenere traccia di alcune semplici statistiche mentre esegui questa operazione, ad es. il numero di nuove varianti dovrebbe diminuire, il numero di letture mappate dovrebbe aumentare e il tasso di mancata corrispondenza dovrebbe diminuire, ad ogni iterazione del ciclo precedente. Una volta che la pseudoreferenza si è stabilizzata, sai che non puoi fare molto di più.

#2
+4
Daniel Standage
2017-05-21 12:43:44 UTC
view on stackexchange narkive permalink

A seconda della copertura dei dati e della complessità del genoma, è possibile riassemblare il genoma de novo o eseguire un assemblaggio guidato da riferimento (o assistito da riferimento). Sembra che tu ti stia inclinando di più verso quest'ultimo.

Sono disponibili un paio di strumenti di assemblaggio guidati da riferimenti: AlignGraph e Ragout. Questi possono o non possono essere appropriati a seconda dell'organismo di interesse e dei tipi di dati. Ad esempio, è molto improbabile che questi strumenti funzionino bene su letture Oxford Nanopore che non sono state corrette da errori utilizzando Nanopolish o Canu -correct.

Posso aggiungere questo strumento, Ragout: https://www.ncbi.nlm.nih.gov/pubmed/24931998, e ci sono molti riferimenti utili all'interno del documento. Anche se il titolo dell'articolo afferma che dovrebbe funzionare con i genomi batterici, funziona anche con i genomi dei mammiferi
#3
+3
madhu bioinfo
2017-05-18 10:29:39 UTC
view on stackexchange narkive permalink

Puoi utilizzare nanopolish utilizzando le letture di illumina. Dai anche un'occhiata a pilon.

#4
+3
haegglund
2017-05-18 10:38:32 UTC
view on stackexchange narkive permalink

Se si tratta di una bozza di assemblaggio a lettura breve e hai letture lunghe (ONT o Pacbio) esegui link per impalcare il genoma e quindi esegui Pilon iterativamente per provare per lucidare e riempire le lacune utilizzando le letture brevi.

#5
  0
bedeabc
2017-08-05 00:08:29 UTC
view on stackexchange narkive permalink

Kindel (che ho scritto) può dedurre il consenso da allineamenti di bassa qualità di letture brevi a riferimenti virali, ed estenderlo per lavorare con letture di singole molecole e genomi più grandi è nella mia lista di cose da fare, anche se immagino che questo richiederà una riprogettazione.
Presumibilmente hai a che fare con un genoma batterico o fungino in questo caso? Ho anche una versione C ++ di base, ma è molto lontana dall'essere user friendly. Ad ogni modo, potrebbe valere la pena dare un'occhiata: sentiti libero di metterti in contatto con eventuali problemi che incontri. Userei Pilon come menzionato sopra



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...