Domanda:
Come posso migliorare un assembly a lettura lunga con un genoma ripetitivo?
gringer
2017-05-25 16:46:36 UTC
view on stackexchange narkive permalink

Attualmente sto cercando di assemblare un genoma da un parassita di roditori, Nippostrongylus brasiliensis . Questo genoma ha un genoma di riferimento esistente, ma è altamente frammentato. Di seguito sono riportate alcune statistiche di continuità per gli scaffold dell'attuale genoma di riferimento Nippo (assemblato da letture Illumina):

  Sequenze totali: 29375 Lunghezza totale: 294,400206 Mb Sequenza più lunga: 394,171 kb Sequenza più breve: 500 b Lunghezza media: 10,022 kbMedian Length: 2.682 kbN50: 2024 sequenze; L50: 33,527 kb N90: 11638 sequenze; L90: 4,263 kb  

Questo genoma è molto probabilmente difficile da assemblare a causa della natura altamente ripetitiva delle sequenze genomiche. Queste sequenze ripetitive sono suddivise in (almeno) tre classi:

  1. Ripetizioni in tandem con una lunghezza unità di ripetizione maggiore della lunghezza di lettura dei sequencer Illumina (ad es. 171bp)
  2. Ripetizioni in tandem con una lunghezza cumulativa maggiore della lunghezza del frammento dei sequencer Illumina o della lunghezza del modello per le letture collegate (ad es. 20kb)
  3. Complesso (cioè non ripetitiva) che appare in più punti del genoma

Canu sembra gestire abbastanza bene i primi due tipi di ripetizioni, nonostante l'abbondanza di strutture ripetitive nel genoma. Ecco il riepilogo unitario prodotto da Canu su uno degli assemblaggi che ho tentato. Si noti che circa il 30% delle letture si estende o contiene una ripetizione lunga:

  la categoria legge% lunghezza di lettura dimensione caratteristica o analisi di copertura -------------- - ------- ------- ---------------------- ------------ ------------ -------------------- centrale mancante 694 0,07 7470,92 + - 5552,00 953,06 + - 1339,13 (taglio errato) centrale -hump 549 0,05 3770,05 + - 3346,10 74,23 + - 209,86 (taglio errato) no-5-primo 3422 0,33 6711,32 + - 5411,26 70,92 + - 272,99 (taglio errato)
no-3-prime 3161 0,30 6701,35 + - 5739,86 87,41 + - 329,42 (pessima rifinitura) bassa copertura 27158 2,59 3222,51 + - 1936,79 4,99 + - 1,79 (facile da montare, potenziale per un consenso di qualità inferiore) unico 636875 60,76 6240,20 + - 3908,44 25,22 + - 8,49 (facile da montare, perfetto, yay) ripetizione 48398 4,62 4099,55 + - 3002,72 335,54 + - 451,43 (possibilità di errori di consenso, nessun impatto sull'assemblaggio) ripetizione colomba 135 0,01 16996,33 + - 6860,08 397,37 + - 319,52 (difficile da assemblare, probabilmente non si monta correttamente o addirittura non si monta affatto) span-repeat 137927 13.16 9329.94 + - 6906.27 2630.06 + - 3539.53 (leggere si estende su un'ampia ripetizione, solitamente facile da montare) uniq-repeat-cont 155725 14.86 6529.83 + - 3463.16 (dovrebbe essere posizionato in modo univoco, basso potenziale di errori di consenso, nessun impatto sull'assemblaggio) uniq-repeat-dove 28248 2,70 12499 .99 + - 8446.95 (terminerà, potenziale di assemblaggio errato) uniq-anchor 5721 0,55 8379,86 + - 4575,71 3166,22 + - 3858,35 (lettura ripetuta, con sezione unica, probabile lettura errata)  

Tuttavia, il terzo tipo di ripetizione mi sta dando un po 'di dolore. Utilizzando l'assemblaggio sopra, ecco i parametri di continuità dalle sequenze assemblate:

  Sequenze totali: 3505 Lunghezza totale: 322,867456 Mb Sequenza più lunga: 1,762243 Mb Sequenza più breve: 2,606 kb Lunghezza media: 92,116 kb Lunghezza media: 42,667 kbN50: 417 sequenze; L50: 194,126 kbN90: 1996 sequenze; L90: 35.634 kb  

Non è un cattivo assembly, soprattutto data la complessità del genoma, ma credo che potrebbe essere migliorato affrontando le complesse ripetizioni genomiche in qualche modo. Circa 60 Mb dei contenuti in questo assembly sono collegati tra loro in un enorme web (basato sull'output GFA di Canu):

60Mb linked structure from Canu GFA

Le regioni ripetitive sono in genere più lunghe di 500 bp, in media circa 3 kb, e ho visto almeno un caso che sembra essere una sequenza di 20 kb duplicata in più regioni.

Le impostazioni predefinite di Canu sembrano danno i migliori risultati di assemblaggio per i pochi parametri che ho provato, con un'eccezione: trimming. Ho provato a giocare un po 'con i parametri di trimming e, curiosamente, una copertura di trimming di 5X (con sovrapposizione di 500 bp) sembra dare un assemblaggio più contiguo rispetto a una copertura di trimming di 2X (con la stessa sovrapposizione).

Se qualcuno è interessato a dare un'occhiata a questi dati, è possibile trovare qui i file FASTQ delle corse di sequenziamento Nippo. Sono ancora in fase di caricamento dei file di segnali nanopori grezzi, ma saranno disponibili nelle prossime due settimane associate al progetto ENA PRJEB20824. C'è anche un archivio Zenodo qui che contiene i file GFA e assembly.

Qualcuno ha altri suggerimenti su come risolvere queste complesse ripetizioni?

Per chiarire: vuoi soluzioni computazionali o sei aperto al risequenziamento utilizzando tecniche specifiche per migliorare l'assieme?
Le soluzioni computazionali sarebbero preferite, ma il risequenziamento non è escluso.
Sono confuso con la domanda. Sembra che tu abbia statistiche da un gruppo di illuminazione e anche dati sui nanopori che non fanno parte delle statistiche riportate. Quindi la risposta ovvia sembra essere ad es. Canu + pilon (o simile) per tentare un assemblaggio migliore combinando entrambi i tipi di dati. Ma immagino che non sia quello che stai cercando. Puoi chiarire?
Ix Canu [questo assemblatore] (https://github.com/marbl/canu)? A chi assomiglia il controllo dell'assemblaggio con Illumina. Sembra che con nanoPore l'assemblaggio sia decisamente migliore.
Sì, posso utilizzare i dati Illumina per correggere l'assieme Canu, ma ciò non aiuta a risolvere le ripetizioni di "tipo 3". Le regioni sono sufficientemente simili che le letture di illumina vengono mappate su più punti del genoma.
I contigui Illumina sono di alta qualità (cioè hanno buoni punteggi BUSCO, che indicano pochi errori di variante), ma piuttosto brevi. Qualsiasi annusare di una ripetizione e il contig finisce. Ho più di alcuni esempi di regioni che farebbero una lettura Illumina (anche 10x letture concatenate) rannicchiarsi per la paura.
Anche se i contenuti Illumina sono di alta qualità, non significa che funzionino bene per un genoma così ripetuto.
Una risposta:
#1
+6
user172818
2017-05-30 04:41:53 UTC
view on stackexchange narkive permalink

Non è possibile risolvere 20 kb di ripetizioni / segdup quasi identici con letture di 10 kb. Tutto quello che puoi fare è scommettere la tua fortuna su alcune letture eccessivamente lunghe che coprono alcune unità per caso. Per copie divergenti, vale la pena consultare questo documento. Utilizza le letture Illumina per identificare i k-meri in regioni uniche e ignora i k-meri non univoci nella fase di sovrapposizione. Il documento diceva che questa strategia è migliore rispetto all'utilizzo di sovrapposizioni standard, che compro, ma probabilmente non può nemmeno risolvere un segdup da 20 kb con una manciata di disallineamenti.

Tali approcci basati sul disallineamento hanno sempre dei limiti e potrebbe non funzionare per segdup / ripetizioni recenti. La soluzione definitiva è ottenere letture lunghe, più lunghe delle unità di ripetizione / segdup. Le letture di ~ 100 kb nel preprint recente cambieranno le regole del gioco. Se le tue ripetizioni di ~ 20kb non sono tandem, anche le letture concatenate di ~ 100kb di 10X possono essere d'aiuto.

Abbiamo già alcune letture da 100 kb nei nostri campioni, ma sembra che potremmo averne bisogno di più. Un campione di DNA è stato inviato a Canberra per essere sequenziato in un corso di formazione Nanopore (da un collega), quindi si spera di ottenere buone letture lunghe.
"Qualche" lettura di 100kb non aiuta molto. È necessario applicare il protocollo ultra lungo, che è diverso dal protocollo standard.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...