Come valutare se una lettura lunga è una sequenza significativa?

Domanda:

Come valutare se una lettura lunga è una sequenza significativa?

roblanf

2017-06-19 05:24:15 UTC

view on stackexchange narkive permalink

La configurazione

Immagina che io lavori su un organismo senza un genoma di riferimento e che il genoma di riferimento più vicino che posso ottenere sia abbastanza divergente. Per esempio. ~ 10% divergeva in termini di SNV quando misurato con letture brevi e ha anche molte varianti strutturali.

Ora immagina di ottenere una lettura lunga di 1 milione di coppie di basi (ad esempio dai dati Nanopore) per il mio organismo. La domanda è questa:

come posso stimare la proporzione della lettura che è sequenza significativa rispetto a spazzatura?

Alcune cose che probabilmente non funzioneranno

La maggior parte degli approcci standard non funzionerà qui. Per esempio. Potrei provare a mappare la lettura al riferimento, ma anche se la lettura fosse perfettamente buona non mi sarei aspettato che la maggior parte fosse mappata grazie alle vere variazioni strutturali tra la lettura e il riferimento. Lo stesso vale per l'allineamento standard o BLAST.

Alcune cose che potrebbero funzionare

Il miglior metodo ingenuo qui sembra essere quello di tagliare la lettura in parti più piccole (sovrapposte o meno) e usare approcci standard per mappare / allineare ciascuno di questi.

Allora, cosa hanno provato le persone per questo? E quali strumenti hai utilizzato e perché?

Due risposte:

Scott Gigante

2017-06-19 05:34:27 UTC

view on stackexchange narkive permalink

Come primo passaggio, potresti controllare se la lettura è chimerica. Porechop cerca adattatori nanopori noti sia all'estremità che al centro della lettura. Questo non risolverà i problemi relativi ai pori ostruiti o vuoti, ma controllerà almeno se hai trovato due letture longish raggruppate nello stesso file.

Per impostazione predefinita, Porechop divide le letture chimeriche in due ( o più, suppongo!) letture non chimeriche, ma l'opzione --discard-middle sarebbe un modo semplice e veloce per controllare - eseguilo su un file fasta contenente solo la tua lettura lunga, e se l'output è vuoto, la lettura è chimerica.

gringer

2017-06-19 09:32:07 UTC

view on stackexchange narkive permalink

Se stai osservando un singolo organismo, in assenza di un genoma di riferimento puoi mappare altre letture per sospettare letture e guardare la copertura. Anche osservare la sequenza effettiva può essere utile: il vero DNA di solito non ha un'abbondanza di due basi diverse.

Le letture dei nanopori offrono anche un altro modo per vedere se la lettura sembra strana osservando il segnale grezzo. Il nostro articolo di letture chimeriche fornisce alcuni esempi di come dovrebbe apparire la sequenza di DNA in circostanze normali. Ecco la prima cifra di segnale grezzo da quel documento:

Se c'è molto segnale contiguo con livelli di corrente molto simili (cioè sembra la regione "stallo", quindi non è una buona lettura e qualsiasi richiamo di base dovrebbe essere ignorato.

ⓘ

Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.

a proposito - legalese

Loading...