Domanda:
Come posso rilevare sistematicamente sequenze di codici a barre / adattatori sconosciuti all'interno di un set di campioni?
story
2017-05-31 14:49:30 UTC
view on stackexchange narkive permalink

Ho spesso scaricato set di dati dall'SRA in cui gli autori non hanno menzionato quali adattatori sono stati tagliati durante l'elaborazione.

Gli allineamenti locali tendono a superare questo ostacolo, ma sembra un po 'barbaro.

fastQC funziona occasionalmente per raccoglierli, ma a volte non riesce a trovare le effettive sequenze di adattatori.

Di solito, ho finito per cercare i kit che hanno usato e cercare di grep per tutti i possibili codici a barre.

Esiste un modo più robusto / efficiente per farlo?

Questo non risponde alla tua domanda, ma spero che ci sia la possibilità di segnalare tali problemi a SRA in modo che chiedano agli autori di pubblicare le informazioni mancanti.
Perché ritieni che l'allineamento locale sia un po 'barbaro? Dovrebbe essere il metodo predefinito al giorno d'oggi, a meno che tu non stia lavorando con il sequenziamento smallRNA. Tendo a ritagliare gli adattatori per andare sul sicuro, ma ho svolto molto lavoro senza preoccuparmi e mi sono affidato solo all'allineamento locale.
Quattro risposte:
#1
+4
ewels
2017-06-02 12:52:08 UTC
view on stackexchange narkive permalink

Hai detto che FastQC "non riesce a trovare le sequenze dell'adattatore effettive" - Immagino che tu intenda nel grafico della contaminazione della sequenza dell'adattatore. Tuttavia, kmer e Sequence Content Plots sono spesso utili anche quando il primo fallisce. Li ho usati in passato: a volte puoi semplicemente leggere la sequenza dell'adattatore dall'inizio del grafico del contenuto della sequenza (o almeno vedere quante basi tagliare).

#2
+2
gringer
2017-05-31 15:45:23 UTC
view on stackexchange narkive permalink

Non sono a conoscenza di alcun metodo esistente per farlo, ma qui ci sono un paio di idee su come potrebbe essere fatto:

Canu ha un metodo di adattamento dell'adattatore che implica la ricerca dell'assenza di sovrapposizione per le letture. Se non ci sono altre letture che condividono la sequenza in una particolare regione, la lettura viene interrotta nel punto di bassa copertura e piccoli pezzi vengono scartati. Sarebbe possibile utilizzare un metodo come questo per cercare eventuali sequenze di adattatori / codici a barre preservando le letture brevi.

Un'altra opzione è fare una ricerca kmer all'inizio delle letture e vedere se qualcuno di i kmer ad alta abbondanza possono essere assemblati insieme e / o abbinati ad adattatori o codici a barre noti esistenti.

#3
+1
bli
2017-05-31 15:28:26 UTC
view on stackexchange narkive permalink

Se ti capita di conoscere una sequenza che dovrebbe essere molto abbondante nella libreria, puoi capirne l'inizio o la fine (con l'evidenziazione della corrispondenza del pattern) e vedere se la stessa sequenza viene sistematicamente appena prima o subito dopo rispettivamente. Questo tipo di ispezione visiva può aiutarti a trovare l'adattatore.

Ad esempio, in un laboratorio precedente, stavamo lavorando su D. melanogaster piccoli dati di sequenziamento dell'RNA e il mio collega sapevano da precedenti esperienze con questo tipo di dati che il seguente piccolo RNA era probabilmente abbondante: http://flybase.org/reports/FBgn0065042.html

Dovevamo solo grep nel file fastq per vedere molte righe con questa sequenza, accanto a un'altra sequenza che era sempre la stessa: l'adattatore sconosciuto.

Posso sapere il motivo del voto negativo? Ho visto questo metodo applicato in un caso di piccolo RNA-seq, dove era prevista una sequenza altamente abbondante. Ispezionare visivamente l'output di grep di questa sequenza (con l'evidenziazione del pattern) ha dato un ottimo suggerimento di cosa fosse l'adattatore (la parte non evidenziata).
La domanda è come rilevare sequenze di adattatori sconosciuti, quindi l'OP non saprà in anticipo sequenze abbondanti. Questo è il punto della domanda ...
@tallphil Non vedo il collegamento tra non conoscere l'adattatore e non sapere di un'abbondante sequenza che dovrebbe essere presente nei dati. Se ricordo bene, nell'esempio che cito nel mio commento, il mio collega sapeva per esperienza precedente con questo tipo di dati che il seguente piccolo RNA era probabilmente abbondante: http://flybase.org/reports/FBgn0065042.html ho dovuto grep nel file fastq per vedere molte righe con questa sequenza, accanto a un'altra sequenza che era sempre la stessa: l'adattatore sconosciuto.
In realtà ho appena riletto il tuo post e ora capisco cosa intendevi. Questa è un'idea ragionevole. Tuttavia, penso che tu l'abbia spiegato male, nel senso che un lettore potrebbe essere confuso e pensare che volevi dire che la ricerca della sequenza più abbondante potrebbe venire fuori con il codice a barre. Avresti dovuto specificare che la "sequenza abbondante" in questo caso era una sequenza nota di acido nucleico che ci si aspetterebbe di avere adattatori legati a una o entrambe le estremità.
Ah sì, mi scuso - è esattamente come l'ho letto. Probabilmente non ha aiutato il fatto che la domanda originale menzionasse il grepping per le sequenze di adattatori previste, quindi questo era fresco nella mia mente :) Scusa @bli! Downvote non era da me quindi non posso ritirarlo, temo.
Ho cercato di chiarire le mie spiegazioni.
#4
+1
Nils
2017-06-02 16:41:16 UTC
view on stackexchange narkive permalink

L'utility minion dal toolkit kraken / reaper può essere utile per questo: http://wwwdev.ebi.ac.uk/enright-dev/kraken/reaper/src/ reaper-latest / doc / minion.html

Sembra esattamente il tipo di strumento giusto. Anche se un peccato che sia stato progettato principalmente per l'adattatore da 3 '. Mi chiedo se potresti semplicemente capovolgere tutte le tue letture e applicarle all'estremità 5 '.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...