Domanda:
Come determinare rapidamente le mutazioni in una lettura di un file sam?
rraadd88
2017-05-18 08:14:29 UTC
view on stackexchange narkive permalink

Dopo il sequenziamento del DNA, ho generato un file sam tramite l'allineamento di un file fastq. Prima di utilizzare noti programmi di denominazione di varianti (ad es. Annovar ecc.), Desidero scegliere alcune letture e sapere quali tipi di mutazioni ci sono.

Esiste un modo rapido per farlo?

Puoi visualizzare le mancate corrispondenze con qualcosa come [IGB] (https://wiki.transvar.org/display/igbman/Visualizing+read+alignments#Visualizingreadalignments-Loadsequencedatatoviewmismatches)
Tre risposte:
#1
+8
Scott Gigante
2017-05-18 08:24:19 UTC
view on stackexchange narkive permalink

Per l'analisi qualitativa, probabilmente faresti meglio a utilizzare qualcosa di meno granulare come IGV o IGB. Tuttavia, se vuoi davvero guardare un paio di letture:

Se sei disposto a ignorare gli errori di sequenza, puoi ispezionare la stringa CIGAR o il tag MD, che forniscono entrambi informazioni sull'allineamento di una singola lettura.

La stringa CIGAR fornisce dettagli su inserimenti, eliminazioni, ritagli, corrispondenze e mancate corrispondenze. Da Genome Analysis Wiki,

La sequenza che viene allineata a un riferimento potrebbe avere basi aggiuntive che non sono nel riferimento o potrebbero mancare basi che sono nel riferimento. La stringa CIGAR è una sequenza di lunghezze di base e l'operazione associata. Sono usati per indicare cose come quali basi si allineano (o una corrispondenza / mancata corrispondenza) con il riferimento, vengono cancellate dal riferimento e sono inserimenti che non sono nel riferimento. Ad esempio:

  RefPos: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 Riferimento: CCATACTGAACTGACTAA CRead: ACTAGAATGGC TW Con l'allineamento sopra, ottieni : POS: 5CIGAR: 3M1I3M1D5M  

L'utilizzo più comune della stringa CIGAR utilizza M (corrispondenza / mancata corrispondenza), I (inserimento), D (eliminazione), S (ritaglio morbido) e H (ritaglio duro). Nota che = (corrispondenza) e X (mancata corrispondenza) sono disponibili come alternative alla M meno informativa, ma sono meno ampiamente utilizzate.

Il tag MD fornisce dettagli specifici su mancate corrispondenze ed eliminazioni. Dalla specifica dei tag SAMtools,

Il campo MD mira a ottenere chiamate SNP / indel senza guardare il riferimento. Ad esempio, una stringa "10A5 ^ AC6" significa che dalla base di riferimento più a sinistra nell'allineamento, ci sono 10 corrispondenze seguite da una A sul riferimento che è diversa dalla base di lettura allineata; le successive 5 basi di riferimento sono corrispondenze seguite da una cancellazione di 2bp dal riferimento; la sequenza eliminata è AC; le ultime 6 basi sono partite. Il campo MD dovrebbe corrispondere alla stringa CIGAR.

Nota che nessuno di questi ti darà alcuna idea di varianti strutturali nelle letture brevi e nessuno dei due sarà particolarmente leggibile (o utile, a causa di il tasso di errore più elevato) nelle letture lunghe.

#2
+7
dariober
2017-05-21 22:47:47 UTC
view on stackexchange narkive permalink

Ho scritto un programma, ASCIIGenome, che trovo utile nei casi in cui vuoi dare una rapida occhiata ai dati genomici. È un browser genoma per la riga di comando.

Per visualizzare solo le letture contenenti mancate corrispondenze puoi utilizzare la funzione interna awk . Per filtrare le letture in cui il tag NM (numero di mancate corrispondenze) è> 0:

  ASCIIGenome -fa genome.fa aln.bam ... [h] per aiuto: awk 'getSamTag (" NM ") > 0 ' 

La visualizzazione sullo schermo del terminale potrebbe essere simile a questa: enter image description here

Allo stesso modo, per ottenere solo letture contenenti indel puoi usare awk '$ 6 ~ "D | I"'

Spero che questo ti aiuti e sentiti libero di segnalare bug problemi di &.

È davvero fantastico. Mi piace.
#3
+4
gringer
2017-05-18 21:23:10 UTC
view on stackexchange narkive permalink

samtools mpileup può farlo rapidamente:

  samtools mpileup -f reference.fasta -uv input.sam > variant.vcf  

Questo produrrà un file in formato VCF contenente informazioni su quali varianti sono state viste nel file SAM, aggregate per tutte le letture mappate.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...