Domanda:
Le basi soft-clipped vengono utilizzate per l'identificazione delle varianti in samtools + bcftools?
mattm
2017-05-19 23:50:05 UTC
view on stackexchange narkive permalink

Se sono presenti coppie di basi soft clipped specificate nella stringa CIGAR per una lettura in un file SAM / BAM, queste verranno utilizzate per l'identificazione di varianti in samtools + bcftools flusso di lavoro?

GATK HaplotypeCaller, ad esempio, ha un'opzione esplicita --dontUseSoftClippedBases per decidere se utilizzare basi soft clipped. La documentazione di samtools non menziona le basi ritagliate.

Una risposta:
Devon Ryan
2017-05-20 00:19:13 UTC
view on stackexchange narkive permalink

No, samtools (e quindi bcftools) non usa basi soft-clipped. Puoi confermarlo rapidamente utilizzando samtools depth o samtools mpileup per osservare una regione con un allineamento morbido. Noterai che la regione soft-clipped non viene utilizzata nella profondità / pileup (entrambi gli strumenti utilizzano lo stesso codice sottostante, quindi non importa quale usi). Se sei curioso, samtools ignora le basi morbide perché si basa sulla creazione di una pila di allineamenti per base che copre ogni posizione. Nel formato BAM, gli allineamenti vengono ordinati e assegnati ai contenitori in base alle loro posizioni di inizio / fine, che non includono il soft-clipping. Di conseguenza, quando samtools sta facendo il pile-up, non vedrà nemmeno gli allineamenti che si sovrapporrebbero a una data base se fossero incluse le basi soft-clipped.

Questo quindi pone la domanda su cosa sta facendo HaplotypeCaller di GATK diversamente. Lì, le regioni del genoma sono essenzialmente assemblate in un piccolo grafico di de Bruijn, che consente di risolvere le basi soft-clippate intorno agli indel, dato che il grafico inizierebbe / finirebbe un po 'oltre ogni lato degli indel. Questo è anche il motivo per cui non è necessario eseguire un riallineamento indel con HaplotypeCaller (era necessario nel vecchio UnifiedGenotyper).

Modifica : per maggiori dettagli su HaplotypeCaller, vedere questa bella pagina sul sito web di GATK, che va molto più in dettaglio di quanto ho fatto qui.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...