No, samtools (e quindi bcftools) non usa basi soft-clipped. Puoi confermarlo rapidamente utilizzando samtools depth
o samtools mpileup
per osservare una regione con un allineamento morbido. Noterai che la regione soft-clipped non viene utilizzata nella profondità / pileup (entrambi gli strumenti utilizzano lo stesso codice sottostante, quindi non importa quale usi). Se sei curioso, samtools ignora le basi morbide perché si basa sulla creazione di una pila di allineamenti per base che copre ogni posizione. Nel formato BAM, gli allineamenti vengono ordinati e assegnati ai contenitori in base alle loro posizioni di inizio / fine, che non includono il soft-clipping. Di conseguenza, quando samtools sta facendo il pile-up, non vedrà nemmeno gli allineamenti che si sovrapporrebbero a una data base se fossero incluse le basi soft-clipped.
Questo quindi pone la domanda su cosa sta facendo HaplotypeCaller di GATK diversamente. Lì, le regioni del genoma sono essenzialmente assemblate in un piccolo grafico di de Bruijn, che consente di risolvere le basi soft-clippate intorno agli indel, dato che il grafico inizierebbe / finirebbe un po 'oltre ogni lato degli indel. Questo è anche il motivo per cui non è necessario eseguire un riallineamento indel con HaplotypeCaller (era necessario nel vecchio UnifiedGenotyper).
Modifica : per maggiori dettagli su HaplotypeCaller, vedere questa bella pagina sul sito web di GATK, che va molto più in dettaglio di quanto ho fatto qui.