Esiste una risorsa (carta, post di blog, sintesi di Github, ecc.) che descrive l'algoritmo BWA-MEM per l'assegnazione delle qualità di mappatura? Ricordo vagamente di aver visto da qualche parte una formula per le letture SE, che assomigliava a
$ C * (s_1 - s_2) / s_1, $
dove $ s_1 $ e $ s_2 $ indicava i punteggi di allineamento dei due migliori allineamenti e C
era una costante.
Credo che una reimplementazione di questo algoritmo in un linguaggio di scripting potrebbe essere molto utile per la comunità di bioinfo. Ad esempio, a volte provo vari metodi di mappatura e alcuni di essi tendono a trovare buoni allineamenti, ma non riescono ad assegnare qualità appropriate. Pertanto, vorrei riassegnare tutte le qualità di mappatura in un file SAM con l'algoritmo BWA-MEM.
Btw. Questo algoritmo deve essere già stato implementato al di fuori di BWA, vedere il documento BWA-MEM:
GEM non calcola la qualità della mappatura. La sua qualità di mappatura è stimata con un algoritmo simile a BWA con allineamenti non ottimali disponibili.
Sfortunatamente, il BWA-MEM paper repo contiene solo il risultante. eval
.
Aggiornamento: la domanda non riguarda l'algoritmo per calcolare i punteggi di allineamento. Le qualità di mappatura e i punteggi di allineamento sono due cose diverse:
- Il punteggio di allineamento quantifica la somiglianza tra due sequenze (ad esempio, una sequenza di lettura e una sequenza di riferimento)
- Qualità della mappatura (MAQ) quantifica la probabilità che una lettura sia allineata a una posizione sbagliata.
Anche gli allineamenti con punteggi alti possono avere una qualità di mappatura molto bassa.