Domanda:
Le varianti di chiamata cambiano quando chiami da CRAM?
morgantaschuk
2017-06-08 19:54:57 UTC
view on stackexchange narkive permalink

Stiamo valutando di cambiare il nostro formato di archiviazione da BAM a CRAM. Lavoriamo con campioni di cancro umano, che possono avere varianti a prevalenza molto bassa (cioè non frequenza diploide).

Se usiamo CRAM lossy per risparmiare più spazio, quanto cambieranno le varianti chiamate da quei file CRAM? Quale strategia di compressione ha il minor impatto?

Ci sono altri impatti sugli strumenti a valle che non stiamo prendendo in considerazione?

CRAM non ** deve ** essere con perdite, c'è una ragione per cui hai bisogno che sia?
Risparmio di spazio su disco. Paghiamo in base ai GB e dobbiamo conservare i dati per 10 anni.
Non posso sostenere che il budget non sia un buon motivo :)
Domanda interessante. Penso che questo sia il genere di cose che rendono un bel progetto secondario. Prendi un file bam, chiama le varianti, trasformalo in stipare ed esegui il chiamante delle varianti. Misurare la differenza e la concordanza delle varianti tra i due approcci utilizzando un numero di file diversi.
Se si è preoccupati per l'assoluta integrità / riproducibilità dei dati, la considerazione del budget non è una buona ragione.
A meno che la risposta non sia: alcuni tipi di compressione con perdita non hanno alcun impatto sulle chiamate delle varianti.
I file BAM sono compressi con compressione gzip standard. Decomprimeteli in "BAM nudo" - non la mia terminologia - e comprimeteli nuovamente con qualcosa di più forte come 7zip / LZMA. Puoi sempre comprimerli nuovamente con lo strumento bgzip quando ne hai bisogno di nuovo nel vero formato BAM. Questo ti consente di ottenere la maggior parte delle dimensioni del file senza cambiare davvero il formato, il che potrebbe essere positivo se hai impostato le cose come preferisci. Non è una risposta perché non risponde alla tua domanda ma potrebbe risolvere il tuo problema.
Due risposte:
user172818
2017-06-08 21:20:00 UTC
view on stackexchange narkive permalink

Per impostazione predefinita, un CRAM creato con samtools è senza perdite. Tipicamente dimezza il BAM di input in termini di dimensione del file. Se vuoi comprimere di più, puoi lasciare che samtools converta la maggior parte dei nomi letti in numeri interi. Non sarai in grado di distinguere i duplicati ottici dai nomi letti, ma questa è una preoccupazione minore. Puoi anche rilasciare tag inutili a seconda del tuo mappatore e del chiamante a valle in uso. Per i dati sul cancro, non ridurrei la risoluzione della qualità di base senza benchmark completi. Sfortunatamente, la qualità di base occupa la maggior parte dello spazio in CRAM. Eliminare i nomi di lettura originali e alcuni tag probabilmente non ti farà risparmiare molto spazio.

Questi sono tutti ottimi suggerimenti per ridurre le dimensioni del file senza perdere informazioni, ma non affrontare la domanda principale: l'effetto della perdita sulle chiamate di varianti.
@DanielS Se non tocchi le basi, le qualità e l'associazione dei nomi, non cambierai le chiamate delle varianti.
Sì, ma allora non è davvero una perdita, vero? La compressione con perdita non comporta convenzionalmente la modifica della sequenza e / o dei valori di qualità per una maggiore efficienza di compressione?
Dipende dalla definizione di "lossy" :) Per me, la perdita di nomi e tag letti è una perdita.
¯ \\ _ (ツ) _ / ¯ Lei stesso ha affermato che le chiamate non dovrebbero cambiare se la sequenza e la qualità sono invariate. Quindi tutto il resto è accessorio. Non fraintendetemi, penso sia utile sottolineare che è possibile ridurre la dimensione del file senza cambiare sequenza o qualità, ma mi è sembrato abbastanza chiaro che l'OP stesse parlando di compressione con perdita della sequenza e / o punteggi di qualità .
Poi di nuovo, questa risposta è una risposta ragionevole alla domanda "Quale strategia di compressione ha il minor impatto?" Ok, mi riprendo tutto! :-)
chrisamiller
2017-06-09 21:28:26 UTC
view on stackexchange narkive permalink

La preoccupazione principale è sempre stata il "raggruppamento" dei punteggi di qualità che avviene tramite la compressione CRAM (ed è anche standard sulle piattaforme HiSeqX, HiSeq4000 e NovaSeq). Aneddoticamente, posso segnalare una differenza molto piccola tra i punteggi di qualità a 4 bin e i punteggi di qualità completa sui campioni di cancro, anche se non so se ho visto un confronto diretto testa a testa.

+1. I miei colleghi hanno fatto alcuni benchmark per dimostrare che 4-bin ha scarso effetto sui campioni * germline *. Ho visto il simile. I campioni di cancro mi rendono sempre diffidente, però. Sarebbe fantastico se qualcuno facesse una valutazione sistematica sui campioni di cancro. Finora non ne ho visto uno.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...