Domanda:
C'è un punto nella ricalibrazione dei punteggi per l'individuazione di varianti?
Kamil S Jaron
2017-06-01 03:33:00 UTC
view on stackexchange narkive permalink

La maggior parte delle varianti GATK della pipeline di chiamata include una ricalibrazione del punteggio di qualità di base (BQSR) che richiede un elenco di varianti note. Recentemente, è stato fatto del lavoro anche per la ricalibrazione senza riferimento dei punteggi: Lacer e atlante, motivati ​​dall'ottenere il massimo per aDNA e set di dati a bassa copertura.

L'importanza per aDNA è spiegata in questa lezione, ma non mi è chiaro se / come sia importante che il BQSR sia per campioni di DNA freschi con una copertura decente (> 15x). Soprattutto quando lavoro con organismi non modello e non posso semplicemente utilizzare gli strumenti standard.

Qual è l'impatto della ricalibrazione dei punteggi sull'identificazione delle varianti? Esiste una regola pratica per la quale vale / non vale la pena?

Quattro risposte:
#1
+5
burger
2017-06-02 03:07:27 UTC
view on stackexchange narkive permalink

Personalmente non penso che BQSR abbia un enorme impatto sulla chiamata delle varianti, ma non hai davvero bisogno di indovinare. Se esegui GATK BQSR, produce una tabella e grafici di quanti punteggi di qualità vengono regolati esattamente. La regolazione varierà a seconda della posizione nel contesto di lettura e genomico (base precedente e successiva). Nella mia esperienza, la differenza è di pochi punti al massimo, ma è certamente evidente.

GATK consiglia BQSR sia per i dati del genoma che per quelli dell'esoma, che normalmente è molto più alto di 15x.

#2
+2
Manuel
2017-06-01 04:27:28 UTC
view on stackexchange narkive permalink

Questa è una buona domanda.

Direi che non devi preoccuparti di ricalibrare le varianti per

  • un numero basso di campioni (ad esempio, solo due trii); Non sono riuscito comunque a far funzionare la ricalibrazione GTAK dei punteggi delle varianti
  • campioni ad alta copertura (ad esempio, genomi X Ten con copertura 30x) in cui i campioni di DNA stessi sono di alta qualità comparabile e sono stati sequenziati con coerenza tecnologia.

In generale, ho l'impressione che molti dei pensieri e dei modelli statistici avanzati incorporati in GATK provengano dalle prime fasi del progetto 1000 Genomes. Ciò significa (1) bassa copertura, (2) genomi di copertura diversi (3) sequenziati con diverse versioni della tecnologia da (4) campioni diversi e (5) sequenziamento della popolazione.

Se ti trovi in ​​un contesto clinico dove in ogni caso esegui il sequenziamento 30x solo su piattaforme X Ten, la ricalibrazione delle varianti probabilmente non ti aiuterà più di tanto.

D'altra parte, se stai integrando molti set di dati da diversi data center e versioni di macchine ecc. ., potrebbe valere la pena provare la ricalibrazione delle varianti.

Un buon controllo sarebbe esaminare le distribuzioni della qualità del genotipo e altre metriche relative alla variante / qualità prima e dopo la ricalibrazione.

Chiunque: correggi me se sbaglio!

Stai parlando di ricalibrazione del punteggio di qualità di base (BQSR) qui o di ricalibrazione del punteggio di qualità delle varianti (VQSR)? Penso che l'OP si riferisca a BQSR ma stai discutendo di VQSR.
Sì, OP ha confermato. La domanda riguarda BQSR, quindi temo che tu stia rispondendo alla domanda sbagliata.
* sigh * e lì ho pensato di poter contribuire con qualcosa.
#3
+1
vchris_ngs
2017-06-06 16:07:56 UTC
view on stackexchange narkive permalink

Idealmente questi metodi BQSR sono stati realizzati tenendo presente come gli errori tecnici effettivamente rovineranno le chiamate di qualità di base e quando le macchine erano ancora più in fase di sviluppo mentre venivano utilizzate per il progetto 1000G. A partire da ora le macchine sono più potenti e robuste dove è improbabile che le usino, ma ancora usiamo con gli SNP elencati per trovare le covariate e costruire un modello attorno ai dati utilizzando le informazioni con trucchi di apprendimento automatico per migliorare la qualità di quelle identificazioni di base . Idealmente dovrebbe essere più appropriato quando vengono utilizzate vecchie macchine di Illumina o di altre aziende standard, ma con macchine nuove che sono molto potenti e con una produttività elevata dovrebbero tendere a diminuire. Non ricordo se tali test siano stati fatti ma ovviamente so che la nuova macchina di sequenziamento fa sempre tali test per dimostrare che hanno ridotto tali errori, ma consiglio comunque tale BQSR per le chiamate di varianti. Ora il problema è l'elenco degli SNP, questo per me è il vero problema poiché l'elenco che usiamo è ben lungi dall'essere il Gold standard e se questo non è adeguatamente curato, tutto ciò che deduciamo sulla qualità è ancora traballante. Questo link è piuttosto informativo ma è vecchio. Vedrei davvero miglioramenti con i nuovi sequencer. Tuttavia, molto meno le persone si preoccupano di tali test nella ricerca accademica e anche il laboratorio di traduzione non investirà davvero tempo e denaro su di essi a meno che la struttura non abbia alcuni bioinformatici che eseguono sempre tali test mentre acquistano un nuovo sequencer per l'istituto. In termini di genomica clinica per la ricerca di varianti, ritengo che i sequencer più potenti e aggiornati dovrebbero essere utilizzati ma non sono sicuro che utilizzino ancora BQSR e, in tal caso, qual è l'elenco che usano per costruire modelli di covariazione attorno ai dati.

Si noti che la domanda è motivata dalla ricerca sugli organismi non modello: non posso utilizzare un elenco di varianti note, perché tale elenco non esiste per la mia specie. Pertanto volevo sapere quanto sia importante ricalibrare QS, perché in fondo è possibile, ma non solo eseguendo un passaggio in più nella pipeline GATK.
Sono d'accordo che si tratta di un organismo non modello ed è per questo che non avrai alcun elenco di varianti di questo tipo. Ma poiché la motivazione dell'approccio era anche chiedere del BQSR, così ho detto. Puoi dare un'occhiata a questo https://media.readthedocs.org/pdf/lts-workflows-sm-non-model-toolkit/latest/lts-workflows-sm-non-model-toolkit.pdf su come utilizzare le varianti HC del campione da ricalibrare. Anche questo collegamento a gatlk potrebbe aiutare. http://gatkforums.broadinstitute.org/gatk/discussion/3286/quality-score-recalibration-for-non-model-organisms. Ora spetta a te decidere se usare o confrontare.
@KamilSJaron per non modello questo è un modo per farlo, ma se la tua macchina di sequenziamento è piuttosto nuova e con una maggiore precisione potresti anche eliminare il passaggio. Vorrei leggere le pubblicazioni per vedere cosa fanno, ma comunque per il mio bene faccio chiamate senza BQSR e con BQSR con varianti HC e le uso come database e confronta per giungere alla conclusione io stesso. È la mia opinione. Dipende anche dalla virtù del progetto.
Il primo collegamento è molto pertinente alla mia domanda originale: "Mentre GATK UnifiedGenotyper soffre durante la chiamata indel senza ricalibrazione e riallineamento, sia HaplotypeCaller che FreeBayes si comportano altrettanto bene o meglio senza questi passaggi.". Grazie. Anche il secondo collegamento è rilevante, ma non ho abbastanza individui sequenziati per scegliere il loro approccio per la ricalibrazione.
@KamilSJaron Sono contento che sia rilevante ma direi di nuovo che puoi eseguire sia con che senza e fare qualche stima. Dal momento che non hai molti campioni per creare il tuo database HC SNP, puoi farlo anche con SNP rigorosi dei tuoi individui. O poiché non hai molti campioni, evita semplicemente il passaggio BQSR ed estrai le varianti migliori e non una grande frazione di varianti. Le varianti migliori anche se il punteggio potrebbe non essere molto preciso, ma le chiamate saranno comunque molto fiduciose e preferibilmente positive. Immagino che dipenda dal numero di varianti a cui esegui lo streaming.
BQSR è ancora rilevante, una delle ragioni di ciò è che alcuni nuovi hardware di illuminazione come NextSeq possono produrre solo punteggi Q raggruppati, BQSR essenzialmente "un-bins" i punteggi Q dando più granularità che ha i suoi usi nella definizione di varianti somatiche profonde, http://gatkforums.broadinstitute.org/gatk/discussion/4594/beware-of-using-binned-quality-scores-with-some-gatk-procedures. Inoltre il NextSeq soffre di un problema di poli G ad alta affidabilità, BQSR sarà utile anche qui https://sequencing.qcfail.com/articles/illumina-2-colour-chemistry-can-overcall-high-confidence-g-bases/
Ah, ora quello era qualcosa che non ero a conoscenza poiché non ho ancora dovuto incontrare NextSeq. Questo è un buon punto. Quindi anche l'OP dovrebbe pensarci e sì, stavo semplicemente considerando come è entrato in scena il BQSR in prima. Ma questa è una buona presa per i punteggi Q cestinati e per la questione del poli G.
#4
  0
Bekir Ergüner
2020-01-22 16:32:17 UTC
view on stackexchange narkive permalink

Nel caso in cui BQSR non sia un'opzione (ovvero organismi non modello), sarebbe meglio utilizzare una sequenza di controllo interno come PhiX per la piattaforma illumina. Sebbene questa dovrebbe essere una pratica comune, alcune strutture la ignorano. In linea di principio, le macchine dovrebbero utilizzare queste sequenze come riferimento in modo che il punteggio sia più preciso. Nella mia esperienza le prime 10-15 basi delle letture di illumina avevano sempre una qualità inferiore. Questo può essere facilmente visto nelle distribuzioni nucleotidiche. Consiglierei il taglio delle prime 10-15 basi e il trimming finale basato sulla qualità se la qualità delle letture individuali è importante, come il risequenziamento a bassa copertura o applicazioni di assemblaggio del genoma de-novo.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...