Domanda:
Genotipizzazione a campione singolo vs articolazione
llevar
2017-05-17 18:02:17 UTC
view on stackexchange narkive permalink

Sto cercando di comprendere i vantaggi della genotipizzazione congiunta e sarei grato se qualcuno potesse fornire un argomento (idealmente matematicamente) che dimostrasse chiaramente il vantaggio della genotipizzazione congiunta rispetto a quella di un singolo campione.

Questo è ciò che ho raccolto da altre risorse (Biostars, forum GATK, ecc.)

  • La genotipizzazione congiunta aiuta a controllare FDR perché gli errori da campioni genotipizzati individualmente vengono sommati e amplificati quando si uniscono le chiamate- set (di Heng Li su https://www.biostars.org/p/10926/)

Se qualcuno lo capisce, puoi chiarire cosa è la differenza sul tasso di FDR complessivo tra i due scenari (di nuovo, idealmente con un esempio)

  • Maggiore sensibilità per le varianti a bassa frequenza - Condividendo le informazioni tra tutti i campioni, la chiamata congiunta rende possibile Chiamate genotipiche "di salvataggio" in siti in cui un vettore ha una bassa copertura ma altri campioni all'interno del set di chiamate hanno una variante sicura in quella posizione. (da https://software.broadinstitute.org/gatk/documentation/article.php?id=4150)

Non capisco come la presenza di una variante chiamata con sicurezza nello stesso locus in un altro individuo può influenzare la genotipizzazione di un individuo con bassa copertura. C'è qualche argomento valido che permette di considerare le letture di un'altra persona come prova di una particolare variante in una terza persona? Quali sono i presupposti per un tale argomento? E se quella persona provenisse da una popolazione diversa con frequenze alleliche completamente diverse per quella variante?

Avendo letto molti degli articoli (o descrizioni dei metodi) che descrivono i più recenti metodi di chiamata SNP sensibili agli aplotipi (HaplotypeCaller, freebayes , Platypus) la struttura generale sembra essere:

    1. Stabilire un precedente sulla distribuzione della frequenza allelica in un sito di interesse utilizzando uno (o una combinazione) di: precedente non informativo, precedente basato su modello genetico di popolazione come Wright Fisher, precedente basato su modelli di variazione stabiliti come dbSNP, ExAC, o gnomAD.
    1. Costruisci un elenco di aplotipi plausibili in una regione intorno al luogo di interesse usando l'assemblaggio locale.
    1. Seleziona l'aplotipo con la massima probabilità in base ai dati precedenti e legge i dati e deduci il genotipo del locus di conseguenza.

In quale punto della procedura precedente è possibile condividere o raggruppare le informazioni tra i campioni? Non ci si dovrebbe fidare dell'AFS da una risorsa su larga scala come gnomAD molto più della distribuzione ottenuta da altri campioni che sono nominalmente parte della stessa "coorte" ma possono avere poco a che fare l'uno con l'altro a causa di antenati diversi, per esempio?

Desidero davvero comprendere le giustificazioni e i vantaggi offerti dalla genotipizzazione multi-campione e apprezzerei le tue intuizioni.

Due risposte:
#1
+10
user172818
2017-05-17 19:08:22 UTC
view on stackexchange narkive permalink

Supponiamo che tu stia sequenziando con una copertura 2X. Supponiamo che in un sito, il campione S abbia una base di riferimento e una base alternativa. È difficile dire se si tratta di un errore di sequenziamento o di un eterozigote. Supponiamo ora di avere altri 1000 campioni, tutti con una profondità di lettura doppia. Uno di loro ha due basi ALT; 10 di loro hanno un REF e uno ALT. Di solito è improbabile che tutti questi campioni abbiano lo stesso errore di sequenziamento. Quindi puoi affermare che il campione S ha un het. La chiamata multi-campione aiuta ad aumentare la sensibilità di SNP non così rari. Notare che ciò che conta qui è l'assunzione di indipendenza dall'errore. Ancestry ha solo un piccolo effetto indiretto.

La chiamata multi-campione penalizza gli SNP molto rari, in particolare i singleton. Quando ti interessano solo le varianti, questo è positivo. La combinazione ingenua di chiamate a campione singolo produce un tasso di errore più elevato. La chiamata multi-campione aiuta anche il filtraggio delle varianti in una fase successiva. Ad esempio, per un campione sequenziato con una copertura 30X, non sapresti se un sito a una profondità 45X è causato da un potenziale CNV / mismapping o da fluttuazioni statistiche. Quando vedi 1000 campioni 30X a una profondità 45X, puoi facilmente sapere che stai osservando un errore di mappatura sistematico / CNV. Campioni multipli migliorano la maggior parte dei segnali statistici.

I metodi più vecchi raggruppano tutti i BAM quando si chiamano le varianti. Ciò è necessario perché un singolo campione a bassa copertura non dispone di dati sufficienti per recuperare gli INDEL nascosti. Tuttavia, questa strategia non è così facile da parallelizzare in modo massiccio; l'aggiunta di un nuovo campione innesca una nuova chiamata, anch'essa molto costosa. Poiché in questi giorni stiamo principalmente eseguendo sequenze ad alta copertura, il vecchio problema con le chiamate INDEL non ha importanza ora. GATK ha questa nuova pipeline di chiamata a campione singolo in cui combini gVCF per campione in una fase successiva. Questa strategia di combinazione di campioni è forse l'unica soluzione sensata quando si ha a che fare con 100.000 campioni.

La cosiddetta denominazione delle varianti basata sugli aplotipi è una domanda a parte. Questo tipo di approccio aiuta a chiamare gli INDEL, ma non è di grande rilevanza per le chiamate multi-campione. Inoltre, delle tre varianti di chiamata nella tua domanda, solo GATK (e Scalpel che non hai menzionato) usano l'assemblaggio in generale. Freebayes no. Ornitorinco funziona, ma solo in misura limitata e non funziona bene nella pratica.

Immagino che ciò di cui vuoi veramente parlare sia la chiamata basata sull'imputazione. Questo approccio migliora ulteriormente la sensibilità con LD. Con un numero sufficiente di campioni, è possibile misurare il valore LD tra due posizioni. Supponiamo che alla posizione 1000, vediate una lettura REF e nessuna lettura ALT; alla posizione 1500, vedi una lettura REF e due letture ALT. Non chiameresti alcun SNP nella posizione 1000 anche se si danno più campioni. Tuttavia, quando sai che le due posizioni sono fortemente collegate e gli aplotipi dominanti sono REF-REF e ALT-ALT, sai che è probabile che il campione in esame abbia un allele ALT mancante. LD trasferisce i segnali attraverso i siti e aumenta la capacità di effettuare chiamate di genotipizzazione corrette. Tuttavia, poiché oggigiorno stiamo principalmente eseguendo sequenze ad alta copertura, i metodi basati sull'imputazione hanno solo un effetto minore e vengono applicati raramente.

Grazie, alcuni follow-up (suddivisi in diversi commenti): il paragrafo in alto suona più come la denominazione di varianti che la genotipizzazione, che è in qualche modo impossibile nel contesto di studi ad alta copertura su larga scala o sequenziamento focalizzato sulla clinica in corso. Vedi la stessa logica che si applica alla genotipizzazione, vale a dire condizionata alla presenza di una variante nel locus? Quello con cui sto lottando è la comprensione, a parte il rilevamento degli effetti batch, perché dovremmo fidarci delle informazioni su AFS da una raccolta piuttosto arbitraria di campioni (geneticamente parlando) più di una grande risorsa campione come gnomAD?
Non capisco perché "La combinazione ingenua di chiamate a campione singolo produce un tasso di errore più elevato." Potete elaborare o fornire un esempio, nel contesto della genotipizzazione?
wrt. l'aplotipo o la chiamata basata su assembly è semplicemente un riflesso del fatto che i metodi migliori sembrano ragionare su una regione attorno a un luogo non solo sul luogo stesso, e io sto cercando di capire dove in un tale metodo possono essere utilizzate le informazioni da più campioni . In particolare nel contesto del sequenziamento dell'intero genoma ad alta copertura in cui più lotti di campioni vengono periodicamente inviati per l'analisi e non c'è necessariamente una dimensione finale del campione.
Il paragrafo in alto riguarda la decisione del * genotipo * del campione S: è la genotipizzazione. Quando conosci la frequenza degli alleli del sito (AFS è la formulazione sbagliata qui) in una popolazione più ampia, hai un precedente migliore. Questo precedente è meno accurato tra le popolazioni, ma migliore di un wright fisher precedente. Tutte queste teorie sono utili solo per lowCov. Per highCov, la probabilità del genotipo ha un effetto molto maggiore rispetto alle informazioni precedenti e incrociate.
Per il resto, dovresti fare domande separate. Riunire più argomenti sotto questa domanda è difficile da comprendere per te, per me e per i lettori.
Comunque ... Sulla chiamata basata su assembly, ho già detto che ha poco a che fare con la chiamata multi-sample. Sulla combinazione di chiamate a campione singolo, ho già spiegato nel paragrafo in alto che considerare congiuntamente più campioni aiuta la genotipizzazione, il che significa che non usare le informazioni danneggia la genotipizzazione. A proposito, il corpo della tua domanda mescola la denominazione delle varianti e la genotipizzazione (ad esempio, FDR riguarda la denominazione delle varianti), il che sta causando confusione a me e al Devon.
#2
+2
Devon Ryan
2017-05-17 18:13:19 UTC
view on stackexchange narkive permalink

Il vantaggio di ulteriori campioni è visto nel tuo punto 1. La probabilità di effettuare una chiamata di variante è una funzione di (1) la profondità di copertura che supporta una data variante (ignorando le considerazioni sulla mappatura / qualità di base) e (2) il la probabilità che tale variante esista data la conoscenza di base. Con una bassa profondità e nessuna conoscenza di base, si presume che le varianti scarsamente coperte siano errori di sequenziamento. L'aggiunta di più campioni può servire solo ad aumentare la conoscenza di base su una posizione.

Grazie Devon, la domanda si rivolge specificamente alla genotipizzazione, cioè devi già pensare che esiste una variante lì.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...