Domanda:
Distribuzione della frequenza allelica attesa degli SNV nei dati NGS reali
German Demidov
2017-05-22 15:47:44 UTC
view on stackexchange narkive permalink

Ho un'enorme quantità di ~ 20x campioni WGS umani, allineati e tutti gli SNV che sono stati chiamati con GATK in base ai parametri standard della linea germinale impostati.

Quello che devo fare è modellare la frequenza degli alleli SNV ( AF) per diversi numeri di copia sottostanti. Farei meglio a fornire un esempio di giocattolo. Per una particolare regione genomica X:

Se X è presentato da 2 copie per i particolari campioni, ci aspettiamo che AF sia molto vicino a 1 o a 0,5.

Se X è presentato da 4 copie, mi aspetto che un particolare AF sia vicino a 0,25, 0,5, 0,75 o 1.

Naturalmente, posso usare Distribuzione binomiale per questi scopi. Tuttavia, come sappiamo, la distribuzione non è esattamente binomiale a causa dei bias di allineamento / sequenziamento e la FA mediana per tutti gli SNV eterozigoti è più vicina a 0,48 ma non a 0,5 come ci aspetteremmo. Un'altra cosa: per numeri di copie elevati ci aspettiamo coperture più alte. E GATK utilizza diversi filtri, quindi suppongo che non vedremo SNV con AF come 0.125 (nel caso in cui il segmento abbia ploidia 8) - nonostante la copertura super alta GATK potrebbe rifiutare questo AF "strano".

Ho letto diversi articoli che modellano gli AF di SNV (e sono d'accordo che la distribuzione binomiale beta possa essere abbastanza accurata), tuttavia, non ero abbastanza convinto di dover utilizzare la modellazione particolare. Dalla tua esperienza (nel caso in cui tu faccia chiamate SNV), quale distribuzione probabilistica dovrei usare? Come devo stimare i parametri per ciascuno di essi (devo aspettarmi che CN4 AF = 0,5 più frequente di AF = 0,75 o viceversa, come stimarlo dai dati)?

UPD: Per semplicità possiamo dire che abbiamo molte regioni precedentemente identificate con ploidia diversa da CN2, e posso prendere queste coordinate da qui. Quindi posso utilizzare l'apprendimento più o meno "supervisionato" per la stima dei parametri.

Una risposta:
#1
+4
winni2k
2017-06-04 06:17:18 UTC
view on stackexchange narkive permalink

Non ho abbastanza esperienza per rispondere a quale distribuzione probabilistica dovrebbe essere utilizzata.

Tuttavia, questa domanda chiede anche come stimare i parametri delle distribuzioni. Se viene scelta una distribuzione binomiale, il documento di Heng Li intitolato "Un quadro statistico per la chiamata SNP, la scoperta di mutazioni, la mappatura delle associazioni e la stima dei parametri genetici della popolazione dai dati di sequenziamento" 1 è probabilmente quello definitivo. La sezione 2.3.1 di quel documento descrive un algoritmo EM per la stima delle frequenze alleliche da più campioni sotto l'ipotesi di equilibrio di Hardy-Weinberg per ploidia arbitraria ma costante.

Idealmente anche gli strumenti più popolari come GATK utilizzano l'algoritmo EM per il record per stimare la probabilità, mentre samtools utilizza sia il metodo EM che Brent. I veri problemi con la messa a punto di ploidia apriori ma per ora non sono a conoscenza di strumenti che stimano la ploidia e quindi utilizza tali informazioni per chiamate SNV e scopre l'AF. So che strumenti come ABSOLUTE hanno il potere di stimare la ploidia ma poi devi usarli come input per le tue successive chiamate SNP. Ma ritengo che la maggior parte degli strumenti di solito funzioni con il presupposto con ploidia set apriori. Questo è ciò che mi viene in mente fin da ora.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...