Domanda:
Assegnazione di genotipi mancanti da pannelli di genotipizzazione separati
Greg
2017-06-01 12:27:26 UTC
view on stackexchange narkive permalink

Qual è lo standard attuale per imputare i genotipi mancanti tra due pannelli di genotipizzazione? Ho due popolazioni genotipizzate usando due pannelli differenti (A & B), e vorrei imputare tutti i genotipi nella popolazione B per quelle posizioni usate nel pannello A.

Ho letto gli esempi per impute2, e penso che la cosa più vicina a quello che sto cercando sia questo esempio, "Assegnazione con un pannello di riferimento senza fasi".

In poche parole, voglio fornire un elenco di SNP, un file di varianti per la popolazione B e informazioni sugli aplotipi da 1.000 genomi e ottenere genotipi imputati per ogni SNP nell'elenco. Impute2 è lo stato dell'arte per questo?

Dipende, se imputiamo l'intero genoma, tutti i cromosomi, allora impute2 è piuttosto solido. Il pannello senza fasi darebbe un risultato migliore, ma prestazioni lente. Se stiamo imputando una regione, penso che il beagle sia migliore.
Non voglio imputare l'intero genoma, solo alcuni siti specificati.
Una risposta:
#1
+4
winni2k
2017-06-01 20:22:21 UTC
view on stackexchange narkive permalink

Dato che hai menzionato di voler utilizzare 1000 genomi come pannello di riferimento per imputare i genotipi nei tuoi due pannelli di chip SNP, presumo che tu stia lavorando con dati umani.

In questo caso ci sono diverse opzioni con cui puoi scegliere:

  • Se i tuoi due pannelli sono di discendenza europea, allora probabilmente stai meglio usando HRC pannello di riferimento insieme a uno strumento di imputazione genotipo veloce come Beagle 4.1 per imputare i genotipi in ciascuno dei tuoi due pannelli di chip SNP separatamente.
  • Se i tuoi pannelli non sono di Discendenza europea, quindi probabilmente vorrai utilizzare il pannello di riferimento di fase 3 di 1000 Genomes con Beagle 4.1, Impute2 o Minimac3.

In entrambi i casi, sono disponibili due servizi di fasatura che funzioneranno gran parte del lavoro pesante per te 1, 2.

Il secondo documento del Wellcome Trust Case-Control Consortium ha eseguito un analisi di imputazione incrociata come descrivi. Non vedo molti studi che utilizzano più pannelli di chip SNP. Nella tua analisi dovrai fare attenzione a non essere colpito da effetti batch derivanti dall'utilizzo di due diversi pannelli di chip SNP.

Inoltre, nessuno di questi metodi funzionerà se la regione in cui stai imputando ne ha troppo pochi varianti. Non sono sicuro di quale sia il numero minimo di varianti, ma se stai usando un intero pannello di genotipizzazione del genoma di almeno 500k SNP, allora dovresti stare bene se imputi un intero cromosoma alla volta.

Grazie! Queste sembrano buone opzioni. E sì, sto lavorando con dati umani. Non so esattamente quale sia l'etnia dei partecipanti e sospetto che sia probabilmente una popolazione diversificata, quindi 1000 genomi ha più senso per me. Parli di Beagle un paio di volte, c'è qualche motivo per cui preferisci?
Non ho abbastanza esperienza nel confrontare i tre programmi Beagle 4.1, Impute2 e Minimac3 per esprimere davvero una preferenza. Dovresti ottenere un'imputazione di buona qualità con uno qualsiasi di essi, ma fai un test per te stesso, cosa facile da fare imputando i genotipi presentati. L'unica avvertenza a questo è che penso che Impute2 richiederà probabilmente un po 'più di tempo rispetto agli altri programmi quando imputano da un pannello di riferimento le dimensioni dell'HRC.
Beagle ha funzionato alla grande ed è stato facile da usare. Lo consiglio vivamente


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...