Domanda:
In che modo le analisi dei componenti principali e delle miscele da un allineamento genetico sono diverse?
Erin Thompson
2018-04-19 08:32:18 UTC
view on stackexchange narkive permalink

In che modo le analisi dei componenti principali e delle miscele da un allineamento genetico sono diverse?

La mia comprensione è che un PCA prenderà le differenze genetiche grezze attraverso l'intero allineamento e le traccerà utilizzando tecniche di riduzione della dimensionalità (decomposizione di un singolo valore per esempio) mentre l'analisi di Admixture traccerà le probabilità di condividere determinate quantità di ascendenza, basato su dati di frequenza allelica. Quello che non capisco è come i due siano fondamentalmente diversi. Cioè, non tutte le posizioni delle variabili trovate in un PCA rappresenteranno un allele utilizzato in Admixture?

Due risposte:
juod
2018-04-19 17:38:47 UTC
view on stackexchange narkive permalink

Solo per aggiungere al grande riassunto di Devon Ryan: gli strumenti di analisi delle miscele sono molto più flessibili della PCA (che è solo un'operazione matematica fissa), quindi possono essere progettati per incorporare modelli LD, informazioni di fase, diversi modelli di evoluzione della popolazione ecc.

Ecco un documento dei creatori di fineSTRUCTURE e strumenti per la miscelazione di Chromopainter che descrivono in dettaglio l'azione di entrambi - sembra che forniscano anche alcuni confronti con PCA: http://journals.plos.org /plosgenetics/article?id=10.1371/journal.pgen.1002453

Devon Ryan
2018-04-19 12:05:14 UTC
view on stackexchange narkive permalink

La differenza fondamentale risiede principalmente nella matematica.

Un'analisi della mescolanza implica l'assunzione che i genotipi (o più probabilmente, le probabilità del genotipo) in un campione sconosciuto possano essere modellati con l'equilibrio di Hardy-Weinburg come derivante combinazione da due o più pool di sorgenti di varianti di sfondo. L'output è quindi una proporzione di mescolanza che determina il contributo per lo più percentuale da ciascuna delle popolazioni di origine (ad esempio, 23% irlandesi, 15% norvegesi, 30% nordafricani, ...). Esistono versioni di questo specifico per la gestione delle peculiarità dei set di dati NGS.

Un PCA è un metodo molto molto generico che utilizza le stesse informazioni alleliche di input, ma trova semplicemente proiezioni ortogonali di quelle su dimensioni inferiori che massimizzano la varianza sulla prima componente principale. Probabilmente hai visto grafici come il seguente (da questo articolo sui dati di 1000 progetti genomi):

A figure from the paper

Questo ti permette di ottenere un idea di come sono strutturate le popolazioni, ma non sono così utili per determinare in che modo i singoli campioni sono molto probabilmente correlati alle varie popolazioni.

Trovo anche una differenza nell'assunzione di k popolazione ancestrale per mescolanza. PCA / miscela differisce in molti aspetti, ma per quanto riguarda la differenza tra miscela e cluster k-media - entrambi basati sulla verosimiglianza, ipotesi di k sorgenti ... la differenza sembra essere più sottile. Hmm, forse dovrei aprire una domanda.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...