Qual è il metodo migliore per stimare un albero filogenetico da un ampio set di dati di> 1000 loci e> 100 specie

Domanda:

Qual è il metodo migliore per stimare un albero filogenetico da un ampio set di dati di> 1000 loci e> 100 specie

roblanf

2017-06-10 08:57:27 UTC

view on stackexchange narkive permalink

Ho un ampio allineamento filogenomico di> 1000 loci (ogni locus è ~ 1000 bp) e> 100 specie. Ho relativamente pochi dati mancanti (<10%).

Voglio stimare un albero filogenetico di massima verosimiglianza da questi dati, con misure di supporto statistico su ogni nodo.

Ci sono molti programmi di filogenetica che affermano di essere in grado di analizzare set di dati come questo (ad esempio RAxML, ExaML, IQtree, FastTree, PhyML ?, ecc.). Dato che ho accesso a un server di grandi dimensioni (512 GB di RAM, 56 core), quali sono i pro ei contro di ciascun programma. Quale è probabile che fornisca la stima più accurata dell'albero ML per un set di dati di queste dimensioni?

Vuoi che esaminiamo tutti i programmi filogenetici o solo quelli che hai elencato: RAxML, ExaML, IQtree, FastTree, PhyML (che comunque penso sia abbastanza ampio). Come si misura l'accuratezza dell'albero ML?

Sono interessato a tutte le opinioni, prove e collegamenti a confronti tra qualsiasi software in grado di stimare alberi ML da grandi set di dati come questo. Ci sarebbero molti modi per misurare l'accuratezza, tra cui: (i) prove dalla simulazione; (ii) confronti dei punteggi di verosimiglianza degli alberi stimati in un quadro comune.

RAxML è il programma goto. Il problema con FastTree è che la sua precisione è limitata ai set di dati utilizzati, ovvero il tuo potrebbe essere un valore anomalo.

Una risposta:

Leo Martins

2017-06-10 16:58:11 UTC

view on stackexchange narkive permalink

Questo documento afferma che FastTree è accurato quasi quanto RAxML, pur essendo molto più veloce. Devi solo stare attento, tuttavia, che i valori di supporto emessi da FastTree non sono valori di bootstrap, sono basati sul test Shimodaira-Hasegawa. (Inoltre, vedi questo commento per il caso in cui hai diramazioni molto brevi). [ aggiornamento: tuttavia, secondo il recente documento di confronto menzionato di seguito, FastTree si è comportato piuttosto male rispetto a RAxML o IQ-tree.]

Da cosa Capisco, dovresti usare ExaML solo se i tuoi dati sono troppo grandi per essere gestiti da RAxML in un singolo nodo. ExaML dovrebbe funzionare come RAxML ma con qualche sovraccarico di parallelizzazione. Per tutti gli effetti li tratto allo stesso modo. Non conosco i vantaggi rilevanti di phyML rispetto a RAxML (per me è più facile da usare ma sono molto abituato a phyML).

Non ho familiarità con IQ-tree, ma è gli autori sostengono che anche dato lo stesso tempo di RAxML o phyML, IQ-tree trova già maggiori probabilità il più delle volte (anche se per impostazione predefinita ci vuole un po 'più di tempo per convergere). Un recente confronto tra tutti questi programmi ha favorito IQ-TREE sia per l'analisi di un singolo gene che di concatenazione (con RAxML molto vicino). Può anche stimare il supporto del ramo solo tramite un test simile a SH, ma non ne sono sicuro. [ aggiornamento: IQ-tree offre 3 misure di supporto, bootstrap standard, aLRT e bootstrap ultraveloce. Vedi il commento di OP di seguito per i dettagli.]

Tuttavia, poiché hai pochi dati mancanti, potresti anche voler provare un'inferenza di albero a locus singolo seguita dal clustering dell'albero genetico (usando treescape o treeCL) per vedere quanto sono diffusi i tuoi dati o per vedere l'effetto della rimozione dei valori anomali o per utilizzare idee simili al raggruppamento statistico.

Nel recente confronto che hai menzionato, noto che RAxML ha funzionato meglio di IQtree solo quando hanno eseguito 10 ricerche indipendenti per replica. Quindi anche qui si potrebbe preferire IQtree, notando che è sensato fare un sacco di ricerche indipendenti. Anche FastTree si è comportato molto male in tutti i confronti di quel ms.

Misure di supporto in IQtree: (i) bootstrap standard; (ii) aLRT (test del rapporto di verosimiglianza approssimativo, che è qualcosa come chiedere se una data lunghezza di ramo è significativamente> 0); (iii) Bootstrap ultraveloce (non la stessa interpretazione di un bootstrap standard, più simile a una probabilità a posteriori se l'ho capito bene).

Si noti che i confronti di probabilità tra i risultati del programma dipendono anche dalla scelta del modello e dal partizionamento dei dati. Non ho esaminato i dettagli, ma alcuni programmi potrebbero implementare modelli che non sono disponibili in altri. Questo può essere un criterio di scelta.

Grazie per i commenti @roblanf, Mi sono preso la libertà di aggiornare la mia risposta con queste informazioni.

nota anche che è disponibile una riscrittura di RAxML appena rilasciata [qui] (https://github.com/amkozlov/raxml-ng). Combina le parti migliori di RAxML ed ExaML, pur essendo più veloce in generale. Tuttavia non tutte le attuali funzionalità RAxML sono state ancora implementate.

ⓘ

Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.

a proposito - legalese

Loading...