Domanda:
Qual è il modo migliore per tenere conto dello spostamento del contenuto GC durante la costruzione di un albero filogenetico basato sui nucleotidi?
Iakov Davydov
2017-05-18 23:52:28 UTC
view on stackexchange narkive permalink

Diciamo che voglio costruire un albero filogenetico basato su sequenze nucleotidiche ortologhe; Non voglio usare sequenze proteiche per avere una migliore risoluzione. Queste specie hanno un contenuto GC diverso.

Se usiamo un approccio diretto come la massima probabilità con JC69 o qualsiasi altro modello nucleotidico classico, sequenze di codifica di proteine ​​conservate di specie distanti con contenuto GC simile si raggrupperanno artificialmente. Ciò accadrà perché il contenuto GC influenzerà principalmente le posizioni dei codoni oscillanti e saranno simili a livello di nucleotidi.

Quali sono i modi possibili per superare questo problema? Finora ho considerato le seguenti opzioni:

  1. Utilizzo della sequenza proteica. Questo è possibile ovviamente, ma perdiamo molte informazioni sulla breve distanza. Non applicabile a sequenze non codificanti.

  2. Ricodifica. In questo approccio C e T possono essere combinati in un unico stato pirimidinico Y (G e A potrebbero anche essere combinati in alcune implementazioni). Sembra interessante, ma prima di tutto perdiamo anche alcune informazioni qui. Le proprietà matematiche del processo risultante non sono chiare. Di conseguenza, questo approccio non è ampiamente utilizzato.

  3. Escludendo la posizione del terzo codone dall'analisi. Perdere di nuovo alcune informazioni a breve distanza. Inoltre, non tutte le sostituzioni sinonime sono specifiche per le posizioni del terzo codone, quindi ci aspettiamo comunque di avere qualche bias. Non applicabile alla sequenza non codificante.

In teoria dovrebbe essere possibile avere un modello che consenta cambiamenti nel contenuto GC. Questo sarà un processo markoviano non reversibile nel tempo. Per quanto ho capito, ci sono alcune difficoltà computazionali nella stima della probabilità per tali modelli.

Vorrei solo aggiungere che penso che ci sia un presupposto chiave nella configurazione qui: "Non voglio usare sequenze proteiche per avere una risoluzione migliore". Possiamo decomporre "meglio" qui: è probabile che sia più preciso ma anche più parziale, quest'ultimo per tutti i motivi che descrivi.
Nel caso foste interessati, ho testato alcuni degli approcci che menzionate, oltre ad alcuni altri schemi di ricodifica (http://dx.doi.org/10.6084/m9.figshare.732758) nei seguenti documenti: http: // arxiv.org/abs/1307.1586 e http://dx.doi.org/10.1093/molbev/msu105
Tre risposte:
#1
+5
Leo Martins
2017-05-19 03:38:52 UTC
view on stackexchange narkive permalink

Esistono modelli che tengono conto dell'eterogeneità della composizione sia nei framework massima verosimiglianza e bayesiano. Sebbene il processo di sostituzione non sia reversibile nel tempo, i calcoli sono semplificati assumendo che la matrice del tasso istantaneo possa essere scomposta in un "vettore di frequenza di equilibrio" (non omogeneo) e un tasso di cambio simmetrico e costante matrice.

Immagino che anche tutti i tuoi suggerimenti siano validi e ricordo che la ricodifica è stata utilizzata con successo per ridurre il bias del contenuto GC (esempi nei riferimenti sopra e qui).

#2
+3
bli
2017-05-19 14:18:46 UTC
view on stackexchange narkive permalink

Il seguente documento del 2004 descrive un modo per modellare i cambiamenti di composizione attraverso l'albero, in un framework bayesiano: https://doi.org/10.1080/10635150490445779

Un python pacchetto che implementa questo ("p4") e i miglioramenti aggiunti nel corso degli anni sono disponibili qui: https://github.com/pgfoster/p4-phylogenetics

Per iniziare , puoi trovare esempi utili qui: http://p4.nhm.ac.uk/scripts.html

Questo è stato utilizzato in alcune analisi filogenetiche su larga scala.

#3
+1
Michael
2019-04-09 14:49:39 UTC
view on stackexchange narkive permalink

La risposta è che l'algoritmo logDet è stato costruito per superare il clustering GC%.

All'epoca era disponibile / implementato solo un metodo a distanza, quindi non era molto potente. I post qui implicano che è disponibile un approccio bayesiano o ML e questi si attengono strettamente al modello.

Pubblicazione originale qui

Hai in mente una pubblicazione o una pagina web? Puoi collegarlo?
Link fornito sopra. Risale a molto tempo fa ... al 1996


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...