L'obiettivo di una filogenesi è stimare il numero "previsto" di mutazioni tra tutti i taxa nell'analisi e i loro ipotetici antenati comuni. Un'analisi a grappolo identificherà solo le mutazioni "osservate" e le mutazioni "attese" e "osservate" possono essere notevolmente diverse a causa del principale artefatto della mutazione di reversione. Ciò è particolarmente vero per le filogenesi nucleotidiche.
La differenza fondamentale tra gli algoritmi di clustering basati su una matrice di distanza "non corretta" e la filogenesi è che quest'ultima si basa su un modello esplicito per accogliere mutazioni di reversione. Il vero problema è che ci sono solo 4 basi, quindi casualmente c'è 1/4 di possibilità che una mutazione in una data posizione ritorni all'originale, ad es. A-> C-> A. Differenze mutazionali osservate = 0, differenze mutazionali (reali) attese = 2. Ciò di cui si preoccupa la filogenesi è ricostruire quel "2". Il problema è significativo perché quasi ogni gene ha regioni di mutazioni rapide e regioni di mutazioni basse.
Il modo principale per farlo è tramite la correzione Jukes-Cantor ed è fondamentale in tutti gli alberi nucleotidici che si aspettano "p-distanze". Se la divergenza nucleotidica è inferiore al 75%, è possibile stimare il numero previsto di mutazioni utilizzando l'osservato tramite la correzione JC. Inoltre, se combinata con un metodo per stimare la variazione di velocità all'interno di un gene, (solitamente la distribuzione gamma discreta), la correzione JC è molto efficace nel recuperare il "vero albero". Questo perché i siti omologhi in rapida evoluzione sono raggruppati insieme - grande correzione tramite JC, i siti a lenta evoluzione sono raggruppati insieme - piccola correzione tramite JC. Altri approcci per migliorare la correzione JC sono attraverso l'identificazione del bias tra mutazioni da purina a purina e da pirimidina a pirimidina e mutazioni da purina a pirimidina.
L'importanza di JC è stata dimostrata da studi di simulazione di 4 taxa ((a, b), (c, d)), se due ceppi si sono evoluti molto rapidamente quando le linee gemelle si evolvono lentamente un algoritmo di clustering riporterà che i ceppi veloci sono un gruppo sorella, cioè ((b, c), (a, d)). Se il metodo JC viene implementato tramite la massima verosimiglianza (o bayesiano), ripristina correttamente il vero albero ((a, b), (c, d)). Il manufatto è noto come attrazione del ramo lungo.
Gli algoritmi di clustering basati su una matrice di distanza che implementa la correzione JC, tendono a funzionare male per artefatti di attrazione di rami lunghi. Ciò non significa che la correzione sia inutile, ma non particolarmente potente. Il problema è che i metodi della matrice di distanza non "aderiscono" al modello e il clustering introdurrà uno strato di imprecisione. Normalmente la presentazione di una matrice di distanza "corretta" combinata con un algoritmo di clustering richiederà il bootstrap (ricampionamento con sostituzione) per valutare se un dato cluster è supportato. Le matrici di distanza parametrizzate, che utilizzano il clustering di join adiacenti in combinazione con un bootstrap, sono considerate a posto.
La parsimonia @ user172818 ha menzionato e questo metodo è considerato meno affidabile perché non può implementare una correzione JC. IMO è possibile che la parsimonia ponderata possa fare un "ritorno", ma sarebbe davvero complicato implementare un metodo di ponderazione biologica e richiederebbe calcoli estesi e indipendenti.