Domanda:
Come selezionare i percorsi più rappresentativi da un'analisi di arricchimento genico?
llrs
2017-05-26 19:07:00 UTC
view on stackexchange narkive permalink

Ho eseguito un'analisi di arricchimento per un cluster di geni. L'output è un elenco di percorsi e il loro valore p (i percorsi sono selezionati perché valore p < 0,05). L'elenco è ancora piuttosto lungo, quindi voglio ridurlo. A tale scopo ho calcolato il coefficiente Dice dei percorsi in una matrice $ p $ x $ p $ dove $ p $ è il numero di percorsi nell'elenco. Voglio sia quelli che sono più diversi (si sovrappongono di meno, il loro coefficiente Dice è più basso) sia i percorsi più rappresentativi dei percorsi più simili (quindi se c'è un gruppo di 5 percorsi che si sovrappongono su 0,8 prendine solo uno).

Come posso selezionare i percorsi più rappresentativi?

Esiste un strumento simile per GO ma si basa sull'eliminazione di GO non significativi, mentre qui tutti i percorsi iniziali sono già significativi.

Se eseguo un raggruppamento dei percorsi utilizzando la matrice dei coefficienti Dice, non so dove (o come) tagliare.

circular dendrogara

Ho provato a utilizzare l'altezza per selezionare i percorsi. Ma non sono sicuro dell'interpretazione dell'altezza.

Alcuni altri strumenti che ho visto usano un grafico in scala multidimensionale, ma non sono sicuro che eseguirlo e tagliare a un certo punto della prima dimensione sarebbe d'aiuto. MDS plot

Stai utilizzando il valore p <0,05 o il valore p <0,05 / (numero di termini testati)? Ti consigliamo di utilizzare il primo per evitare falsi positivi dovuti a test multipli
Immagino che dovrai accontentarti di una soluzione euristica "ragionevolmente buona", poiché ci sono alcune variabili diverse nel problema che stai cercando di risolvere (numero di percorsi nel gruppo, sovrapposizione / distanza desiderata tra i percorsi, ecc. .) Posso immaginare molte possibili risposte.
La correzione di @CloudyGloudy per più test è già stata eseguita, mi dispiace non averlo menzionato in precedenza. Sì, stavo giocando con l'idea di selezionare una sovrapposizione / distanza di 0,5 e mantenere quelle sopra quella, ma ciò lascerebbe fuori i percorsi completamente diversi dagli altri, ma forse potrei selezionare quelli sopra 0.75 e quelli sotto 0.25
Tre risposte:
#1
+4
gringer
2017-05-28 15:23:34 UTC
view on stackexchange narkive permalink

Sembra qualcosa che potrebbe essere riconducibile a un grafico a mappa di calore in cluster, a un grafico a matrice di correlazione o qualcosa di simile. Hai esaminato una matrice di correlazione della matrice dei coefficienti dei dadi (o forse solo un grafico della mappa termica di quella matrice senza la matrice di correlazione)?

Il pacchetto corrplot sembra che potrebbe essere utile, in particolare la presentazione hclust / drawing rettangoli.

Non posso garantire per questo pacchetto però; è solo qualcosa che ho trovato cercando "R plot correlation matrix".

Con una mappa termica o un grafico di correlazione ho potuto osservare le somiglianze tra i percorsi, come attualmente faccio con il dendrogramma e il grafico MDS. Tuttavia la domanda è come selezionare quei percorsi più rappresentativi. Grazie per le tue correzioni e commenti btw.
#2
+3
benn
2017-12-12 18:38:49 UTC
view on stackexchange narkive permalink

Un modo per raggruppare percorsi significativi simili consiste nel quantificare il numero di geni che si sovrappongono tra i percorsi e quindi utilizzarli nel clustering (mappa termica). Ho creato uno strumento in R che calcola l'indice di sovrapposizione tra i termini GO e successivamente li raggruppa in una mappa termica. L'indice di sovrapposizione è la frazione di geni che si sovrappongono (numero compreso tra 0 e 1). Anche la correlazione di Pearson può essere utilizzata per il clustering invece dell'indice di sovrapposizione. Il mio pacchetto ( gogadget) funziona solo con l'analisi goseq, ma puoi utilizzare goseq anche per i dati Reactome o Kegg.

Ho usato questo clustering di sovrapposizione approccio per diversi set di dati ora e di solito possiamo ridurre 200-300 termini GO in 10-20 gruppi funzionali.

Quale indice di sovrapposizione utilizza? Esistono diversi indici di sovrapposizione. Vorrei sconsigliare l'utilizzo di questo approccio in GO, ci sono metodi specifici per misurare quanto siano simili due termini GO. Vedi [GOSemSim] (www.bioconductor.org/packages/GOSemSim/).
L'indice di sovrapposizione è definito dal numero di geni sovrapposti diviso per il numero di geni nel più piccolo dei due set di geni. È descritto in [Bioconductor Case studies] (http://www-huber.embl.de/pub/pdf/HahneHuberGentlemanFalcon2008.pdf), capitolo 13.3. Questo libro è scritto da grandi nomi della bioinformatica (come R. Gentleman e W. Huber).
Grazie per il nuovo indice di sovrapposizione, non lo sapevo. A proposito, il modo in cui viene calcolata questa somiglianza tra i geni utilizza altri indici di sovrapposizione, quindi questo non aiuta.
Va bene, ma il mio punto non è su quale indice utilizzare ma l'approccio di clustering (come suggerito da [gringer] (https://bioinformatics.stackexchange.com/users/73/gringer)). Se guardi nella [userguide] (https://sourceforge.net/projects/gogadget/files/gogadget.2.1/) del mio pacchetto a pagina 26-28, vedrai una mappa di calore. Di solito ottengo buoni risultati con Ward.D e Euclidean. L'albero può essere tagliato in R, ma prima potresti voler vedere e valutare quali set di geni sono raggruppati insieme in quali rami prima di poter trovare il giusto taglio.
Scusa, il mio ultimo commento stava pensando a un'altra domanda. Sì, questo approccio potrebbe funzionare
#3
+2
Scott Gigante
2017-05-27 15:43:35 UTC
view on stackexchange narkive permalink

Se sei soddisfatto di una classifica più sicura dei set genetici più rappresentativi, piuttosto che ridurre necessariamente l'elenco, potresti provare EGSEA. Utilizza un approccio di insieme per fornire una classifica dei set di geni più rilevanti e produce anche un output HTML interattivo con statistiche, mappe di calore, mappe di percorso, grafici di riepilogo e grafici GO che consente di esaminare l'output a vari livelli di granularità.

Puoi leggere il documento su bioRxiv o scaricare il pacchetto da Bioconductor.

La classifica è già stata fatta, tramite il valore p (si potrebbe sostenere che un test più elaborato come quello proposto da EGSEA sarebbe migliore) ma questo non sembra rispondere a come selezionare percorsi rilevanti dall'output di EGSEA o altro software / strumenti / metodi
Non dovresti classificare in base al valore p. Il valore p è solo un'indicazione del fatto che il cambiamento osservato sia statisticamente significativo, non un'indicazione dell'entità del cambiamento osservato.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...