Domanda:
Come correlare due segnali simili a grafo gonfiato zero?
Ian Sudbery
2017-05-17 21:52:04 UTC
view on stackexchange narkive permalink

Questa domanda riguarda iCLIP, ma potrebbe essere altrettanto facilmente ChIP-seq o ATAC-seq o frequenze di mutazione.

Ho i conteggi delle letture di iCLIP nel trascrittoma e desidero sapere se i segnali sono correlati, ovvero se uno di essi è alto, è probabile che l'altro sia alto.

Spesso quando si tratta di tali dati (ad esempio i dati iCLIP) sappiamo che i dati sono generalmente scarsi - cioè nella maggior parte delle posizioni entrambi i segnali sono zero e questo è corretto, e anche gonfiati da zero - cioè molte basi che "dovrebbero" un segnale mancano quei dati. Quindi è probabile che il solo calcolo della correlazione di Spearman dia un valore artificialmente basso.

Quale potrebbe essere un modo per valutare l'associazione? Vorrei aggiungere che lo scopo è valutare l'associazione dei modelli di legame all'interno dei geni, piuttosto che (o anche) tra i geni.

Cose a cui ho pensato:

  • Applica una sorta di livellamento ai dati (ad esempio una media mobile). Rimuovere tutte le basi con 0 in entrambi i campioni. Calcola i lancieri.
  • Calcola la distanza a coppie media tra ogni lettura nel campione uno e ogni lettura nel campione due. Confronta questo con i dati in cui le letture sono state randomizzate all'interno dei geni.

Nel primo caso la rimozione di tutte le basi con 0 in entrambi i campioni sembra sbagliata. Ma se il 99,99% di tutte le basi ha zero in entrambi i campioni, allora questo sembra necessario per Spearman.

Nel secondo caso, il risultato sembra non essere intuitivo da interpretare. E anche calcolare questo sarebbe estremamente impegnativo dal punto di vista computazionale.

Quattro risposte:
#1
+4
Devon Ryan
2017-05-17 23:04:17 UTC
view on stackexchange narkive permalink

Onestamente, userei solo multiBigwigSummary e poi plotCorrelation da deepTools per questo, ma sono un po 'di parte. Lì, l'idea sarebbe quella di considerare ogni gene come un'unità (potresti invece usare i bin, ma non penso che farebbe altrettanto bene quello che vuoi), vale a dire dando agli strumenti un input di file BED o GTF. Calcolerebbe quindi il segnale medio in ogni gene / trascrizione e potresti fare la correlazione del tuo lanciere. Le caratteristiche con 0 in tutti i campioni potrebbero essere facoltativamente rimosse ( plotCorrelation --skipZeros ).

Sebbene tu possa certamente andare per tutte le 9 yard e usare confronti per base, sembra un un po 'eccessivo e ho il sospetto che non produrrà davvero più informazioni apprezzabilmente (specialmente se si considera il tempo aggiuntivo in testa).

Vedi il mio chiarimento. - Voglio esaminare i modelli spaziali all'interno dei geni, non tra di loro.
@IanSudbery Ah, buono a sapersi, la mia risposta non è applicabile allora.
#2
+3
rightskewed
2017-05-17 23:08:39 UTC
view on stackexchange narkive permalink

Piuttosto che lavorare a livello base, potresti probabilmente lavorare su conteggi a livello di geni. La tau di Kendall, una metrica di associazione ordinale, può quindi essere utilizzata come misura di correlazione appropriata.

Se $ X $ e $ Y $ sono le repliche di iCLIP, $ i $ rappresenta il gene index e $ (x_i, y_i) $ rappresentano il numero di siti di legame RBP in $ X $ e $ Y $ rispettivamente per il gene $ i ^ {th} $, la tau di Kendall è definita come:

$ $ \ frac {\ text {# (coppie concordanti)} - \ text {# (coppie discordanti)}} {n (n-1) / 2} $$

Dove due coppie qualsiasi $ (x_i , y_i) $ e $ (x_j, y_j) $ sono concordanti se:

  • $ x_i > x_j $ AND $ y_i > y_j $

O

  • $ x_i < x_j $ AND $ y_i < y_j $

Di conseguenza sono discordanti se:

  • $ x_i < x_j $ AND $ y_i > y_j $

OR

  • $ x_i > x_j $ AND $ y_i < y_j $
Non sono sicuro del motivo per cui il rendering di tex è disattivato.
Vedi il mio chiarimento: sono interessato agli schemi all'interno dei geni, piuttosto che tra di loro. La tau è più efficace nel trattare dati in cui molte osservazioni sono zero?
Se il tuo interesse è studiare il pattern all'interno dei geni, il tuo secondo campione agisce come un replicato? Non sono sicuro di capire completamente cosa significherebbe qui "all'interno dei geni".
No, sto cercando di determinare se due proteine ​​mostrano simili nei modelli di legame genico.
Il supporto Mathjax non era stato attivato. Ora è stato così la tua risposta viene visualizzata correttamente.
#3
+3
CloudyGloudy
2017-05-18 01:18:09 UTC
view on stackexchange narkive permalink

Dipende se si desidera trattare le intensità dei picchi come binarie (confrontando la presenza / assenza di picchi negli insiemi) o continue (confrontando le grandezze relative dei picchi).

Binario

Per iniziare, può essere appropriato un semplice confronto binario. Puoi utilizzare un chiamante di picco di tua scelta per identificare i picchi in ogni campione in base ai criteri desiderati. Quindi puoi utilizzare una metrica di somiglianza come l ' indice Jaccard per quantificare il livello di accordo tra i picchi nei due campioni.

Un potenziale ostacolo è la definizione dei confini del tuo i picchi non saranno del tutto semplici. Ad esempio, un picco in un campione potrebbe avere 2 picchi sovrapposti nell'altro campione, uno su ciascuna estremità. Una soluzione approssimativa per questo è dividere il genoma in contenitori (forse circa 100-1000 bp, a seconda della risoluzione desiderata). È possibile considerare un picco come presente in un contenitore se più della metà del picco si trova nel contenitore. In questo modo, i contenitori in un campione possono essere confrontati direttamente con i contenitori corrispondenti nell'altro campione. Ovviamente, questo non è l'unico modo per farlo; esistono anche altri metodi appropriati.

Continuo

Se si desidera trattare le intensità di picco come continue, è possibile applicare un metodo di raggruppamento simile, prendendo il " punteggio "di un intervallo per essere l'intensità di picco media nelle posizioni all'interno di tale intervallo. È quindi possibile buttare via tutti i contenitori senza picchi o solo picchi a bassa intensità in tutto il genoma. Quindi potresti calcolare la correlazione di Spearman per i contenitori rimanenti. Immagino che sarà più difficile trovare una forte correlazione per le intensità continue, a causa della quantità di variabilità sperimentale che è intrinsecamente presente.

Se, dopo aver seguito questi passaggi, la correlazione di Spearman è ancora "artificialmente basso "come hai suggerito, probabilmente questo è un problema con i dati sottostanti, non con l'analisi complessiva; forse i tuoi due set di dati in realtà non sono così d'accordo.

Ero preoccupato per i valori artificialmente bassi quando la maggior parte delle osservazioni erano 0. Esclusi i casi in cui le osservazioni sono 0 in entrambi i segnali semplicemente non "sembravano" giusti.
@IanSudbery vedo. Quindi sei interessato anche alla misura in cui i "non picchi" sono d'accordo tra loro. Una possibilità quindi è quella di non buttare via i contenitori in cui entrambi i valori sono zero e di riportare la correlazione di Spearman. Tuttavia, poiché hai affermato che i picchi sono piuttosto scarsi, i tuoi valori zero renderanno difficile vedere l'entità della correlazione tra i veri positivi. Sono d'accordo che non è "giusto" escludere i valori zero nei punteggi di correlazione di Spearman, ma se invece usi una metrica per le intersezioni impostate (come l'indice Jaccard) escludere gli zeri andrebbe bene.
Guardare l'incrocio risolve il problema della scarsità, ma non quello gonfiato a zero: i segnali provenienti da tracce simili tendono ad essere vicini l'uno all'altro, ma non uno sopra l'altro. Onestamente sto iniziando a pensare che il tuo secondo suggerimento sia il migliore che ci sia.
È vero, ma se utilizzi l'approccio di raggruppamento per definire le intersezioni invece di cercare una sovrapposizione rigorosa, questo potrebbe essere d'aiuto. (cioè conta come un'intersezione se lo stesso bin contiene picchi in entrambe le tracce, anche se i picchi stessi non si sovrappongono direttamente)
#4
+2
Sasha Favorov
2017-05-31 00:18:23 UTC
view on stackexchange narkive permalink

È una delle mie storie preferite.

Dai un'occhiata al software StereoGene, per la correlazione delle tracce genomiche, descritto in un prestampa.

Puoi anche eseguire MACS o un altro chiamante di picco e stimare la correlazione di due set di intervalli utilizzando il pacchetto GenomtriCorr.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...