Domanda:
Quale misura dovrebbe essere usata in un PCA o in dati RNA-seq? TPM o conta?
mgalardini
2017-08-18 15:13:13 UTC
view on stackexchange narkive permalink

Sto cercando di capire l'entità degli effetti batch nei miei campioni RNA-seq e mi chiedevo quali unità di espressione sono più adatte per disegnare un PCA. Sto pensando a counts o TPM , ma cose come rlog o vst potrebbe funzionare anche.

Inoltre, mi chiedo se una di queste unità debba essere trasformata prima in log, per evitare trascrizioni ad alta abbondanza che guidano il PCA.

Due risposte:
Devon Ryan
2017-08-18 15:17:53 UTC
view on stackexchange narkive permalink

tldr: conteggi trasformazioni log e TPM, ma si preferiscono rlog / vst

TPM dovrebbe essere trasformato log per ottenere risultati più utili. Se stai già utilizzando DESeq2 (dato il riferimento a rlog e vst , questo sembra probabile), allora vai avanti e usa rlog o vst . Questo ti darà risultati più ragionevoli rispetto ai conteggi grezzi. Se sei bloccato con i conteggi per qualche motivo, usa prima i conteggi normalizzati in modo che siano almeno un po 'più comparabili e poi log trasformali in modo che i tuoi geni altamente espressi non guidino tutto.

Modifica : per inciso, se sai qual è l'effetto batch (ad es. data di preparazione della libreria), a volte è conveniente includerlo nel tuo modello. Puoi quindi valutare i geni che sono effettivamente cambiati a causa di ciò, che a volte è utile sapere (ad esempio, quali geni potrebbero essere più / meno inclini alla degradazione).

per "conteggi normalizzati" intendi qualcosa come la normalizzazione dei quantili o la rimozione degli effetti batch?
@mgalardini Quantile normalizzato, o qualunque metodo tu preferisca (ad esempio, quelli usati di default sono DESeq2 / edgeR / limma).
gringer
2017-08-18 16:13:10 UTC
view on stackexchange narkive permalink

PCA funziona meglio quando i dati di input sono distribuiti approssimativamente normalmente su ciascuna dimensione. Sarebbe una buona idea eseguire alcuni controlli iniziali sulla qualità dei dati per verificare che sia così (e trasformare i dati in modo appropriato in caso contrario), o almeno verificare che i dati siano distribuiti in modo approssimativamente normale nell'aggregato.

Per esaminare i dati Illumina RNASeq, ciò che ha funzionato meglio per me (ovvero ha prodotto i dati dall'aspetto più normale) sono stati i seguenti passaggi:

  1. Rimozione di geni con conteggi grezzi bassi in tutti i campioni
  2. Utilizzo della trasformata stabilizzata dalla varianza di DESeq (che trasforma i conteggi in una distribuzione logaritmica)
  3. Ulteriore normalizzazione dei valori VST dividendo per la lunghezza di trascrizione più lunga all'interno di ciascun gene (che io chiamo VSTPk )

Questi passaggi sono indicati in modo un po 'più dettagliato nel nostro documento Th2 pubblicato alla fine dello scorso anno:

http: // jem .rupress.org / content / early / 2016/12/01 / jem.20160470 # materials-methods

Dato che sto lavorando con i batteri, probabilmente dovrò saltare il passaggio 3. Grazie per l'intuizione!
Hai un riferimento per l'affermazione che PCA assume la normalità, perché non è qualcosa che ho incontrato prima, e in effetti, molte fonti dicono che non lo è. per esempio. https://stats.stackexchange.com/questions/32105/pca-of-non-gaussian-data
Premetto con "Non sono uno statistico", e lo sto basando sui miei ricordi delle conversazioni che ho avuto con un biostatistico con cui ho lavorato. Le [operazioni eseguite per un PCA] (http://www.datasciencecentral.com/profiles/blogs/introduction-to-principal-component-analysis) presumono che cose come la media e la varianza e la distanza euclidea funzionino normalmente e prevedibilmente; una distribuzione grossolanamente non normale può influire su questo. PCA è abbastanza robusto per distribuzioni non normali, ma non completamente immune.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...