Domanda:
Geni mancanti e normalizzazione dell'output RSEM utilizzando EBSeq
J0HN_TIT0R
2017-06-02 03:57:13 UTC
view on stackexchange narkive permalink

Senza entrare troppo nel background, mi sono appena iscritto a un laboratorio come stagista di bioinformatica mentre sto completando il mio master nel campo. Il laboratorio dispone di dati da un RNA-seq che hanno esternalizzato, ma l'unico problema è che gli unici dati che hanno sono preelaborati dalla società che ha eseguito il sequenziamento: filtrando le letture, allineandole e inserendo le letture allineate tramite RSEM. Al momento ho un output da RSEM per ciascuno dei quattro campioni costituito da: gene id, transcript id (s), length, expected count e FPKM. Sto tentando di ottenere i file FASTQ dal sequencing, ma per ora, questo è quello che ho e sto cercando di ricavarne qualcosa, se possibile.

Ho trovato questo articolo che parla di come i conteggi di lettura attesi possano essere migliori dei conteggi di letture grezze quando si analizza l'espressione differenziale utilizzando EBSeq; è solo l'opinione di un ragazzo, ed è del 2014, quindi potrebbe essere sbagliata o obsoleta, ma ho pensato di provarci dato che ho i conteggi previsti.

Tuttavia, ne ho solo un paio di domande sull'esecuzione di EBSeq a cui non riesco a trovare le risposte:

1: Nei file RSEM di output che ho, non tutti i geni sono rappresentati in ciascuno, circa l'80% di essi lo è, ma per il quelli che non lo sono, devo rimuoverli prima dell'analisi con EBSeq? Funziona quando lo faccio io, ma non sono sicuro che sia corretto.

2: Come faccio a sapere quale fattore di normalizzazione usare durante l'esecuzione di EBSeq? Questa è più una questione concettuale che tecnica.

Grazie!

Due risposte:
#1
+6
Daniel Standage
2017-06-02 05:14:21 UTC
view on stackexchange narkive permalink

Sì, quel post sul blog non rappresenta solo l'opinione di un ragazzo (ciao!) e risale fino al 2014 , cioè a decenni anni di genomica. :-) A proposito, c'è un bel po 'di letteratura che discute i miglioramenti che i conteggi di lettura attesi derivati ​​da un algoritmo di massimizzazione delle aspettative forniscono rispetto ai conteggi di letture grezze. Suggerirei di leggere i documenti RSEM per iniziare [ 1] [ 2] .

Ma la tua domanda principale riguarda i meccanismi di esecuzione di RSEM ed EBSeq. Innanzitutto, RSEM è stato scritto in modo esplicito per essere compatibile con EBSeq, quindi sarei molto sorpreso se non funzionasse correttamente immediatamente. In secondo luogo, la funzione MedianNorm di EBSeq ha funzionato molto bene nella mia esperienza per normalizzare i conteggi delle librerie. In questo senso, il blog che hai citato sopra ha un altro post che potresti trovare utile.

Ma scherzi a parte, questi strumenti sono in effetti datati. Gli strumenti RNA-Seq senza allineamento forniscono miglioramenti di ordine di grandezza in fase di esecuzione rispetto alle alternative più vecchie basate sull'allineamento, con una precisione comparabile. Sailfish è stato il primo di un elenco crescente di strumenti che ora include Salmon e Kallisto. Quando si avvia una nuova analisi da zero (ovvero se si ottengono i file FASTQ originali), non c'è davvero alcun buon motivo per non stimare l'espressione utilizzando questi strumenti molto più veloci, seguita da un'analisi di espressione differenziale con DESeq2, edgeR o sleuth.


1 Li B, Ruotti V, Stewart RM, Thomson JA, Dewey CN (2010) Stima dell'espressione genica RNA-Seq con incertezza della mappatura di lettura . Bioinformatics , 26 (4): 493–500, doi: 10.1093 / bioinformatics / btp692.

2 Li B, Dewey C (2011) RSEM: quantificazione accurata del trascritto da dati RNA-Seq con o senza un genoma di riferimento. BMC Bioinformatics , 12: 323, doi: 10.1186 / 1471-2105-12-323.

"Non c'è davvero alcun buon motivo per non stimare l'espressione utilizzando questi strumenti molto più veloci", a meno che tu non abbia le letture grezze, come nel caso qui
Oh wow. Grande svista da parte mia!
Wow, non mi sarei mai aspettato di ricevere una risposta dall'autore vero e proprio! Ho usato R per elaborare i frame di dati in una singola matrice di tutti i conteggi previsti per ciascun gene di ciascun campione.
Sono rimasto altrettanto sorpreso di vedere un collegamento al mio vecchio blog su StackExchange! :)
Come piccola domanda di follow-up, sto cercando di ottenere il cambio di piega e il valore p associato per ciascun gene per condizione. Ho trovato GetMultiFC () per ottenere le modifiche alla piega, ma non sono chiara la differenza esatta tra la modifica della piega e la modifica della piega posteriore. Penso che il cambio di piega posteriore sia solo il cambio di piega per i valori normalizzati, quindi è quello che dovrei usare, ma non ne sono sicuro. Inoltre, è possibile ottenere valori p associati?
#2
+3
gringer
2017-06-02 06:40:29 UTC
view on stackexchange narkive permalink
  1. Includi tutti i geni / trascrizioni nella tua analisi.

Una trascrizione che non viene rilevata potrebbe non essere rilevata a causa di un errore di campionamento (ad es. trascrizione), oppure potrebbe essere perché la trascrizione non è generata in un particolare campione. Non è raro che i geni vengano disattivati ​​in risposta a diversi fattori biologici, quindi i geni con conteggio zero non dovrebbero essere ignorati. Non posso parlare per esperienza con EBSeq, ma fintanto che il pacchetto di analisi tratta un conteggio zero come "non osservato" piuttosto che "assente" (e apporta correzioni pertinenti), è una buona idea tenerli dentro.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...