Domanda:
Come viene calcolata esattamente la "lunghezza effettiva" utilizzata in FPKM?
user172818
2017-06-02 00:49:22 UTC
view on stackexchange narkive permalink

Secondo questo famoso post del blog, la lunghezza effettiva della trascrizione è:

$ \ tilde {l} _i = l_i - \ mu $

dove $ l_i $ è la lunghezza della trascrizione e $ \ mu $ è la lunghezza media del frammento. Tuttavia, la lunghezza tipica del frammento è di circa 300 bp. E se la trascrizione $ l_i $ fosse inferiore a 300? Come si calcola la lunghezza effettiva in questo caso?

Una domanda correlata: quando si calcola l'FPKM di un gene, come scegliere una trascrizione? Scegliamo una trascrizione "canonica" (come?) O combiniamo i segnali di tutte le trascrizioni in un FPKM a livello di gene?

Tre risposte:
#1
+14
Devon Ryan
2017-06-02 01:03:41 UTC
view on stackexchange narkive permalink

La lunghezza effettiva è $ \ tilde {l} _i = l_i - \ mu + 1 $ (nota il codice R in fondo al post sul blog di Harold), che nel caso di $ \ mu < l_i $ dovrebbe essere 1 . Idealmente, dovresti utilizzare la lunghezza media del frammento mappata alla particolare caratteristica, piuttosto che un $ \ mu $ globale, ma è molto più lavoro per un probabile vantaggio 0.

Per quanto riguarda la scelta di una particolare trascrizione, idealmente si userebbe un metodo come il salmone o il kallisto (o RSEM se hai tempo per uccidere). Altrimenti, le tue opzioni sono (A) scegli l'isoforma maggiore (se è nota nel tuo tessuto e condizione) o (B) usa un "modello di gene dell'unione" (somma le lunghezze degli esoni non ridondanti) o (C) prendi la trascrizione mediana lunghezza. Nessuna di queste tre opzioni fa molta differenza se stai confrontando i campioni, sebbene siano tutte inferiori a un salmone / kallisto / ecc. metrica.

Perché salmon et al. metodi migliori? Non usano metriche arbitrarie che saranno le stesse tra i campioni per determinare la lunghezza della caratteristica. Invece, usano la massimizzazione delle aspettative (o simili, dal momento che almeno il salmone non usa effettivamente EM) per quantificare l'utilizzo delle singole isoforme. La lunghezza effettiva del gene in un campione è quindi la media delle lunghezze del trascritto dopo la ponderazione per la loro espressione relativa (sì, si dovrebbe rimuovere $ \ mu $ lì dentro). Questo può quindi variare tra i campioni, il che è abbastanza utile se si dispone di una commutazione isoforma tra campioni / gruppi in modo tale che i metodi AC di cui sopra potrebbero perdere (si pensi ai casi in cui il passaggio è a una trascrizione più piccola con una copertura maggiore su di essa ... con conseguente riduzione della copertura / lunghezza nei metodi AC).

Ma "\ tilde {l}" è un denominatore. Impostarlo su 1 aumenterebbe notevolmente il valore per le trascrizioni brevi. Questo suona pericoloso per me ... Inoltre, potresti chiarire qual è il vantaggio del salmone / kallisto rispetto a A / B / C? Grazie.
Le trascrizioni brevi hanno FPKM assurdamente alti, è una delle cose inutili degli FPKM. Aggiornerò la domanda relativa al salmone / kallisto / ecc.
#2
+10
nomad
2017-06-18 23:04:10 UTC
view on stackexchange narkive permalink

Ho un post sul blog che descrive la lunghezza effettiva (oltre a queste diverse unità di abbondanza relativa). La spiegazione breve è che ciò che le persone chiamano "lunghezza effettiva" è in realtà la lunghezza effettiva attesa (cioè l'aspettativa, in senso statistico, della lunghezza effettiva). La nozione di lunghezza effettiva è in realtà una proprietà di una trascrizione, coppia di frammenti, ed è uguale al numero di potenziali posizioni di partenza per un frammento di questa lunghezza sulla trascrizione data. Se si prende la media, su tutti i frammenti mappati a una trascrizione (potenzialmente ponderata dalla probabilità condizionale di questa mappatura), questa quantità è la lunghezza effettiva prevista della trascrizione. Questo è spesso approssimato semplicemente come $ l_i - \ mu $ o $ l_i - \ mu_ {l_i} $ --- dove $ \ mu_ {l_i} $ è la media della distribuzione della lunghezza del frammento condizionale (a condizione che la lunghezza del frammento sia < $ l_i $ per tenere conto esattamente del problema sollevato).

#3
+4
Kristoffer Vitting-Seerup
2017-06-16 16:01:15 UTC
view on stackexchange narkive permalink

Per la parte relativa alla lunghezza effettiva, vedere la risposta di Devons. Ho solo una piccola aggiunta: Kallisto / Salmon / RSEM incorporano tutte le stime di bias nella lunghezza effettiva, il che significa che la lunghezza effettiva non rappresenta solo la bias di lunghezza se prendi i valori da quegli strumenti (dato che sono stati eseguiti con gli algoritmi di bias abilitati naturalmente ).

Per quanto riguarda l'ottenimento di stime del livello genico, non dovresti scegliere una trascrizione specifica. Invece dovresti estrarre / calcolare l'RPKM / FPKM / TxPM (trascrizione per milione che Kallisto / Salmon / RSEM produce) per ogni trascrizione e sommarli per ottenere la stima del livello genico.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...