Domanda:
Qual è la causa effettiva degli zeri eccessivi nei dati di sequenza di RNA di una singola cellula? È PCR?
Martin Modrák
2017-10-20 13:50:43 UTC
view on stackexchange narkive permalink

In primo luogo, scusa se mi manca qualcosa di base: sono un programmatore diventato bioinformatico da poco, quindi non so ancora molte cose. Questo è un post incrociato con una domanda Biostars che spero non sia male.


Anche se è ovvio che i dati scRNA-seq contengono molti zeri, non potrei trovare una spiegazione dettagliata del motivo per cui si verificano, ad eccezione di brevi avvisi sulla falsariga del "rumore tecnico e biologico sostanziale". Per il testo seguente, supponiamo di esaminare un singolo gene che non è espresso in modo differenziale tra le cellule.

Se gli zeri fossero causati esclusivamente da una bassa efficienza di cattura e profondità di sequenziamento, tutti gli zeri osservati dovrebbero essere spiegati da espressione media attraverso le cellule. Questo tuttavia non sembra essere il caso in quanto la distribuzione del conteggio dei geni tra le cellule ha spesso più zeri di quanto ci si aspetterebbe da un modello binomiale negativo. Ad esempio, il documento ZIFA utilizza esplicitamente una distribuzione binomiale negativa con inflazione zero per modellare i dati scRNA-seq. La modellazione di scRNA-seq come binomio negativo a inflazione zero sembra diffusa in tutta la letteratura.

Tuttavia, assumendo una distribuzione binomiale negativa per i conteggi originali (misurata in bulk RNA-seq) e assumendo che ogni frammento di RNA dello stesso il gene di ogni cellula ha approssimativamente la stessa (bassa) possibilità di essere catturato e sequenziato, la distribuzione tra le singole cellule dovrebbe comunque essere binomiale negativa (vedi questa domanda per la matematica correlata).

Quindi l'unica causa possibile rimanente è che i conteggi zero gonfiati sono causati dalla PCR. Solo i conteggi diversi da zero (dopo la cattura) vengono amplificati e quindi sequenziati, spostando la media dei conteggi genici osservati lontano da zero mentre i conteggi zero pre-PCR rimangono zero. In effetti, alcune rapide simulazioni mostrano che una tale procedura potrebbe occasionalmente generare distribuzioni binomiali negative con inflazione zero. Ciò suggerirebbe che non dovrebbero essere presenti zeri eccessivi quando vengono utilizzati gli UMI: ho controllato un set di dati scRNA-seq con gli UMI e sembra che si adatti bene al semplice binomio negativo.

Il mio ragionamento è corretto? Grazie per qualsiasi suggerimento.

La domanda Come possiamo distinguere tra il conteggio del vero zero e del dropout zero nell'RNA-seq di una singola cella? è correlata, ma non fornisce indizi presente inchiesta.

Tre risposte:
merv
2019-01-26 07:39:59 UTC
view on stackexchange narkive permalink

Potrebbe essere necessario distinguere tra metodi che utilizzano identificatori molecolari univoci (UMI), come Chromium di 10X, Drop-seq e così via, e metodi non UMI, come SMRT-seq. Almeno per i metodi basati su UMI, la prospettiva alternativa, che non vi è alcuna significativa inflazione zero in scRNA-seq , è anche sostenuta nella comunità di ricerca unicellulare. L'argomento è semplice: l'espressione media empirica rispetto alla curva del tasso di abbandono corrisponde a quella teoricamente prevista, dati gli attuali livelli di efficienza di cattura .

Esempi

Blog di Svensson

Un paio di post sul blog di Valentine Svensson sostengono questo punto in modo piuttosto pedagogico e includono citazioni da tutta la letteratura:

Droplet scRNA-seq non è gonfiato da zero

La variazione della profondità di conteggio rende i dati di Poisson scRNA-seq negativi binomiali

bayNorm

Esiste una preprint più ampia di Tang, Shahrezaei, et al. (BioRxiv, 2018) che afferma di dimostrare che un modello binomiale è sufficiente per tenere conto del rumore di dropout osservato. Ecco un frammento di una conclusione pertinente:

È importante sottolineare che, poiché bayNorm ha recuperato con successo i tassi di abbandono in entrambi i protocolli basati su UMI e non UMI senza la necessità di ipotesi specifiche, concludiamo che invocando zero- i modelli di inflazione non sono necessari per descrivere i dati scRNA-seq. Coerentemente con questo, le differenze nei livelli di espressione medi dei geni poco espressi osservati tra i dati bulk e scRNA-seq, che sono stati suggeriti come indicativi di inflazione zero, sono state recuperate dai nostri dati simulati utilizzando solo il modello binomiale.

Modellazione multinomiale

C'è anche un preprint scritto molto chiaramente da Townes, Irizarry, et al. (BioRxiv, 2019) dove gli autori considerano scRNA-seq come un appropriato campionamento compositivo (cioè, processo multinomiale) e giungono a una conclusione simile, sebbene specificamente per i metodi basati su UMI . Dal giornale:

Il modello multinomiale fa due previsioni che abbiamo verificato utilizzando dati di controllo negativo. Primo, la frazione di zeri in un campione (cella o gocciolina) è inversamente correlata al numero totale di UMI in quel campione. In secondo luogo, la probabilità che un gene endogeno o un picco di ERCC abbia conteggi zero è una funzione decrescente della sua espressione media (equazioni fornite nei metodi). Entrambe queste previsioni sono state convalidate dai dati del controllo negativo (Figura 1). In particolare, la probabilità empirica che un gene fosse zero attraverso le goccioline era ben calibrata rispetto alla previsione teorica basata sul modello multinomiale. Ciò dimostra anche che i conteggi UMI non sono gonfiati da zero.

Inoltre, confrontando i conteggi delle letture non elaborate (prima della deduplicazione basata su UMI) e i conteggi UMI, si conclude che la PCR è effettivamente la causa di inflazione zero:

I risultati suggeriscono che mentre i conteggi delle letture sembrano gonfiati da zero e multimodali, i conteggi UMI seguono una distribuzione discreta senza inflazione zero (Figura S1). L'apparente inflazione zero nei conteggi delle letture è il risultato dei duplicati della PCR.

Consiglio vivamente di dare una lettura, soprattutto perché situa bene altri modelli generativi comuni (ad esempio, binomiale, Poisson) come valide ipotesi semplificative del modello multinomiale.

Va ​​notato che questo stesso gruppo ha precedentemente pubblicato un lavoro ( Hicks, Irizarry, et al. 2018), principalmente incentrato su Set di dati basati su UMI (SMRT-seq), in cui hanno dimostrato che, rispetto al bulk RNA-seq, c'era una significativa inflazione zero.

Un altro prestampa che sostiene che l'inflazione zero non è un buon modello: https://www.biorxiv.org/content/10.1101/477794v1.abstract
Martin Modrák
2017-10-24 19:23:38 UTC
view on stackexchange narkive permalink

Il thread Biostars si è rivelato utile. La causa possibile più interessante, non menzionata nella risposta di Ian Subery, è che a causa della natura improvvisa della trascrizione, la vera distribuzione dei conteggi delle trascrizioni tra le cellule può essere bimodale con un picco a zero anche assumendo un semplice modello di trascrizione come il modello telegrafico casuale. Vedi ad esempio Dattani & Barahona 2017 per una discussione più dettagliata.

Tuttavia, il modello del telegrafo casuale prevede che anche con il picco a zero, di solito dovrebbe esserci una probabilità non trascurabile di avere conteggi piccoli, ma diversi da zero, che non è sempre il caso dei dati scRNA-seq con inflazione zero: vedi ad esempio il gene Isl1 nel set di dati Retina (fai clic su Esplora -> cerca "Isl1")

Ian Sudbery
2017-10-20 18:34:51 UTC
view on stackexchange narkive permalink

Non conosco riferimenti per questo, ma in generale, direi che il tuo ragionamento è corretto. Vorrei solo aggiungere che, contrariamente a quanto sospetto abbiate simulato, non tutte le trascrizioni avranno la stessa probabilità di essere catturate e amplificate. Non capiamo veramente quali siano le determinanti di questo, ma ad esempio, il contenuto GC è sicuramente correlato.

Grazie per la nota. Capisco che ci siano differenze tra i geni dovute al contenuto di GC, ecc. Ma sto guardando solo un gene alla volta, quindi non dovrebbe avere importanza. Credi che i risultati del sequenziamento potrebbero essere notevolmente influenzati da differenze all'interno del gene, ad es. perché un frammento specifico di una lunga trascrizione è molto meglio catturato / amplificato rispetto ad altri permettendoci di osservare grandi conteggi diversi da zero solo nelle celle in cui questo frammento è stato catturato e zero altrimenti?


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...