In primo luogo, scusa se mi manca qualcosa di base: sono un programmatore diventato bioinformatico da poco, quindi non so ancora molte cose. Questo è un post incrociato con una domanda Biostars che spero non sia male.
Anche se è ovvio che i dati scRNA-seq contengono molti zeri, non potrei trovare una spiegazione dettagliata del motivo per cui si verificano, ad eccezione di brevi avvisi sulla falsariga del "rumore tecnico e biologico sostanziale". Per il testo seguente, supponiamo di esaminare un singolo gene che non è espresso in modo differenziale tra le cellule.
Se gli zeri fossero causati esclusivamente da una bassa efficienza di cattura e profondità di sequenziamento, tutti gli zeri osservati dovrebbero essere spiegati da espressione media attraverso le cellule. Questo tuttavia non sembra essere il caso in quanto la distribuzione del conteggio dei geni tra le cellule ha spesso più zeri di quanto ci si aspetterebbe da un modello binomiale negativo. Ad esempio, il documento ZIFA utilizza esplicitamente una distribuzione binomiale negativa con inflazione zero per modellare i dati scRNA-seq. La modellazione di scRNA-seq come binomio negativo a inflazione zero sembra diffusa in tutta la letteratura.
Tuttavia, assumendo una distribuzione binomiale negativa per i conteggi originali (misurata in bulk RNA-seq) e assumendo che ogni frammento di RNA dello stesso il gene di ogni cellula ha approssimativamente la stessa (bassa) possibilità di essere catturato e sequenziato, la distribuzione tra le singole cellule dovrebbe comunque essere binomiale negativa (vedi questa domanda per la matematica correlata).
Quindi l'unica causa possibile rimanente è che i conteggi zero gonfiati sono causati dalla PCR. Solo i conteggi diversi da zero (dopo la cattura) vengono amplificati e quindi sequenziati, spostando la media dei conteggi genici osservati lontano da zero mentre i conteggi zero pre-PCR rimangono zero. In effetti, alcune rapide simulazioni mostrano che una tale procedura potrebbe occasionalmente generare distribuzioni binomiali negative con inflazione zero. Ciò suggerirebbe che non dovrebbero essere presenti zeri eccessivi quando vengono utilizzati gli UMI: ho controllato un set di dati scRNA-seq con gli UMI e sembra che si adatti bene al semplice binomio negativo.
Il mio ragionamento è corretto? Grazie per qualsiasi suggerimento.
La domanda Come possiamo distinguere tra il conteggio del vero zero e del dropout zero nell'RNA-seq di una singola cella? è correlata, ma non fornisce indizi presente inchiesta.