GISTIC (v 2.0) stima le probabilità amplificate / cancellate su base campione singolo?

Domanda:

Emanuel

2017-05-26 03:47:46 UTC

view on stackexchange narkive permalink

GISTIC 2.0 stima il modello di sfondo:

G = -log (Probability | Background)

permutando all'interno del campione o in tutti i campioni nel set?

L'articolo descrive il metodo di punteggio probabilistico basato su permutazioni, ma non sono riuscito a capire se questa permutazione viene eseguita solo all'interno del campione. La pagina della documentazione sembra suggerire attraverso campioni, ma ciò significherebbe che insiemi di dimensioni diverse potrebbero portare a risultati diversi sul campione campione.

Fondamentalmente, importa se l'insieme è costituito, ad esempio, da 10 campioni dello stesso tessuto di origine o ~ 1000 da più tessuti?

Grazie,

Ho ampliato un po 'la mia domanda.

Una risposta:

llrs

2017-05-28 16:40:17 UTC

view on stackexchange narkive permalink

Non sembrano esserci molte differenze tra GISTIC 1.0 e 2.0 come si dice:

Come con GISTIC 1.0, otteniamo i valori P per ogni marker confrontando il punteggio a ciascuno luogo a una distribuzione del punteggio di fondo generata dalla permutazione casuale delle posizioni dei marker in ogni campione

Ma sul materiale supplementare del GISTIC 1.0 c'è una spiegazione più dettagliata del metodo. Vedere la sezione "Fase 2":

In secondo luogo, confrontiamo questi punteggi G con la distribuzione dei punteggi attesi se si osservassero solo aberrazioni casuali. Questa distribuzione può essere determinata ripristinando il genoma dopo aver permutato le posizioni dei marker all'interno di ciascun campione; deriviamo invece una stima semiesatta.

Inoltre in un'altra sezione ("Fase 2: aggregazione di dati da diversi tumori per differenziare tra aberrazioni del conducente e del passeggero") si dice:

Per determinare quali delle aberrazioni identificate nella Fase 1 potrebbero rappresentare eventi driver, aggreghiamo i dati di tutti i tumori utilizzati nell'analisi per generare punteggi riepilogativi per amplificazioni, delezioni e LOH. La significatività statistica di ciascun punteggio è determinata dal confronto con la distribuzione dei punteggi ottenuti da tutte le permutazioni dei dati (utilizzando un'approssimazione semiesatta), con correzione per test di ipotesi multiple.

Tuttavia, la sezione pertinente (dei materiali supplementari) sembra essere "Generazione di ipotesi nulla: una derivazione analitica della distribuzione nulla", dove descrive l'approssimazione semiesatta utilizzata.

In un file supplementare lo descrive come "Genera tutte le permutazioni delle etichette SNP all'interno di ogni campione per simulare set di dati con aberrazioni casuali"

Conclusione :

Sembra che le probabilità di sfondo siano calcolate all'interno del campione.

Non posso dire se sia importante come sono costituiti gli insiemi, ma direi che più sono ampi gli insiemi, migliore è la stima delle variazioni strutturali che eseguirà, ma verrà fatta la stessa stima del background.

Alla fine puoi controllare il codice del programma, o testare con 10 campioni e sostituirne uno per vedere se i risultati stanno cambiando di conseguenza.

Grazie, sì, sembra essere nel campione. Farò un test dello stesso campione con diversi set di dati e riporterò qui più tardi.

ⓘ

Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.

a proposito - legalese