Non sembrano esserci molte differenze tra GISTIC 1.0 e 2.0 come si dice:
Come con GISTIC 1.0, otteniamo i valori P per ogni marker confrontando il punteggio a ciascuno luogo a una distribuzione del punteggio di fondo generata dalla permutazione casuale delle posizioni dei marker in ogni campione
Ma sul materiale supplementare del GISTIC 1.0 c'è una spiegazione più dettagliata del metodo. Vedere la sezione "Fase 2":
In secondo luogo, confrontiamo questi punteggi G con la distribuzione dei punteggi attesi se si osservassero solo aberrazioni casuali. Questa distribuzione può essere determinata ripristinando il genoma dopo aver permutato le posizioni dei marker all'interno di ciascun campione; deriviamo invece una stima semiesatta.
Inoltre in un'altra sezione ("Fase 2: aggregazione di dati da diversi tumori per differenziare tra aberrazioni del conducente e del passeggero") si dice:
Per determinare quali delle aberrazioni identificate nella Fase 1 potrebbero rappresentare eventi driver, aggreghiamo i dati di tutti i tumori utilizzati nell'analisi per generare punteggi riepilogativi per amplificazioni, delezioni e LOH. La significatività statistica di ciascun punteggio è determinata dal confronto con la distribuzione dei punteggi ottenuti da tutte le permutazioni dei dati (utilizzando un'approssimazione semiesatta), con correzione per test di ipotesi multiple.
Tuttavia, la sezione pertinente (dei materiali supplementari) sembra essere "Generazione di ipotesi nulla: una derivazione analitica della distribuzione nulla", dove descrive l'approssimazione semiesatta utilizzata.
In un file supplementare lo descrive come "Genera tutte le permutazioni delle etichette SNP all'interno di ogni campione per simulare set di dati con aberrazioni casuali"
Conclusione :
Sembra che le probabilità di sfondo siano calcolate all'interno del campione.
Non posso dire se sia importante come sono costituiti gli insiemi, ma direi che più sono ampi gli insiemi, migliore è la stima delle variazioni strutturali che eseguirà, ma verrà fatta la stessa stima del background.
Alla fine puoi controllare il codice del programma, o testare con 10 campioni e sostituirne uno per vedere se i risultati stanno cambiando di conseguenza.