Non sono sicuro di cosa mi manchi, ma faccio fatica a trovare un file hg38
GTF
ufficiale con annotazioni RefSeq. Vorrei fornire il GTF
a Salmon per ottenere annotazioni a livello di gene.
Ecco le informazioni della guida di Salmon per --geneMap
:
File contenente una mappatura delle trascrizioni ai geni. Se viene fornito questo file, Salmon produrrà entrambi i file quant.sf e quant.genes.sf, dove quest'ultimo contiene stime aggregate di abbondanza a livello di gene. La trascrizione alla mappatura genica deve essere fornita come file GTF o in un semplice formato delimitato da tabulazioni in cui ogni riga contiene il nome di una trascrizione e il gene a cui appartiene separati da una tabulazione. L'estensione del file viene utilizzata per determinare la modalità di analisi del file. Si presume che i file che terminano con ".gtf", ".gff" o ".gff3" siano in formato GTF; si presume che i file con qualsiasi altra estensione siano nel formato semplice. Nel formato GTF / GFF, si presume che "transcript_id" contenga l'identificatore di trascrizione e che "gene_id" contenga il identificatore del gene corrispondente.
Ecco cosa ho provato:
- NCBI sembra fornire solo file
GFF
. So che puoi convertirti tra i due, ma questo non ha funzionato bene per me in passato. Entrambi i formati di file consentono molta libertà, il che rende le conversioni sciatte. Salmon, in particolare, sta cercando le annotazionigene_id
etranscript_id
. - UCSC fornisce file
GTF
da RefSeq, ma il L'annotazionegene_id
è identica all'annotazionetranscript_id
(cioè, è il numero NM). O forse c'è un'opzione che mi manca. - Ensembl fornisce esattamente il formato e tutte le informazioni che potrei sperare, tranne che
transcript_id
è l'ID Ensembl (ENST #) , non RefSeq (NM #).
Qualcuno può dirmi come ottenere un file GTF
con annotazioni RefSeq hg38?