Domanda:
hg38 GTF file con annotazioni RefSeq
Mark Ebbert
2017-09-21 06:17:29 UTC
view on stackexchange narkive permalink

Non sono sicuro di cosa mi manchi, ma faccio fatica a trovare un file hg38 GTF ufficiale con annotazioni RefSeq. Vorrei fornire il GTF a Salmon per ottenere annotazioni a livello di gene.

Ecco le informazioni della guida di Salmon per --geneMap:

File contenente una mappatura delle trascrizioni ai geni. Se viene fornito questo file, Salmon produrrà entrambi i file quant.sf e quant.genes.sf, dove quest'ultimo contiene stime aggregate di abbondanza a livello di gene. La trascrizione alla mappatura genica deve essere fornita come file GTF o in un semplice formato delimitato da tabulazioni in cui ogni riga contiene il nome di una trascrizione e il gene a cui appartiene separati da una tabulazione. L'estensione del file viene utilizzata per determinare la modalità di analisi del file. Si presume che i file che terminano con ".gtf", ".gff" o ".gff3" siano in formato GTF; si presume che i file con qualsiasi altra estensione siano nel formato semplice. Nel formato GTF / GFF, si presume che "transcript_id" contenga l'identificatore di trascrizione e che "gene_id" contenga il identificatore del gene corrispondente.

Ecco cosa ho provato:

  1. NCBI sembra fornire solo file GFF . So che puoi convertirti tra i due, ma questo non ha funzionato bene per me in passato. Entrambi i formati di file consentono molta libertà, il che rende le conversioni sciatte. Salmon, in particolare, sta cercando le annotazioni gene_id e transcript_id .
  2. UCSC fornisce file GTF da RefSeq, ma il L'annotazione gene_id è identica all'annotazione transcript_id (cioè, è il numero NM). O forse c'è un'opzione che mi manca.
  3. Ensembl fornisce esattamente il formato e tutte le informazioni che potrei sperare, tranne che transcript_id è l'ID Ensembl (ENST #) , non RefSeq (NM #).

Qualcuno può dirmi come ottenere un file GTF con annotazioni RefSeq hg38?

Gli ID refseq sono per trascrizione, quindi è previsto che gli ID del gene e della trascrizione siano gli stessi. Detto questo, cosa vorresti come gene_id?
@Devon Ryan Sto indovinando l'ID EntrezGene o il simbolo HUGO?
@Mark Ebbert: Quali sono le tue applicazioni a valle? Per quanto ne so, l'output di salmon non include gene_id, quindi non dovrebbe importare che sia lo stesso di transcript_id.
Apprezzo il vostro aiuto. Ho aggiunto l'aiuto di Salmon su `--geneMap`. Si aspettano che "gene_id" contenga un "identificatore di gene". Capisco che potrebbero essere diverse cose, ma preferirei il simbolo HUGO, come suggerito da @IanSudbery. A mio parere, penso che Salmon dovrebbe probabilmente indirizzare il "nome_gene", almeno il modo in cui Ensembl formatta il GTF. In entrambi i casi, sono sorpreso dal commento di @DevonRyan's che `gene_id` sarebbe uguale a` transcript_id`. Non sostenendo che sia così, ma a che serve? :-)
@IanSudbery, In ultima analisi, voglio aggregare l'espressione del trascritto nei geni genitori. Ho scoperto ieri sera che uno degli autori di Salmon ora consiglia `tximport` (https://github.com/COMBINE-lab/salmon/issues/98), che userò. Ma questa non è la prima volta che ho "bisogno" di un RefSeq GTF e non sono riuscito a trovarne uno. Mi sorprende, ma forse questo indica che devo valutare il mio approccio?
Una risposta:
Christopher Lee
2017-09-21 23:11:33 UTC
view on stackexchange narkive permalink

Ti interesserà probabilmente la seguente pagina wiki UCSC, che spiega come passare dalla maggior parte delle tabelle UCSC a GTF / GFF:
http://genomewiki.ucsc.edu/index.php / Genes_in_gtf_or_gff_format

L'essenza di base è che UCSC non memorizza alcun dato internamente come GTF o GFF, quindi sarà necessario utilizzare la nostra utilità genePredToGtf per convertire dal nostro genePred memorizzato internamente formato in GTF / GFF3.

Questo è il comando che di solito do quando riceviamo questa domanda sulla nostra mailing list:

 $ mysql --user = genome --host = genome- mysql.cse.ucsc.edu -A -N -e "seleziona * da refGene" hg19 | cut -f2- | genePredToGtf -source = hg19.refGene.ucsc file stdin stdout 

Cambia stdout con il nome del file di output che desideri nell'ultimo comando per ottenere un file GTF hg19 refGene:

 chr1 hg19.refGene Trascrizione .ucsc 11869 14362. +. gene_id "LOC102725121"; transcript_id "NR_148357"; nome_gene "LOC102725121"; chr1 hg19.refGene.ucsc esone 11869 12227. +. gene_id "LOC102725121"; transcript_id "NR_148357"; exon_number "1"; exon_id "NR_148357.1"; nome_gene "LOC102725121"; chr1 hg19.refGene.ucsc esone 12613 12721. +. gene_id "LOC102725121"; transcript_id "NR_148357"; exon_number "2"; exon_id "NR_148357.2"; nome_gene "LOC102725121"; chr1 hg19.refGene.ucsc esone 13221 14362. +. gene_id "LOC102725121"; transcript_id "NR_148357"; exon_number "3"; exon_id "NR_148357.3"; nome_gene "LOC102725121"; trascrizione chr1 hg19.refGene.ucsc 11874 14409. +. gene_id "DDX11L1"; transcript_id "NR_046018"; gene_name "DDX11L1"; ... 

Se hai ulteriori domande sui dati o sugli strumenti UCSC, non esitare a inviare la tua domanda a una delle seguenti mailing list:

  • Generale domande: genome@soe.ucsc.edu
  • Domande che riguardano dati privati: genome-www@soe.ucsc.edu
  • Domande che coinvolgono siti mirror: genome-mirror@ose.ucsc. edu
Sarebbe piuttosto carino se l'output del formato "GTF" dal browser delle tabelle UCSC restituisse esattamente questo (incluse le voci `gene`, che sono sempre mancanti). Questo è il genere di cose che le persone si aspettano davvero da esso.
Sono d'accordo che questo sarebbe l'ideale. Il problema è che il valore restituito da gene_id potrebbe non essere quello che la gente vuole. Ad esempio, se stavi cercando di ottenere un output GTF per la tabella wgEncodeGencodeBasicV27, vorresti un gene_id come DDX11L1 o un gene_id come ENSG *? L'altro problema è che il semplice formato della tabella genePred non ha nemmeno un campo name2, quindi cosa assegniamo come gene_id in questo caso? E se la tabella fosse qualche altra variazione di genePred che non ha un nome2? Usiamo molte diverse varianti di tabella ed è difficile supportare un output GTF per tutte.
@ChristopherLee, è perfetto, grazie. Per quanto riguarda la tua risposta al commento di @DevonRyan's, posso apprezzare che è difficile (e forse irrealistico) supportare tutte le possibili variazioni, ma direi anche che HUGO è probabilmente ciò che la maggior parte delle persone desidera. In entrambi i casi, sono certo che riportare l'ID della trascrizione per * sia * * `gene_id` che` transcript_id` non sia l'ideale! :-)


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...