Domanda:
Annotazione delle caratteristiche: RefSeq vs Ensembl vs Gencode, qual è la differenza?
Plasma
2017-05-17 00:24:16 UTC
view on stackexchange narkive permalink

Quali sono le differenze effettive tra i diversi database di annotazioni?

Il mio laboratorio, per ragioni a me ancora sconosciute, preferisce le annotazioni Ensembl (stiamo lavorando con la stima dell'espressione di trascrizione / esone), mentre alcuni software vengono forniti con le annotazioni RefSeq. Ci sono differenze significative tra di loro oggi o sono, a tutti gli effetti, intercambiabili (ad esempio, le coordinate dell'esone tra le annotazioni RefSeq e Ensembl sono intercambiabili)?

Cinque risposte:
#1
+23
Mitra
2017-05-17 14:34:08 UTC
view on stackexchange narkive permalink

Da aggiungere alla risposta rightskewed: Sebbene sia vero che:

Gencode è un insieme additivo di annotazioni (quello manuale fatto da Havana e uno automatizzato fatto da Ensembl ),

i file di annotazione (GTF) sono abbastanza simili per alcune eccezioni che coinvolgono il cromosoma X e il par Y e osservazioni aggiuntive nel file Gencode (vedi di più su FAQ - Gencode ).

Quali sono le effettive differenze tra i diversi database di annotazioni?

Sono alcune differenze, ma la principale per me (e potrebbe essere stupido) è

che Refseq è sviluppato dall'americano NCBI e

ENSEMBL è sviluppato principalmente dal European EMBL-EBI.

Spesso i laboratori o le persone inizieranno a utilizzare ciò che è loro più noto (a causa di un corso o workshop) o perché iniziano a lavorare con uno dei database con uno strumento specifico e mantenerlo in seguito.

Il mio laboratorio, per ragioni ancora sconosciute me, preferisce le annotazioni Ensembl (stiamo lavorando con la stima dell'espressione di trascrizione / esone), mentre alcuni software vengono forniti con annotazioni RefSeq.

Il tuo laboratorio potrebbe essere principalmente persone con sede in Europa o potrebbero anche avere leggere articoli come quello di Frankish et al. Confronto tra GENCODE e annotazione genica RefSeq e impatto del set di geni di riferimento sulla previsione dell'effetto delle varianti. BMC Genomics 2015; 16 (Suppl 8): S2 - DOI: 10.1186 / 1471-2164-16-S8-S2

Dal Frankish et al. paper paper:

I trascritti GENCODE Comprehensive contengono più esoni, hanno una maggiore copertura genomica e catturano molte più varianti rispetto a RefSeq sia nei set di dati genoma che esoma, mentre il set GENCODE Basic mostra un più alto grado di concordanza con RefSeq e ha meno caratteristiche uniche.

Per quanto riguarda:

Ci sono differenze significative tra loro oggi o sono, a tutti gli effetti, intercambiabili (ad esempio, le coordinate dell'esone tra le annotazioni RefSeq e Ensembl sono intercambiabili)?

No. Non credo che ci siano grandi differenze tra di loro in quanto l'immagine globale dovrebbe rimanere la stessa (anche se vedrai risultati diversi se sei interessato a un piccolo insieme di geni). Tuttavia, non sono direttamente intercambiabili . Tanto più che esistono molte versioni di Ensembl e Refseq basate su diverse annotazioni del genoma (e quelle non saranno intercambiabili tra loro nella maggior parte dei casi).

Tuttavia, puoi facilmente tradurre la maggior parte [1] dei tuoi ID Refseq agli ID ENSEMBL e viceversa con strumenti come http://www.ensembl.org/biomart/martview per esempio (ci sono anche librerie / API dedicate come Biocondutor: biomaRt

[1] La maggior parte delle volte, potrebbero essere annotati in uno dei database ma non (ancora) un equivalente nell'altro.

MODIFICA

Va ​​bene, anche se le persone tendono a attenersi a ciò a cui sono abituate (e che le annotazioni vengono costantemente ampliate e corrette) a seconda del soggetto di ricerca uno potrebbe essere interessato a utilizzare un database piuttosto che un altro:

Da Zhao S, Zhang B. Una valutazione completa delle annotazioni di ensembl, RefSeq e UCSC nel contesto della mappatura di lettura e del gene quantificazione. BMC Genomics.2015; 1 6: 97. paper:

Quando si sceglie un database di annotazioni, i ricercatori dovrebbero tenere a mente che nessun database è perfetto e che alcune annotazioni genetiche potrebbero essere imprecise o completamente sbagliate. [..] Wu et al. [27] ha suggerito che quando si conducono ricerche che enfatizzano stime di espressione genica riproducibili e robuste, si potrebbe preferire un'annotazione genomica meno complessa, come RefGene. Quando si conducono ricerche più esplorative, è necessario scegliere un'annotazione genomica più complessa, come Ensembl.

[[...] ]

[27] Wu P-Y, Phan JH, Wang MD. Valutazione dell'impatto della scelta dell'annotazione del genoma umano sulle stime di espressione di RNA-seq. BMC Bioinformatics. 2013; 14 (Suppl 11): S8. doi: 10.1186 / 1471-2105-14-S11-S8.

#2
+11
rightskewed
2017-05-17 07:29:24 UTC
view on stackexchange narkive permalink

Ensembl vs Gencode

https://www.gencodegenes.org/faq.html

L'annotazione GENCODE viene creata unendo l'annotazione genetica manuale Havana e l'annotazione genica automatizzata Ensembl. [...] In termini pratici, l'annotazione GENCODE è identica all'annotazione Ensembl.

Inoltre, per le differenze del file GTF:

L'unico L'eccezione è che i geni comuni alle regioni PAR dei cromosomi umani X e Y possono essere trovati due volte nel GENCODE GTF, mentre sono mostrati solo per il cromosoma X nel file Ensembl.

Gencode (Ensembl) vs RefSeq

Gencode è in quasi tutti i casi più completo. Ad esempio, questo è NCBI RefSeq vs Ensembl (v24, release 83) per il gene BRCA: enter image description here

RefSeq e Gencode non sono intercambiabili nella maggior parte dei casi, sebbene le annotazioni RefSeq lo faranno spesso sono un sottoinsieme di quelli Gencode.

In che modo lo screenshot BRCA sta dimostrando il tuo punto? Non è molto ovvio a prima vista (almeno per me)
#3
+6
Ian Sudbery
2017-05-17 18:34:35 UTC
view on stackexchange narkive permalink

Per aggiungere consigli pratici a ciò che altri hanno detto:

In senso pratico, penso che la più grande differenza tra RefSeq e Ensembl / GENCODE sia nel compromesso sensibilità / specificità.

Ensembl punta maggiormente verso il fine inclusivo, incluso un numero molto maggiore di varianti di trascrizione, molte delle quali sono supportate solo debolmente.

RefSeq scambia parte di questa sensibilità con specificità: puoi essere più sicuri che esista una trascrizione RefSeq, ma meno sicuri che l'annotazione ReqSeq includa tutte le trascrizioni reali per un gene.

Ecco perché preferisco l'annotazione Ensembl in quanto puoi richiedere un set più sicuro selezionando solo le trascrizioni Havana (Havana o Ensembl / Havana). Vedi: http://www.ensembl.org/Help/Faq?id=152
#4
+1
Zz...zZ
2017-10-04 18:52:40 UTC
view on stackexchange narkive permalink

Sebbene le annotazioni tra RefSeq e Gencode non siano così diverse sono le regioni di codifica (geni), Gencode è molto più ricco nelle regioni intergeniche. Questo potrebbe essere molto vantaggioso per gli studi epigenetici, dove la regolazione è di interesse.

Ciao! C'è qualche pubblicazione o altro materiale che potresti collegare in merito alla tua richiesta? Sarebbe molto interessante ...
#5
+1
Max
2019-08-07 15:19:05 UTC
view on stackexchange narkive permalink

Le domande frequenti su UCSC Genome Browser Genes discute questa domanda in dettaglio: https://genome.ucsc.edu/FAQ/FAQgenes.html#ens

Ufficialmente , i modelli genetici Ensembl e GENCODE sono gli stessi. Sugli ultimi assemblaggi del genoma umano e di topo (hg38 e mm10), gli identificatori, le sequenze di trascrizione e le coordinate dell'esone sono quasi identici tra le versioni equivalenti di Ensembl e GENCODE (escluse le sequenze alternative o le sequenze di correzione).

Utilizza GENCODE la convenzione UCSC di anteporre "chr" ai nomi dei cromosomi, ad es "chr1" e "chrM", ma Ensembl li chiama "1" o "MT". Al momento in cui scrivo (Ensembl 89), alcune trascrizioni differiscono a causa di problemi di conversione. Inoltre, circa 160 geni PAR vengono duplicati in GENCODE ma solo una volta in Ensembl. Le differenze riguardano meno dell'1% delle trascrizioni. A parte l'annotazione genetica stessa, i collegamenti ai database esterni differiscono.

La cronologia delle versioni di GENCODE mostra le date di rilascio e può essere collegata alle corrispondenti versioni di Ensembl. Puoi scaricare i modelli di trascrizione genica dal sito web https://gencodegenes.org o da http://ensembl.org. Per la maggior parte delle applicazioni, i file distribuiti sul sito Web GENCODE dovrebbero essere più facili da usare, poiché i collegamenti a database di terze parti sono più facili da analizzare e gli identificatori di sequenza corrispondono ai file del genoma UCSC, almeno per i cromosomi primari.

Ulteriori informazioni su questa domanda possono essere trovate nella pagina delle domande frequenti su GENCODE.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...