Domanda:
Dato un VCF di un genoma umano, come valuto la qualità rispetto a SNV noti?
ShanZhengYang
2017-05-21 02:49:51 UTC
view on stackexchange narkive permalink

Sto cercando strumenti per verificare la qualità di un VCF che ho di un genoma umano. Vorrei controllare il VCF rispetto a varianti pubblicamente note in altri genomi umani, ad es. quanti SNP sono già presenti nei database pubblici, se gli inserimenti / eliminazioni sono in posizioni note, la distribuzione della lunghezza di inserimenti / eliminazioni, altri SNV / SV, ecc.? Sospetto che ci siano risorse da progetti precedenti per verificare la presenza di SNP e InDels noti da sottopopolazioni umane.

Quali risorse esistono per questo e come posso farlo?

Tre risposte:
#1
+7
Kevin
2017-05-21 19:48:39 UTC
view on stackexchange narkive permalink

Per raggiungere (almeno alcuni) i tuoi obiettivi, consiglierei il Variant Effect Predictor (VEP). È uno strumento flessibile che fornisce diversi tipi di annotazioni su un file .vcf di input. Sono d'accordo che ExAC è il catalogo del gold standard de facto per la variazione genetica umana nelle regioni codificanti. Per vedere la distribuzione di frequenza delle varianti in base alla sottopopolazione globale, assicurarsi che "Frequenze alleliche ExAC" sia selezionata oltre ai 1000 genomi. VEP ExAC

Output nel browser web: VEP_ExAC_res

Se scarichi il file .vcf annotato, le frequenze sarà nel campo INFO :

  ## INFO = <ID = CSQ, Number =., Type = String, Description = "Conseguenze annotazioni da Ensembl VEP. Formato : Allele | Conseguenza | IMPACT | SYMBOL | Gene | Feature_type | Feature | BIOTYPE | EXON | INTRON | HGVSc | HGVSp | cDNA_position | CDS_position | Protein_position | Amino_acids | Codons | Existing_variation | DISTANCE | STRAND | FLAGS_HNC_SIMBOL | SYMBOL_SIMBOL | PolyPhen | AF | AFR_AF | AMR_AF | EAS_AF | EUR_AF | SAS_AF | AA_AF | EA_AF | ExAC_AF | ExAC_Adj_AF | ExAC_AFR_AF | ExAC_AMR_AF | ExAC_EAS_AF | ExAC_FIN_AF | ExACFE_AF | ExAC_AF | ExAC_Adj_AF | ExAC_AFR_AF | ExAC_AMR_AF | ExAC_EAS_AF | ExAC_FIN_AF | ExACFE_AF | ExAC_OTH_SIFIN | 

Il già citato Annovar può anche annotare con frequenze alleliche ExAC. Infine, dovrebbe menzionare la più recente risorsa per l'intero genoma, gnomAD.

Ottimo suggerimento. La mia comprensione è che ExAC detiene ca. 123K esomi e gnomAD ora hanno circa 15K genomi
Queste sono tutte ottime risposte, ma poiché questa sembra essere la preferita dalla comunità, la contrassegnerò come "la risposta". Ma futuri lettori: guardate gli altri!
#2
+5
Kamil S Jaron
2017-05-21 06:12:08 UTC
view on stackexchange narkive permalink

Il più grande catalogo di varianti di codifica delle proteine ​​ è sicuramente ExAC (> 65.000 individui). Hanno anche pubblicato un blogpost in cui descrivono come riprodurre le figure sul giornale (è un buon inizio per acquisire familiarità con il set di dati).

Per l ' intero -genoma varianti Vorrei guardare i dati creati dal progetto 1000 genomi (l'ultima versione ha più di 3k individui). I set di chiamate delle varianti integrate possono essere scaricati tramite il portale e il catalogo degli SV è disponibile qui.

In questo paper (anche progetto 1000 genomes) parlano di posizionamento non preciso di SV da parte di chiamanti SV. Lo terrò a mente per il confronto del tuo genoma con le varianti conosciute.

Grazie per l'aiuto. Sono un po 'confuso dal collegamento ipertestuale a `guide` che descrive lo script perl necessario. Usando questo script, questo creerà un VCF da un aggregato di ~ 2.5K individui?
Lo script fa parte di [VCFtools] (http://vcftools.github.io/), lo collegano al manuale del pacchetto invece che al codice sorgente, ci si aspetta che tu installi il pacchetto, non solo che scarichi lo script. Ho anche scoperto che hanno aperto un portale sul welpage, quindi ho modificato la risposta.
#3
+4
nuin
2017-05-21 10:18:16 UTC
view on stackexchange narkive permalink

La soluzione migliore è utilizzare programmi che forniscano un'annotazione completa delle varianti presenti nel tuo VCF. Due esempi sono snpEff e Annovar. Questi programmi funzionano su varianti note che ritengono fonti diverse e ti forniscono informazioni su ogni elemento nel tuo file, che puoi filtrare per cercare di capire gli effetti di ogni variante.

Ora è possibile accedere a gnomAD con ANNOVAR, il che è piuttosto interessante.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...