Domanda:
Come rappresentare una cancellazione alla posizione 1 in un file VCF?
mgalardini
2017-09-06 18:59:05 UTC
view on stackexchange narkive permalink

Sto scrivendo un piccolo script per scrivere un file VCF da brevi allineamenti di sequenze multiple e sono incappato in un interessante caso d'angolo.

Questo è il modo in cui una cancellazione dovrebbe essere rappresentata in formato VCF (presumo la versione 4+):

  NC_000016.9 2138199 rs1799758 GTGAG G. . RS = 1799758; ...  

Ma cosa succede se l'eliminazione è in prima posizione? Immagina le seguenti due sequenze allineate:

  >referenceAGTC>sample-GTC  

Come dovrebbe essere codificato in formato VCF? Secondo questo thread su SEQAnswers, potrebbe essere necessario includere la prima posizione dopo la fine dell'eliminazione, in questo modo:

  cromosoma 1 AG G. . [...]  

È un modo corretto di VCF 4+ per codificare tali varianti?

Una risposta:
Emily_Ensembl
2017-09-06 19:07:28 UTC
view on stackexchange narkive permalink

Dalle più recenti specifiche VCF (pagina 8):

  1. REF - base / i di riferimento: ogni base deve essere una di A , C, G, T, N (case insensitive). Sono consentite più basi. Il valore nel campo POS si riferisce alla posizione della prima base nella stringa. Per semplici inserimenti ed eliminazioni in cui o l'alleli REF o uno degli alleli ALT sarebbe altrimenti nullo / vuoto, le stringhe REF e ALT devono includere la base prima dell'evento (che deve riflettersi nel campo POS), a meno che l'evento non si verifichi alla posizione 1 sulla contig, nel qual caso deve includere la base dopo l'evento;

Quindi penso che tu abbia ragione



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...