mgalardini
2017-09-06 18:59:05 UTC
Sto scrivendo un piccolo script per scrivere un file VCF da brevi allineamenti di sequenze multiple e sono incappato in un interessante caso d'angolo.
Questo è il modo in cui una cancellazione dovrebbe essere rappresentata in formato VCF (presumo la versione 4+):
NC_000016.9 2138199 rs1799758 GTGAG G. . RS = 1799758; ...
Ma cosa succede se l'eliminazione è in prima posizione? Immagina le seguenti due sequenze allineate:
>referenceAGTC>sample-GTC
Come dovrebbe essere codificato in formato VCF? Secondo questo thread su SEQAnswers, potrebbe essere necessario includere la prima posizione dopo la fine dell'eliminazione, in questo modo:
cromosoma 1 AG G. . [...]
È un modo corretto di VCF 4+ per codificare tali varianti?