Come faccio a scaricare un genoma di riferimento che posso utilizzare con bowtie2? Nello specifico HG19. Su UCSC ci sono molte opzioni di file.
Come faccio a scaricare un genoma di riferimento che posso utilizzare con bowtie2? Nello specifico HG19. Su UCSC ci sono molte opzioni di file.
Immagino che sia una questione di preferenze, ma consiglio le build Ensembl . Decidi se desideri l'assieme principale o di primo livello e se desideri file con mascheratura morbida, mascheratura ripetuta o non mascherati. Lo schema di denominazione è molto semplice; le combinazioni sono descritte nel file README
e tutti i file risiedono in una directory.
Ad esempio, se desidera l'assembly primario non mascherato, il file da scaricare sarebbe Homo_sapiens.GRCh37.75.dna.primary_assembly.fa.gz
.
Come per GoldenPath / UCSC , non è necessario scaricare e concatenare cromosomi separati (contrariamente a quanto diceva l'altra risposta); puoi scaricare l'intero riferimento (di primo livello) dalla directory bigZips
; da README
:
Questa directory contiene l'assemblaggio di febbraio 2009 del genoma umano (hg19, GRCh37 Genome Reference Consortium Human Reference 37 (GCA_000001405.1)), così come annotazioni ripetute e sequenze GenBank.
Ci sono essenzialmente tre opzioni qui:
chromFa.tar.gz
, che contiene l'intero genoma in un cromosoma per file; chromFaMasked.tar.gz
, lo stesso con le ripetizioni mascherate da N
; hg19.2bit
, che è l'intero genoma in un file, ma deve essere estratto utilizzando il programma di utilità twoBitToFa
, che deve essere scaricato separatamente. In ogni caso, scarico sempre il riferimento e costruisco il mio indice per la mappatura, poiché questo mi consente un maggiore controllo; non tutti potrebbero aver bisogno di così tanto controllo, ma poi costruire l'indice una volta è abbastanza veloce comunque.
tl; dr: utilizza semplicemente i download sulla home page di Bowtie2 o gli iGenomes Illumina. O semplicemente decomprimere e concatenare i file FASTA trovati su UCSC goldenpath e quindi creare l'indice.
Risposta un po 'più lunga:
Ci sono due componenti per " genoma per un read mapper "come Bowtie o BWA.
Per prima cosa, è necessario scegliere la sequenza effettiva (rilascio del genoma come GRCh37 / hg19 o GRCh38 / hg38). Ci sono versioni di patch come GRCh37.p3 in cui alcune basi potrebbero essere scambiate e, a seconda del rilascio, potrebbero essere aggiunti alcuni contig loci "non mappati", ma generalmente GRCh37.p1 è più o meno lo stesso di GRCh37.p2, per esempio. Di solito, le persone hanno concordato una versione di patch specifica per ogni lettura e la usano per la mappatura della lettura.
Generalmente, c'è la versione UCSC hg19 / hg38 ecc. E la versione NCBI / GRC GRCh37, GRCh38 ecc. (simile con il mouse). UCSC non ha il controllo delle versioni oltre al rilascio del genoma e (per quanto ne so) non aggiorna la sequenza del genoma dopo aver rilasciato un file FASTA hg19.
In secondo luogo, devi costruire i file indice per ogni genoma. A seconda del read mapper che utilizzi, potresti o meno aver bisogno dei file FASTA originali per l'allineamento. Per Bowtie e Bowtie 2, non hai bisogno dei file FASTA originali dopo aver creato l'indice poiché Bowtie 1/2 può ricostruire la sequenza "al volo" dai file dell'indice.
HTH