Download di un genoma di riferimento per Bowtie2

Domanda:

EMiller

2017-06-01 03:56:27 UTC

view on stackexchange narkive permalink

Come faccio a scaricare un genoma di riferimento che posso utilizzare con bowtie2? Nello specifico HG19. Su UCSC ci sono molte opzioni di file.

Due risposte:

Konrad Rudolph

2017-06-01 14:38:53 UTC

view on stackexchange narkive permalink

Immagino che sia una questione di preferenze, ma consiglio le build Ensembl . Decidi se desideri l'assieme principale o di primo livello e se desideri file con mascheratura morbida, mascheratura ripetuta o non mascherati. Lo schema di denominazione è molto semplice; le combinazioni sono descritte nel file README e tutti i file risiedono in una directory.

Ad esempio, se desidera l'assembly primario non mascherato, il file da scaricare sarebbe Homo_sapiens.GRCh37.75.dna.primary_assembly.fa.gz .

Come per GoldenPath / UCSC , non è necessario scaricare e concatenare cromosomi separati (contrariamente a quanto diceva l'altra risposta); puoi scaricare l'intero riferimento (di primo livello) dalla directory bigZips ; da README:

Questa directory contiene l'assemblaggio di febbraio 2009 del genoma umano (hg19, GRCh37 Genome Reference Consortium Human Reference 37 (GCA_000001405.1)), così come annotazioni ripetute e sequenze GenBank.

Ci sono essenzialmente tre opzioni qui:

chromFa.tar.gz , che contiene l'intero genoma in un cromosoma per file;
chromFaMasked.tar.gz , lo stesso con le ripetizioni mascherate da N ;
hg19.2bit , che è l'intero genoma in un file, ma deve essere estratto utilizzando il programma di utilità twoBitToFa , che deve essere scaricato separatamente.

In ogni caso, scarico sempre il riferimento e costruisco il mio indice per la mappatura, poiché questo mi consente un maggiore controllo; non tutti potrebbero aver bisogno di così tanto controllo, ma poi costruire l'indice una volta è abbastanza veloce comunque.

Penso che questo inneschi un'altra domanda "qual è la differenza tra diverse versioni della stessa build del genoma?". La risposta alla domanda dovrebbe includere la differenza tra DNA e RNA-seq / analisi genomica funzionale. Nel mondo DNA / variante, le persone generalmente si attaccheranno a qualunque cosa il grande progetto di sequenziamento / Heng Li decida sia "migliore". Nel mondo della genomica RNA-seq / funzionale, un'attenta cura dei genomi è importante, a seconda del mappatore di lettura e anche di ciò che gli strumenti a valle supportano (un set più grande di strumenti significa coda più lunga di strumenti meno utilizzati con requisiti peculiari).

Manuel

2017-06-01 04:21:54 UTC

view on stackexchange narkive permalink

tl; dr: utilizza semplicemente i download sulla home page di Bowtie2 o gli iGenomes Illumina. O semplicemente decomprimere e concatenare i file FASTA trovati su UCSC goldenpath e quindi creare l'indice.

Risposta un po 'più lunga:

Ci sono due componenti per " genoma per un read mapper "come Bowtie o BWA.

Per prima cosa, è necessario scegliere la sequenza effettiva (rilascio del genoma come GRCh37 / hg19 o GRCh38 / hg38). Ci sono versioni di patch come GRCh37.p3 in cui alcune basi potrebbero essere scambiate e, a seconda del rilascio, potrebbero essere aggiunti alcuni contig loci "non mappati", ma generalmente GRCh37.p1 è più o meno lo stesso di GRCh37.p2, per esempio. Di solito, le persone hanno concordato una versione di patch specifica per ogni lettura e la usano per la mappatura della lettura.

Generalmente, c'è la versione UCSC hg19 / hg38 ecc. E la versione NCBI / GRC GRCh37, GRCh38 ecc. (simile con il mouse). UCSC non ha il controllo delle versioni oltre al rilascio del genoma e (per quanto ne so) non aggiorna la sequenza del genoma dopo aver rilasciato un file FASTA hg19.

In secondo luogo, devi costruire i file indice per ogni genoma. A seconda del read mapper che utilizzi, potresti o meno aver bisogno dei file FASTA originali per l'allineamento. Per Bowtie e Bowtie 2, non hai bisogno dei file FASTA originali dopo aver creato l'indice poiché Bowtie 1/2 può ricostruire la sequenza "al volo" dai file dell'indice.

HTH

Non so come ho fatto a perdere il download sulla homepage del papillon. Spero che questo aiuti qualcun altro!

ⓘ

Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.

a proposito - legalese