Domanda:
Un modo per ottenere sequenze genomiche a determinate coordinate senza scaricare prima i file fasta di interi cromosomi / genomi?
Eric Brenner
2017-09-20 07:22:25 UTC
view on stackexchange narkive permalink

Quindi ho un elenco di posizioni di inizio e fine lungo i cromosomi in specie diverse e vorrei ottenere la sequenza di DNA corrispondente per ogni serie di coordinate. In passato, ho appena scaricato il genoma come file fasta e quindi ho usato pyfaidx per estrarre le sequenze nelle posizioni date. Ma ora che sto lavorando con diverse specie contemporaneamente, mi chiedevo se in Python o R esista qualche tipo di strumento in grado di recuperare le tue sequenze di interesse senza scaricare un mucchio di file di grandi dimensioni. Grazie

Si prega di non cross-post su BioStars e Stack Exchange https://www.biostars.org/p/273588/
@Emily_Ensembl sarebbe fantastico se potessi arricchire la tua risposta da BioStars in modo che possa essere pubblicata come risposta qui! Magari con un semplice esempio come quello che ha fatto Pierre di seguito?
Due risposte:
Pierre
2017-09-20 12:27:02 UTC
view on stackexchange narkive permalink

usando una richiesta http.

se c'è un server DAS, puoi sempre usare questo protocollo per scaricare xml -> fasta. vedi https://www.biostars.org/p/56/

  $ curl -s "http://genome.ucsc.edu/cgi-bin / das / hg19 / dna? segment = chrM: 100,200 "| xmllint --xpath '/ DASDNA / SEQUENCE / DNA / text ()' - | tr -d '\ n'ggagccggagcaccctatgtcgcagtatctgtctttgattcctgcctcattctattatttatcgcacctacgttcaatattacaggcgaacatacctacta  

o usa l'utilità UCSC twoBitToFa che funziona con file remoti.

numero di accesso è possibile utilizzare le utilità elettroniche con seq_start e seq_end.
  $ wget -q -O - "https://eutils.ncbi.nlm.nih.gov/entrez/eutils/ efetch.fcgi db = nuccore&id = AE014134.1&seq_start = 100&seq_stop = 300&rettype = fasta ">AE014134.1:? 100-300 Drosophila melanogaster cromosoma 2L completa sequenceTGCCAACATATTGTGCTCTTTGATTTTTTGGCAACCCAAAATGGTGGCGGATGAACGAGATGATAATATATTCAAGTTGCCGCTAATCAGAAATAAATTCATTGCAACGTTAAATACAGCACAATATATGATCGCGTATGCGAGAGTAGTGCCAACATATTGTGCTAATGAGTGCCTCTCGTTCTCTGTCTTATATTACCG  
Daniel Standage
2017-09-20 07:56:06 UTC
view on stackexchange narkive permalink

Non sono a conoscenza di alcuno strumento che offra questa funzionalità pronta all'uso, anche se ciò non significa necessariamente che non esista.

lo strumento che descrivi dovrebbe essere una sorta di servizio web, in cui invii una richiesta con qualcosa di simile al seguente:

  • specie
  • versione assembly
  • elenco di intervalli, ciascuno con:
    • ID cromosoma
    • posizione iniziale
    • posizione finale

La risposta sarebbe una o più sottosequenze in formato Fasta che potresti salvare in un file.

Questo approccio presuppone che ci sarà un numero relativamente piccolo di sottosequenze, che quelle sottosequenze hanno vinto " Non essere troppo grande e non li richiederai molto spesso. Altrimenti, questo approccio offrirà pochissimi vantaggi pratici rispetto al tuo approccio attuale.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...