Errore di Python di sovrapposizione dell'intervallo con le regioni genomiche

novicebioinforesearcher

2017-06-21 00:26:57 UTC

view on stackexchange narkive permalink

Ho due file

  s3.txt: 1 10201 5 202 20 302 25 301 10502 20601 14 17s4.txt: 1 10 202 20 30

Sto cercando di abbinare col0 di entrambi i file e ottenere righe che rientrano nell'intervallo (compreso di se stesse) 10-20 e 20-30 come si vede nel file s4. file s4 ha coordinate che possono essere utilizzate come intervallo di riferimento (inizio e fine crom) e s3 ha un elenco di coordinate da una condizione sperimentale, ciò che sto cercando di ottenere è a quali coordinate dal mio file s3 cadono su o tra le mie coordinate di riferimento in s4.

codice fino ad ora:

  Contain_ranges = [] con open ('s4.txt', 'r') come f: for line in f: fields = line. strip (). split ('\ t') contenente_ranges.append (campi) intervallo_estato = [] con open ('s3.txt', 'r') come f: per riga in f: fields = line.strip (). split ('\ t') intervallo_estato.append (campi) per intervallo_c in intervallo_contenente: per intervallo_t in intervallo_stato: tst = int (intervallo_t [1]) ten = int (intervallo_t [2]) cst = int (intervallo_c [1]) cen = int (c_range [2]) if c_range [0] == t_range [0]: included = cst > = tst and cen < = ten if included == True: print t_range

Output con riga mancante (1 14 17):

  ['1', '10', '20'] ['1', '5', '20'] ['1 "," 10 "," 50 "] [" 2 "," 20 "," 30 "] [" 2 "," 20 "," 60 "]

Output desiderato:

  1 10 202 20 302 25 301 14 17

Non so se la mia logica è sbagliata e perché manca 14-17 come ho t è compreso tra 10-20

  [EDIT] utilizzando pybedtools>>> print (s4.intersect (s3, wb = True)) 1 10 20 1 10201 10 20 1 5201 10 20 1 10501 14 17 1 14172 20 30 2 20302 25 30 2 25302 20 30 2 20 60>>> print (s4.intersect (s3, wa = True, wb = True, F = 1)) 1 10 20 1 10201 10 20 1 14172 20 30 2 20 30
2 20 30 2 25 30usando bedops bin $ less answer. Bed 1 5201 10201 10501 14172 20302 20602 25 30usando codice @bli (su python2.7) ('1', 10, 20) ('1' , 14, 17) ('2', 20, 30) ('2', 25, 30) perché non riesco a vedere l'intervallo 1 5 20

Che risultato ottieni con `bedops --element-of`?

Porta le tue domande sulla logica / codifica a Stack Overflow. La relazione tra la tua domanda e il tema della bioinformatica è puramente casuale.

@RobertC Se OP aggiunge un tag "bed", questa domanda apparirà immediatamente come una domanda di bioinformatica. Inoltre, guarda le risposte. È molto più probabile che OP ottenga risposte così precise qui. Questa domanda potrebbe essere migliorata di sicuro, ma non è fuori tema.

Usa solo le sponde del letto, come indicato. L'uso di wrapper per strumenti da riga di comando è raramente un sostituto per l'apprendimento degli strumenti.

Puoi aggiungere più storia / contesto intorno a questa domanda? Ha l'aspetto di una pura questione di programmazione (presumibilmente perché è stato contrassegnato come fuori tema). Sarebbe bello se potessi spiegare cosa significano i diversi numeri e perché vuoi farlo.

Dovresti usare nomi più significativi per le tue variabili. Renderebbe il codice più facile da leggere, per gli altri ma anche per te.

Sembra che tu voglia gli intervalli da `s3.txt` (" intervalli testati ") che sono inclusi in un intervallo in` s4.txt` ("intervalli contenenti"). In questo caso, penso che il tuo errore sia nel confronto delle coordinate di inizio e fine. Notiamo `t_start` e` t_end` le coordinate dell'intervallo testato e `c_start` e` c_end` le coordinate dell'intervallo contenente. Quello che vuoi è `c_start <= t_start e t_end <= c_end`.

Ho modificato la tua domanda per utilizzare nomi di variabili più significativi e ho anche rimosso "1 5 20" dall'output previsto: Se ho capito correttamente, questo non è quello che vuoi perché non è incluso in nessuno degli intervalli definiti in "s4 .txt`

Non posso pubblicare una risposta poiché la tua domanda è "in attesa", ma ecco una versione corretta (si spera) del tuo codice, con piccoli miglioramenti nello stile di codifica e utilizzando python3: http://paste.ubuntu.com/24915950 /Spero che questo possa essere d'aiuto.

ohh sono stato via per un po ', tanti suggerimenti grazie a tutti. modificherà il mio post una volta che avrò esaminato ciascuno dei tuoi suggerimenti

@AlexReynolds ha aggiunto la risposta

@bli grazie per aver ripulito il codice aggiunto risposta

Dici "quali coordinate dal mio file s3 ricadono su o tra le mie coordinate di riferimento in s4". Se lo interpreto correttamente, significa che accetti anche sovrapposizioni parziali, non solo inclusioni complete. Quindi l'output desiderato dovrebbe essere tutti gli intervalli in s3 e non l'elenco limitato che ho erroneamente corretto.

@novicebioinforesearcher Sembra che "bedops" sia riuscito a trovare l'intervallo mancante. Se hai bisogno di gestire le etichette dei filamenti nella sesta colonna (secondo le specifiche BED), puoi dividere un file BED per filamento tramite `awk '$ 6 ==" + "' in.bed> in.forward.bed` e` awk '$ 6 == "-"' in.bed> in.reverse.bed`, quindi eseguire operazioni di impostazione su ciascuno dei file di suddivisione in trefoli. Se hai bisogno di ricostruire un file alla fine, usa `bedops -u` per fare un'unione multiset di tutti i file BED di input.

#! / usr / bin / env python3ref_intervals = [] with open ("s4.txt", "r") come f: per la riga in f: (chr, start, end) = line.strip (). split ("\ t") ref_intervals.append ((chr, int (start), int (end))) exp_intervals = [ ] con open ("s3.txt", "r") come f: for line in f: (chr, start, end) = line.strip (). split ("\ t") exp_intervals.append ((chr, int (inizio), int (fine))) contenuto = [] sovrapposizione = [] for (r_chr, r_start, r_end) in ref_intervals: for (e_chr, e_start, e_end) in exp_intervals: if e_chr == r_chr: if r_start < = e_start < r_end o r_start < e_end < = r_end: overlapping.append ((e_chr, e_start, e_end)) if r_start < = e_start < e_end < = r_end: contained.append ((e_chr, e_start, e_end)) print ("overlapping") for (chr, start, end) in overlapping: print (chr, start, end, sep = "\ t") print ("contenuto") per (chr, start, end) in contenuto: print (chr, start, end, sep = "\ t")

import subprocess ... try: result = subprocess.check_output ("bedops --element-of 1% s% s >% s"% (set_a_fn, set_b_fn, answer_fn ), shell = True) eccetto subprocess.CalledProcessError come err: raise SystemExit ("Could not run bedops \ n") # fa cose con 'result'

importa panda come pd da io import StringIOimport pyranges come prc1 = "" "1 10 201 5 202 20 302 25 301 10 502 20 601 14 17" "" c2 = "" "1 10 202 20 30" "" colonne = "Chromosome Start End" .split () df1 = pd.read_table (StringIO (c1), sep = "\ s +", header = Nessuno, nomi = colonne) df2 = pd.read_table (StringIO (c2), sep = "\ s +", intestazione = Nessuno, nomi = colonne) gr1 = pr.PyRanges (df1) gr2 = pr.PyRanges (df2) print (gr1.intersect (gr2, how = "contenimento"))

+ -------------- + ----------- + ----- ------ + | Cromosoma | Inizio | Fine || (categoria) | (int32) | (int32) || -------------- + ----------- + ----------- || 1 | 10 | 20 || 1 | 14 | 17 || 2 | 20 | 30 || 2 | 25 | 30 | + -------------- + ----------- + ----------- + L'oggetto PyRanges non incagliato ha 4 righe e 3 colonne da 2 cromosomi. Per la stampa, i PyRanges sono stati ordinati su Chromosome.

Riguardo al tuo codice Python