Domanda:
Avere motivi del DNA lunghi 6-12 punti base, cercando di ottenere punteggi di conservazione
Eric Brenner
2017-05-31 02:18:08 UTC
view on stackexchange narkive permalink

Ho circa 200 motivi nucleotidici corti (6-12 bp di lunghezza) dal genoma umano e sto cercando di vedere quanto sono conservati nei vertebrati.

Stavo pensando che avrei bisogno di fare una lima per ogni motivo che elenca tutte le sue occorrenze nel genoma umano. Da lì, ho potuto mappare i letti su file bigwig di partiture PhastCons (essenzialmente facendo il contrario di ciò per cui è stato progettato il software PhastCons). Sembra l'approccio migliore?

Non riesco a passare dai motivi alle cartelle del letto. Ho provato a utilizzare BLAST per trovare tutte le occorrenze di motivi, ma la loro breve lunghezza sta causando problemi.
Ho provato a modificare la soglia del valore elettronico, la dimensione della parola e i parametri del filtro, ma non riesco ancora a ottenere eventuali risultati.

Esiste una soluzione per questo problema o dovrei semplicemente ripensare al mio intero approccio?

Ho fatto qualcosa di simile, ma con un elenco di n-meri ben definiti invece di "motivi", tutti con lo stesso valore di n. Nel caso in cui questo possa essere di qualche aiuto, il codice che ho usato per fare il file del letto è il seguente: https://bitbucket.org/blaiseli/conservation_mirna_targets/src/20b7a0894b957e69912f637ef2d0493779036029/trie.py?at=master&fileviewer=file default Il codice potrebbe non essere super efficiente in termini di memoria.
Tre risposte:
#1
+7
BaCh
2017-05-31 02:53:31 UTC
view on stackexchange narkive permalink

Nel caso in cui tu abbia solo ACGT nei tuoi motivi

I motivi brevi fanno sembrare che tu stia cercando un contatore kmer. Puoi scegliere di utilizzare il software esistente o crearne uno tuo.

  1. L'utilizzo del software esistente potrebbe essere il percorso più semplice. Un vecchio post del 2014 probabilmente ti darà una prima idea di cosa c'è là fuori: http://homolog.us/blogs/blog/2014/04/07/kmer-counting-a-2014-recap/. Nota che un paio di algoritmi menzionati hanno dei successori, quindi vale la pena scavare un po 'in giro. La dimensione ridotta dei kmer renderà la maggior parte utilizzabile per le tue esigenze.
  2. Poiché la dimensione massima dei tuoi kmer è relativamente piccola (12 nt richiedono 24 bit, ovvero un massimo di 16,7 milioni di voci nella tabella kmer) dovresti essere in grado di far scorrere facilmente il tuo kmer contando in qualsiasi lingua che ti piace e su qualsiasi computer al giorno d'oggi. La sezione dello pseudocodice nella voce Wikipedia per kmers ti fornirà i primi suggerimenti per questo. Potrebbe essere un po 'più di lavoro, ma forse più flessibile a seconda delle tue esigenze.

Nel caso in cui tu abbia basi IUPAC (N, W, ecc.) Nei tuoi motivi

Non conosco alcun software preesistente che faccia quello che ti serve. Potrei immaginare che i motivi brevi rendano possibile l'utilizzo di espressioni regolari per questo tipo di ricerca, ma potrei sbagliarmi. Testare questo dovrebbe essere facile con un semplice script poiché tutti i principali linguaggi di programmazione hanno moduli o librerie per le RE. Anche se l'esecuzione del set di dati dovesse richiedere un paio d'ore, sarebbe sufficiente per un calcolo una tantum.

#2
+3
rightskewed
2017-05-31 03:46:53 UTC
view on stackexchange narkive permalink

Per scansionare i motivi in ​​un genoma (o database) userei FIMO che ti darà le posizioni esatte di questi motivi nel tuo genoma.

Una volta che hai le posizioni , puoi utilizzare un phastCons bigiwig da UCSC per calcolare i punteggi di conservazione in base alla base. Tuttavia, tieni presente che i punteggi di phastCons vengono smussati tra le finestre e potrebbe non essere la metrica migliore se stai cercando di confrontare i livelli di conservazione nei siti di corrispondenza dei motivi rispetto alle sequenze che li fiancheggiano. p>

Ho scritto un pacchetto qualche tempo fa per farlo, incluso il rilevamento de-novo dei motivi. Tuttavia, potrebbe essere eccessivo per il tuo caso d'uso.

In realtà ho già usato FIMO, ma per confrontare i motivi con i PWM (da JASPAR). Potrebbe essere una domanda stupida, ma è abbastanza facile confrontare con un genoma piuttosto che con un database di PWM?
@EricBrenner Puoi semplicemente caricare un file di sequenza nella versione web.
#3
+1
Alex Reynolds
2018-03-07 06:10:38 UTC
view on stackexchange narkive permalink

Per quanto riguarda i siti di legame dei fattori di trascrizione, nei nostri articoli abbiamo utilizzato dati di conservazione phyloP per base invece di punteggi phastCons uniformi.

Usiamo la mappa del letto di BEDOPS per mappare i punteggi su più siti di rilegatura imbottiti (in formato BED) per un dato modello di motivo. I punteggi phyloP sono file WIG ottenuti da UCSC goldenpath e convertiti in BED tramite wig2bed.

La matrice risultante degli intervalli dei siti di legame e dei loro punteggi per base possono essere trasformati in una classifica mappa termica o aggregata per determinare la conservazione media per base per un modello motivo.

Mentre i siti di binding TF mostrano innatamente un elevato contenuto di informazioni e quindi un'elevata conservazione, le matrici possono essere ulteriormente ordinate in base alle mappe di punteggio della densità dei tag ChIP-seq o DNaseI-seq.

Questo può aiutare a filtrare modelli interessanti a basso rumore e segnale alto ed è utile quando la matrice ha una finestra e la finestra include regioni a bassa informazione con pochi residui ad alta informazione al di fuori del motivo principale - come nel caso di CTCF, ad esempio.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...