Domanda:
Quale software di ricerca di motivi è disponibile per sequenze multiple ~ 10Kb?
ShanZhengYang
2017-06-09 01:21:19 UTC
view on stackexchange narkive permalink

Ho circa ~ 3.000 brevi sequenze di circa ~ 10 KB. Quali sono i modi migliori per trovare i motivi tra tutte queste sequenze? C'è un certo software / metodo consigliato?

Ci sono diversi modi per farlo. Il mio obiettivo sarebbe:

(1) Verificare la presenza di motivi ripetuti all'interno di singole sequenze

(2) Verificare la presenza di motivi condivisi tra tutte le sequenze

(3) Verificare la presenza di motivi "attesi" o noti

Rispetto al n. 3, sono anche curioso di trovare ad es. sequenze trinucleotidiche, come si controlla il contesto intorno a queste regioni?

Grazie per i consigli / aiuto!

Cerchi motivi condivisi da tutte le sequenze? Motivi ripetuti in ogni sequenza? Cerchi la presenza di motivi specifici e noti?
"Cerchi motivi condivisi da tutte le sequenze? Motivi ripetuti in ogni sequenza?" Stavo cercando entrambi i motivi condivisi da tutte le sequenze e ripetuti in sequenze, ma in realtà sarebbe interessante controllare ogni sequenza per una sequenza ripetuta. "Cerchi la presenza di motivi specifici e noti?" No, ma sarebbe interessante esaminarlo in retrospettiva
OK, per favore [modifica] la tua domanda e assegna queste informazioni. I commenti sono facili da perdere, difficili da leggere e possono essere eliminati senza preavviso. I tre problemi (identificazione de-novo di motivi condivisi, identificazione de-novo di motivi ripetuti e rilevamento di motivi noti) sono diversi e ciascuno richiede il proprio approccio.
@terdon Certamente
Intendi 10kb in totale o 3000 sequenze, ciascuna di circa 10kb?
@CharlesE.Grant 3000 sequenze, ciascuna di circa 10kb di lunghezza
Cinque risposte:
Charles E. Grant
2017-06-14 00:28:20 UTC
view on stackexchange narkive permalink

Il sito web MEME Suite contiene una raccolta di strumenti per l'analisi dei motivi (sono uno dei manutentori). Contiene due strumenti di rilevamento dei motivi de novo: MEME e DREME. Vengono fornite applicazioni web pubbliche, ma puoi anche scaricare e creare strumenti da riga di comando per un'installazione locale.

Per il tuo primo obiettivo potresti utilizzare MEME e selezionare "Qualsiasi numero di modello di ripetizioni "(ANR). Per il secondo obiettivo, useresti MEME con il modello "Zero or One Occurrences Per Sequence" (ZOOPS). Per il tuo terzo obiettivo potresti utilizzare FIMO (Find Individual Motif Occurrences) e uno o più database di motivi forniti nella pagina di download del software e del database.

Suona come il tuo i dati della sequenza sono di circa 30 Mb. L'applicazione web MEME è limitata a 60kb di dati di sequenza, quindi dovresti installare una copia locale di MEME Suite. MEME impiegherebbe molto tempo per analizzare un database di sequenze da 30 Mb a meno che non si disponga di MPI configurato e di molti core disponibili. Potresti prendere in considerazione l'analisi di un sottoinsieme selezionato casualmente delle tue sequenze. Il tempo di esecuzione di MEME cresce come il cubo del numero di sequenze.

Per motivi brevi, potresti voler usare DREME invece di MEME. DREME è migliore di MEME nell'identificare motivi brevi, ma è limitato a motivi < = 8 posizioni di larghezza.

EMiller
2017-06-12 21:02:22 UTC
view on stackexchange narkive permalink

Dai un'occhiata a HOMER. "Software per la scoperta di motivi e analisi di sequenziamento di nuova generazione", è quello che il mio laboratorio utilizza attualmente per trovare motivi eRNA.

Modifica: per @ShanZhengYang "HOMER è stato progettato come un algoritmo di scoperta di motivi de novo ..." HOMER De Novo Motif

Si può fare la scoperta dei motivi de novo? In caso contrario, non sono del tutto sicuro di come creerei uno sfondo con questo modello.
@ShanZhengYang Vedi la mia modifica.
Grazie. Tuttavia non sono ancora sicuro, data la mia impostazione su come scegliere uno sfondo per Homer ...
Non l'ho mai usato per De Novo, quindi prendilo con le pinze, ma prova prima le impostazioni predefinite. Forse spara un'e-mail agli sviluppatori.
Per espandere il commento di @EMiller, per molti organismi modello, HOMER può trovare un modello di sfondo per te. Devi solo installare i file di supporto per il tuo organismo modello utilizzando configureHomer.pl
gringer
2017-06-09 07:19:01 UTC
view on stackexchange narkive permalink

Per (3), questa pagina ha molti collegamenti a strumenti di ricerca di pattern / motivi. Seguendo il link YMF in quella pagina, mi sono imbattuto nella sezione Motif Discovery dell'Università di Washington. Di queste proiezione sembrava essere l'unico strumento scaricabile. Trovo interessante quanti anni hanno tutti questi strumenti; forse l'introduzione di microarrays e NGS li ha resi tutti ridondanti.

Il tuo sotto-problema (2) sembra simile al problema che sto avendo con le sequenze del genoma Nippostrongylus brasiliensis , dove Mi piacerebbe trovare regioni di altissima omologia (lunghezza da 500 bp a 20 kb o più, 95-99% simili) che si ripetono in tutto il genoma. Queste sequenze stanno uccidendo l'assemblaggio.

Il modo principale per trovare queste regioni è guardare un diagramma di copertura di lunghe letture di nanopori mappate sul genoma assemblato (usando GraphMap o BWA). È probabile che tutte le regioni con una copertura sostanzialmente superiore alla mediana siano ripetizioni condivise.

In passato ho giocato a sminuzzare le letture a dimensioni più piccole, il che funziona meglio per raggiungere regioni ripetute più piccole che sono tali una piccola parte della maggior parte delle persone legge che non sono mai mappate su tutte le posizioni ripetute. Ho scritto il mio script qualche tempo fa per sminuzzare le letture (per uno scopo diverso), il che produce un file FASTA / FASTQ in cui tutte le letture hanno esattamente la stessa lunghezza. Per qualche motivo sconosciuto mi sono preso il tempo di documentare quello script "correttamente" usando POD, quindi ecco un breve riassunto:

Converte tutte le sequenze nel file FASTA di input alla stessa lunghezza. Le sequenze più corte della lunghezza target vengono eliminate e le sequenze più lunghe della lunghezza target vengono suddivise in sottosequenze sovrapposte che coprono l'intero intervallo. Questo prepara le sequenze per l'uso in un assemblatore di consenso sovrapposto che richiede sequenze di lunghezza costante (come edena).

Ed ecco la sintassi:

  $ ./normalise_seqlengths.pl -hUsage:
./normalise_seqlengths.pl <reads.fa> [opzioni] Opzioni: -help Visualizza solo questo messaggio di aiuto -fraglength Lunghezza del frammento target (in coppie di basi, predefinito 2000) -overlap Lunghezza minima di sovrapposizione (in coppie di basi, predefinito 200) -short Mantieni sequenze brevi (più brevi di fraglength)  
Kristoffer Vitting-Seerup
2017-06-09 14:41:26 UTC
view on stackexchange narkive permalink

La maggior parte degli strumenti che conosco cerca l'arricchimento di motivi specifici, ma ciò richiede che tu abbia una serie di sequenze di particolare interesse e uno sfondo su cui testare.

È questo il tuo caso?

Aggiornamento dopo i commenti 12 giugno 2017.

Potresti provare la suite di meme più specificamente il cercatore di motivi

Ciao Kristoffer Vitting-Seerup, grazie per il tuo commento e benvenuto in Bioinformatics Stack Exchange. Apprezziamo qualsiasi commento come questo che aiuti le persone a fare domande migliori. Ho contrassegnato la tua risposta come "non una risposta" perché penso che dovrebbe essere aggiunta come commento alla domanda (cosa che non puoi fare da solo finché non raggiungi una reputazione di 50).
Salve, sì, questo sarebbe un commento migliore alla domanda originale. Questo è lo stile SO. Per quanto riguarda la tua domanda, non ho impostato uno sfondo
galicae
2017-06-09 15:20:12 UTC
view on stackexchange narkive permalink

è in fase di sviluppo, ma forse BaMMmotif! è qualcosa per te? Il suo principale punto di forza è che può cercare motivi arricchiti in un insieme di sequenze di uguale lunghezza de novo . Se non puoi / non vuoi fornire un set negativo, lo impara dalle sequenze positive. C'è una vasta gamma di opzioni tra cui scegliere se hai più informazioni sulle tue sequenze: ci sono diversi modelli per "zero o uno", "uno" e "più" occorrenze del motivo.

Puoi usalo anche per cercare motivi noti, se li codifichi come XXmotif PWM. Se hai un file con motivi (come i siti di binding) puoi usarlo anche come inizializzazione.

Anche se non ho usato il software da solo, gli autori sono molto reattivi su git e le istruzioni di installazione sembrano carine semplice.

EDIT: Apparentemente il software è stato sviluppato con esperimenti ChIP come il solito scenario di utilizzo, potrebbe comportarsi male per sequenze più grandi o richiedere molto tempo per l'esecuzione.

Ciao galicae, grazie per la tua risposta e benvenuto in Bioinformatics Stack Exchange. La tua risposta è un po 'breve e potrebbe richiedere qualche spiegazione in più. Potresti aggiungere qualche informazione in più nella tua risposta su BaMMmotif? È uno strumento che hai usato prima? Questo sarebbe un programma appropriato per trovare nuovi motivi condivisi, motivi ripetuti all'interno della stessa sequenza o motivi noti?
@gringer abbastanza giusto, modificato.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...