Per (3), questa pagina ha molti collegamenti a strumenti di ricerca di pattern / motivi. Seguendo il link YMF in quella pagina, mi sono imbattuto nella sezione Motif Discovery dell'Università di Washington. Di queste proiezione sembrava essere l'unico strumento scaricabile. Trovo interessante quanti anni hanno tutti questi strumenti; forse l'introduzione di microarrays e NGS li ha resi tutti ridondanti.
Il tuo sotto-problema (2) sembra simile al problema che sto avendo con le sequenze del genoma Nippostrongylus brasiliensis , dove Mi piacerebbe trovare regioni di altissima omologia (lunghezza da 500 bp a 20 kb o più, 95-99% simili) che si ripetono in tutto il genoma. Queste sequenze stanno uccidendo l'assemblaggio.
Il modo principale per trovare queste regioni è guardare un diagramma di copertura di lunghe letture di nanopori mappate sul genoma assemblato (usando GraphMap o BWA). È probabile che tutte le regioni con una copertura sostanzialmente superiore alla mediana siano ripetizioni condivise.
In passato ho giocato a sminuzzare le letture a dimensioni più piccole, il che funziona meglio per raggiungere regioni ripetute più piccole che sono tali una piccola parte della maggior parte delle persone legge che non sono mai mappate su tutte le posizioni ripetute. Ho scritto il mio script qualche tempo fa per sminuzzare le letture (per uno scopo diverso), il che produce un file FASTA / FASTQ in cui tutte le letture hanno esattamente la stessa lunghezza. Per qualche motivo sconosciuto mi sono preso il tempo di documentare quello script "correttamente" usando POD, quindi ecco un breve riassunto:
Converte tutte le sequenze nel file FASTA di input alla stessa lunghezza. Le sequenze più corte della lunghezza target vengono eliminate e le sequenze più lunghe della lunghezza target vengono suddivise in sottosequenze sovrapposte che coprono l'intero intervallo. Questo prepara le sequenze per l'uso in un assemblatore di consenso sovrapposto che richiede sequenze di lunghezza costante (come edena).
Ed ecco la sintassi:
$ ./normalise_seqlengths.pl -hUsage:
./normalise_seqlengths.pl <reads.fa> [opzioni] Opzioni: -help Visualizza solo questo messaggio di aiuto -fraglength Lunghezza del frammento target (in coppie di basi, predefinito 2000) -overlap Lunghezza minima di sovrapposizione (in coppie di basi, predefinito 200) -short Mantieni sequenze brevi (più brevi di fraglength)