Domanda:
Esistono alternative RepBase per le annotazioni di elementi di ripetizione dell'intero genoma?
Konrad Rudolph
2017-06-01 16:11:10 UTC
view on stackexchange narkive permalink

Sto usando le librerie RepBase insieme a RepeatMasker per ottenere annotazioni di elementi ripetuti a livello di genoma, in particolare per elementi trasponibili.

Funziona abbastanza bene e sembra per essere lo standard de facto nel campo.

Tuttavia, ci sono due problemi con l'uso di RepBase, motivo per cui io (e altri) abbiamo cercato alternative (finora senza successo):

  1. RepBase non è dati aperti. Il loro contratto di licenza accademica include una clausola che vieta esplicitamente la diffusione di dati derivati ​​da RepBase . Non è chiaro in che misura ciò sia vincolante / applicabile, ma impedisce efficacemente la pubblicazione di almeno alcuni dei dati che sto utilizzando e generando. Questo è inaccettabile per l ' scienza aperta.

    • Subordinato a questo, il modello di sottoscrizione di RepBase rende anche impossibile integrare RepBase in pipeline completamente automatizzate, perché è richiesta l'interazione dell'utente per iscriversi a RepBase e fornire le credenziali di accesso.
  2. RepBase è fortemente curato manualmente. Questo è sia bene che male. Bene, perché la cura manuale dei dati di sequenza è spesso la forma più affidabile di cura. D'altro canto, la cura manuale è intrinsecamente parziale; e peggio ancora, è difficile quantificare questo pregiudizio: questo è riconosciuto dai manutentori di RepBase.

Chiedevi solo di librerie di ripetizioni definite? L'ho interpretato in modo leggermente più ampio come sugli strumenti utilizzati per costruire anche le librerie (che diventa rilevante quando vengono sequenziati i genomi di nuovi taxa)
@Chris_Rands Entrambi (librerie e strumenti). La tua risposta è perfetta.
L'obiettivo è costruire la libreria annotata di ripetizioni o mascherare parti ripetitive di un genoma?
@KamilSJaron Sto lavorando con i TE, quindi ho bisogno della libreria annotata, non (semplicemente) una sequenza mascherata ripetuta.
Ouch, ma per i TE solo un sottoinsieme di regioni ripetitive, ci sono strumenti specializzati per annotarli (come [DNApipeTE] (https://github.com/clemgoub/dnaPipeTE) e [REPET] (https: //urgi.versailles. inra.fr/Tools/REPET)). Forse potresti specificarlo nella domanda.
@KamilSJaron Bello, e potrebbe valere la pena rispondere. Aggiornerò anche la domanda. Detto questo, chiedo anche elementi ripetitivi oltre i TE.
Inoltre sei sicuro che RepBase sia contrario alle pubblicazioni che derivano informazioni in base ai loro dati? Potrebbe essere che semplicemente non vogliono che tu condivida i dati grezzi e i file che forniscono. Dal momento che hanno un buon numero di citazioni in diversi campi: https://scholar.google.de/scholar?um=1&ie=UTF-8&lr&cites=11574259945967474319
@story Lo dicono letteralmente nell'accordo utente accademico a cui mi collego. Ecco la citazione pertinente: "Accetti di NON rendere Repbase (o qualsiasi parte di esso, inclusi Repbase Reports, Repeat Maps ** e altri materiali derivati, modificati o meno **) a disposizione di chiunque al di fuori del tuo gruppo di ricerca". Enfasi mia. In effetti, un'altra clausola dell'accordo tecnicamente mi vieta persino di firmarlo perché il mio istituto richiede la deposizione di dati pubblici, quindi probabilmente non sono autorizzato a firmare tali accordi ".
Sì, questo sembra essere d'accordo con la mia dichiarazione precedente. Immagino che il mio punto sia esattamente cosa avevi bisogno di condividere (in base al tuo post originale) che sarebbe stato considerato dal loro database? Sento che questo non includerebbe il conteggio delle funzionalità, ma le sequenze potrebbero essere un problema.
@story Ho bisogno di condividere potenzialmente tutti i dati che sono stati utilizzati / generati nella mia analisi. Ciò include in particolare l'annotazione di ripetizione specifica che ho usato, derivata da RepBase, nonché i dati potenzialmente di sequenza da queste ripetizioni.
Questa potrebbe essere una vecchia domanda, ma qualcuno sta cercando di creare un'alternativa nuova, aperta, a repBase (che nevico diventerà completamente commerciale), o almeno è così che la percepisco: https://twitter.com/ TransposableMan / status / 1060519887897067521
Sei risposte:
#1
+12
Konrad Rudolph
2017-06-01 17:15:48 UTC
view on stackexchange narkive permalink

Dfam ha recentemente lanciato una risorsa sorella, Dfam_consensus , il cui scopo dichiarato è sostituire RepBase. Dall'annuncio:

Dfam_consensus fornisce un framework aperto per la comunità per memorizzare sia gli allineamenti seed (più allineamenti di istanze per una data famiglia) che il corrispondente modello di sequenza di consenso.

Sia RepeatMasker che RepeatModeler sono stati aggiornati per supportare Dfam_consensus.

Non l'ho ancora provato ma sembra promettente.

#2
+6
Jens Bast
2017-06-27 13:06:22 UTC
view on stackexchange narkive permalink

Per le librerie TE reliabe preesistenti è un po 'un pasticcio, perché non tutti depositano le librerie TE specifiche della specie in un database come RepBase. E per quanto ne so DFAM contiene solo risorse umane, o mi sbaglio?

Per quanto riguarda la generazione de novo di librerie TE specie-specifiche (che dovrebbe essere fatta per qualsiasi specie non è già presente ad es. RepBase): non esiste un "gold standard" su come affrontarlo al meglio. In linea di principio si deve pensare a due parti principali: ripetere rilevamento-annotazione

Per ripetere rilevamento Suggerirei di utilizzare una combinazione di due cose (che è necessaria, perché le copie TE potrebbero mancare negli assiemi poiché le regioni ripetitive tendono ad essere difficili da assemblare e gettare via nell'assemblaggio finale).

I) Ripetere il rilevamento da letture grezze (come ad esempio DNApipeTE o tedna o RepeatExplorer). Per me, DNAPipeTE ha funzionato abbastanza bene, ma tutto ha pro e contro.II) Ripetere il rilevamento dagli assembly (come ad esempio REPET o come menzionato prima di RepeatModeler)

Quindi l ' annotazione di anche queste ripetizioni sono complicate, perché la maggior parte dei metodi si basa sull'omologia tra i TE de novo e gli TE di alcune specie (probabilmente lontane) imparentate. Ma alcuni programmi tengono conto anche della struttura (come REPCLASS). REPET può eseguire sia il rilevamento che l'annotazione, ma è difficile arrivare a correre.

Consiglierei di utilizzare alcuni programmi per eseguire il rilevamento di ripetizioni de novo sulla tua specie di interesse sia sulle letture grezze che sull'assemblaggio, raggruppando queste librerie insieme (ad esempio uclust e identità al 95%) e quindi eseguire un'annotazione con l'omologia e l'identificazione strutturale.

Probabilmente i programmi non ti daranno TE completi, a lunghezza intera ma piuttosto sequenze di consenso di diverse copie dalle famiglie TE. Se vuoi, puoi cercare tutte le copie di una famiglia, estrarle dai contigui più i confini e allinearle manualmente e curare i confini manualmente. Quindi estendi i confini se non colpisci le regioni circostanti (non allineabili) o punti di riferimento di TE come LTR o TIR o così. Ma questo richiede molto tempo se, ad esempio, si desidera confrontare solo l'abbondanza di TE tra le specie, non lo farei e piuttosto confrontare l'abbondanza utilizzando la copertura di lettura (come in Bast et al. 2016). Dipende tutto dalle domande che vuoi porre.

#3
+4
Chris_Rands
2017-06-01 17:09:58 UTC
view on stackexchange narkive permalink

Potresti usare RepeatScout, che ha definito le librerie di ripetizione per un numero limitato di specie (inclusi umani, topi e ratti). Se il tuo taxon non è rappresentato, puoi anche eseguire una previsione di ripetizione de novo con RepeatScout per creare la tua libreria da alimentare a RepeatMasker. La pubblicazione RepeatScout include alcuni confronti con RepBase. Un altro strumento correlato è RepeatModeler, che racchiude RepeatScout con RECON e alcuni altri programmi e condivide gli autori con il team di RepeatMasker.

Sul lato positivo di RepeatScout / RepeatModeler sono open source e non utilizzano la cura manuale, soddisfacendo i tuoi criteri. In negativo, non sono sicuro di come vengano mantenuti RepeatModeler e gli strumenti dei componenti. Le pagine web e github di RepeatScout non sono state aggiornate da diversi anni, anche se la pagina RepeatModeler mostra che la sua ultima versione è stata nel 2017. Comunque, so che alcune combinazioni di RepeatScout / RepeatModeler sono state utilizzate per annotare le ripetizioni per alcuni abbastanza recenti genomi appena sequenziati, ad es per ciclidi, celacanto e fringuello di Darwin, quindi penso sia giusto dire che questo tipo di approccio è accettato sul campo, almeno per progetti sul genoma dei vertebrati.

#4
+4
matt
2019-02-27 22:17:14 UTC
view on stackexchange narkive permalink

AFAIK Dfam e Repbase sono attualmente le due migliori fonti di (una varietà di) sequenze TE.

Nelle mie annotazioni sul genoma ho usato RepeatModeler + RepeatMasker e successivamente Repbase + tblastx e Dfam + nhmmer per classificarli.

Il processo di classificazione nella mia pipeline PhyLTR ( https://github.com/mcsimenc/PhyLTR) è basato su Dfam e Repbase. Il processo che ho utilizzato per l'identificazione LTR è

  1. ID putativo con LTRHarvest (in base alle caratteristiche della sequenza strutturale)
  2. Classificazione per omologia a Repbase e Dfam
  3. Rimozione di elementi senza omologia con sequenze in Repbase o Dfam.

Ciò si traduce in un insieme di LTR-R che sono a lunghezza intera e hanno la prova che sono LTR-R.

#5
+3
AntiSocialBehaviourOrder
2017-12-14 12:52:14 UTC
view on stackexchange narkive permalink

+1 per aver sollevato problemi con RepBase.

Utilizzo le annotazioni da le GTF di Hammell Lab che hanno pubblicato con TEtoolkit. È simile a quello che hai descritto di utilizzare, quindi questa potrebbe essere una risposta ridondante e inutile, ma dagli scavi che ho fatto sembrano essere completi e ben curati (per Drosophila, almeno).

#6
+1
jpalmer
2018-06-25 21:59:09 UTC
view on stackexchange narkive permalink

So che questa domanda è un po 'vecchia, ma questo è ancora un problema per molti ricercatori che non sono in grado di accedere a RepBase. Sembra ora che la versione più recente di RepeatMasker dipenda da RepBase per la piena funzionalità se maschera qualcosa di diverso dall'essere umano (attualmente DFAM ha solo modelli umani). Recentemente ho scoperto un approccio di mascheramento ripetuto de novo chiamato REpeat Detector (rosso). Questa potrebbe essere una soluzione per alcuni che cercano di mascherare le ripetizioni su un assemblaggio del genoma per l'annotazione. Il documento è qui. Ho anche scritto un wrapper attorno a Red per rendere un po 'più facile mascherare un genoma, che puoi trovare qui.

Uno dei limiti con Red è che le ripetizioni non sono classificate, quindi vengono solo identificate. Dovresti usare alcuni degli altri strumenti sopra menzionati per provare a classificarli.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...