Domanda:
Come trasferire le annotazioni gff nel genoma con ampie duplicazioni?
scalefreegan
2017-05-31 16:01:10 UTC
view on stackexchange narkive permalink

I genomi microbici possono contenere ampie duplicazioni. Spesso vorremmo trasferire le annotazioni da una specie annotata a una che è stata appena sequenziata.

Gli strumenti esistenti (ad esempio RATT, LiftOver, Kraken) fanno ipotesi specifiche su quanto strettamente correlate le specie sono o non riescono a trasferire quando vengono trovate più corrispondenze nel nuovo genoma, specialmente se le sequenze sono molto simili.

Nello specifico, ho un'applicazione di biologia sintetica in cui i geni possono duplicarsi ampiamente. Sono identici in sequenza ma duplicati molte volte e possono essere riposizionati (cioè, non solo adiacenti l'uno all'altro). Nessuno degli strumenti sopra menzionati è in grado di trasferire le coordinate delle annotazioni a genomi con più copie di caratteristiche.

Esistono strumenti o software preesistenti che trasferiscono le annotazioni in questo scenario? Idee per modi per farlo in modo efficace?

Potete fornire maggiori dettagli? Qual è il tuo input (ad esempio letture grezze, assembly, frame di lettura aperta)? che tipo di sequenziamento? qual è l'output esatto che desideri? «Non sono sicuro di aver capito il tuo punto di vista sulle ipotesi. Inoltre, LiftOver e Kraken sono strumenti completamente diversi con usi diversi
Questo sarebbe anche teoricamente possibile? Come puoi presumere che le annotazioni siano trasferibili se ci sono duplicazioni estese? Probabilmente è meglio cercare invece gli omologhi.
@terdon intendi ortologhi? omologhi = ortologhi (non duplicati) + paraloghi (duplicati)
@Chris_Rands No, intendevo gli omologhi. Proprio perché non possiamo sapere se sono orto- o para- (ho un bel post sulla differenza tra i due [qui] (https://biology.stackexchange.com/a/4964/1306), del modo), quindi tutto ciò che puoi fare prima è trovare gli omologhi e poi provare a capire se sono abbastanza simili da riportare eventuali annotazioni.
@terdon Vedo che una buona risoluzione di orthologs / paralogs non è facile ovviamente, ma può essere fatta, a seconda dei dati esatti (non so come siano i dati dell'OP), ad esempio alcuni dei miei colleghi mantengono orthodb http: / /www.orthodb.org/
Oh, certo che si può fare! Il punto era che la ricerca di regioni di omologia (di qualsiasi tipo) sembra un modo migliore per trasferire le annotazioni rispetto al tentativo di tradurre le coordinate genomiche tra genomi di specie diverse.
-1
@terdon: distinguere tra tipo / origine dell'omologia andrebbe oltre lo scopo di ciò che vorrei ottenere, ma la differenza è importante come fai notare. Giusto anche dire che sarebbe meglio trasferire regioni omologhe più piccole, soprattutto per specie divergenti. Cordiali saluti sull'applicazione: ho un'applicazione syn bio in cui i geni possono duplicarsi ampiamente. sono identici in sequenza ma duplicati molte volte e riposizionati (cioè non adiacenti). Nessuno degli strumenti sopra menzionati è stato in grado di trasferire le coordinate delle annotazioni ai genomi con più copie di annotazioni.
Sì, né mi aspetto che lo facciano. Questo è quello che stavo dicendo. Gli strumenti liftover mappano semplicemente le coordinate, non saranno in grado di affrontare questo genere di cose. Temo che dovrai farlo manualmente ottenendo un elenco di geni / proteine ​​di interesse, trovando i loro omologhi e trasferendo le annotazioni (con gli ovvi avvertimenti sulla possibilità o meno di presumere che le annotazioni siano trasferibili). Non sarà molto divertente, sfortunatamente.
scuse, pensavo volessi dire kraken: http://ccb.jhu.edu/software/kraken/, chi nomina questi strumenti? comunque, questo è abbastanza non banale da fare correttamente. dovrai fare l'assemblaggio del genoma, le previsioni geniche e l'assegnazione ortologica / paralogica; ci sono varie pipeline (alcune recensite qui: https://www.ncbi.nlm.nih.gov/pubmed/27043882), ma ci vorrà del tempo. in alternativa, per qualcosa di più "veloce e sporco", i suggerimenti di @terdon sembrano sensati
Due risposte:
#1
+5
BaCh
2017-05-31 20:34:48 UTC
view on stackexchange narkive permalink

C'è un modo molto semplicistico che uso che potrebbe funzionare per quello che stai facendo, è simile a quello che ha proposto terdon.

Prendi un'annotazione del genoma microbico de-novo strumento (ho il mio, ma potresti usare / modificare prokka). Strumenti come questi spesso prevedono prima i confini dei geni (con altri strumenti come prodigo o barlume) e poi cercano di assegnare una funzione ai geni trovati. Questa assegnazione di funzioni viene spesso eseguita con BLAST e altri strumenti ... ed è qui che puoi entrare e modificare per fare ciò di cui hai bisogno.

Uso un database di proteine ​​di "conoscenza" dei geni che voglio hanno annotato molto rigorosamente come prima riga di annotazione (es. nel tuo caso: i genomi annotati). Per questo eseguo un ciclo attraverso parametri di identità / somiglianza molto rigidi che vengono gradualmente rilassati.

Ad esempio: Loop 0: trasferisce solo annotazioni al 100% di identità DNA, stessa lunghezza Loop 1: trasferisce solo annotazioni al 100% di somiglianza , stessa lunghezza Loop 2: trasferisce solo annotazioni al 99% di somiglianza, lunghezza +/- 1% .... Loop n: trasferisce solo annotazioni al 100- (n-1)% di somiglianza, lunghezza +/- (n-1 )%.

In ogni ciclo, ovviamente annota solo ciò che non è stato annotato nei cicli precedenti.

Dopodiché, usa la pipeline di annotazione "normale" dello strumento per annotare il resto.

Ciò non richiede che i geni del genoma bersaglio siano stati trovati prima? O il tuo strumento può anche fare la predizione del gene de-novo? (a proposito, sembra uno strumento molto utile, complimenti!)
La ricerca / previsione del gene procariotico è un problema più o meno risolto, gli strumenti esistenti funzionano ragionevolmente bene. Vedi http://prodigal.ornl.gov/ e http://prodigal.ornl.gov/ (solo per citarne due).
Sì, lo so, sono rimasto solo sorpreso che tu non l'abbia menzionato nella tua risposta. Se ho capito bene, il primo passo sarebbe che l'OP trovasse l'elenco dei geni putativi nel loro genoma appena sequenziato, giusto?
Corretta. Prokka (http://www.vicbioinformatics.com/software.prokka.shtml) utilizza un'intera batteria di strumenti di terze parti (incluso prodigo) per annotare un genoma de-novo, ho iniziato modificando prokka prima di scriverne uno mio , che utilizza alcune idee dalla pipeline prokka.
#2
+3
terdon
2017-05-31 19:04:23 UTC
view on stackexchange narkive permalink

Penso che dovrai prima identificare le regioni omologhe a quelle definite nel tuo GFF e poi trasferire le annotazioni. Naturalmente, si presume che anche l'omologo abbia la stessa annotazione, il che spesso non è vero. Tuttavia, non vedo come puoi farlo in altro modo poiché non puoi usare le coordinate genomiche (e staresti comunque facendo la stessa ipotesi anche se potessi, comunque) quando i genomi sono così diversi.

Per un approccio molto semplicistico (che potrebbe essere sufficiente se, come dici, le tue sequenze sono quasi identiche), puoi fare qualcosa del tipo:

  1. Raccogli le sequenze di interesse dalla tua specie già annotata.

  2. Utilizza uno strumento come genewise o esonera per mapparli nel genoma bersaglio. Entrambi gli strumenti possono restituire un output in formato gff ed entrambi possono trovare più hit nel genoma di destinazione. Per quello che vuoi, ti suggerirei di utilizzare una soglia molto alta di somiglianza di sequenza e copertura delle query (dove la sequenza target trovata copre tutta o la maggior parte della sequenza di query utilizzata).

    Poiché si tratta di genomi microbici e quindi lo splicing non è un problema, potresti fare la stessa cosa anche con un semplice BLASTn o tBLASTn se inizi da sequenze proteiche.

  3. A questo punto, dovresti avere un elenco di omologhi (alcuni dei quali saranno ortologhi e altri paraloghi) e puoi trasferire le annotazioni della sequenza di query sulla destinazione.

Ancora una volta, sottolineo che questo è un presupposto enorme: che le sequenze omologhe hanno la stessa funzione e possono essere annotate automaticamente come qualsiasi cosa tu abbia nel genoma della query. Questo sarà vero per molti casi, ma sarà falso anche per altri. Soprattutto se stai osservando i paraloghi (geni la cui duplicazione si è verificata dopo l'evento di speciazione e quindi è probabile che abbiano divergenti nella funzione).

Tuttavia, come ho detto prima, questo problema sarebbe esattamente lo stesso anche se riuscissi a trasferire le annotazioni semplicemente identificando le regioni sinteniche dei genomi 1 , quindi non c'è molta differenza.


1 Come ho detto nei commenti, non vedo come ciò possa essere possibile. Per definizione, se si hanno duplicazioni estese, le coordinate genomiche saranno completamente diverse ed è impossibile mappare da un genoma all'altro.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...