Domanda:
Come calcolare i geni sovrapposti tra due versioni di annotazione del genoma
holmrenser
2017-05-17 16:51:45 UTC
view on stackexchange narkive permalink

Ho due annotazioni dello stesso genoma generate con pipeline di annotazioni diverse. Voglio identificare modelli genetici sovrapposti.

Una caratteristica importante di questo genoma è che ci sono molti "geni all'interno dei geni", cioè un modello genetico nell'introne di un altro modello genetico . Pertanto, voglio solo contare due modelli genetici come sovrapposti quando le loro annotazioni di esone della sequenza di codifica si sovrappongono.

Usando qualcosa come bedtools intersect è semplice calcolare la sovrapposizione tra le annotazioni a livello di gene .

Tuttavia: non sono sicuro di come selezionare i geni come sovrapposti quando si sovrappongono solo i loro esoni della sequenza di codifica (caratteristiche CDS).

Perché non estrarre le coordinate delle regioni CDS dai file bed / gff, quindi gli sgabelli si intersecano?
Ciò mi lascerebbe solo con le caratteristiche dei CDS sovrapposti. Alla fine voglio conoscere i _genes_. Perché non scrivi il tuo commento in una risposta?
Una risposta:
#1
+6
Gus
2017-05-17 19:56:36 UTC
view on stackexchange narkive permalink

Risposta breve: secondo me, il mio approccio sarebbe quello di estrarre gli esoni del CDS e far funzionare gli strumenti del letto su quelli.

Qualche dettaglio in più: quando estrai gli esoni, assicurati di assegnare loro tutti gli ID se non li hanno già assegnati e registra quali ID "appartengono" a quali geni. Ora, quando ottieni esoni che si sovrappongono, sai che stanno codificando e puoi ricollegarli ai geni da cui provengono.



Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...