Lavorare con vecchie build del genoma

Domanda:

zx8754

2017-06-01 01:47:18 UTC

view on stackexchange narkive permalink

Lavorare e fare affidamento su vecchie build del genoma è ancora valido?

Ad esempio NCBI36 / hg18. I risultati di documenti basati su vecchie build richiederebbero LiftOver e una nuova analisi per essere utili?

Un po 'di contesto, questo è correlato ad altri post, in cui abbiamo basato i risultati aCGH nella vecchia build: come convalido un singolo risultato di ArrayCGH di esempio?

Questo dipenderà probabilmente dal tipo di analisi che hai in mente. Alla fine, tutti i dati che generiamo oggi saranno un giorno obsoleti, ma non significa necessariamente che tutte le conclusioni siano sbagliate. Se vuoi essere più specifico sui tipi di analisi che hai in mente (o documenti concreti che utilizzano hg18), forse sarebbe più facile dare una risposta corretta.

Quattro risposte:

Karel Brinda

2017-06-01 02:03:51 UTC

view on stackexchange narkive permalink

Secondo me, non è molto affidabile. LiftOver è molto limitato in termini di trasformazioni che può supportare. Il formato LiftOver Chain può acquisire solo le regioni corrispondenti nello stesso ordine. Significa che può tenere conto degli indel, ma anche semplici variazioni strutturali diventano problematiche.

Ad esempio, quando è disponibile un assembly più recente, di solito è una pratica consigliata rimappare tutte le letture piuttosto che trasformare l'esistente allineamenti.

Manuel

2017-06-01 04:34:31 UTC

view on stackexchange narkive permalink

Penso che in questo momento, le uniche build umane che vale la pena considerare siano hg19 / GRCh37 poiché molti database come gnomAD usano ancora esclusivamente questa versione. D'altra parte, hg38 / GRCh8 ha molte correzioni importanti e la funzione utile (ma ancora sottoutilizzata) di loci alternativi.

Qualsiasi cosa dalle versioni precedenti dovrebbe essere rimappata a una più recente.

story

2017-06-08 11:38:40 UTC

view on stackexchange narkive permalink

Potresti usare liftOver che non è sempre eccezionale.

Ogni volta che incontro questo (specialmente i dati NGS prontamente disponibili su SRA), spesso ottengo solo i file raw (ad esempio fastqs) e ri- align / re-map.

Nel tuo caso (array) potrebbe essere un po 'difficile. Non impossibile, però, poiché di recente ho preso alcuni vecchi dati di microarray di DNA / RNA di lievito e li ho aggiornati al genoma più recente. Richiede solo i dati giusti (come il DNA per la normalizzazione) e una buona comprensione dell'intero processo.

Un'ultima risorsa / alternativa è allineare i tuoi nuovi dati al vecchio genoma per essere in grado di fare confronti. Questo non è l'ideale ma funziona nei casi in cui l'aggiornamento di una fonte non è possibile o è una quantità ENORME di tempo / impegno. L'ho fatto per alcuni esperimenti di volo in cui tutti i dati disponibili / precedenti erano stati eseguiti in dm3. Tutti i vecchi genomi possono essere generalmente trovati su http://archive.ensembl.org.

burger

2017-06-08 05:09:09 UTC

view on stackexchange narkive permalink

Per il mouse, vedo ancora persone che usano mm9 / NCBI37 in pubblicazioni di alto profilo anche se mm10 / GRCm38 è stato rilasciato più di 5 anni fa (2011). Personalmente non penso che sia una grande idea, ma è sicuramente valida secondo i revisori paritari.

Dipende anche dalla tua applicazione. Se stai lavorando con regioni di codifica (probabilmente ben note da molto tempo) o estraendo statistiche a livello di genoma (arricchimento a TSS, ad esempio), le differenze dovrebbero essere trascurabili.

ⓘ

Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.

a proposito - legalese