Domanda:
Come posso chiamare le varianti strutturali (SV) dai dati di risequenziamento della lettura breve a coppie?
Kamil S Jaron
2017-05-18 19:28:48 UTC
view on stackexchange narkive permalink

Ho un genoma di riferimento e ora vorrei chiamare varianti strutturali dai dati di risequenziamento dell'intero genoma a coppie di Illumina (dimensione dell'inserto 700bp).

Ci sono molti strumenti per le chiamate SV (ho creato un elenco incompleto di strumenti di seguito). C'è anche uno strumento per unire le chiamate SV da più metodi / campioni: SURVIVOR. Esiste una combinazione di metodi per il rilevamento di SV con un equilibrio ottimale tra sensibilità e specificità?

Esiste un documento di benchmarking, che valuta la sensibilità e la specificità delle chiamate SV di metodi individuali utilizzando coppie simulate -end legge. Tuttavia, non vi è alcuna elaborazione sulla combinazione di metodi.

Elenco di strumenti per chiamare varianti strutturali:

Aggiungerò solo un commento, poiché non è una risposta completa. Controlla il consorzio Genome in a Bottle. Sono in corso discussioni su come determinare il / i chiamante / i migliore / i e la definizione su una serie standard di inviti per l'analisi comparativa e la verifica di nuovi approcci. Nel mio lavoro ho avuto buoni risultati con Socrates, ora sostituito con [GRIDSS] (https://github.com/PapenfussLab/gridss).
@nuin - Non sapevo del consorzio Genome in a Bottle, sembra interessante, ma non sono riuscito a trovare alcuna registrazione pubblica di una discussione. Avete un link?
Due risposte:
#1
+6
roblanf
2017-05-19 15:18:41 UTC
view on stackexchange narkive permalink

Penso che il metodo o la combinazione di metodi migliori dipenderà da aspetti dei dati che potrebbero variare da un set di dati all'altro. Per esempio. il tipo, le dimensioni e la frequenza delle varianti strutturali, il numero di SNV, la qualità del riferimento, contaminanti o altri problemi (ad es. qualità di lettura, errori di sequenza) ecc.

Per questo motivo, prenderei due approcci:

  1. Prova molti metodi e osserva la loro sovrapposizione
  2. Convalida un sottoinsieme di chiamate da metodi diversi mediante esperimenti di wet lab - alla fine questo è il unico vero modo per conoscere l'accuratezza per un caso particolare.
Cosa intendi per "Convalida un sottoinsieme di chiamate da metodi diversi"?
Divertente, il documento di revisione (dati della simulazione) è d'accordo con te - tutti i metodi hanno molti falsi positivi - è meglio sovrapporsi. Tuttavia, il documento "Una mappa integrata della variazione strutturale" (la risposta di Germain) ha fatto il contrario, modificando ogni software per ridurre i falsi positivi e poi prendendoli tutti.
Con convalida, intendo entrare e rieseguire la sequenza di un gruppo di varianti previste. Tutti i metodi bioninformatici daranno molti falsi positivi (e molti falsi negativi, anche se è più difficile trovare i negativi ovviamente). Quindi l'unico modo autentico per conoscere l'accuratezza delle tue chiamate è ottenere informazioni indipendenti, ad es. dal risequenziamento.
#2
+3
German Demidov
2017-05-20 13:33:59 UTC
view on stackexchange narkive permalink

Nel caso in cui tu sia veramente impegnato a ottenere risultati perfetti, puoi utilizzare la strategia descritta , nel documento di rilevamento SV di terza fase 1000GP: usa questi strumenti, convalida le tue chiamate con il test IRS, unisci le chiamate in un unico set di chiamate.

Se non vuoi spendere migliaia di ore umane come sono state spese durante questa preparazione del documento, dalla mia esperienza, è meglio usare 1 metodo di distanza di inserimento accoppiato e un metodo basato sulla profondità di lettura. Ciascuno di essi copre regioni "differenti" del genoma. (anche se hanno un'enorme sovrapposizione, il rilevamento delle estremità accoppiate richiede che entrambi i punti di interruzione SV siano posizionati all'interno delle regioni con una buona mappabilità, il che non è sempre il caso, ma la risoluzione dei metodi di profondità di lettura è inferiore in generale, le estremità accoppiate funzionano bene per eliminazioni / duplicazioni tandem / inversioni, ma hanno problemi con duplicazioni non tandem).

Spero che sia d'aiuto.

Ho letto il supplemento del documento, è davvero pazzesco: sembra che ci sia pochissima sovrapposizione di diversi metodi di calcolo, ma il tasso di false scoperte è abbastanza buono per i tipi di SV non inversioni (2-10%). Tuttavia, hanno utilizzato un enorme set di dati sulla popolazione, ho sequenziato 9 individui compreso il riferimento.
Sì, la sovrapposizione è un po 'piccola, ma questo è principalmente perché diversi strumenti cercano diversi tipi di CNV (come ho spiegato sopra confrontando i metodi basati sulla profondità di lettura e sulla distanza di inserimento). Questa è la migliore precisione che puoi ottenere. Avendo solo 9 individui, faresti meglio a escludere CNV che si verificano con una frequenza> 1% nella popolazione (vedi l'articolo) e quindi utilizzare ad esempio DELLY e cn.mops (solo un esempio, non sono sicuro se questa sia una scelta ideale, ma entrambi sono abbastanza buoni).


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...