Lo stato, i limiti e i confronti dei negozi di grandi varianti

agapow

2017-05-22 21:14:17 UTC

view on stackexchange narkive permalink

Background: abbiamo sempre più bisogno di un modo per memorizzare molte varianti di dati associate a molti soggetti: pensa agli studi clinici e ai pazienti ospedalieri, alla ricerca di geni che causano malattie o rilevanti. Mille argomenti è da dove partiamo, si parla di milioni all'orizzonte. Con varie iniziative di medicina genomica, questa è probabilmente un'esigenza più ampia.

Il problema: sebbene ci siano molte piattaforme là fuori, è un campo in rapida evoluzione. È difficile avere un'idea di come (e se) si comportano e di come si allineano l'uno contro l'altro:

Cos'è scalabile e può gestire molti dati? Che tipo di limiti?
Che cosa è robusto e non un mucchio in bilico di componenti messi insieme?
Che cosa c'è dietro una grande comunità ed è effettivamente ampiamente utilizzato?
Cosa rende facile l'accesso e la ricerca da un altro servizio? (Riga di comando, REST o API software)
Che tipo di varianti gestiscono?
Che tipo di parametri possono essere utilizzati nella ricerca?

Soluzioni che ho visto finora:

BigQ: utilizzato con i2b2, ma il suo uso più ampio non è chiaro
OpenCGA: sembra il più sviluppato, ma ho sentito lamentele sulla dimensione dei dati che sputa
Uso di BigQuery su un db di Google Genomics: non sembra essere una soluzione generale
Gemini: consigliato ma è davvero scalabile e accessibile da altri servizi?
SciDb: un db generale commerciale
Quince
LOVD
Adam
Qualunque sia la piattaforma su cui è in esecuzione DIVAS & RVD: che potrebbe non essere disponibile gratuitamente
Diverse soluzioni di genoma grafico / grafico: Noi (e la maggior parte delle altre persone) probabilmente non hanno a che fare con i dati del genoma del grafico al momento, ma è questa una possibile soluzione?
Lancia il tuo: spesso consigliato ma sono scettico, questa è una soluzione plausibile per un insieme di dati di grandi dimensioni. >

Chiunque abbia esperienza fornisce una recensione o una guida di alto livello a questo spazio della piattaforma?

I miei due centesimi: usa MongoDB avvolto in un semplice framework REST. Consente query e modelli flessibili e dovrebbe scalare fino a miliardi di record su un singolo nodo. Al momento sto lavorando a un progetto FLOSS per questo, ma non è ancora pronta per la produzione.

@woemler Com'è rispetto ad altri approcci? Qualcuno che conosco ha provato MongoDB circa 5 anni fa su genotipi da 1000 g. Ha detto che MongoDB era oltre 10 volte più lento di bcf2 nelle query parallele, pur avendo un footprint di disco / memoria molto più ampio. Detto questo, all'epoca era nuovo su MongoDB e potrebbe non farlo nel modo ottimale.

@user172818: Le versioni più recenti di MongoDB (3.2+) sono notevolmente più veloci rispetto alle versioni di diversi anni fa. L'ho confrontato con altri RDBMS gratuiti e in genere funziona altrettanto bene o meglio, specialmente per rappresentazioni di dati complesse, come le chiamate di varianti.

La memorizzazione dei dati è più importante qui o l'elaborazione delle statistiche (utilizzando Python, R, ecc.) Sui dati è più importante?

@macgyver: buona osservazione. I dati: si suppone che le persone vorranno estrarre e interrogare i dati, piuttosto che guardare le statistiche e le analisi di riepilogo.