Background: abbiamo sempre più bisogno di un modo per memorizzare molte varianti di dati associate a molti soggetti: pensa agli studi clinici e ai pazienti ospedalieri, alla ricerca di geni che causano malattie o rilevanti. Mille argomenti è da dove partiamo, si parla di milioni all'orizzonte. Con varie iniziative di medicina genomica, questa è probabilmente un'esigenza più ampia.
Il problema: sebbene ci siano molte piattaforme là fuori, è un campo in rapida evoluzione. È difficile avere un'idea di come (e se) si comportano e di come si allineano l'uno contro l'altro:
- Cos'è scalabile e può gestire molti dati? Che tipo di limiti?
- Che cosa è robusto e non un mucchio in bilico di componenti messi insieme?
- Che cosa c'è dietro una grande comunità ed è effettivamente ampiamente utilizzato?
- Cosa rende facile l'accesso e la ricerca da un altro servizio? (Riga di comando, REST o API software)
- Che tipo di varianti gestiscono?
- Che tipo di parametri possono essere utilizzati nella ricerca?
Soluzioni che ho visto finora:
- BigQ: utilizzato con i2b2, ma il suo uso più ampio non è chiaro
- OpenCGA: sembra il più sviluppato, ma ho sentito lamentele sulla dimensione dei dati che sputa
- Uso di BigQuery su un db di Google Genomics: non sembra essere una soluzione generale
- Gemini: consigliato ma è davvero scalabile e accessibile da altri servizi?
- SciDb: un db generale commerciale
- Quince
- LOVD
- Adam
- Qualunque sia la piattaforma su cui è in esecuzione DIVAS & RVD: che potrebbe non essere disponibile gratuitamente
- Diverse soluzioni di genoma grafico / grafico: Noi (e la maggior parte delle altre persone) probabilmente non hanno a che fare con i dati del genoma del grafico al momento, ma è questa una possibile soluzione?
- Lancia il tuo: spesso consigliato ma sono scettico, questa è una soluzione plausibile per un insieme di dati di grandi dimensioni. >
Chiunque abbia esperienza fornisce una recensione o una guida di alto livello a questo spazio della piattaforma?