Domanda:
Come selezionare strutture di alta qualità dalla Protein Data Bank?
marcin
2017-06-01 18:04:41 UTC
view on stackexchange narkive permalink

I modelli di strutture depositati nella Protein Data Bank variano in termini di qualità, a seconda sia della qualità dei dati che delle competenze e della pazienza della persona che ha costruito il modello. Esiste un sottoinsieme ben accettato delle voci PDB che ha solo strutture "di alta qualità"? Idealmente queste strutture sarebbero rappresentative per classi di proteine ​​nell'intero PDB.

basato su una domanda reale dalla biologia. SE

Due risposte:
#1
+9
Davidmh
2017-06-01 18:55:33 UTC
view on stackexchange narkive permalink

Esiste un database molto carino, pdbcull (noto anche come server PISCES in letteratura). Filtra il PDB per un'identità di sequenza ridotta e ad alta risoluzione. Inoltre sembra essere aggiornato regolarmente. A seconda dei limiti, ottieni tra 3000 e 35000 strutture.

Se sei specificamente interessato ai rotameri, potresti invece dare un'occhiata a top8000, dove hanno controllato per alta risoluzione e buoni punteggi MolProbity. Forniscono anche un database rotamer.

PDB fornisce anche il proprio clustering. Prima raggruppano le sequenze, quindi estraggono una struttura rappresentativa per ciascuna, in base al fattore di qualità ( 1 / resolution - R_value ). Questo ha il vantaggio di essere completo, ma avrai cattive strutture quando non ne saranno mai ottenute di buone.

#2
+5
Rosalind Was Robbed
2017-06-15 03:56:46 UTC
view on stackexchange narkive permalink

Se scegli di eseguire il tuo abbattimento del PDB, la risoluzione è probabilmente la prima cosa che vorrai guardare, che come dice Davidmh è il criterio di selezione principale per PISCES. Strutture di alta qualità avranno anche valori migliori del fattore R. Puoi anche dare la preferenza in base alla tecnica sperimentale, in ordine decrescente di qualità:

Diffrazione dei neutroni, diffrazione dei raggi X, NMR in soluzione / stato solido, microscopia elettronica / cristallografia, diffrazione delle fibre, scattering della soluzione.

sì, questi sono criteri di PISCES, anche se sembrano piuttosto semplicistici. Viene utilizzato il fattore R ma il divario tra il fattore R e Rfree viene ignorato. La risoluzione (pressumibilmente d_min) è l'unico criterio di qualità dei dati (la completezza dei dati viene ignorata). Nessuna convalida della geometria.
La discrepanza tra i fattori R e R-free è un'ottima cosa da guardare, ma nella mia esperienza il numero di strutture che riportano entrambi in modo standardizzato è piuttosto piccolo. BioJava li ha resi disponibili solo di recente, IIRC, e questo è in genere lo strumento che utilizzo.
[80,7%] (http://mmcif.wwpdb.org/dictionaries/mmcif_pdbx_v50.dic/Items/_refine.ls_R_factor_R_free.html) delle strutture PDB riporta R-free, leggermente inferiore al [86,8%] (http: // mmcif .wwpdb.org / dizionari / mmcif_pdbx_v50.dic / Items / _refine.ls_d_res_high.html) che riporta la risoluzione.


Questa domanda e risposta è stata tradotta automaticamente dalla lingua inglese. Il contenuto originale è disponibile su stackexchange, che ringraziamo per la licenza cc by-sa 3.0 con cui è distribuito.
Loading...