上海瑞金医院方海团队自主开发dcGO——蛋白结构域语义注解在线数据库

随着AI工具AlphaFold2的问世,已解析了约2亿个蛋白质的结构,几乎覆盖了地球上已知的蛋白质。现如今,蛋白结构解析已变得可行,但大多数可用的蛋白序列缺乏相应的生物学注解。相比于全长的蛋白,其结构域在语义注解方面所受关注却较少。

近日,上海交通大学医学院附属瑞金医院方海研究员课题组,发表一篇题为“The dcGO domain-centric ontology database in 2023: new website and extended annotations for protein structural domains”的最新研究论文,该论文刊登在分子生物学领域老牌期刊Journal of Molecular Biology的年度计算资源(Computational Resources)专刊。论文详细介绍了最新版本的“蛋白结构域语义注解在线数据库dcGO(2023年版)”。

dcGO是一个基于关系数据库的蛋白结构语义注解在线数据库。它提供了对不同定义的蛋白结构域(包括SCOP超家族及家族,Pfam家族和InterPro家族)的注解功能,并且还包括了通路、转录调控因子、分子标志物、表型、疾病和药物等语义注释和分析功能。用户可以通过多样化的在线数据挖掘工作。dcGO数据库的访问网址是:http://www.protdomainonto.pro/dcGO

蛋白结构域作为蛋白质的功能与进化单元,其语义注释dcGO资源可用于蛋白功能预测(详见“连续3次蛋白功能预测CAFA国际性竞赛成果,Nature Methods 2013; Genome Biology 2016 & 2019”),甚至表型预测(详见BioArt报道“Nature Commutations 2023 | 从人类基因测序直接预测表型:从头设计的全新体系”)。作为首个蛋白结构域语义注解数据库,dcGO资源最初发表于Nucleic Acids Research 2011 & 2013 以及PLoS Computational Biology 2014,并已收录于维基百科全书条目(https://en.wikipedia.org/wiki/dcGO)。

dcGO(2023年版)收录了7种不同的语义注解,以Ontology(本体化知识)为代表,涵盖功能、通路、转录调控因子、分子标志物、表型、疾病和药物。如图1总结所示,每个框代表一类语义注解,颜色深浅表示注释总数,内部数字描述了其注解的蛋白结构域数目(即SCOP、Pfam和InterPro)。

图1: dcGO数据库组成

dcGO数据库的在线网站集多种计算机编程语言的优势联合开发,支持快速、便捷的数据库内容检索,并提供在线分析功能与动态展示结果。如图2所示,dcGO在线网站主页包括以下内容:浏览本体化知识树状结构的注解信息和注释的蛋白结构域、基于结构域的本体化知识注解富集分析、数据库访问帮助文档说明以及分页面搜索功能。

图2: dcGO在线数据库网站

转化医学国家重大科技基础设施(上海)瑞金基地——生信大数据平台方海研究员为论文通讯作者,包超慧博士后为论文第一作者。此外,剑桥大学MRC分子生物学实验室和帝国理工大学的路畅博士对该工作做出了重要贡献。剑桥大学MRC分子生物学实验室的Julian Gough教授提供了宝贵的意见和帮助,上海交通大学网络信息中心的林新华主任提供了强有力的技术支持。该工作得到了国家自然科学基金、国家及上海高层次人才项目、上海高水平地方高校创新团队等支持。

论文链接

https://pubmed.ncbi.nlm.nih.gov/37061086

以关系数据库驱动的蛋白结构域语义注解在线数据库访问网址

http://www.protdomainonto.pro/dcGO