新闻中心
通知公告
新闻动态
科学院动态
合作交流
科研动态
您现在的位置:新闻动态 > 新闻动态> 科研人员开发出系列特色科学数据库
科研人员开发出系列特色科学数据库
来源:中科院之声 [2018-11-08]

近日,北京基因组所生命与健康大数据中心(BIG Data Center,BIGD)有七篇数据库文章陆续被国际学术期刊核酸研究 Nucleic Acids Research (NAR)杂志接收,这七篇研究成果将在该刊2019年1月的数据库专刊中集中刊发。去年 NAR 连登四篇大数据中心研究成果已属突破性研究进展,今年 BIGD 再创辉煌,有六篇针对不同研究领域的特色专业数据库文章和一篇介绍大数据中心整体资源建设进展的文章集中发表。


自2016年以来,这已经是第三年 NAR 以国际数据中心的模式来介绍 BIGD 资源和成果。在2018年1月份发布的数据库专刊简介“The 2018 Nucleic Acids Research database issue and the online molecular biology database collection”的开篇部分,NAR 就已经将 BIGD 与美国 NCBI、欧洲 EBI 一起作为国际数据中心进行了介绍,表明 BIGD 已跻身全球知名生物大数据中心行列。

 

今年 BIGD 再次发布整体建设成果与进展(Database Resources of the BIG Data Center in 2019)。全文介绍了 BIGD 的核心数据资源,包括数据(Data)、信息(Information)、知识库(Knowledge)三大部分;2018年开发的新数据库资源和以往数据资源的整合及完善。文章最后还介绍了 BIGD 的数据提交系统 BIG Submission,用户访问控制系统 BIG SSO,对于不同资源提供的大量索引数据执行查询和搜索服务的 BIG Search,目前 BIG Search 已整合了 PlantTFDB、LncRNADisease、DEG、lncRNASNP 等20个来自不同合作单位的数据库资源。


微信图片_20181108171017.jpg


为了促进生物大数据有效利用与转化,我们针对一些重要的研究领域,如长非编码 RNA(lncRNA)、表观遗传甲基化、RNA 编辑、核小体定位等进行了专门的数据分析与知识审编。下面我们就介绍一下 BIGD 今年在核酸研究发表的六篇针对不同研究领域的专业数据库文章。


表观组关联分析知识库 EWAS Atlas 


EWAS Atlas 是一个完全基于人工审编和文献挖掘的知识库。当前版本的 EWAS Atlas 主要关注 DNA 甲基化这一重要的表观修饰。EWAS Atlas 一共整合了401篇文献中649个研究报道的329,172个高质量甲基化与表型关联。这些关联一共涉及到305种表型,1,830个队列以及390种表型本体。此外,EWAS Atlas 还配备了功能强大的表型富集工具,用于研究表型与表型,表型与表观变异的关系。该项研究成果以“EWAS Atlas: a curated knowledgebase of epigenome-wide association studies”为题在线发表。


微信图片_20181108171030.jpg


犬类数据库iDog 


iDog是家犬(Canis lupus familiaris)和野生犬的综合资源库,数据来源于 Dog 10K Genomes Project,旨在为犬类生物学研究提供各种数据服务。包括基因、基因组、SNP、品种/疾病特征、基因表达、GO 功能注释及狗-人类同源疾病和相关文献。此外,iDog 还提供用于执行基因组数据可视化和分析的在线工具。该项研究成果以“iDog: an integrated resource for domestic dogs and wild canids”为题在线发表。


微信图片_20181108171034.jpg


RNA 编辑与疾病相关知识库 EDK 


EDK 是基于文献挖掘的 RNA 编辑与疾病关联关系的知识库,整合了与人类疾病相关的异常 RNA 编辑和 RNA 编辑酶活性异常事件。目前,通过人工审编200多篇相关文献,EDK 整合了248个实验验证的异常RNA编辑相关的61种疾病,这些异常 RNA 编辑涉及32个mRNA、16个microRNA、1个长非编码RNA(lncRNA)、11个病毒。此外,编辑酶的活性异常与疾病的产生也密切相关。6种RNA编辑酶的活性异常共与44个疾病事件相关。该项研究成果以“Editome Disease Knowledgebase (EDK): a curated knowledgebase of editome-disease associations in human”为题在线发表。


微信图片_20181108171037.jpg


植物RNA编辑数据库PED


PED 是一个植物 RNA editosome 数据库,旨在对植物 RNA 编辑信息进行全面的审编、整合及标准化。基于文献审编和细胞器基因组注释,PED 收录了8个模式植物的98个 RNA 编辑因子和1,621种植物中的20,836个RNA编辑事件。其中,RNA 编辑事件分布在203个细胞器基因上,涵盖了1,673个植物细胞器。此外,PED 还整理了 RNA 编辑因子和 RNA 编辑事件之间的相互作用,RNA 编辑因子对植物表型的影响以及详细的实验证据等信息。该项研究成果以“Plant editosome database: a curated database of RNA editosome in plants”为题在线发表。


微信图片_20181108171042.jpg


人类长非编码RNA数据库LncBook 


LncBook提供了目前为止数据量最大的人类 lncRNA 数据集。目前版本共收录270,044个 lncRNA,包括从现有数据库整合的247,246个 lncRNA,基于 RNA-seq 数据鉴定的21,815个新的 lncRNA,以及1,867个已有文献报道的 lncRNA。LncBook 对这些 lncRNA 进行了表达、甲基化(DNA Methylation)、变异(SNP)、相互作用(miRNA-lncRNA)的注释与分析,针对已报道的1867个 lncRNA 进行了系统的疾病与功能注释。通过 LncBook,用户不仅能查询 lncRNA 基本序列注释信息、疾病及功能信息,而且能获得 lncRNA 的多组学信息分析结果,还可以使用多种在线工具进行分类、比对、鉴定等分析。该项研究成果以“LncBook: a curated knowledgebase of human long non-coding RNAs”为题在线发表。


微信图片_20181108171046.jpg


多物种全基因组核小体定位图谱数据库 NucMap


NucMap 是基于大规模数据整合分析的多物种全基因组核小体定位图谱数据库。该数据库识别多物种不同条件下的核小体定位图谱,并提供相关的RNA-seq、DNA甲基化、组蛋白修饰、转录因子 ChIP-seq 数据信息。目前版本整合了从酵母到人类的15个物种的477个样本的798个全基因组核小体测序数据,包含搜索、浏览、分析和下载等主要功能模块。该项研究成果以“NucMap: a database of genome-wide nucleosome positioning map across species”为题在线发表。


微信图片_20181108171050.jpg


以上所有资源使用途径可点击“阅读原文”查询。


来源:中国科学院北京基因组研究所


阅读原文