历经半个世纪的发展,杂交水稻育种取得了巨大的成就,培育出了大量的高产、优质、适应环境变化的品系。本数据库是一个综合性的杂交水稻数据库(http://ricehybridresource.cemps.ac.cn/#/),涵盖了从1976年至2017年间发布的486个商业杂交水稻品种信息、基因组变异、表型与全基因组关联数据信息,共计3,325
个样品,5 百万+
变异位点和 17
套表型数据,为现代杂交水稻育种提供了宝贵的资源。
Figure 2.1: 首页设计采用平面式布局,网站Logo + 题目 + 菜单导航、特色轮播图 + 数据库描述、色块统计信息(点击可跳转对应的数据浏览页面)
2.1 数据库的特色功能
2.1.1 品种关键信息及关键表型数据可视化 (点击导航的Samples)
样品浏览页面按照不同的生态型(Hybrid ecotypes
)、家系(Pedigree of hybrids
)和繁育期(Breeding periods of hybrid
)对所有品系的3,325
个样本进行统计展示。饼图、表格联动展示,且均具备数据筛选的功能。表格下面交互式箱线图默认展示当前选择的所有样本的表型(17种
)数据。
Figure 2.2: 普通表格太枯燥,这里对表格的关键信息用饼图展示,一目了然样品的关键属性信息;每个属性有多少类,每类样品相对多少,增加了页面的丰富性,且方便筛选某一类样品。表格可筛选显示多少列,适应小屏幕展示。为了方便用户理解数据,对于缩写部分的含义在表头增加了信息提示(问号符号)。表格采用分页表格,按需向后台访问数据,单次加载数据少,加快了加载速度,且可全局搜索,方便查看特定类型样品。
Figure 2.3: 交互式箱线图展示单个表型信息,可通过下拉选择切换表型。箱线图提供 padding 调整功能,以获得合适大小的可视化结果和防止文字重叠或溢出图片。
交互式筛选。例如,在饼图中点击Hybrid
,则第二个和第三个饼图仅展示Hybrid
类群的数据,数据表中仅列出属于Hybrid
的2839
个样本,同时boxplot
只展示Hybrid
的表型(如抽穗期)数据,通过下拉框选择不同的表型,进一步查看选定的表型的统计数据分布。
Figure 2.4: 交互式筛选后的相关数据结果展示。
2.1.2 变异信息查询 (点击导航的Variant search)
2.1.2.1 输入查询条件
查询条件包括数据集(dataset)、类群(population)、染色体(chromosome)起始位置 或 基因ID。
Dataset分为三类All、Indel和SNP,如下图所示,用户可根据需求选择,仅支持单选;
Figure 2.5: 简单的用户自定义选项进行数据筛选。该工具的复杂版本在我们开发的另一个网站[https://www.cmnpd.org/]有展示,支持逻辑组合筛选。
Population分为7个,如下图所示,用户可以根据需求选择,支持多个population同时查询;
Figure 2.6: 下拉集成搜索功能,方便快速定位样品。且提供 Select All快速多选。对于下拉项很多(超过 1000 的情况),支持分页下拉。传统的下拉下拉项有限,而生物网站样品多、基因多,下拉项会很多,全部加载会直接卡死页面,这里选择优化后的集成搜索的分页下拉形式,返回部分数据。但集成的搜索功能可以全局搜索,便于获取一类下拉值供用户选择。
染色体及起始位置,如下图所示,用户可输入感兴趣的染色体编号及起始位置;染色体编号可通过下拉选择(单选);
Figure 2.7: 下拉集成搜索功能,方便快速定位染色体编号。
基因,用户可通过下拉选择目标基因,支持选择多个基因;
Figure 2.8: 下拉集成搜索功能,方便快速定位基因。对于下拉项很多(超过 1000 的情况),支持分页下拉。传统的下拉下拉项有限,而生物网站样品多、基因多,下拉项会很多,全部加载会直接卡死页面,这里选择优化后的集成搜索的分页下拉形式,返回部分数据。但集成的搜索功能可以全局搜索,便于获取一类下拉值供用户选择。
各项查询条件填写完成后,点击Submit。
2.1.2.2 查询结果
以查询条件:Dataset=ALL
、Population=Hybrid_indica*indica
,Roster
、Position=chr05: 5450000-5459999
,结果如下:
第一部分:饼图展示查询的基因组区域变异的注释信息统计即当前搜索出的变异对基因组功能的影响(分为High、Low、Moderate、Modifier等)。该搜索下的编译绝大多数(注意不是全部; 如果全部都是 Modifier
类型,后面只会跟着一个饼图)是 Modifier 类型,所以看上去都是绿色。后面是对 3 种功能影响类型的细分,鼠标悬浮可查看具体信息。
Figure 2.9: 交互式饼图展示筛选出的突变位点的功能影响。饼图为 1 拖 n 的联动模式,第一个饼图为总览,第 2-4 个饼图为第一个饼图各个分类的细节展示,其数目取决于第一个饼图有多少个分类。
第二部分:展示每个基因组位点的变异信息,每一行是一个样品,每一列是一个位点,绿色代表SNP/Indel
。表格可以左右拖动展示所有位点。
Figure 2.10: 变异展示表格采用特定的可变表格列宽(前 4 列)+ 固定表格列宽(后面所有列)的形式最大限度的利用网页空间呈现更多和更紧凑的突变信息。表格中未显示全的 indel 信息,鼠标悬浮可显示全部信息。
第三部分:展示不同population在相同基因组位点的基因频率。以堆积柱状图的形式展示,可以清楚的看到不同population的差异。例如在chr05:5454075位点,Roster
种群中碱基C
的比例为83%
,Hybrid_indica*indica
种群中碱基C
为65%
。注:堆积柱状图可通过下方的标尺拖动缩放或移动展示特定的区域。
Figure 2.11: 堆积柱状图展示基因型。该图存在 3 点特色,1. 显示位点很多时增加拖动定位功能,方便查看关键位点;2. 部分位点碱基组成复杂,导致图例很长,这里图例上移,展示清晰明了;3. 图例分组:同时展示多个群体的基因型。图的右上角依然存在我们的特色标记:结果下载和 padding 调整。我们开发擅长的是可视化效果。
第四部分:单倍型分析。用户可通过多选框,选择用于分析单倍型的基因组位点,指定缺失率(missing rate),提交后可以获得单倍型信息,如饼图与表格所展示的内容。饼图展示了不同单倍型的分布,表格中展示了每种单倍型的major allele(红色标记)。
Figure 2.12: 多位点框选是这部分的一个特色功能,如何快速选择多个位点进行单体型分析。这里采用组合框选的形式,用户可以拖动矩形框选择关注的一个多个区域。单体型表格采用特定的可变表格列宽(第 1 列)+ 固定表格列宽(后面所有列)的形式最大限度的利用网页空间呈现更多和更紧凑的突变信息。表格中未显示全的 indel 信息,鼠标悬浮可显示全部信息。
2.1.3 表型与基因组关联分析(Phenotype & GWAS)
2.1.3.1 表型数据查询
所有17个表型被分成4个大类,如下图所示,用户根据需求选择表型组及特定的表型,进而查看相应的数据及GWAS结果。
Figure 2.13: 下拉集成搜索功能,方便快速选择表型组及对应的表型,更精准的查询数据库中的表型数据。
2.1.3.2 查询结果
表格展示了所选表型的数据及GWAS分析结果,以Morphological characteristics中的Tiller Angle为例,共检索到3197个样本具备这个表型数据,GWAS分析显示,该表型与chr09的变异信息具有显著的相关性。
Figure 2.14: 交互式曼哈顿图展示 GWAS 结果。
2.1.4 数据库成果
该数据库为中国科学院分子植物科学卓越创新中心团队委托易汉博基因科技团队开发,于2023年9月7日发表在《Nature Genetics》,题为Structure and function of rice hybrid genomes reveal genetic basis and optimal performance of heterosis。
Figure 2.15: 在线发表论文。
4 篇 NAR | 生物大数据时代,如何做好数据管理和再利用,发IF10+的数据库文章?如果你也有数据库开发需求,欢迎联系!
机器学习