QB期刊 | 深度学习在生物学中的应用1:对MinION测序结果中base calling的计算

小编说

记得去年“阿尔法狗”(AlphaGo)的新闻出来后,小编曾下定决心要跨专业学习一下AI,看看它能否在咱们生物领域也掀起热浪。结果当小编刚刚了解到阿尔法狗的命脉乃来自Deep Learning (深度学习)真传时,它的亲兄弟“AlphaFold” 就以迅雷不及掩耳之势(2018年12月初召开新闻发布会,具体见阿尔法狗再下一城 | 蛋白结构预测AlphaFold大胜传统人类模型)在蛋白质折叠预测领域独领风骚。有生物学背景的我们都知道,虽然科学家们破译了基因组,但从DNA到蛋白质翻译过程受各种基因和/或蛋白质的调控、修饰,并且蛋白质从翻译产生到能发挥功能的这一过程也是在细胞内经历了各种修饰、折叠。但人家“AlphaFold”则不畏这些千难万苦,“硬生生”的通过氨基酸序列直接预测蛋白质的3D结构(AlphaFold 的新闻发布链接:https://deepmind.com/blog/alphafold/)。所以当“AlphaFold”一出世,大家都惊呼它是能把诺贝尔奖抱回家的人选之一。

既然“AlphaFold”和“AlphaGo”是亲兄弟,那它们两个到底有什么相同点呢?其实这个相同点就是Deep Learing算法(莫烦Python机器学习助力你快速进阶)。而不同点则在于该算法分别应用在了围棋领域和蛋白质研究领域。所以,无论是学生物的,还是学物理的,还是学化学的小童鞋们是时候学习一下Deep Learing算法,说不定你就是下一个诺贝尔获奖者呢!如果你还没有这个意识,那小编告诉你,学Deep Learing的专家和学者已经进军到生物领域的各个方向了。

我们QB期刊向来提倡交叉,尤其是计算、数学、物理等领域与生命科学的交叉,并且我们也一直在跟踪、刊登这些交叉领域的前沿热点文章。在Deep Learning这个火热阶段,我们编辑部特别邀请到了该领域的曾坚阳教授和裴剑锋教授作为QB期刊2018年第四期的Guest Editors,为我们组织了一场关于Deep Learning或Neural Network在第三代测序分析碱基识别、药用蛋白预测中应用和线粒体形态定量分析的“盛宴”(感兴趣的小伙伴可以登陆我们网站先睹为快哈,网站地址为:https://link.springer.com/journal/40484,或直接在百度中搜索“Quantitative Biology”,进入期刊的网站首页),接下来的一段时间内小编将一一与大家分享。

今天先给大家分享的是Deep Learning在MinION测序仪base-calling中的应用【1】(WaveNano:a signal-level nanopore base-caller via simultaneous prediction of nucleotide labels and move labels through bi-directional WaveNets,点击文末“阅读原文”进入文章主页,可免费下载全文)。

文章简介

这篇文章是来自沙特阿卜杜拉国王科技大学(KAUST)的Xin Gao教授团队与中国香港中文大学(深圳)的Zhen Li 博士合作完成。 Xin Gao 教授团队目前已经完成了一系列与纳米孔测序相关的工作。该团队关于Deep Learning在MinION测序仪数据模拟器中的工作(DeepSimulator: a deep simulator for Nanopore sequencing)于今年9月份发表在了生物信息学领域老牌期刊Bioinformatics上的哦【2】。此外,该团队还完成了一款全新的cwDTW算法,可以高效的联配超长的纳米孔信号,并以此为基础进行信号标注(signal labeling)从而能够检测单核苷酸多态性(SNP)【3】。该工作在国际顶级生物信息学会议ECCB 2018上口头展示,同时亦发表于Bioinformatics。在这里向Xin Gao教授及其团队表示祝贺!

英国生物技术公司OxfordNanopore自2014年推出MinION测序仪后,由于其小巧的身材(iphone大小),要求不高的运行环境,较长的reads读取(超过15kb),较快的测序速度,实时的测序数据监测等特点,一经问世就受到广泛关注(具体见测序发展史,150年的风雨历程 (2018年12月更新版))。该测序仪于2016年登上了国际太空站(ISS),完成了第一次太空测序,并证实了对Lambda phage的测序结果在ISS和地球上并无差别【4】。 MinION测序仪的基本工作原理是基于纳米孔测序技术,通过检测单链DNA分子通过纳米孔时引起电流变化的不同,用于碱基的识别(见Figure 1)。由于电流检测的频率通常是DNA序列通过纳米孔速度的7-9倍,因此这对base-calling造成巨大的技术挑战。此外,较高的测序错误率,尤其是对indels(插入和缺失)的测序,是纳米孔测序仪面临的一个主要问题。

为了解决纳米孔测序仪较高错误率的问题,目前已经出现了多种算法。这些算法可以简单地归为两类,即基于机器学习(Machine Learning)的算法和基于共有序列(Consensus)的算法。这两种算法的基本原理都是通过serial base-calling过程(见Figure 2A)进行碱基识别,而这一过程势必会增加错误率。此外,这两种算法所用到的机器学习中的模型建构(Model Architecture)更适用于短片段的计算。为了解决上述问题,本文作者们采用了Google DeepMind团队在语音合成和语音识别方面新开发的具有完美表现的WaveNets深度学习方法【5】将纳米孔中的信号当作语音信号,而base-calling则类似于语音识别过程,开发了一种基于机器学习的新算法-WaveNano(见Figure 2B和Figure 3)。这种算法不依赖任何segmentations/decoding工具,而完全是一种self-contained 的线下工具。

通过该算法,文章作者对Lambdaphage的基因组用MinION进行了测序,结果得到了大约24,000个reads,电流信号平均为63,000bp。同时,作者还将WaveNano与官方的Metrichor算法以及Albacore算法进行了结果比较(如Table1),结果表明WaveNano不仅能预测比较准确的DNA序列,同时该算法对indel的处理结果明显优于Metrichor和Albacore。此外,WaveNano的运行时间约为1个信号序列为0.5s,而Albacore的运行时间则为2s。

由此可见,WaveNano算法对于分析MinION产生的Lambda phage测序结果具有良好的表现,尤其对于indel序列的分析,其结果要比目前商用的Metrichor和Albacore具有更高的准确度。

Reference

  1. Sheng Wang, Zhen Li,Yizhou Yu and Xin Gao. (2018) WaveNano:a signal-level nanopore base-caller viasimultaneous prediction of nucleotide labels and move labels throughbi-directional WaveNets. Quant. Biol., 6 (4): 359-368.
  2. YuLi, Renmin Han, Chongwei Bi, Mo Li, Sheng Wang, Xin Gao. (2018) DeepSimulator:a deep simulator for Nanopore sequencing. Bioinformatics, 34 (17), 2899-2908
  3. Renmin Han, Yu Li, Xin Gao, Sheng Wang. (2018)An accurate and rapid continuous wavelet dynamic time warping algorithm forend-to-end mapping in ultra-long nanopore sequencing. Bioinformatics, 34 (17),i722-i731
  4. Castro-Wallace,S. L., Chiu, C. Y., John, K. K., Stahl, S. E., Rubins, K.H.,McIntyre, A.B.R.,Dworkin, J.P.,Lupisella, M.L., Smith, D. J., Botkin, D. J., et al. (2017)Nanopore DNA sequencing and genome assembly on the International Space Station.Sci. Rep., 7, 18022
  5. VanDen Oord, A., Dieleman, S., Zen, H., Simonyan, K., Vinyals, O., Graves, A.,Kalchbrenner, N., Senior, A., and Kavukcuoglu K. (2016) Wavenet: A generativemodel for raw audio. ArXiv, 1609.03499
  • NGS基础 - FASTQ格式解释和质量评估
  • NGS基础 - 高通量测序原理
  • NGS基础 - 参考基因组和基因注释文件
  • NGS基础 - GTF/GFF文件格式解读和转换
  • NGS基础 - 测序原始数据下载
  • 本地安装UCSC基因组浏览器
  • 测序数据可视化 (一)
  • IGV基因组浏览器可视化高通量测序数据
  • 高通量数据分析必备-基因组浏览器使用介绍 - 1
  • 高通量数据分析必备-基因组浏览器使用介绍 - 2
  • 高通量数据分析必备-基因组浏览器使用介绍 - 3
  • 测序文章数据上传找哪里
  • GO、GSEA富集分析一网打进
  • GSEA富集分析 - 界面操作
  • Bedtools使用简介