从计算机行业看生物信息学行业的发展规律

BioLinkX团队创始人,浙江大学的鲍志炜博士最近在交流群提出来了蛮有意思的话题,引起了大家广泛的讨论,就是对比一下计算机行业和生物信息学行业的发展历史,希望搞清楚两个行业在哪些方面有相似之处,同时有哪些显著的差异。

首先呢,二者都是交叉学科,侧重于算法和模型,有大量的软件和工具,以及海量的数据。考虑到计算机行业的发展要早于生物信息学而且它更加成熟和系统,我们都相信这里面有很多值得生物信息学行业的借鉴发展路径。

两个行业在哪些方面有相似之处

我们希望和chatGPT以及各个交流群的有十多年生物信息学经验的小伙伴们一起在明晚十点(2023-12-27的22:00)的生信技能树视频号直播间互动交流,讨论从计算机行业看生物信息学行业的发展规律,欢迎大家提前预约我们的活动,到时候踊跃参与哈!我们的讨论的话题包括但不限于以下这些要点:

  • 计算机行业如何改变就业市场和国民生活,生物信息学行业能做的吗?
  • 计算机行业相关设备如何做到近乎免费,生物信息学行业能做的吗?
  • 计算机行业相关应用如何做到分秒级别的高频,生物信息学行业能做的吗?
  • 计算机行业做到了交叉万物,生物信息学行业能做的吗?

计算机科学与生物信息学的共通之处

商业的最终奥义是对人类本性的探索。

在人类的科技进步历程中,无论是计算机科学还是生物信息学,都是以满足人类基本需求为出发点的科学领域。计算机科学的发展,特别是互联网的兴起,极大地改变了人类的生活方式。正如马克思所说“人是一切社会关系的总和”,互联网的出现从根本上正是满足了人类社会化的需求,极大推动了社会的边界。生物信息学的发展,虽然相比计算机科学较晚,但是其根本点也在于人类对个人健康和生命科学理解的需求的满足。生物信息学的发展使我们能够更好地理解生命的奥意,开发出新的医疗技术和疗法,推动人类生存边界。虽然计算机行业和生物信息学的应用场景和实现方式各有不同,但这两者都满足了“人性”的需求,让我们更能认知自我,所以我们仍可以比较这两个领域,以计算机行业的发展为参照,预估生物信息学行业的发展路径。

是什么推动了计算机的发展

一个行业是否抵达风口,其真实标志不仅在于其能否源源不断地满足需求,更在于其是否能持续创造新的需求。

自从1960年代ARPANET的诞生,到1980年代个人电脑的普及,再到1990年代互联网的商业化,计算机科学和互联网行业经历了从无到有,从小到大的发展过程,它始于军事和科研的计算需求,但现在却成为了每个人的必备之物。在这个过程中,是什么推动了这个行业的发展?

1. 集成电路

集成电路(IC)是计算机历史上的一个重大突破,它使电子设备变得更小,更便宜,更可靠,更强大。IC 集成了许多微小的晶体管,电阻,电容等元件,使得电子设备的组装和生产变得更加容易和高效。

2. 微处理器

微处理器是计算机的“大脑”,它执行程序的指令和操作。微处理器的发展,特别是速度和效率的提升,使得计算机的性能得到了极大的提升。

3. 操作系统

操作系统(OS)是计算机的核心软件,它管理和控制计算机硬件和软件的操作。操作系统的出现使得计算机变得更加用户友好,同时也使得软件开发变得更加方便。

4. 图形用户界面

图形用户界面(GUI)使得计算机变得更加易于使用。用户可以使用鼠标点击屏幕上的图标和菜单来操作计算机,而不是只能通过命令行接口输入文字指令。

5. 互联网

互联网的出现和发展改变了计算机的使用方式,使得全球的计算机可以相互连接和通信。互联网使得信息的获取和分享变得更加快速和方便,同时也催生了许多新的应用和服务,如电子邮件,网页浏览,在线购物,社交网络等。

6. 移动计算

智能手机和平板电脑的出现代表了移动计算的兴起,它们使得计算机变得更加便携,使得人们可以随时随地地访问信息和服务。

7. 云计算

云计算使得用户可以通过互联网访问和使用在远程数据中心的计算资源,包括计算能力,存储空间,以及各种软件和服务。云计算降低了 IT 基础设施的成本,提高了资源利用率,同时也使得数据和服务的访问更加灵活和方便。

8. 人工智能和机器学习

人工智能和机器学习使得计算机能够学习和理解数据,解决复杂的问题,进行预测,甚至做出决策。这些技术的发展推动了新一轮的计算机革命,催生了许多新的应用和服务,如搜索引擎的优化,自动驾驶汽车,语音识别和语音助手等。

计算机行业的发展规律

总结以上计算机行业的发展重要因素,我们可以发现,这个领域的发展可以被划分为三个主要阶段,每个阶段都有其关键的推动因素。

  1. 行业的起源(发明):该阶段的主要特点是对高速和高效计算的追求。基础学科,如物理学和化学,以及工业制造技术的突破,为计算机的发展提供了可能。例如,二极管和晶体管的发明,以及集成电路的开发,都是这个阶段的关键技术突破。这些技术使得计算机从原先的机械设备变为复杂的电子设备,大大提高了计算速度和效率。
  2. 行业的飞速发展(应用):该阶段的主要特点是对计算机的普及化和便捷化的追求。图形用户界面(GUI)的发明使得计算机变得更加用户友好,而互联网的发展使得计算机与人们的日常生活深度融合。在这个阶段,计算机从专业领域走入了普通家庭,从研究实验室走向了公共领域。
  3. 行业的风口(平台):该阶段的主要特点是对需求的不断创造。随着人工智能(AI)的发展,计算机不再仅仅是处理数据的工具,它们现在能理解并解决复杂的问题。在这个阶段,计算机从工具变为解决方案提供者,从被动的等待用户输入,变为主动的理解和解决问题。

计算机科学的发展确实是惊人的快速,在过去的几十年里,从大型机的时代,到个人电脑的普及,再到现在的移动设备和云计算的时代,计算能力的提升和成本的下降都超乎想象。然而,我们需要认识到,这种快速的进步并非所有行业都能体现出来。许多行业可能在某个阶段遇到瓶颈,其发展速度就会显著放缓,比如汽车工业。

尽管亨利·福特的生产线革新使得家用车的生产成本大大降低,但并没有像计算机那样,使得每个人都能负担得起汽车,在近一百年里汽车的形态和功能并没有得到巨大的飞跃。而今天的手机,其性能已经超过了几十年前数百万美元的服务器,而且几乎每个人都能拥有。但是汽车行业并未在这个阶段实现类似的突破,至少直到最近的电气化、人工智能和自动驾驶技术的出现,这些新技术可能会带来新的变革。

这是因为,一个行业的发展浪潮和规律,不仅取决于行业自身的活力,而且更重要的是其基础科学的突破,也就是需要乘上上一个时代的风口。正是因为上个阶段的天时地利人和(战争需求,政府大力扶持,基础学科的迸发),计算机科学才得以实现快速的发展,摩尔定律也因此得以实现。所以,当我们谈论一个行业的发展速度时,我们需要考虑的不仅仅是行业自身的情况,还需要考虑其阶段性的历史原因。

而当前我们正处于计算机科学和信息技术的平台期,人们开始期待下一个重大的科技革新。鉴于人工智能(AI)的快速发展和其在各个行业中的广泛应用,我们有理由相信,下一个时代将会是以 AI 为基础的时代(AI 可类比为上世纪计算机的发明初期)。

但我们结合当前的历史阶段,我们也需要考虑到,全球人口正在快速老龄化,这将对许多行业产生深远的影响。在这样的背景下,哪个行业能够支撑起下一个万万亿的市场规模呢?我认为,生物信息学可能是这个问题的答案。

生命科学,包括生物学、医学、生物技术等领域,有着天然的受众基础和远大的发展前景。在全球人口老龄化的趋势下,健康医疗、疾病预防和治疗、生物技术等领域的需求将会持续增长。这将为生命科学的发展提供巨大的市场空间,而且,生命科学的突破和进步也将对人类生活产生深远的影响。在这个过程中,AI技术将发挥关键的作用,也许当前火热的 LLM 正是人类认知自我进程中的蹒跚学步。因此,我认为,下一个时代将是AI和生命科学交织的时代。在这个时代,我们将看到生命科学的繁荣和发展,而 AI 将成为推动这个进程的重要力量。

预估生物信息学行业的发展路径

如果我们参考计算机行业的发展历程,我们可以预测生物信息学行业可能的发展路径。如果这个行业要进入快速发展的风口期,那么它可能需要在各个环节满足条件:

  1. 上游:极低成本的数据产出。正如计算机硬件和软件的进步推动了计算机行业的发展,生物信息学的发展也将依赖于测序技术和数据分析技术的进步,这可能意味着我们需要能够更加高通量、低成本地产生生物数据,比如基因测序、蛋白质质谱分析等技术。什么时候每一个个体获得生物学数据的成本可以低到 -100 ~ -1000 元人民币?
  2. 中游:完善可扩展的数据预处理、存储和共享机制。在计算机行业中,这一阶段对应的是互联网的发展,包括数据传输协议、服务器和云计算等技术。对应到生物信息学,这可能意味着我们需要有极为高效的数据预处理方法,以及便捷可靠的数据存储和共享协议,以便在全球范围内分享和使用生物数据。什么时候我们利用生物数据就和打开手机 APP 一样便捷?
  3. 下游:极大提升数据的应用价值。正如互联网推动了电子商务、社交网络等新的业务模式的出现,不断提升数据的使用价值。对应到生物信息学,这可能意味着我们需要发展有效的生物信息学下游应用,真正做到与全球的每一个人息息相关。什么时候人类有能力对生物体复杂系统精确建模?

生物信息学行业的现状和未来

我以为当前的生物信息学家,更类似上世纪六七十年代搞深度学习的那伙人。虽然现在这个行业还做不到和每个人息息相关,但这就是未来。

在上世纪六七十年代,深度学习(当时多被称为人工神经网络)的理念已经提出,但由于计算能力的限制和数据的缺乏,其应用并没有得到广泛的推广和实施。然而,随着计算能力的增强和大数据的累积,深度学习在21世纪初开始取得了显著的进展,尤其是在图像识别、自然语言处理等领域。类似地,生物信息学可能也正处在这样一个阶段。我们已经有了许多理论和工具,比如基因测序、蛋白质结构预测等,但由于数据和计算能力的低效,这些东西并没有得到广泛的实际应用。所以如果你要问我现在的生物信息学家应该如何自处?那就学学这些有经验的前辈吧:坚定长远信念、专注基础研究、关注实际需求。

当然,这只是一种可能的预测,并不代表未来一定会如此。生物信息学的发展也会受到许多其他因素的影响,包括但不限于政策制定、资金投入、社会接受度等。但我还是会愿意乐观地相信在 21 世纪中叶,通过某个契机这个行业有可能进入风口期,而在现在到风口之间更可能会出现一个 AI for Science (AI4S) 的机会。

为什么这么说呢?首先,随着 illumina 的专利到期,在未来 10-20 年测序的成本会进一步降低,这将有可能引发技术的开源和广泛应用,从而大幅降低基因测序的成本,从源头推动行业发展,更多的数据将会带来更多的机会,为 AI 在生物科学中的应用创造更丰富的可能性。另一方面,当前,传统数据的组织与管理大多被大公司如谷歌、Meta、腾讯、阿里等垄断。而生物学数据的属性决定了它应该以国家或者以全人类为单位进行共享和利用。因此,未来的生物信息学平台可能会呈现出国家主导和去中心化并存的状态。对于国家主导的部分,由于涉及到政策、法规等多方面的因素,其发展方向和模式预测较为复杂。对于去中心化的部分,我相信在即将来临的下一个加密浪潮中,一定会有合适的解决方案出现,为生物数据的去中心化存储和共享提供可能。然而,我们也必须明白,当前下游的应用并不能极大地发挥出数据的价值,以目前的水平,很多情况下我们只能“看到”数据的产出罢了。只有当我们的基础科研,什么时候能真正发挥出数据 1000 % 的价值的时候(例如和保险、医疗等行业的深度融合),当测序不要钱的时候(就和我们现在刷短视频差不多,一边刷还一边有红包拿),到那个时候每个人才都能能从中获益。所以在未来 10-30 年,AI4S 可能是一个潜在的机会点,如果 AI4S 和生命科学基础研究的发展没有跟上,那么所谓的风口也只能是空谈。

结语

The reasonable man adapts himself to the world; the unreasonable one persists in trying to adapt the world to himself. Therefore all progress depends on the unreasonable man. - George Bernard Shaw

所有的进步都依赖于那些"不合理"的人,这是那些敢于改变世界,而不是仅仅适应世界的人。这些人不满足于现状,他们拥有创新的思维,敢于挑战既定的规则和常识。历史充满了这样的例子,诸如爱因斯坦的相对论挑战了牛顿的经典物理,史蒂夫·乔布斯的 iPhone 改变了我们对手机的认知,而马克·扎克伯格的 Facebook 重新定义了我们的社交方式。正是这些人的努力推动了社会和科技的进步。

在这个意义上,我们仍应该敢于创造未来,敢于投身于新兴的科技领域。我们需要做好充分的准备,包括学习相关的知识和技能,积累必要的资源,建立合适的团队,等待“天时地利人和”的到来,从而有可能成为下一个时代的主导者。

生物信息学的发展可能会像计算机科学一样,经历从无到有,从小到大的过程。在最初,计算机科学只是一门边缘学科,应用领域相对较小。但随着技术的发展,特别是微处理器的出现,计算机科学开始迅速发展,并逐渐渗透到我们的生活中的各个角落。

我们不能确切地预知生物信息学的未来,但是,我们可以通过观察计算机科学的发展,对生物信息学的发展趋势有一定的预测。例如,生物信息学可能会更深入地影响医疗、农业、环境保护等领域,从而带来更大的社会价值。随着大数据技术和人工智能技术的发展,生物信息学的应用可能会更广泛,更深入。这就像计算机科学对我们生活的影响一样深远。在计算机科学的推动下,我们的生活发生了翻天覆地的变化。我们可以预见,如果生物信息学能够得到类似的发展,那么它可能会对我们的生活产生同样甚至更加深远的影响。

补充 by Jianfeng

生物信息学归根到底,属于数据科学。它的腾飞离不开数据全周期环节(数据产生、数据收集、知识/模型的发现与建立、成果推广应用)的高度协同发展。

现阶段,生物信息学涉及的数据产生中最重要的一环属于基因测序。经过多年充分的技术竞争,诞生了因美纳、华大智造、赛默飞、10 X Genomics 等一大批国内外优秀企业,不断推动这个行业走向更低成本、更高通量、更小尺度。未来,可能还需要更实时和更保真。或许到那个时候,现在的许多科学结论都将被改写。

生物信息学涉及的数据收集过程一般与特定疾病或生物学现象密不可分。高水平医疗单位、科研机构以及国家级/国际科研协作组在其中发挥着重要推动作用。未来,随着可穿戴设备、便携式检测仪器等发展,将会有更多普通人可以参与到该环节中。作为生物信息学领域的从业人员,需要生物信息学从业人员在更广泛的领域与医务人员、生物学家以及不同实验人员开展更为紧密的合作,共同发现和解决更多关键科学问题。

生物数据的存储容量和算力的提升是驱动生物信息学发展的两个核心要素,二者对于通用人工智能领域的发展也发挥了关键作用。前者是整个生命数据科学的基础,后者是生命数据科学领域从量变产生质变的重要推动力。我们很难想象,在 20 年以前该如何产生数十万人的高通量测序数据,并在短时间内对其进行充分分析和利用。计算的内核是统计学/数学,非生命科学领域的专业领域产生的一些新思想和新理论亦可以推动生物信息学的发展。背后存在的许多科学问题和技术方法与其他许多专业领域往往通用。当然,算法带来的效率提升总有上限,这个时候就需要更先进的硬件设备(GPU)来推动更进一步发展。

生物信息学成果的推广应用,类比于 ChatGPT 的风靡,我们需要有更成熟、更简单的 App 或者平台来将已建立的知识和模型推向更多人,并且需要更快速地迭代,来适应生命科学领域的高速发展(新的治疗方法、新的疾病亚型以及新的指南层出不穷)。

最后,生物信息学行业还需要培养更多高质量人才。这离不开一个更加开放和包容的社会和思想环境,更离不开更前沿的科研项目、更富有创造性的点子以及更多引领行业发展和改变世界的科研单位和企业。