在生物科学的广阔领域中,理解生物分子的三维结构及其相互作用是揭示生命奥秘的关键步骤。近年来,随着人工智能和机器学习的飞速发展,科学家们在这一领域取得了突破性进展。其中,AlphaFold3的问世尤为引人注目,它不仅能够预测单个生物分子的三维结构,还能准确预测生物分子复合物的结构,为解码分子行为和生物计算提供了强有力的工具。
2024年7月8日,来自美国杜克大学和哥伦比亚大学的研究人员在Nature Structural & Molecular Biology上发布文章:AlphaFold3 takes a step toward decoding molecular behavior and biological computation,详细探讨了AlphaFold3的发展历程、技术原理、应用前景以及面临的挑战。
AlphaFold的发展
AlphaFold系列算法的发展可以追溯到DeepMind团队在蛋白质结构预测领域的持续努力。2020年,AlphaFold 2在第13届结构预测关键评估(CASP)竞赛中惊艳亮相,其预测蛋白质结构的中位数准确率达到了前所未有的水平,远超其他方法。这一成就标志着蛋白质结构预测领域革命的开始。
AlphaFold 2的成功主要归功于其深度学习模型,特别是Transformer架构的应用。相比于传统的卷积神经网络(CNN),Transformer能够更好地捕捉蛋白质序列中的长程依赖关系,从而提高了预测的准确性。此外,AlphaFold 2还利用了多序列比对(MSA)和蛋白质数据库(PDB)中的结构模板,通过Evoformer转换器实现了两者之间的有效交互,进一步提升了预测能力。
在AlphaFold 2的基础上,DeepMind团队继续深耕,于近期推出了AlphaFold 3。这一新版本在预测蛋白质-蛋白质、蛋白质-配体和蛋白质-核酸复合物的三维结构方面取得了显著进步,不仅预测准确率更高,而且适用范围更广。AlphaFold 3的出现,无疑为生物计算和结构生物学领域注入了新的活力。
图 1:解码分子生物学编程语言
a, 分子生物学的 “计算教条”。与现代计算机类似,生物大分子既携带了其一维序列中编码的指令序列,也携带了通过折叠成特定三维结构来执行这些指令的方法,这种三维结构可与细胞内的其他分子发生特定的相互作用。b, AlphaFold 3扩散模块的扩散过程示例。在前向扩散过程中,从左侧的初始三维坐标(PDB编号 3MFK)开始,单个原子的坐标会逐渐增加高斯噪声,最初会破坏子域的局部结构,随后最终会丢失全局结构信息,在最后一步,原子会出现随机分布。扩散模型(如AlphaFold 3所用的模型)利用深度神经网络来学习连续逆转这一过程(去噪或反向扩散),从随机分布到预测复合物中每个原子的坐标。所有结构坐标均使用PyMOL(2.5.4版)进行可视化
AlphaFold3的技术原理
AlphaFold 3的核心在于其深度学习模型的更新。首先,它用新的扩散模块取代了旧的结构模块。扩散模型是一种生成模型,通过学习从噪声干扰版本中恢复真实数据来工作。在AlphaFold 3中,扩散模型被训练来直接预测单个原子的笛卡尔坐标,这一改进使得模型能够更准确地捕捉生物分子及其复合物的三维结构细节。
此外,AlphaFold 3还采用了Pairformer转换器架构,替代了原有的Evoformer。Pairformer减少了对MSA处理的依赖,使网络架构更加简化。同时,它保留了序列和“配对表示”用于下游处理,能够更有效地捕捉进化和结构信息。
AlphaFold 3的另一个重要更新是预测范围的扩展。它不仅能够预测蛋白质的三维结构,还能准确预测蛋白质-蛋白质、蛋白质-配体和蛋白质-核酸复合物的结构。这一扩展使得 AlphaFold 3 在生物计算中的应用范围更加广泛,能够为更多类型的生物分子及其相互作用提供结构信息。
在多个测试数据集上,AlphaFold 3的预测准确率始终保持着统计意义上的显著提高。特别是在预测蛋白质配体复合物方面,AlphaFold 3在2Å的实验误差范围内预测了约80%的复合物结构,这一成绩远超其他方法。此外,它在预测蛋白质-DNA、蛋白质-RNA以及抗体-抗原相互作用方面也表现出了卓越的准确性。
AlphaFold 3的应用前景
加速药物研发:AlphaFold 3的出现为药物研发带来了革命性的变化。通过准确预测蛋白质及其复合物的三维结构,科学家们可以更快地识别出潜在的药物靶点,并设计出更加有效的药物分子。这不仅能够缩短药物研发周期,降低研发成本,还能够提高药物的有效性和安全性。
推动结构生物学研究:结构生物学是研究生物分子三维结构与功能关系的科学。AlphaFold 3的高准确性预测能力为结构生物学研究提供了丰富的结构数据,使得科学家们能够更深入地理解生物分子的相互作用机制及其在执行生物程序中的作用。这将有助于揭示生命现象的本质规律,推动生物学研究的深入发展。
助力合成生物学:合成生物学旨在通过设计和构建新的生物系统来解决人类面临的重大问题。AlphaFold 3的应用为合成生物学研究提供了强有力的支持。通过预测生物分子的三维结构及其相互作用方式,科学家们可以更加精确地设计和构建具有特定功能的生物系统,从而实现合成生物学的目标。
讨论与展望
尽管AlphaFold 3在蛋白质及其复合物结构预测方面取得了显著进展,但仍面临一些挑战。首先,AlphaFold 3有时无法建立正确的分子手性模型,这可能导致预测结果出现偏差。其次,在预测大型蛋白质-核酸复合物结构时,AlphaFold 3可能会出现相互作用残基之间的严重立体冲突。此外,生成模型(如扩散模块)有时会出现“幻觉”。
在考虑AlphaFold 3带来的结构预测突破时,需要记住,结构生物学的目标不是预测生物分子及其复合物的三维结构,而是预测它们的行为以及在执行生物程序时会发生什么。例如,从转录因子及其DNA结合物的三维结构来看,我们无法预测它们彼此结合的紧密程度或速度,我们无法预测当通过突变残基来改变程序时,这些分子行为将如何改变。需要此信息才能准确预测执行转录程序的结果。
预测各种条件下序列的构象组合是我们现在必须重点解决的问题,以获得对分子行为的定量和预测性理解。要训练一个神经网络来预测序列中的构象组合,需要一个由实验测定的构象组合组成的大型数据集。然而,实验测定的构象组合目前仅限于几十个。因此,尽管通过AlphaFold 3从序列预测生物分子自由和相互复合的三维结构是理解分子行为和生物计算的重要一步,但实验人员不必担心自己会被淘汰。结构生物学领域将变得更加充满活力。
参考资料:
Roy, R., Al-Hashimi, H.M. AlphaFold3 takes a step toward decoding molecular behavior and biological computation. Nat Struct Mol Biol 31, 997–1000 (2024). https://doi.org/10.1038/s41594-024-01350-2