Nat.Biotechnol. | 针对膜蛋白靶标的计算机辅助药物开发

今天为大家介绍的是来自Henning Stahlberg, Shuguang Yuan 和Horst Vogel团队的一篇综述。近年来,深度学习驱动的结构预测等进展使得计算生物学在膜蛋白靶标药物开发中的应用得到了显著推动。基于机器学习工具的最新蛋白质结构预测,为水溶性蛋白质和膜蛋白提供了出乎意料的可靠结果,但在开发针对膜蛋白靶点的药物时仍然存在局限性。膜蛋白的结构转变在跨膜信号传递中发挥着核心作用,常常受到治疗性化合物的影响。解决动态跨膜信号网络的结构与功能基础问题(特别是在原生膜或细胞环境中),仍然是药物开发面临的一个主要挑战。

大约三分之一的人类蛋白质是膜蛋白,其中G蛋白偶联受体(GPCRs)和通道蛋白是人类基因组编码的总蛋白质中最丰富的膜蛋白。膜蛋白在中央细胞信号的检测与传导以及病理生理过程中扮演着重要角色。因此不足为奇的是,用于治疗严重疾病的大多数临床药物都是针对膜蛋白的。目前开发一个首创的药物分子通常需要10到15年时间,相关成本从几亿美元到45亿美元不等,这取决于研究与开发(R&D)阶段的包含范围。

图 1

计算和结构生物学领域的最近发展,配合功能性生物分析,承诺在药物开发中节省大量时间和成本。计算方法在现代药物发现中变得越来越重要(图1),现在在制药行业得到了广泛应用。这主要是因为计算工具在药物寻找的不同阶段都可以发挥重要作用,包括构建靶标的三维(3D)模型、虚拟筛选、预测候选物的药物样性质以及预测生物活性。在这篇综述中,作者讨论了计算工具在加速药物设计流程中的不同步骤,从结构预测和结构转变的预测,到计算机筛选化学化合物库以预测高活性配体,再到计算机辅助规划化学合成以扩大受体和通道的生物活性配体的化学空间。

膜蛋白结构预测

表 1

生物大分子的三维结构,如蛋白质数据库(PDB)中所存储的,是通过核磁共振、X射线晶体学和冷冻电子显微镜(cryo-EM)等实验方法确定的。计算结构生物学补充并促进了实验结构的阐明。特别的,基于人工智能(AI)的方法在蛋白质折叠预测方面取得了实质性进展,并能预测膜蛋白的不同结构层次。AlphaFold2和RoseTTAFold是两种基于深度学习架构的结构预测方法,它们为水溶性蛋白质提供了出乎意料的精确的初始结构模型,尽管膜蛋白结构的数据库相对较小,但对于膜蛋白也是如此。几种最近的计算方法可以补充或与AlphaFold2或RoseTTAFold结合使用(表1)。

AlphaFold2之所以能够相对精确地预测蛋白质结构,归功于神经网络架构的应用,这些架构结合了基于蛋白质结构的进化和物理约束的机器学习。AlphaFold2的核心技术是多序列对齐(MSA)变换器。AlphaFold2由于其有效的架构表现良好,但它不是唯一用于蛋白质预测的神经网络架构。基于卷积神经网络、循环神经网络和生成对抗网络的方法也已被使用。一般而言,MSA是许多蛋白质结构预测工具的第一步。使用MSA作为输入可以包含关于进化事件的信息,如突变、插入、删除和重排,以解决蛋白质家族之间的结构和功能关系,但对于没有可用对齐信息的蛋白质,如孤立蛋白、de novo设计的蛋白和快速进化的蛋白,仍然存在挑战。

大型语言模型(LLM)的快速发展促进了单序列预测工具的开发。基于LLM的模型推进了蛋白质预测,并在与基于对齐的方法相比提供了竞争力的准确性。OmegaFold是使用单一原始序列实现端到端精确结构预测的代表性工具。另一个例子是Meta开发的预训练模型ESMFold,它实现了相似的精确三级结构预测。随着AlphaFold2和RoseTTAFold等基于深度学习的蛋白质结构预测工具的不断进步,人们开始质疑老旧工具如TMPSS和PredMP是否已经过时。对于具有已知同源物的蛋白质,AlphaFold的性能是可靠的,但在预测没有先前进化信息的蛋白质结构时准确性较低。对于不依赖于进化信息的蛋白质结构预测,可能仍然需要使用像TMPSS和PredMP这样的工具,这些工具在膜蛋白上的强大预测能力仍然吸引着人们的使用。

虽然AlphaFold2为许多蛋白质提供了精确的总体结构,但预测的结构细节的准确性可能不足以解释蛋白质的功能,也不足以用于基于结构的药物设计。尽管AlphaFold2已经发布了98.5%的人类蛋白质的结构模型,但只有58%的残基模型是高信心的。这部分是由于内在无序的蛋白质区域。人类蛋白质预计包含30-50%的无序区域,这些区域在与其他蛋白质相互作用时,常常可以转变为有序结构。如何预测无序蛋白质序列的折叠仍然是一个未解决的问题。此外,许多人类蛋白质中存在的多个域并不总是由AlphaFold2和RoseTTAFold以足够的准确性定位。总的来说,AlphaFold2在预测膜蛋白的整体骨架结构时表现良好。然而,对于基于结构的药物发现,它在细节上往往不够精确。例如,对GPCRs而言,当缺乏模板结构时,预测的结构模型通常不够准确。当有好的模板可用时,基于模板的软件Modeller能够产生更小的建模均方根偏差,而在没有好的模板可用时,AlphaFold和RoseTTAFold的表现优于Modeller。将AlphaFold2预测的GPCRs结构与实验确定的结构进行比较时,AlphaFold2能够非常好地捕捉到受体的整体骨架特征,但在涉及配体结合口袋的形状和转导器结合界面的构象等结构细节上,预测结构有时不够精确。

在使用默认参数时,AlphaFold2单独往往无法生成准确的功能性替代构象。然而,通过将AlphaFold2与序列聚类等其他工具结合使用,可以改善这种情况。当在特定情况下修改AlphaFold2工具的某些程序时,AlphaFold2被证明能够为GPCRs和转运蛋白的功能性替代构象实现准确的骨架构象。AlphaFold2与其他机器学习工具的结合也被证明能够改进离子通道和ABC转运蛋白的结构建模。尽管这些程序还不能广泛推广,但在这一领域将继续取得进一步的改进。预测多分子蛋白质组装体中亚单位之间的界面对于模拟蛋白质-蛋白质相互作用网络具有基本重要性。传统方法将四级结构预测视为一项通过搜索全局结合模式(MDockPP)或形状互补性(PatchDock)或使用实验数据驱动的方法(HADDOCK)来完成的蛋白质-蛋白质对接任务。近年来,基于现代机器学习架构的用户友好工具出现,可以用于预测蛋白质-蛋白质结合界面和链间接触。AlphaFold2及其变体AlphaFold-Multimer能够在使用优化MSAs作为输入时,为多聚体蛋白复合体结构提供可接受质量的大规模预测。此外,基于图匹配网络的深度学习模型EquiDock,将互相作用的蛋白质作为刚体对接到最终的多蛋白复合体模型中。尽管对多蛋白复合体的预测集中在水溶性蛋白上,但一旦有足够的实验结构数据,也可以将这些方法用于膜蛋白。

这里讨论的不同计算工具已在理性药物设计流程的不同层面上使用。未来将显示,AlphaFold2和RoseTTAFold在蛋白质结构预测方面的最近进展是否将成为基于结构的药物开发中的游戏规则改变者。所有计算工具都依赖于大量的高质量输入数据,这对于膜蛋白来说是有限的。下一节将讨论膜蛋白结构确定的最近发展以及实验和计算工具之间的相互影响如何促进了结构膜生物学的最近进展。

基于人工智能的X射线衍射或冷冻电子显微镜数据结构确定

作为计算分析的一种替代方法,X射线晶体学和冷冻电子显微镜(cryo-EM)是基于实验的膜蛋白结构分析的首选方法。cryo-EM是确定膜蛋白结构的主要方法,但当研究小尺寸或稳定性较低的蛋白质时受到限制,它的下限大约是60 kDa,这通常超出了单个GPCR的大小范围(例如,A类GPCR大约35 kDa)。然而如果通过与纳米体、G蛋白或阿雷斯汀结合来增加颗粒的大小,则可以通过cryo-EM确定GPCRs的结构。cryo-EM非常适合研究离子通道,许多离子通道形成的寡聚体组装体大于100 kDa。相比之下,X射线晶体学不受蛋白质下限大小的限制,但其主要瓶颈在于难以获得目标蛋白质的良好衍射3D晶体。因此,阐明如GPCR这样的难度目标蛋白质的不同结构状态可能需要结合这两种实验方法。GPCRs在其信号传导级联中的结构状态涉及从非活性apo状态到配体结合激活状态的结构转变,随后的连续跨膜构象变化最终导致异源三聚体G蛋白的结合和激活,或者在受体的细胞内侧结合阿雷斯汀(图2)。

图 2

X射线晶体学一直是解析GPCRs非活性状态结构的强大工具,占非活性状态人类GPCRs已提交结构的258/299。相比之下,cryo-EM一直是确定活性状态结构的主要工具,占活性状态人类GPCRs已提交结构的272/322。在由cryo-EM确定的41个非活性状态结构中,35个是C类GPCR,它们以二聚体或寡聚体的形式存在,因此比典型的A类GPCR(表2)的大小要大得多。相比之下,自2013年TRPV1结构发布以来,cryo-EM占可用的配体门控离子通道结构的117/222,TRPV1是第一个通过cryo-EM确定并解析侧链的离子通道结构。

表 2

X射线晶体学通常将目标蛋白限制在单一的均质构象中。只有在少数例外情况下,使用光激活配体或将激活化合物扩散到现有晶体中,可能观察到受体的配体门控激活。晶体化也经常发生在非生理缓冲条件下。因此,X射线晶体学可能无法提供最具生理相关性的结构。相比之下,cryo-EM依赖于含有目标蛋白颗粒的冰冻水溶液样本,无需任何结晶,可以从单一数据集捕获不同结构状态的全景。此外,可以轻松地从多个cryo-EM数据集(例如,当样品从不同温度或在不同盐浓度或pH值下快速冻结时)获得在不同环境条件下目标蛋白的结构。这对于离子通道特别有趣,离子通道经历由生理因子和配体结合调控的结构变化,导致通道的开启和关闭。一个典型的例子来自对TRPV1离子通道的研究,通过一系列快照图像获得了25个cryo-EM结构,覆盖了选择性滤波器对生理因子变化的动态结构转变,从而揭示了我们对疼痛、热和味道感知的洞察。

cryo-EM受益于算法的发展,如在冷冻电镜数据处理软件CryoSPARC中实现的3D分析(3DVA),以及像CryoDRGN这样的深度学习工具,它们使得能够从单个冷冻电镜数据集的单蛋白颗粒中模拟连续的异质性。为了采样从冷冻电镜数据集获得的颗粒的构象空间,3DVA算法通过计算一组颗粒图像的3D协方差的特征向量生成反应坐标(K),然后沿每个特征向量定位每个颗粒。3DVA已经被用来研究GPCRs。CryoDRGN是一种用于分析结构异质性的生成式深度学习方法。它借助变分自动编码器将二维冷冻电镜投影图像编码到潜在空间中,从该空间解码出切片或一系列3D重构。CryoDRGN因此评估了在冷冻电镜数据集中成像的蛋白质中的连续3D结构异质性。这种迅速发展的神经网络计算应用显示出比传统算法更优越的性能,特别是对于处于异质构象的小颗粒数据集。可以预见,机器学习算法的进一步研发将使得从冷冻电镜数据的异质颗粒群体分析3D结构成为常规操作,以最大化利用从图像数据中提取的信息。

在过去的十年里,分子动力学(MD)模拟在研究G蛋白偶联受体(GPCRs)和离子通道的结构转变中变得越来越受欢迎。MD模拟使用有限的现有结构数据作为计算长期或短暂结构转变的起始输入模型。MD模拟可以提供关于膜蛋白在环境变化(如温度、pH值和膜脂质组成的变化)后的结构运动的飞秒级分辨率信息,从而补充实验数据。这样的信息目前对于时间分辨的结构确定技术来说是无法获取的,后者的分辨率仅限于微秒到毫秒范围。将实验确定的结构与MD模拟结合,常常能生成GPCRs动态结构的吸引人的动画。然而,GPCRs在信号传导级联的不同步骤中在细胞内是如何组织的,仍有待发现。GPCRs可以形成同源和异源寡聚体,这会调节它们在细胞中的功能。光学超分辨率成像技术已经在纳米尺度上观察到这些寡聚态。近期,冷冻电子断层扫描(cryo-ET)在原位结构生物学中的改进,现在使得在原生膜中直接以亚纳米到几埃的分辨率确定膜蛋白的结构成为可能,通过亚断层平均和单颗粒成像实现。这一发展,结合包括AI辅助软件包(如AI-Tom用于数据处理)在内的计算工具,特别是在模板匹配中识别来自嘈杂断层图的目标分子,使得在细胞中以单位埃的分辨率可视化GPCRs的寡聚态,为未来的GPCRs和离子通道的结构生物学开辟新途径。在X射线晶体学中,由AI工具(如AlphaFold2)生成的准确结构模型提供了通过分子置换进行衍射数据相位的合适模板。因此,计算工具可以大幅减少实验阶段所需技术,并加速在蛋白质结构确定中的模型建造,包括GPCRs和离子通道。

针对膜蛋白靶点的大型化合物库虚拟筛选活性配体

基于丰富的化合物库和自动化技术的发展,实验高通量筛选(HTS)在药物开发中扮演着关键角色,已经占到药物开发成本的大约15%。虚拟筛选通过在计算机内筛选大型化合物数据库或虚拟化合物库,补充了HTS,使得有限数量的化合物进行测试。虚拟筛选基于对目标蛋白结构与化合物进行对接或药效团建模,根据它们的生物物理特性筛选出预期候选者。自从计算机辅助药物发现(CADD)技术引入以来,超过70种CADD开发的药物已经获得市场批准,其中包括几种针对GPCRs的药物。虚拟高通量筛选提高了后续功能筛选的效率,从而降低了新药研发的成本。传统的药物开发计划经常关注单一靶点药物,因此获得了许多高选择性的药物。然而,许多疾病(如神经退行性疾病、心血管疾病和肿瘤疾病)涉及多个病理因素,单一靶点的单一药物往往不足以治疗。在这种情况下,会使用多药物治疗和多化合物药物,但这些治疗通常需要特别注意药物的副作用和药物相互作用。对超大型化合物库的计算机筛选对开发多靶点和其他具有挑战性的药物提供了重要贡献。

虚拟高通量筛选(Virtual HTS)也促进了改进的离子通道药物的开发,例如,针对钠激活的钾通道亚单位KNa1.1的药物,用以治疗某些形式的癫痫。通过比较与有效的KNa1.1抑制剂复合物的结构相似性,虚拟筛选方法发现了六种化合物,在功能测定中至少抑制KNa1.5的活性40%。降眼压素,用于治疗青光眼,是一种类前列腺素样的激动剂,可与前列腺素F2α受体结合。最近的一项计算研究报告称,降眼压素可以通过NaV1.5和TASK-1充当潜在的抗心律失常药物。该研究开发了一种算法,用于深入探索不同蛋白质之间相似的三维结构和序列模式,以找到当前使用药物的多药性质。心脏离子通道NaV1.5和TASK-1被识别为绑定共同激动剂降眼压素的典型例子。

除了筛选现有的化学化合物数据库,研究人员还尝试扩展虚拟化合物数据库。例如,研究人员选择了涉及130种良好描述的反应的1.7亿种化合物进行结构对接,以获得新的分子框架库。这个库中的每个分子都通过计算机对AmpC β-内酰胺酶和D4多巴胺受体进行对接,以发现最佳的非共价AmpC抑制剂。得分最高的化合物随后被合成并通过实验测试它们与AmpC和多巴胺受体的相互作用。此外,还识别出对多巴胺受体具有亚纳摩尔亲和力的新化学类型。

开发具有更快筛选速度的虚拟筛选工具也很重要。一个名为VirtualFlow的开源平台允许在仅使用10,000CPU核心的情况下在2周内对10亿种化合物进行对接。在一个示例中,使用VirtualFlow软件进行虚拟筛选(VFVS)模型,在使用8,000 CPU核心的情况下4周内完成了对13亿化合物的筛选,以针对KEAP1的化合物进行筛选,得到了具有纳摩尔活性的iKeap1化合物。另一种名为V-SYNTHES的方法通过使用迭代对接方法,可以将对接速度提高超过5,000倍,而该方法的命中率是传统大型化合物库虚拟筛选的两倍。

随着越来越多的高分辨率GPCRs结构的识别,虚拟筛选正成为GPCR药物开发的重要工具。传统的对接程序利用蛋白-蛋白或蛋白-配体对之间的几何和静电互补性来量化相互作用。借助深度学习,研究人员开发了许多强大的新工具用于虚拟筛选,并与传统CADD方法相结合。这些包括DiffDock、GNINA、PyRMD等。传统方法的主要挑战是在考虑分子灵活性和反映真实结合时的合理计算时间。机器学习可以优化评分函数,加速潜在结合位点的识别。尽管传统对接方法应用广泛,但整合机器学习算法的新型分子对接方法正在迅速发展。一项最近的比较研究评估了这些基于深度学习的方法和传统对接在盲对接、分子对接和配体结合口袋搜索中的表现。研究表明,当前的深度学习辅助方法在配体结合口袋搜索和端到端盲对接中表现更好。然而,在给定配体结合口袋的对接上,传统方法仍然优于深度学习模型。

计算机辅助化学合成扩大生物活性配体的化学空间

随着虚拟筛选工具的吞吐量不断增长,探索更大化学空间部分的库的构建需求也在增加。目前已经开发设计多步骤化学合成路径的计算机程序,这些路径与以往方法大不相同,不仅能够促进激发创造力,而且具有实际价值。这一理念已被广泛接受,并整合到商业化软件包中,包括Chemaxon和Chematica,作为现代药物设计的基础。然而,仅仅通过已知的合成化学规则枚举构建模块,无法满足利用日益扩大的化学空间合成新药的需求。随着计算能力和算法的积累,机器学习技术已经出现,以协助化学反应路径规划。这些新方法非常适合预测高通量化学反应,包括创新的合成路径。在这里,反向合成工具包扮演着重要角色,主要用于递归断开目标分子直到达到商业可获得的构建模块,以发现最优路径。应用的方法经历了从自然语言处理到蒙特卡洛树搜索的实质性发展,以实现每个合成步骤中最简单试剂的预测。目前应用已经扩展到预测反应结果和优化反应条件。

随着对分子复杂性和药物选择性的需求不断增长,计算策略需要通过生成化学上有效、可购买和选择性的反应物来满足所有要求。同时考虑手性和立体选择性,预测复杂药物候选物的合成仍然是一个挑战。具体例子包括鲁非那敏,它被认为能调节电压敏感钠通道的活性,以及一个针对GPCR、5-HT6受体的新苯并吡喃磺酰胺衍生物。这个领域的问题来源于潜在生物活性化合物的多样性,目前无法将其整合到已建立的反应规则类型中。此外,缺乏相应的公开可访问数据集是在学术研究中开发和评估目标特定反应路径时的主要障碍。尽管如此,可以预期,随着预测准确性的提高,计算方法可能会强调和重新权衡特定类型的反应,例如,在连接芳香环以及保护/去保护基团时使用铃木偶联反应,从而促进系统性药物-靶点相互作用的合成关系。随着反应路径规划机器学习工具箱的出现,化学家现在可以更多地集中在他们想要合成哪种分子上,而不是如何制造它们。

编译 | 曾全晨

审稿 | 王建民

参考资料

Li, H., Sun, X., Cui, W. et al. Computational drug development for membrane protein targets. Nat Biotechnol 42, 229–242 (2024).

https://doi.org/10.1038/s41587-023-01987-2