《自然》重磅！AI颠覆蛋白设计，开发药物的新时代要来了？

自AlphaFold横空出世以来，人工智能（AI）已经彻底革新了结构生物学的研究现状。除了预测蛋白质结构，使用AI进行从头设计功能性蛋白质分子亦已成为现实。今日，人工设计蛋白领域先驱David Baker教授在《自然》发布最新论文，其团队所开发出的AI软件RFdiffusion能够突破既往诸多蛋白质设计限制，可根据需要“定制化”设计出包含高阶对称结构等以往无法通过AI设计的蛋白质。《自然》新闻稿指出，此AI模型可按需设计生物分子，将可能带来变革性疫苗和药物开发的下一个时代。

(资料图片)

过往蛋白质设计的限制

在AI时代来临前，蛋白质的设计主要是通过组合许多已知蛋白质的功能性结构，例如酶蛋白的口袋所进行。这种方式需要对蛋白如何折叠及其工作方式有清楚的了解，并需经过多次反复的试验确认，科学家有时甚至需在筛选数千种设计后才能识别可能符合条件的蛋白分子。

然而类似于AlphaFold这类基于AI蛋白结构预测模型的开发打破了此一限制，科学家可以仅通过氨基酸序列来预测蛋白结构，并据此从头设计新的蛋白分子。其中一种方法是基于“幻想”（hallucination），即通过随机建立氨基酸序列，然后经由AlphaFold或RoseTTAFold等AI模型优化，直至模型中的神经网络显示其可能折叠成一特定的结构。

而另一个方法为“修复”（inpainting），即通过获取一个蛋白质序列或结构的指定片段，并使用AI模型构建分子周围的其余部分。然而无论是基于“幻想”或“修复”模型设计出的蛋白质，能够在实验室中被制造、纯化出具功能性蛋白质的概率皆不高。此外，基于“幻想”的模型多仅可用于设计小型蛋白质，而在使用“修复”模型时则需要输入一长串指定片段才能形成可能的蛋白质。

基于能产生真实图片的生成式神经网络模型来设计蛋白

为突破这些限制，科学家将像是Stable Diffusion、DALL-E和Midjourney等能产生真实图片的神经网络AI模型融入蛋白设计当中。这类模型被称之为去噪扩散概率模型（DDPMs）。Baker教授团队将之与RoseTTAFold结合而产生新的RFdiffusion模型，并以储存于蛋白数据库（PDB）中大量的真实蛋白质图像加以训练。在生成全新蛋白质时，RFdiffusion一开始会产生许多“噪音”，即许多随机氨基酸分类，所生成的蛋白与原起始的蛋白结构相异，然后再通过渐进式的“去噪”过程，便产生类似于真实但全新的蛋白质。

当Baker团队在除了蛋白质长度之外没有提供任何指示的情况下测试RFdiffusion时，该网络产生了多样化的、外观逼真的蛋白质，与PDB中训练的蛋白质都不相同。但研究人员亦可在“去噪”过程给予模型蛋白的生成条件以使之产生包括特定折叠，或能与另一分子表面结合的蛋白质。通过RFdiffusion所设计出蛋白质结构的准确性也经过实验验证。在论文当中，一个通过RFdiffusion设计可与流感血凝素复合物结合的粘合剂，其冷冻电镜结构（cryo-EM）与设计模型几乎完全相同。

根据华盛顿大学官网，RFdiffusion模型胜过现有许多蛋白质设计方法，包含蛋白质结合剂设计、对称寡聚物设计、酶活性位点支架，以及用于治疗和金属结合蛋白质设计的对称基序支架设计等。

目前为止，Baker团队已利用RFdiffusion制造出了与癌症、自身免疫疾病和其他病症有关的蛋白质强烈结合的蛋白质。其中所设计出一强有力的结合剂能够与难以靶向的免疫信号分子——肿瘤坏死因子受体相结合（数据尚未发表）。此外，该团队也通过RFdiffusion设计出包含p53蛋白关键序列的蛋白，当将95种所设计的蛋白在实验室纯化出来时，有超过半数所设计的蛋白能与MDM2蛋白（p53蛋白的天然靶标）相结合，其中一个所设计出的蛋白质与MDM2的结合强度甚至超过天然p53蛋白质约1000倍。当研究人员试着用基于“幻想”的AI模型进行类似实验时发现，其所设计出的蛋白质与MDM2结合的能力无法在实验中被验证。Baker教授称有10-20%由RFdiffusion设计的蛋白与他们预期靶标结合的强度足以有用，而此数值在早期、AI前的方法只有不到1%。

华盛顿大学的计算机生化学家，也是RFdiffusion的共同开发者Joe Watson博士说：“RFdiffusion正在拓宽我们可以制造结合剂蛋白质的能力，并可开发出有意义的疗法。”

未来的挑战

虽然RFdiffusion模型的开发将从头设计蛋白质领域又往前推进了一步，但在距离开发有效疗法的道路上仍有许多关卡需要克服。其中一项便是利用该模型设计更复杂的结合蛋白，如抗体或T细胞使用的蛋白受体，这些蛋白质具有与其靶标互锁的柔性环结构。目前RFdiffusion所设计出的蛋白结合剂皆为扁平界面。然而Baker教授表示他们已取得抗体蛋白设计的部分进展。此外，除了与靶标蛋白结合，治疗用的蛋白质还需具备不与其他蛋白结合的专一性，以及具可大量生产的特性，这些不同的标准是未来开发蛋白设计工具时所需纳入考量的。

而这类基于扩散模型的AI蛋白设计的另一个局限是它们无法制造出与天然蛋白质有巨大差异的蛋白质。这是由于AI系统只接受现有蛋白质图像的训练，因此倾向于制造类似结构的蛋白质。此外，研究人员亦正在探索是否可使用通俗易懂的语言文本描述来设计蛋白质，类似于喂给Midjourney等图像生成工具的提示。Watson博士说：“你可以想象，我们将能够写出一种蛋白质的描述，让它们合成并进行测试。”

华盛顿大学蛋白设计研究所首席战略及运营官Lance Stewart博士在今年的药明康德全球论坛中指出，自从10年前与蛋白设计领域先驱David Baker教授相识后，人工智能在预测蛋白结构、设计蛋白药物等方面取得了很大进步。虽然仍有许多挑战需克服，今日的论文无疑进一步扩展了人工智能设计蛋白质的策略，让靶向更多靶点成为可能。让我们期待这些蛋白设计上的进步能早日转化成为治疗疾病的新药好药，为更多患者造福。

本文来源：药明康德，原文标题：《《自然》重磅！颠覆蛋白设计，开发药物的新时代要来了？》

风险提示及免责条款市场有风险，投资需谨慎。本文不构成个人投资建议，也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资，责任自负。

关键词：