搜索
|
首页 > 百度 > 
百度文心大模型再获国际顶刊认可!重磅生物计算成果登上Nature子刊
出处:二牛网    编辑:老牛 ·  2023-10-10

北京时间10月9日晚,国际顶级学术期刊《自然》旗下子刊《机器智能》发表了百度飞桨螺旋桨联合百图生科研发的文心生物计算大模型的又一重大成果《A method for multiple-sequence-alignment-free protein structure prediction using a protein language model》,提出了全球首个开源、并提供在线服务,无需MSA输入的蛋白结构预测大模型HelixFold-Single。

百度文心大模型再获国际顶刊认可!重磅生物计算成果登上Nature子刊


该项研究是百度在生物计算领域继HelixGEM和Linear Design两项重磅工作之后,在蛋白领域的又一突破性成果。该工作打破了AlphaFold2等主流依赖MSA检索模型的速度瓶颈,将蛋白结构预测速度平均提高数百倍,实现了秒级别预测,该工作的发表也为产学研各界带来了使用门槛更低、适用范围更广的蛋白结构预测解决方案,有望促进我国生命科学、生物医药、蛋白研究等领域的发展。


百度文心大模型再获国际顶刊认可!重磅生物计算成果登上Nature子刊

HelixFold-Single模型框架图

近年来,AI一直致力于突破蛋白质的结构预测问题,并在预测精度方面取得了重大进展。特别是 AlphaFold2将蛋白质预测推向了一个新的前沿。但问题在于,以 AlphaFold2 模型为代表的主流蛋白质结构预测方法严重依赖于多序列比对(MSAs, Multiple Sequence alignments)和模板(Templates)提取的协同进化信息。


本项研究打破了依赖MSA检索模型的速度瓶颈,相比AlphaFold2,HelixFold-Single模型推理速度平均提升数百倍,实现了秒级预测。以门蛋白7et2_H(蛋白长度697)为例,用AlphaFold2预测其结构需要1280秒(超过21分钟),而HelixFold-Single只需要11秒,速度提高了115倍。

百度文心大模型再获国际顶刊认可!重磅生物计算成果登上Nature子刊

不同长度的蛋白质上AlphaFold2和HelixFold-Single的耗时对比


高效的HelixFold-Single模型不仅能更好地适配到蛋白设计、大规模虚拟筛选等需要频繁预测蛋白结构的任务中,且在多肽、抗体、纳米抗体等与大分子药物设计更相关的高可变蛋白场景上,效果更是优于AlphaFold2。


百度文心大模型再获国际顶刊认可!重磅生物计算成果登上Nature子刊

HelixFold-Single在多肽、抗体、纳米抗体上的表现

HelixFold-Single目前已经落地在国家超算成都中心,通过超算平台赋能川渝地区蛋白领域的科学研究机构。在大分子药物的应用场景上,HelixFold-Single也已经整合进入百图生科AIGP平台,为百图提供更高效的蛋白分析能力,助力其探索大分子创新药。


另据研发团队介绍,基于HelixFold-Single和HelixFold研发过程中积累的经验,团队针对更具挑战性的抗原抗体、多肽蛋白的相互作用场景,研发了更具通用性和鲁棒性的复合体结构预测算法HelixFold-Multimer,相比业界同类方法,精度提升了数倍,该工作也将在近期上线到paddlehelix.baidu.com平台,为用户提供服务。


HelixFold-Multimer在学界公认的抗原抗体困难场景上(缺少抗体MSA以及抗原抗体共进化信息),DockQ均值达到0.4(一般认为DockQ≥0.23为可接受),远超DeepMind的 AlphaFold-Multimer,ZDOCK、HDOCK等主流模型,达到当前业界SOTA(最佳模型)。


百度文心大模型再获国际顶刊认可!重磅生物计算成果登上Nature子刊

Sabdab 抗原抗体复合物数据集68个测试样本对比结果

以7s5p新冠刺突蛋白SARS-CoV-2 B.1.351 与中和抗体 CS23的复合体的构象预测为例。HelixFold-Multimer准确预测了抗原抗体对接面,预测的复合体构象和真实实验值(白色)几乎重合,DockQ达到0.882,接触面的RMSD 达到0.735Ȧ,远优于Alphafold-Multimer 的预测结果。


百度文心大模型再获国际顶刊认可!重磅生物计算成果登上Nature子刊


同时,在多肽药物设计场景上,螺旋桨团队也已经将HelixFold-Single和HelixFold-Multimer模型成功应用在多肽药物设计系统上,结合多肽生成算法,进行多肽-蛋白结合亲和力的评估,并在多个真实管线上,验证多肽药物设计系统的有效性,帮助合作伙伴发现更具新颖性和高潜力的候选多肽药物分子。如下图所示,设计的多肽和跨膜蛋白激活状态相关的关键位点的相互作用明显增加(右图对比左图)。

百度文心大模型再获国际顶刊认可!重磅生物计算成果登上Nature子刊


当前,AI大模型技术正驱动生物计算领域的高速发展。基于文心生物计算大模型技术打造的飞桨螺旋桨PaddleHelix平台,将帮助生命科学领域的研究人员更便捷、更高效地应用大模型技术,更好理解生命体的构成和变化规律,以帮助研究者进行更多开拓性研究,如探索针对特定癌症、病毒类感染疾病的治疗方法,开发新的抗生素、靶向药,或者研发更高效率的工业酶等等,为人类健康与产业发展贡献源源不断的价值。