AI 驱动科学大爆发!从蛋白质到数学证明,2024 年最值得关注的科技突破

2025-01-13 15:05:00
刘大牛
转自文章
247

编辑 | ScienceAI

2024 年对于 AI for Science 而言,可谓硕果累累:两个诺贝尔奖再度聚焦 人工智能 与科学的先驱性结合。

其一是诺贝尔化学奖,颁发给了在蛋白质设计与蛋白质结构预测领域做出开创性贡献的 David Baker 博士、John Jumper 博士以及Demis Hassabis 博士;其二是诺贝尔物理学奖,授予了 John J. Hopfield 博士与 Geoffrey Hinton 博士,以表彰他们在人工 神经网络 及其机学习核心原理方面的奠基性工作。

诺奖颁奖典礼上的演讲视频亦已公开,与大众共同见证了 AI 与科学交融所开拓的全新时代。这些殊荣所代表的,不仅是对过去卓越成果的致敬,更是对未来诸多未知前沿的探索预告。

回顾整个 2024 年,AI for Science 领域在不同学科交织下展现出一系列引人瞩目的新趋势。以下将重点梳理其中几大主要主题。

一、神经网络 的「缩放定律」(Neural Scaling Laws)

首当其冲的是「 神经网络 缩放定律」的兴起。这一概念旨在揭示:当模型规模、 参数 量以及计算量作不同程度的扩展或缩减时, 神经网络 性能如何随之变化。

缩放定律在大 语言模型 (LLM)的训练中尤其显著:2024 年里,不仅商业界(如 GPT-4o、Claude-3.5-Sonnet)纷纷推出更大 参数 量的新模型,开源社群也迎来了 Llama-3.1–140B 等超大 参数 版本。这些新模型在表现上均优于其前代产品,充分彰显了 参数 规模扩张所带来的性能飞跃。

在今年九月,OpenAI 推出了 GPT-o1-preview,再次为推理(inference)阶段的规模化注入新思路:他们在测试阶段提升了计算资源投入,令模型在攻克高难度数学题目等复杂任务上表现卓然。

虽尚未披露具体技术细节,Hugging Face 的团队已独立开发出类似方案,并在 MATH-500  基准 测试中令小 参数 模型(如 1B 与 3B 规模的 Llama Instruct 模型)胜过更大型号(如 8B 与 70B 模型)。这印证了「测试阶段扩大资源投入」这一思路的潜能,也为业界带来更多启发。

令人惊喜的是,类似的缩放规律也在科学应用中出现。例如在蛋白折叠领域,名为 ESM Cambrian 的模型在 CASP15 竞赛上展现了「近似幂律」般的性能提升,其水平甚至超越了同期大多数模型,进一步佐证缩放定律在 AI 与科学交汇处的普适性。

二、原子级生物大分子结构预测

在结构生物学领域, AlphaFold 3 的横空出世无疑是今年最耀眼的进展之一。新版不仅能预测蛋白质单体结构,更可精准模拟包含核苷酸、小分子以及离子在内的复杂体系,达到此前专用模型难以企及的准确度。

伴随着  AlphaFold  大家族不断攀升的影响力,相关 数据库 也在快速扩容:由伦敦大学学院(UCL)带头创建的「The Encyclopedia of Domains」(TED)即源于  AlphaFold   数据库 (AFDB),通过分析海量蛋白质结构,TED 已发现逾万种此前未被记录的结构互作关系,并为蛋白折叠空间谱系图增添了数千种新折叠形式。这些发现再次表明,蛋白质结构世界仍有广阔未知等待我们发掘。

尽管  AlphaFold  对各类生物医学研究推动甚大,其在实际药物设计中的效用仍有争议。加州大学旧金山分校的一项研究表明:将实验测得的真实蛋白结构与 AlphaFold  所预测的模型同时用于对接模拟时,两者虽拥有相近的「命中率」,但鉴定到的配体几乎无重叠之处。然而,这种差异或许意味着  AlphaFold  提供了另一种真实而未被充分利用的蛋白质构象,有望拓展基于结构的药物筛选边界。

在激烈的竞争氛围下,类似 Chai-1、NeuralPLexer3 及 Boltz-1 等新模型于今年九月至十一月间相继问世,并宣称具备媲美  AlphaFold 3 的性能。它们能否在制药工业中掀起变革,尚需时间验证。这些后起之秀的出现,昭示着以原子级精准度为目标的生物分子结构预测方兴未艾,也为下一代计算机辅助药物设计奠定了坚实基础。

三、「非等变」神经架构(Non-equivariant Neural Architecture)

值得关注的是, AlphaFold 3 在其网络设计中弃用了等变(equivariant)架构,这一做法在学界和工业界引起了广泛热议: 神经网络 在建模物理对称性时,究竟需不需要显式保留等变性?分歧不仅停留在结构生物学领域,也在分子模拟(molecular simulation)社区再次浮现。

一方面,近期刊登于《Nature》的大规模分子模拟工作,表明 神经网络 势能函数(NNIP)已能精确捕捉量子级相互作用,为化学、材料与生物物理等多领域带来前所未有的求解能力。

另一方面,「苦涩教训」(the 「bitter lesson」)在此领域再次得到印证:相比于依赖精心设计特征或严格物理对称性的模型,那些以大规模计算和数据为驱动的通用网络往往后劲更足。

加州大学伯克利分校的一项研究便显示,减少对物理对称性的显式嵌入后,架构在推理速度和准确度上均能胜过许多基于对称性的模型,再度呼应了在诸多 AI 应用中一再出现的规律:只要数据和算力足够,通用化网络也能自发学习出有效的表示。

这并不表示领域知识和对称性毫无价值,而是提示着一个更微妙的平衡:显式地嵌入物理先验,有时不如留给模型更多灵活度来「自学成才」。最近的研究显示,非等变模型若辅以充分的数据增广与算力投入,或可与等变模型之间的性能差距越拉越小。然而,研究还指出,在同等计算预算下,等变架构在诸多场景下仍然占据优势,且这一差距呈可预测的「缩放规律」。

更有趣的是,两类模型在寻求最佳算力分配(平衡准确度与推理效率)时会侧重不同的策略。随着对分子动力学在长期尺度上的模拟需求不断上升,如何在效率与可扩展性之间做出合理取舍,必将成为今后分子科学领域的重要议题。

四、大语言模型 (Large Language Models)

过去一年,大 语言模型 凭借日渐增强的推理能力与交互形式,一直吸引着科研工作者的目光。其中最瞩目的当属其在数学领域的应用: DeepMind  的 AlphaProof 与 AlphaGeometry2 正是这方面的典型案例。

AlphaProof 结合了大 语言模型 AlphaZero 强化学习 框架,可攻克国际数学奥林匹克(IMO)中的代数与数论难题;升级版 AlphaGeometry2 在几何题上效率提高两个量级,IMO的解题成功率也从 53% 攀升至 83%。

二者合力更在 IMO 2024 上取得了相当于银牌的成绩(据官方博客所述),不仅彰显了 AI 在数学领域的潜力,也为未来「机器数学家」指明了新方向。

与之呼应,Meta 亦在数学领域发力:其新模型针对 动力系统 全局稳定性中的李雅普诺夫函数(Lyapunov functions)推导问题给出了解决思路。

该问题在 控制理论 与天体力学中举足轻重,而 Meta 的模型通过为多项式系统生成随机解,并利用 序列到序列 (sequence-to-sequence)Transformer 进行训练,最终在算法求解器和人类专家都望而生畏的领域取得了突破,并成功拓展到缺乏算法解的非多项式系统上。

在其他科学方向,大 语言模型 同样大放异彩。OpenAI 利用 强化学习 与微调技术,开发出专门用于罕见病基因发现的模型,展现了在稀缺数据场景中的出色适应力,隐含了大 语言模型 在基因组学与精准医疗方向的广阔前景。

另一个例子是 MOLLEO:该模型可甄别高活性分子,性能超越先前各类先进算法,这从侧面证明了大 语言模型 对化学知识拥有潜在记忆与表征能力,并能通过搜索与采样有效释放出来。

总体而言,大 语言模型 在科学领域的飞跃,已为生成假设、综合知识与破解复杂难题提供了全新引擎。

五、科学领域的「基础模型」(Scientific Foundation Models)

语言模型 的发展异曲同工,科学领域也在逐渐形成「基础模型」(Foundation Models)之势:它们在生物、物理、化学乃至跨学科中均被视为下一代驱动创新的基石。

EvolutionaryScale 推出了 ESM3,一款面向蛋白质语言的大模型,成功在自然进化未曾涉足的区域设计出功能性蛋白——其中最具代表性的是一个全新绿色荧光蛋白,与任何已知天然蛋白均无直接同源性。

在细胞水平建模上,Virtual Cell Initiative 则着力打造面向细胞过程的 AI 基础模型(如 scGPT、UCE 等),通过高度细化的计算模拟,探寻疾病机理与细胞行为。

更进一步的,是 GenBio AI 团队提出的 AIDO(AI-Driven Digital Organism)——一个跨越分子、细胞、组织乃至器官层面的整体模型。AIDO 将多种尺度的生物学信息进行整合,朝着更完备的数字生物系统迈进,也为基础与转化研究提供了全新路径。

除了生命科学,在物理领域,PolymathicAI 陆续发布了多组数据集,致力于构建跨学科的物理动力学基础模型;在气候科学领域,Aurora 与 GenCast 等模型也不断推陈出新,为地球气候预测与研究注入新动能。

六、小分子药物研发

过去一年,小分子药物设计领域同样取得了诸多进展——尤其在「可合成性(synthesizability)」这一关键环节上,业界与学界都在加速弥合计算设计与实验落地的鸿沟。

为确保生成的小分子不仅功能优异,还能在实验室顺利合成,最新思路是「合成优先」:直接在搜索和设计阶段就优先考虑可行的合成路径。

斯坦福大学的 SyntheMol 便是这一思路的先行者:它采用蒙特卡洛树搜索算法(Monte Carlo Tree Search)于合成路径的广阔空间中「漫游」,最终发现可抑制革兰氏阴性菌 Acinetobacter baumannii 生长的分子先导化合物。在 深度学习 端,GFlowNet 等方法也在大规模的反应网络与分子库中探索合成友好的化学空间,展现出敏捷而高效的搜索能力。

不仅如此,「分子投影」(molecular 「projection」)技术也在近年崭露头角。ChemProjector 就是此领域的代表:它能够将一个可能在现实中难以合成的虚拟分子,投影到一个拥有相似核心特征、却更易合成的「可行」版本上。此举既可修正原本难以落地的候选分子,也能基于已知先导化合物的「邻域化合物」进行系统性拓展。

另一个范例是SynFormer:通过多模态生成的方式,它能够覆盖 Enamine REAL 库的绝大部分化学空间。更难得的是,SynFormer 提出了可「模块化」整合到任何非受限分子生成流程中的新方法,确保设计产物保持可合成性。在此基础上,研究人员进一步将 SynFormer 与传统的 遗传算法 结合,证明该管线不仅令生成分子保持可合成优势,甚至还能提升整体优化效率。

七、量子化学

在量子化学领域,Pfau 及其合作者在2024年带来的突破性进展,或许可谓「登峰造极」。

他们提出的自然激发态变分蒙特卡洛(NES-VMC)方法,利用 神经网络 的高灵活度,并通过巧妙的数学变换,将激发态计算归结为针对「扩展体系」的基态问题,从而在计算传统上最棘手的激发态时取得了惊艳的准确度。

该方法在从简单原子到苯分子等复杂体系中都能保持对化学精度的逼近,尤其在多重激发、低激发能级的体系(如对丁二烯的争议性激发态顺序)上也得到了令人信服的结果。

这项工作对于研究物质与光的相互作用意义重大,潜在应用更是无远弗届:从光催化、太阳能电池、发光二极管到量子点技术,都将因更精准的激发态预测而受益。NES-VMC 的出现,标志着人类在理解与模拟光物质相互作用领域又迈进一大步,为下一代能源与光电材料的设计提供了坚实的理论基石。

八、AI-for-Science 领域初创企业:生物医药与材料科学的崛起

2024 年对 AI-for-science 生态系统中的初创企业而言同样具有颠覆性意义,尤其在生物科技,以及方兴未艾的化学与材料科学领域。

在生物技术与制药方向,多家企业迎来了重大里程碑。 晶泰科技 XtalPi在港股功上市,市值高达25亿美元;Terray Therapeutics 和 Lambic Therapeutics 等公司也完成了可观的融资轮次,并在各自的药物管线中取得实质性进展。

最令人瞩目的是 Isomorphic Labs——这家源自 Google DeepMind 的衍生公司宣布与礼来(Eli Lilly)和诺华(Novartis)达成战略合作,光是预付款就高达 8250 万美元,总合同规模或可达到 30 亿美元(不含后续专利费),充分说明即便是久经沙场的巨头也对这些专精AI模型的商业价值给予了高度认可  。

与此同时,在化学与材料科学领域,新的初创企业也开始崭露头角。Orbital Materials 与 DP Technology 先后发布了旨在加速分子动力学模拟的预训练 机器学习 势能模型——Orb与DPA-2,兼具更高精准度与更快速度。

Radical AI、深度原理 Deep Principle、CuspAI 以及 Entalpic 等年轻公司也成功完成了种子轮融资,并纷纷提出了意图重塑化学与材料发现在内的雄心 规划 。虽然它们对行业的长期影响有待时间检验,但这一批初创企业的出现,标志着 AI 驱动创新在这些新兴领域中已然开启新的篇章。

当 2024 年缓缓落下帷幕,AI 与科学的深度交融已经在多个前沿领域里开花结果。诺奖的殊荣固然高光,但更加扣人心弦的,是那些仍未解的难题与方兴未艾的新思路。

无论是 神经网络 的「缩放定律」,还是非等变架构在物理对称性中的取舍,抑或是 LLM 在数学与精准医疗上的崭新尝试,以及新兴初创企业在生物医药与材料科学领域的群雄逐鹿,都生动诠释了 AI 正如何不断拓展科学发现的边界。

展望未来,我们有理由相信,这场从分子到宇宙的智能革命,尚在序章,而它所奏响的乐章,定将愈发雄浑。

本文章由 AI for Science 研讨会系列的多位组织者共同撰写:Sherry Lixue Cheng, Yuanqi Du, Chenru Duan, Tianfan Fu, Wenhao Gao, Kexin Huang, Ziming Liu, Di Luo and Shitong Luo(按字母顺序排列)

理论 生物 量子 药物 化学 AI for Science
发表评论
评论通过审核后显示。
文章分类
联系我们
联系人: 透明七彩巨人
Email: weok168@gmail.com