活性提升65倍,山大新AI工具定向进化高活性酶,外部数据集验证成功率达80%
- 2025-03-26 14:10:00
- 刘大牛 转自文章
- 241

编辑丨&
准确预测酶动力学参数对于酶的探索和修饰至关重要,但现有模型面临过拟合导致准确率低或泛化能力差的问题。
以山东大学为主导的团队提出了一种基于预训练模型和分子指纹的深度学习模型 CataPro ,并用它来预测转换数( k(cat))、米歇尔常数( K(m))和催化效率( k(cat)/ K(m))。
与以前的基线模型相比,CataPro 在无偏数据集上表现出明显增强的准确性和泛化能力。在一个代表性酶开采项目中,团队确认了确定了一种酶(SsCSO),其活性是初始酶(CSO2)的 19.53 倍,然后成功对其进行工程改造,将其活性提高了 3.34 倍。
他们的研究以「Robust enzyme discovery and engineering with deep learning using CataPro」为题,于 2025 年 3 月 20 日刊登于《Nature Communications》。

CataPro 概述
酶作为生物催化剂,在制药和化学制造等领域发挥着其关键性作用。对于药物中间体的非天然反应,可以筛选或设计酶,使其在生化实验中表现出广泛的底物特异性和高对映选择性。
目前,许多具有良好特性的酶是通过定向进化开发,耗时巨大且效益低下。相比之下,计算理性酶设计在有限的实验试验中寻找有利的突变带来了另一种选择。
各类开源库(如 BRENDA)所保存的数据为开发酶动力学参数预测算法奠定了基础。不同的预训练蛋白质语言模型具有不同的属性,需要自行判断哪一个最适合稳健的酶催化预测。

图 1:CataPro 概述。(图源:论文)
为了解决上述问题,团队建立了一个基准,通过创建与酶动力学参数( k(cat)、 K(m)和 k(cat)/ K(m))有关的数据集构造初始数据,随后使用 CataPro 进行预测。
结果表明,与其他基线模型相比,CataPro 在预测 k 方面具有更强的准确性和泛化能力。在使用该模型进行转化实验中,他们发现了一种高活性的替代酶。
CSO(SsCSO)的活性是初始酶的 19.53 倍。使用 CataPro 进一步优化序列后,与原始 SsCSO 相比,高活性突变体的活性增加了 3.34 倍。这些实验证明了 CataPro 在酶发现和定向进化中的实际应用价值。
在这项工作中,除非另有说明,否则所有训练和测试均在无偏差的 10 倍交叉验证数据集上进行。评估指标包括 Pearson 相关系数(PCC)、均方根误差(RMSE)和 Spearman 相关系数(SCC),其中 SCC 尤为重要。
使用 k 的无偏数据集(cat),CataPro 的 PCC、SCC 和 RMSE 值分别为 0.497、0.495 和 1.329,明显优于 DLKcat 和 UniKP。

图 2:各种 k 的性能比较cat和 Km模型。(图源:论文)
外部测试数据集
为了进一步评估模型在酶挖掘和工程中的潜力,团队从先前报道的研究中收集了四个实验测量的数据集作为额外的外部测试集。
在前两个从 UniKP 收集的酪氨酸解氨酶(TAL)同源物数据集和 TAL 工程数据集的测试中,除开当前模型所有其他测试序列与 k(cat)/ K(m)数据集的相似度均小于 0.67。结果表示 CataPro 在鉴定活性高于 IsTAL 的 TAL 酶方面有 50% 的成功率。

图 3:CataPro 在先前报道的实验中测量的小数据集上的性能。(图源:论文)
另外两个数据集则与催化 DRP 反应相关,它是将可再生原材料转化为有价值的化学品的关键生物催化步骤。借助 BH1352 数据集,CataPro 实现了 80% 的预测成功率,证明了其强大的实际应用潜力。
除此之外,CataPro 也在深度突变扫描与辅助酶挖掘与定向进化上有着格外显著的优势。前者在未遇到 EcTL 酶的模型实现了 0.437 的 SCC,在所有子模型中排名第二;后者所产生的的突变体活性相较于 CSO2 有着 61.71 倍和 65.23 倍的巨幅提升。
得益于 CataPro 的协助,该团队还发现了一种全新的名为 SsCSO 的酶。它在催化 4-VG 转化为香兰素和甲醛方面的活性是 CSO2 的 19.53 倍。经过修饰后,其一种高度活跃的突变体所具备活性是野生型 SsCSO 的 3.34 倍。
极高的应用价值
当前开源数据库中带有注释动力学参数数据的酶只代表了自然界中庞大的酶反应空间的一小部分,与整个基因组空间相比,当前酶数据库中的酶序列空间也可以忽略不计。
正因为如此,实际应用中所考虑的酶通常研究较少。为了推广训练集之外的酶催化反应,CataPro 应运而生。 它在从文献中收集的小数据集上保持了出色的性能,证明了自己的泛化能力。
然而,尽管在某些反应中实现了高度相关性,但当前的 CataPro 在准确捕获突变效应的绝对值方面面临限制。作者提到,鉴于目前的酶复杂的反应,CataPro 的模拟反应并不完全。未来,还需要建立更加完整的酶动力学参数集。
原文链接:https://www.nature.com/articles/s41467-025-58038-4
代码链接:https://github.com/zchwang/CataPro
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |