分子对接速度提升10,000倍,深度图学习加速RNA虚拟筛选,助力药物靶标发现

图片

编辑 | 萝卜皮

RNA 是尚未开发的药物靶标的巨大宝库。基于结构的虚拟筛选 (VS) 利用结合位点信息识别候选分子,传统上采用分子对接模拟。然而,对接很难在大型化合物库和 RNA 靶标中扩展。

机器学习提供了一种解决方案,但由于数据和实际评估有限,它在 RNA 方面的开发仍不够充分。

麦吉尔大学(McGill University)、马克斯普朗克生物化学研究所(Max Planck Institute of Biochemistry)、巴黎综合理工学院(Ecole Polytechnique)的研究人员提出了针对 RNA 量身定制的数据驱动 VS 流程,利用粗粒度 3D 建模、合成数据增强和 RNA 特定的自我监督。

该模型实现了对接速度的 10,000 倍提升,同时在结构不同的测试集上将活性化合物排在前 2.8%。它对结合位点变异具有很强的稳健性,并成功地从 20,000 种化合物体外微阵列中筛选出未知的 RNA 核糖开关,平均富集因子为 2.93,1% 。这标志着基于结构的 RNA VS 深度学习首次通过实验验证获得成功。

该研究以「 RNAmigos2: accelerated structure-based RNA virtual screening with deep graph learning」为题,于 2025 年 3 月 21 日发布在《 Nature Communications》。

图片

只有一小部分 RNA 编码蛋白质,而 ncRNA 目前已知在广泛的生物过程中发挥着关键作用。例如,大约 2000 个基因编码 micro-RNA,而 micro-RNA 又影响 60% 基因的表达。尽管 micro-RNA 无处不在,但第一种 RNA 靶向药物 risdipalm 直到最近才获得 FDA 批准,而且几乎所有市售的小分子疗法仍然以蛋白质为靶点。

靶向 RNA 的能力将大幅增加可用药物的空间,并在过度使用的蛋白质靶点不足的情况下提供替代方案。例如,lncRNA 可以代表肿瘤学中有趣的治疗靶点,而蛋白质靶点可能过于专业化。RNA 靶标也代表了治疗缺乏蛋白质靶标的疾病(如三阴性乳腺癌)的一种途径。

在此背景下,RNA 越来越被认为是开发新型小分子疗法的有前途的靶标家族,这凸显了对 RNA 药物发现的有效工具的需求。

在最新的研究中,麦吉尔大学等机构的研究人员提出了一种基于结构的 RNA 虚拟筛选方法——RNAmigos2,该方法与分子对接相比只需极短的时间,为大规模基于靶标的 RNA 药物发现打开了大门。

RNAmigos2 旨在使用查询 RNA 结构快速筛选配体库中的结合物。其工作流程如下图所示,以候选结合位点结构(作为完整 3D 或碱基配对网络)和要筛选的化合物列表作为输入。然后,该工具会为每种化合物返回一个反映结合可能性的分数。

图片

图示:RNAmigos2 化合物筛选流程概述。(来源:论文)

RNAmigos2 架构

RNAmigos2 模型采用编码器-解码器框架,具有两个编码器和两个解码器,每个编码器和解码器都在不同的数据源上进行训练。两个编码器分别将输入的 RNA 结合位点和小分子映射到嵌入中。RNA 3D 结构表示为一个称为 2.5D 图的图,该图对结构中发生的所有规范(Watson-Crick 和 Wobble)和非规范碱基对相互作用进行编码。

这种表示使研究人员能够用适合机器学习框架的离散数学对象捕捉 RNA 3D 结构的关键特征,并且被证明是 RNA 化学信息学应用的有用生物学先验。

RNA 编码器以 2.5D 图作为输入,并学习使用自监督训练方案在所有可用的非冗余 RNA 子结构上生成 RNA 表征。配体以分子图表示。配体编码器使用在 中提出并在大量化合物数据集上训练的变分自动编码器模型来学习配体的神经表征。

为了训练解码器,研究人员从 PDB 中提取了 1740 个 RNA-配体复合物,并将它们分组到 436 个相似的结合位点簇中,他们使用 RMAlign 以 0.75 的相似性阈值识别了这些结合位点。这种方法代表了对 RNA 药物靶标关联预测的严格基于结构的划分。

第一个解码器 (Compat) 被训练为二元分类器,以区分结合位点的天然配体和诱饵。此外,为了综合增加 PDB 化合物的有限数量和药物相似性,研究人员进行了大规模对接实验,将 500 种药物类 ChEMBl 化合物对接在 1740 个结合位点上。

第二个解码器经过训练后,可以使用对接数据预测结合亲和力 (Aff)。给定一个结合位点和配体列表,研究人员对所有对象进行编码,并使用联合解码器预测可用于虚拟筛选的兼容性分数。之后,该团队通过模型为活性化合物分配高分的能力来衡量模型的性能,而不是为非活性(诱饵)化合物池分配高分。

图片

图示:RNAmigos2 模型集成基准。(来源:论文)

性能强悍

测试显示,该模型运行速度比对接快一万倍以上。尽管运行时间仅需数秒而非数小时,但所提出的方法可检索到更高的分子对接富集因子(候选配体列表的前 2.8% vs 4.1%)。

这一结果对口袋身份相对敏感,但对口袋扰动足够稳健,可与现代口袋挖掘算法结合使用。此外,通过将模型与得分最高的化合物的实际对接分数相结合,研究人员设法将对接错误率降低了四倍,所用时间减少了四分之一。

图片

图示:RNAmigos2 辅助的虚拟筛选效率。(来源:论文)

团队在独立的大规模(25k 种化合物)体外结合筛选中确定了该工具的性能,并表明它在两个 CPU 核心分钟内提供了 2.93 的 1% 的富集因子。这些结果共同确立了 RNAmigos2 作为基于结构的 RNA 虚拟筛选的最新水平。研究人员已经公开发布了他们所有的数据集、源代码和模型权重,希望激发社区朝着这个重要方向努力。

相关代码:

https://doi.org/10.5281/zenodo.14803961

https://github.com/cgoliver/rnamigos2/

目前,该方法的局限性包括需要预定义的结合位点,为此需要开发与结合位点预测器的集成,以及对结合位点灵活性进行建模。

未来研究的一个有趣方向是研究使用其他对接工具来训练其他模型,从而产生快速替代模型,这些替代模型可能因不同的评分函数而产生不同的错误模式。

研究人员设想,RNAmigos2 等工具将与迅速兴起的以 RNA 为中心的分子设计技术和新发布的支持核酸的 AlphaFold3 发挥协同作用,为下一代 RNA 药物发现铺平道路。

值得注意的是,该方法具有独特的优势,只需手头有低分辨率结构数据(例如碱基对相互作用)即可实现基于结构的 RNA 虚拟筛选。鉴于潜在的 RNA 靶标数量惊人,这一特性可能成为挖掘整个基因组并全面迎接 RNA 治疗时代的重要资产。

论文链接:https://www.nature.com/articles/s41467-025-57852-0



理论