将深度学习与分子学习结合：从拓扑、几何和文本角度进行解析（系列一） - ai人工智能 - 透明七彩巨人-tmqcjr.com

作者 | 刘圣超

编辑 | 凯霞

今天给大家分享的是来自加拿大蒙特利尔学习算法研究院 (Mila) 唐建教授团队刘圣超博士的研究工作总结。刘圣超专注于迁移学习（多任务、预训练），多模态学习和统计生成学习研究。

在计算生物、化学、材料领域，伴随着深度学习（DL）的广泛使用，分子的表征（representation）已经成为了最基础的研究问题。一个鲁棒的分子表征，能够支撑丰富的任务。我们团队从研究小分子表征开始研究，是因为它包含了非常丰富的多模态信息，如下图展示的六个模态。

图 1: 关于分子六种模态事例说明。

这六种模态又可以分为两大类：3D geometry、2D topology、1D String 和1D Fingerprint 都是关于小分子的“内部”化学结构表示；而 bio KG 和 textual description 则更多的是关于分子的“外部”功能描述。这两大类的模态(即内部和外部模态)是可以相互补充信息。

此外还需要强调的是，对于小分子的内部模态，2D topology 和 1D String、1D Fingerprint 在信息层面等价，主要区别是关于分子图的不同数据结构以及对应的 DL 表征。但是 3D geometry和 2D topology 在信息层面是很大的区别，并且它们的信息能够互相补充。

围绕以上两点，我们将简单介绍围绕这两种信息互享，介绍两个系列工作：

注：该文章将首先介绍【Geometry 相关的多模态任务】相关研究工作，关于【Textual description 相关的多模态任务】系列研究将在下一篇文章中分享~

1、Geometry 相关的多模态任务

GraphMVP: Pre-training Molecular Graph Representation with 3D Geometry, ICLR 2022.
GeoSSL: Molecular Geometry Pretraining with SE(3)-Invariant Denoising Distance Matching, ICLR 2023.
MoleculeSDE: A Group Symmetric Stochastic Differential Equation Model for Molecule Multi-modal Pretraining, ICML 2023.
Geom3D: Symmetry-Informed Geometric Representation for Molecules, Proteins, and Crystalline Materials, arXiv 2023.

2、Textual description 相关的多模态任务

GraphCG: Unsupervised Discovery of Steerable Factors in Graphs, NeurIPS Workshop 2022.
MoleculeSTM: Multi-modal Molecule Structure-text Model for Text-based Editing and Retrieval, arXiv 2022.
ProteinDT: A Text-guided Protein Design Framework, arXiv 2023.
ChatDrug: ChatGPT-powered Conversational Drug Editing Using Retrieval and Domain Feedback, arXiv 2023.

1 Geom3D 分子的几何表征 benchmark

该研究以《 Symmetry-Informed Geometric Representation for Molecules, Proteins, and Crystalline Materials》为题，发表在 arXiv上。

论文链接： https://arxiv.org/abs/2306.09375

从数据结构上，分子的本质（稳定态）是一个结构稳定的 3D 点云。他的表征主要挑战就是如何保证对于旋转、平移等变。现有的工作都是利用了群表示论来进行描述，而我们在 Geom3D 这个平台中对于现有的工作进行了进一步的整理和总结。现有的 geometric modeling 可以大致分为如下三类：

图 2: 关于 symmetry-informed 的几何表征三种主要类型。

1、Invariant modeling，仅仅只考虑了 type-0 feature (比如 distance、angle)。

2、Equivariant modeling，是除了 type-0 feature，还会考虑 type-1 feature，这在我们的问题中就是 3D coordiante坐标。而为了保证modeling 对于 SE(3) 的等变性，有两种主要的解决思路：

Equivariant modeling with spherical frame basis 是把相对位置的vector 投影到 spherical harmonics frame 上进行的 modeling。它的优势是一种非常泛化的框架，比如可以 model 更高阶的 particle feature (物理问题中使用更多)；而缺点则是需要进行 tensor product，这个计算复杂度非常高。
Equivariant modeling with vector frame basis 则更加针对 3D coordinates：它是把 coordinates 投影到了一个 vector frame 上，然后再对其进行 modeling。它的优点是效率比较高，而缺点就是无法对高阶的粒子进行建模。

3、此外我们还想提一下其他的建模方式，比如利用电子轨道特征的 OrbNet 或者利用李群建模的 LieTransformer。

基于这样的设计思路，Geom3D benchmark 了如下模块：

16 个 geometric modeling 模型
14 个 geometric pretraining 模型
46 个不同 geometric tasks，包含了小分子、蛋白质、和材料
此外 Geom3D 还包含了 7 个 1D model 和 11 个 2D GNN model。关于2D topology pretraining，我们团队也有一个前序工作，MolGraphEval（ https://arxiv.org/abs/2206.08005）。感兴趣的朋友欢迎查阅。

下面我们就重点介绍在单一模态和多模态情况下，如何进行 geometric pretraining。

2 GraphMVP & MoleculeSDE: 2D-3D Pretraining

2.1 GraphMVP的结构化数据预训练框架：从最大化互信息到条件概率求和

该研究以《 Pre-training Molecular Graph Representation with 3D Geometry》为题，发表在 ICLR 2022 上。

论文链接： https://openreview.net/forum?id=xQUe1pOKPam

对于小分子的多模态，我们最先考虑到的就是 2D topology 和 3D geometry。同时对于 2D 和 3D 进行预训练，而预训练的思路非常简单，就是最大化2D topology 和 3D geometry 之间的互信息(MI)。但这里有一个难点就是如何对于结构化数据进行 MI 计算，而 GraphMVP 最大的贡献是提出来一个关于最大化 MI 的一个等价形式：

这就把 MI maximization 问题变成了 summation of two conditional log likelihoods (公式1)；而且他在这里还有更具体的意义：2D 生成 3D 的条件概率 + 3D 生成 2D 的条件概率。这个形式对于结构化的数据非常友好，因为可以引入 EBM 这种兼具泛化性、灵活性和强表达能力的概率模型进行估计。

这里我们将结合下面几个工作进行一些延展补充。注：GraphMVP 的推导是基于离散情况，GeoSSL 还提供了连续版本的推导，且二者最终优化目标一样。感兴趣的朋友可以参考比对两篇文章的附录。

1、首先对于公式 1，我们可以把条件概率用 energy-based model (EBM)进行估计，而 EBM 本身就有非常多的家族方法来求解，比如 noise contrastive estimation (NCE)、score matching (SM)、contrastive divergence。

GraphMVP 利用 NCE 求解，我们叫做 EBM-NCE。我们发现 EBM-NCE 和 Jensen-Shannon divergence 联系密切。二者的目标函数一样，只是求解的过程和思路不同。而 EBM-NCE 和其他contrastive self-supervised learning 的思路本质都一样：通过构造 positive 和 negative pairs，然后增大 positive pair 的 similarity，并且见效 negative pair 的 similarity。
此外 EBM 还有其他的求解思路，比如 score matching (SM)，我们当时在做 GraphMVP 的时候已经意识到了它也是 do-able 的路，但是第一篇工作来不及详细展开。这个也是指导我们后面做 GeoSSL 和 MoleculeSDE 的方法论。

2、其次对于公式 1，我们还可以利用变分方法来估计两个条件概率的 evidence lower bound (ELBO)。这个类似 VAE 和 DDPM。

GraphMVP 就首先采用了 VAE 的形式，提出了 variation representation reconstruction (VRR)。VRR 是在 representation space 进行 reconstruction (而不是 data space)，从而有了对 ELBO 的估计。并且我们发现，non-contrastive self-supervised learning (比如 BYOL、SimSiam) 就是VRR 的一种特殊情况。
DDPM 也是在优化 ELBO，并且它和 denoising score matching (DSM) 是非常类似的。它们的区别可以通过 Stochastic Differential Equation (SDE)一个统一框架下的两种变形体现。这一点我们在 MoleculeSDE 中进行了更加详细的解释。

3、此外，对于这几种思路，我们还可以从另一个角度将这些方法进行分类。

第一类是 NCE (包含了 EBM-NCE、InfoNCE、GAN)，因为它们本质思路就是把概率估计问题转换为了分类问题，也就是 contrastive learning。它是基于 data pair 来进行 distribution estimation。
第二类是类似 DSM、VRR，目标任务是为了重构某一个 data 或者data 的 representation。本质是把概率估计问题转换为了重构问题，也就是 generative learning 或者 reconstruction learning。它是直接基于每一个单独的 data point 来进行 distribution estimation。

2.2 基于latent space的GraphMVP

图 3：GraphMVP的流程图。

当我们有了公式 1 引出的一系列求解思路之后就非常直接。GraphMVP 是完全基于 latent space，使用了如下两个目标函数：一个 contrastive loss，也就是 EBM-NCE；一个 generative loss，也就是 VRR。除此以外，GraphMVP 还有两个 variant，GraphMVP-C 和 GraphMVP-G，分别考虑到了如何加入contrastive 和 generative 2D SSL。

2.3 基于 data space 的 MoleculeSDE

该研究以《A Group Symmetric Stochastic Differential Equation Model for Molecule Multi-modal Pretraining》为题，发表在 ICML 2023 上。

论文链接： https://arxiv.org/abs/2305.18407

MoleculeSDE 是 GraphMVP 的 follow-up 工作。在 GraphMVP 中的VRR，我们是利用了 VRR 来对 ELBO 进行估计，但是这种估计会造成信息损失。这里我们提出了更加严格的概率估计，也就是直接在 data space (geometry 和 topology) 进行重构。

但这里又有一个挑战，就是从 2D 到 3D 的条件概率 (也就是 2D 生成 3D)需要遵照 SE(3)等变，也就是对于旋转、平移等变，并且对于对称反对称。为了实现这个目标，我们基于 vector frame basis 引入了 SE(3)-equivariant and reflection-antisymmetric SDE。这个思路本质上是利用 score matching 或者diffusion 去求解公式 1。

图 4：MoleculeSDE 的流程图。

另外我们想强调的是，对于 downstream task，除了常规的 2D 和 3D proeprty prediction，MoleculeSDE 也让我们有了更多样化的选择。主要是对于小分子 2D 到 3D 的生成，这个 task 的意义并不仅仅在于能够有 conformation generation，而是能够有基于生成的 3D coordinates 进一步进行modeling，如下图 5(3)所示：

图 5：MoleculeSDE的三种下游任务展示。

3 GeoSSL: 3D pretraining

该研究以《 Molecular Geometry Pretraining with SE(3)-Invariant Denoising Distance Matching》为题，发表在 ICLR 2023 上。

论文链接： https://openreview.net/forum?id=CjTHVo1dvR

GraphMVP 和 MoleculeSDE 都是考虑模态之间的预训练。同时我们还想强调仅仅考虑 3D geometry 的预训练。这个工作的推出是在 GraphMVP 和MoleculeSDE 这两个工作之间，而原因则是因为预训练的数据集。GraphMVP 的预训练是在 GEOM 数据上（当时取了 250K data，是已知较大的小分子 3D 数据集）。而 2021 年暑假开始，陆续有几个比较大的数据集相继推出，比如 Molecule3D 和 PCQM4Mv2。GeoSSL 就是在 Molecule3D 上进行预训练。

GeoSSL 是仅仅考虑到 geometry 的 single-modality pretraining。我们首先需要定义 view。这里的出发点是在计算或者模拟中，分子的 3D coordinates 有一定的误差，并且分子的 3D geometry 哪怕是稳定态（势能面），也会在一个小区域内进行运动。由此，我们定义了两个 view：original geometry 和 perturbed geometry，如下图所示。

图 6：势能面、original geometry 和 perturbed geometry 示意图。

基于这两个 view，我们又可以利用公式 1 引出的一系列方法来最大化 MI。已有的方法 (比如 EBM-NCE、InfoNCE、RR)都在 GeoSSL 中进行了 benchmark。此外我们还利用了 geometry 数据的特性，也就是连续的 3D coordinates，提出了利用 denoising score matching 的方法，来进行 denoising distance matching，从而帮助了参数估计，具体推导过程可以看论文。大概流程则如下图所示：

图 7：GeoSSL的流程图。

小结

图 8：我们对于整个公式 1 的几种不同求解思路的 roadmap。

分子 geometry representation learning 本身已经是一件挑战性同时非常重要的任务，因为 geometry 是这些物理粒子最本质的并且很复杂的数据结构；而geometry预训练任务的复杂性更加大一些。我们团队的工作一直在探索相关问题。从最开始的 benchmark，一直到预训练，所有的代码除了每一个工作各自的 github repo 开源，也已经整合到了 Geom3D （ https://github.com/chao1224/Geom3D）这个平台上。

关于作者：刘圣超博士现在是 Mila 的第四年博士，将于 2023 年秋季加入 UC Berkeley 和 Caltech 联合博后，导师是 Prof. Jennifer Chayes, Prof. Christian Borgs, 和 Prof. Anima Anandkumar。（个人主页 https://chao1224.github.io）

参考内容： https://zhuanlan.zhihu.com/p/639560302

产业

联系人：	透明七彩巨人
Email：	weok168@gmail.com