进化材料基因：机器学习如何推动下一代新材料的发现

本文主要来源于 Annual reviews 最新发表材料领域的 2020 年度综述 [1]。机器学习利用化学和材料数据正在改变材料发现和设计领域，但要充分利用机器学习算法、工具和方法仍需要大量工作。在这里，本文回顾了该领域迄今为止的成就，主要关注三个方面：

1）学会观察（机器学习如何表示用于人工智能模型生产的材料数据）；2）学会评估（一旦材料数据被正确地表示出来，它们如何可以被用来构建强大的模型）；3）学会搜索（一旦具备能够在数据的基础上估计材料的属性的能力，我们就可以利用这种能力建立强大的和创造性的搜索策略）。

一、学会观察

将机器学习应用到分子领域上，首先需要特定方法来表示分子并且适合于算法的输入或生成。分子表示形式通常是张量的数字或字符串的字符，并且已经有研究证明选择合适的分子表示往往比学习算法的选择有更大的影响。

分子表示通常为手工制作的一维描述符集合，每个描述符都是单一的汇总统计（例如，原子数、键数、分子量、实验或计算性质），或者更系统的分子结构表示法。

为了有效地捕获材料信息，一个关键的要求是遵守已知的控制分子种类的物理原理。正确表征分子和材料必须遵循以下原则：

1. 分子表示必须与输入中提供的原子的顺序保持不变。2. 分子表示必须与输入中提供的键的顺序保持不变。3. 分子表示必须不受输入中标记原子对的顺序的影响。一般来说，任何使用这些原则的表示法的学习算法都将具有区分物理上无意义的差异的变分灵活性。

1.1 传统分子指纹表示

二维表示法编码一个分子图，该分子图由原子的恒等式以及连接这些原子的键合所确定。由于没有坐标编码，二维表示法对平移和旋转是隐式不变的，因此剩下的对称考虑就是原子和键的顺序。

常用的表示方法有：simplified molecular input line entry system（SMILES）， International Chemical Identifier（InChI）,the Molecular Access System（MAACS），extended connectivity fingerprints（ECFP）。

SMILES 与 InChI 都是用少量字符表示结构信息的重要方法。SMILES 是通过遍历和记录重原子在分子图的修改版本中出现的，其中环被破坏了，原子的断裂键被标注。相比之下，InChI 只是分子式、连通性、结合氢、电荷、立体化学和同位素的分层说明，并不是不变的原子索引的排列。

SMILES 由于其基于字符的本质，它可以使用适合于自然语言处理的建模技术，相应地，它经在深度学习中找到了大规模的用法，特别是用于新分子物种的生成。

另一种表示方法是使用二进制向量，也称为化学指纹。许多这样的编码已经被开发成一种根据特定子组的存在或不存在来搜索分子数据库的方法。MAACS 密钥是一个 166 维的二进制向量，其中每个元素或密钥对应于某些分子特征，比如某个特定官能团的存在。

ECFP 属于 circular fingerprints，该族构成了最广泛使用的基于张力的拓扑表示之一。在构建 ECFP 表示时，在特定截止半径内通过每个原子的路径数将针对每个原子进行编码，并通过哈希表对结果进行压缩，以符合预定义的长度。与由 MAACS 键指定的预定分子特征相比，ECFP可以系统地表征每个原子。

由于 ECFP 中存在哈希和 MAACS 密钥捕获的固定数量的分子特征，两者都不能构成一个完整的表示，从而不能对其编码的分子图进行完全重构。这与 SMILES 和 InChI 形成了对比，因此它们更适合于回归和分类问题。

虽然分子图的编码对于旋转和平移是隐式不变的（因为不存在自由度），但如果试图获取完整的原子坐标时，情况就不一样了。因此，考虑如何实现对称不变性以寻找更表达的三维分子表示是一个关键问题。

Parrinello 通过一些径向和角对称函数编码分子内的原子。另一个早期的三维分子表示法是由 von Lilienfeld 研究小组发展起来的，受到了分子哈密顿量的启发，称为库仑矩阵，这是一个矩阵表示，其中非对角元素对应于原子对之间的库仑核排斥项，而对角元素编码原子电荷。

这种设计的一个缺点是缺乏置换不变性。为了克服这一缺点，并提高机器学习方法用于从头计算数据的准确性，von Lilienfeld 小组进行了进一步的工作，从而产生了一系列表示：

1）键，角度，机器学习表示；2）FFLA晶体表示；3）London and Axilrod-Teller-Muto光谱；4）分子炼金术的径向角分布以及距离、角度和二面角的直方图。

1.2 基于神经网络的分子指纹表示

另一个常用的分子表示方法是使用深度神经网络学习。从某种意义上说，这把发现的任务交给了算法本身，尽管代价是把研究人员推向寻找有效网络架构的问题。

Duvenaud 等人 [2] 引入了编码分子图的神经指纹。Duvenaud 等人受到 ECFP 工作原理的启发，采用了之前用于从原始图像中逐步提取高阶结构来学习图像表示的卷积神经网络架构，最后通过从原始图结构中逐步提取高阶结构来学习分子表示。Kearnes 等人 [3] 对这一最初的工作进行了补充，他们增加了更复杂的处理置换不变性的方法，并在消息传递框架内进一步推广[4]。

Behler & Parrinello 在其神经网络电位 ANI 中扩展了 Parrinello 对称函数，以构建单原子原子环境向量作为分子表示，从而更丰富地嵌入局部原子信息 [5]。另一种方法被称为张量场网络，它对点云表示 [6] 进行操作，并进行封闭模拟深度张量网络是在原子间距离矩阵与原子恒等式向量相结合的基础上运行的。神经指纹是通过尝试解决一个特定的推理任务而产生的。这样，最终的指纹表达了适合于解决推理问题的分子信息。

多任务学习，即一次性学习多种化学性质，允许生成更一般的可迁移指纹。强迫一个指纹表达适合于多个化学任务的信息通常可以提高单个子任务的性能 [7]。任何一种神经指纹结构都可以与多任务学习相结合，因此可以研究如何选择互补任务来控制指纹内表达的信息 [8]。

二、学会评估

材料设计和发现的关键是确定结构/组成（structure/composition）、性能（properties）、合成/加工（synthesis/processing）和性能（ performance）这四种材料元素之间的相互关系，而这四种材料元素通常用 Flemings’s tetrahedron 来描述，这四种元素在材料界以 QSPRs 或 PSP 命名，并且一直是材料设计的核心。

QSPRs 的高维、复杂性质创造了一个巨大的搜索空间，机器学习的使用使其有效地增强导航和线性/非线性映射方法，以更低的计算成本找到或设计新材料。机器学习在 QSPR 模型的开发上有广泛的应用，当基于物理的模型不存在或者当我们需要在材料建模中连接不同的时间尺度或长度尺度时，它特别有用。

在实验室中观察到的材料性能与在模拟世界中观察到的材料性能之间的差异只能通过理论、计算和实验之间的密切相互作用来解决。材料发现不仅是新材料的发现，而且是对现有材料的改进。因此，机器学习能够提供通过 QSPR 估计任务提高材料发现和开发速度的能力。下面会简要讨论一些学习晶体结构、微观结构和材料特性的任务。

材料性质预测从确定其化学成分和晶体结构开始。在 20 世纪 80 年代早期，有大量关于使用材料描述符的讨论。例如，Zunger‘s 早期利用赝势轨道半径绘制结构分离图（即分离不同结构类型的稳定性图）有助于预测已知 ab 型二元化合物的稳定晶体结构。

这种用于结构识别的分类方法已经扩展到基于数据挖掘的 QSPR 映射 [9]，最近，类似的概念也被应用到深度神经网络方法中。因此,两个经典描述符相关晶体稳定和综合性，Pauling 电负性和 Shannon 离子半径被用作构造深层神经网络预测密度泛函理论（DFT）形成的能量[10]。

材料的微观结构等观察对象不仅与材料的性能有关，而且与材料的合成后加工过程有关，微观结构-性能空间的映射是一项复杂的任务。因此，确定所需材料性能的定制或最佳微观结构仍然是逆向设计的主要挑战。

最近，McCue 等人 [11] 对已发表的纳米孔金电子显微图像使用数据挖掘辅助自动图像分析来探索 PSP 之间的关系。为了识别关键的微观结构表征，Wodo 和他的同事 [12] 开发了一种通过将微观结构处理为图形的紧凑微观结构性能映射的替代方法。

根据 Agrawal 及其同事最近的研究 [13]，深度神经网络 (如生成对抗网络（GANs）可以学习潜变量和微观结构之间的映射，从而通过优化潜变量获得具有目标材料性能的最佳微观结构。

化学技术的最新进展，包括用于绘制化学图像的x射线光电子能谱，用于识别晶界类型的电子背散射衍射，以及用于研究复合中心分布的阴极发光，产生了大量与材料微观结构相关的复杂数据。此外，当微观结构响应与外部环境(如应力)相联系时，图像数据的复杂性变得更为重要。为了处理复杂的形态和晶体数据(如晶粒体积、晶粒形状和晶粒的形态和空间排列方向分布)，材料界很多研究通过机器学习计算来识别或开发 QSPRs。

其中值得注意的是，一种基于深度神经网络的方法在高分辨率电子显微镜方面应用广泛。借助神经网络，例如，从扫描透射电子显微镜数据可以识别晶格中原子的位置和类型的原子物种实时检测和分类的缺陷 [14]。训练卷积神经网络（CNNs）在高分辨率透射电子显微镜下对原子结构进行分类。

Kalinin 和他的同事 [15] 利用深度神经网络进行实时相位分析（即相位形成和演化映射）的有效性，从而自动识别来自电子和扫描探测显微镜的原子分辨图像中的对称类。

除了作为检测结构特征的工具，这种深度学习算法还可以应用于旨在增强测量的鲁棒性的自动高分辨率电子显微镜校准。例如，Xu &LeBeau [16] 展示了如何从 CNN 自动分析的位置平均收敛束电子衍射图中提取电子显微镜参数。

自动化以及自主的材料发现和设计过程对于加速结果和最小化人为错误是至关重要的，最近在这一领域有许多活动。好的例子包括自动分子和合金设计，自动理论计算，如从头算计算，以及具有主动学习的全自动机器学习潜力。

机器人现在被用于自主组装范德瓦尔斯超晶格等材料。原子尺度的自主制造（即原子制造过程）是通过像 CNN 这样的深度学习来实现的。在这里，深度学习被用来识别表面特征来精确地绘制原子结构。

Aspuru-Guzik 及其同事指出，在材料发现过程中实现智能自动化的当务之急是将自主合成规划、自动化学合成和自主实验作为一个闭环工作流进行集成。

2.1 数据的重要性

机器学习的能力本质上与数据集的质量有关。不幸的是，材料和化学领域经常使用数量有限的数据库或小型数据集。与由理论计算或模拟创建的材料数据库相比，包含合成程序历史或加工条件的实验数据库仍然太少。克服有限数据问题的一种方法是通过使用大量数据训练的模型来进行有限数据的新任务的迁移学习。

例如，迁移学习在微观结构重建领域变得越来越流行。这主要是因为该研究的目标是在原始结构非常有限的信息下构建统计上等价的微结构。

迁移学习的一个局限是，它需要一个非常训练有素的模型来应用于特定的目标任务。其他克服有限数据问题的方法包括元学习、神经网络图灵机、贝叶斯框架、快速代理机器学习模型和受维度分析和尺度律约束的机器学习模型。

此外，来自不同来源的异构数据集或分散数据在材料和化学领域很常见。虽然数据库或分散的数据集的集成有利于更好地理解 QSPRs，但可能会错过重要的特性。最近的一篇论文提出了一种方法，即先对来自不同来源的数据进行单独建模，然后再采用堆叠的方法集成机器学习的多模型层和预测层在一起 [17]。

类似地，不同的学习算法的组合（例如，机器学习与进化算法的组合）是可行的。使用集成神经网络的迁移学习对于解决异构数据和质量问题是有用的。处理异构数据库或稀缺数据的另一种方法是同时进行多任务学习，如确定独立筛选和稀疏运算符，它可以同时识别代表多个目标属性的关键描述符 [18]。

2.2 机器学习算法在材料设计中的应用

材料设计研究者在关键任务中广泛使用机器学习，如关联、预测和优化设计参数，以精确控制过程，实现目标性能。在材料建模、模拟、合成和表征中增加参数数量的同时，也给材料设计者提供了额外的设计选择（例如，设计者可以选择或组合参数来针对特定的特性），但同时也带来了维数问题。

为了有效地解决这个问题，材料设计师经常使用高维可视化技术。这些技术不仅提供了低维的视觉表示，而且阐明了变量之间的关系。Suh 等人 [19] 演示了各种可视化技术对高通量实验生成的 n 维数据的作用。他们向高吞吐量实验社区介绍了几种技术，包括并行坐标、径向可视化映射、热图和字形图。

最近，Rickman [20] 使用平行坐标创建了材料属性图表，显示了不同材料类之间的属性相关性。利用降维算法在低维空间中对高维数据集的结构进行识别和可视化。传统的基于最小二乘损失的谱分解算法的一个例子是主成分分析。

主成分分析是一种线性降维方法，它通过寻找数据中方差最大的方向，尽可能多地保留原来的高维数据结构。这种方法是处理各种类型材料数据的主要降维技术，如粉末 x 射线衍射模式[21]。尽管大多数 QSPRs 是非线性表达的，但试图非线性地捕获高维数据结构，如关注特征之间局部距离的流形学习，在材料问题上是相当罕见的。

QSPRs 的流形学习的一个很好的例子是利用扩散图方法结合层次聚类来学习在铜铟镓二烯化太阳能电池中制备铝掺杂 ZnO 层的最优薄膜工艺条件 [22]。最近，类似类型的流形学习，如 t 分布随机邻居嵌入（t-SNE）算法，在以非线性方式获得低维表示方面变得越来越普遍。

t-SNE 算法在识别高维数据的全局结构的同时，注重保持高维数据的局部距离。例如，Zakutayev 等人 [23] 演示了 t-SNE 算法对高通量实验材料数据库中最常见成分的可视化能力。

材料设计中的深度学习的目标是自动识别 QSPRs 中输入和输出之间的复杂关系，使其在计算上比传统学习算法更高效。例如，CrystalGAN 是一种基于 GAN 的结构，通过使用现有的二进制信息自动生成化学稳定的晶体结构，如新的三元晶体结构 [24]。

Agrawal 和他的同事提出了一个叫做 ElemNet 的深层神经网络模型。该模型以化合物的元素组成作为输入，捕捉元素之间的物理和化学相互作用，并预测材料的性质，如化合物的生成焓[25]。类似地，深度学习架构 SchNet 允许人们执行各种量子化学任务，如分子或材料的性质预测、势能表面和力场 [26]。

三、学会搜索

通过使用数据驱动技术来精确处理建模过程和属性的能力是强大的和可扩展的，当我们建立一个模型，却从不更新它时，这个模型就会被某个特定时间点的知识和相关偏见所冻结，从那一刻起，它就开始变得陈旧。

材料发现越来越被视为一个主动学习问题，随着新信息的流入，模型不断更新。这本身就提出了一个有趣的挑战：如何确保以这种方式构建的模型本身不会因用于确定收集哪些数据的方法而产生偏差？在机器学习的世界里，这被称为探索-利用交换。

收集数据的纯粹探索性方法（有时称为多样性驱动方法）将通过考虑尽可能广泛的数据点来构建最普遍适用的模型。虽然这个过程不太容易产生偏差，但结果模型在任何特定情况下通常都不太具有预测性。

纯粹利用模型构建的方法将产生一个对于特定用例非常好的模型，但不能很好地适应其他数据，而不仅仅是用于训练它的数据。显然，关键是平衡这两个极端，建立一个有效的材料搜索管道。在这里，介绍看一下两类进化学习方法，深度强化学习和贝叶斯优化。

3.1 贝叶斯优化

贝叶斯优化的关键在于，优化算法既考虑了模型的预测，也考虑了预测中的不确定性。这种探索和开发的结合是通过采集功能进行编码的，采集功能通常依赖于改进，通常表述为：

给定已经观察到的一组数据，通过最大化采集函数找到下一个要采集的数据点。最常用的习得功能是预期改善（EI）:

在得到该数据点后，贝叶斯模型被重新修改以包含新的数据，然后重复这个循环，直到用户耗尽预算或者获取函数变为零（表明取样数据没有优势）（图2）。

贝叶斯优化搜索的问题，尤其在概念上适合化学，因为它有效地模拟假设的科学发现过程，测试，观察，评估。或许正因为如此，贝叶斯优化已经被广泛应用于各个领域，其黑盒子特性和与科学方法在概念上的相似性促进了其在科学界的应用。

3.2 强化学习

强化学习是人工智能的一个子领域，它的目标是学习如何做出决策，在一段时间内使回报最大化。在强化学习范式中，智能体学习如何通过与环境的交互来最大化这种奖励。与贝叶斯优化相比，强化学习更适合被视为控制过程的学习，而不是严格地对其进行优化。

强化学习的目标是为任何给定状态选择最适合的行为，因此有必要对这些行为进行排序，并分配相应的价值。为了实现这一点，状态-动作对被映射到 Q 函数预期产生的值。Q 函数的输入是智能体的状态 (s) 和行为 (A)，并将它们映射到可能的奖励。这可以通过 Bellman 方程来计算：

强化学习是这样一个过程：智能体通过一系列的状态-动作对，观察结果的奖励，调整 Q 函数的预测以适应这些奖励，直到它准确地预测出智能体所采取的最佳路径。

3.3 生成模型

生成模型不是预测已知输入（材料）的行为，而是生成被预测具有强大属性的新材料。最流行的生成方法是变分自编码器（VAEs）和 GANs ，其中前者在分子和材料科学领域有更多的应用。

VAEs 是一种神经网络，经过训练后可以重现输入，但它分为两部分:第一部分是一个编码器，它接受基表示并学习有效的神经指纹，以及第二部分是解码器，它可以学习如何从神经指纹中重建分子。神经指纹所跨越的空间称为潜在空间。经过训练后，利用解码器对潜在空间进行随机采样（或搜索），可以生成新的分子。

GANs 在网络的基础上运行，这些网络又分为两个组件。GANs 没有经过训练来重现分子的编码器和解码器，而是通过一个生成器和鉴别器来操作。后者接收来自生成器的输出以及实际分子训练来区分这两种,前者得到一个初始矢量，扮演的角色是潜在的空间和训练有素的产生输出混淆鉴别器。

一旦经过训练，生成器就可以代替 VAE 解码器来生成新的分子种类，不过与 VAE 不同的是，将分子映射到其表示的逆变换是不可能的。虽然纯 GANs 在材料生成方面应用不多，但已有一些例子，而且 VAEs 和 GANs 的组合也有一些应用。

四、展望

随着机器学习辅助材料研究和开发领域的迅速发展，材料和化学界认识到，更多的综合努力将在推进材料发现和设计过程中发挥重要作用。由于缺乏使用复杂模式在数据集或数据库之间交换数据的健壮方法或标准协议，使得数据集成和共享变得困难。

使用更标准化的方法，如分类查询语言、基于 xml 的数据模式（如纳米聚合物纳米复合模式）或机器可读格式和开放协作框架，将有助于减少数据共享问题并促进识别 QSARs。

参考文献

[1] Suh C, Fare C, Warren J A, et al. Evolving the Materials Genome: How Machine Learning Is Fueling the Next Generation of Materials Discovery[J]. Annual Review of Materials Research, 2020, 50.

[2]Duvenaud D K, Maclaurin D, Iparraguirre J, et al. Convolutional networks on graphs for learning molecular fingerprints[C]//Advances in neural information processing systems. 2015: 2224-2232.

[3]Kearnes S, McCloskey K, Berndl M, et al. Molecular graph convolutions: moving beyond fingerprints[J]. Journal of computer-aided molecular design, 2016, 30(8): 595-608.

[4]Gilmer J, Schoenholz S S, Riley P F, et al. Neural message passing for quantum chemistry[J]. arXiv preprint arXiv:1704.01212, 2017.

[5]Behler J, Parrinello M. Generalized neural-network representation of high-dimensional potential-energy surfaces[J]. Physical review letters, 2007, 98(14): 146401.

[6]Schütt K T, Arbabzadah F, Chmiela S, et al. Quantum-chemical insights from deep tensor neural networks[J]. Nature communications, 2017, 8(1): 1-8.

[7]Ramsundar B, Kearnes S, Riley P, et al. Massively multitask networks for drug discovery[J]. arXiv preprint arXiv:1502.02072, 2015.

[8]Fare C J A, Turcani L, Pyzer-Knapp E O. Powerful, transferable representations for molecules through intelligent task selection in deep multitask networks[J]. Physical Chemistry Chemical Physics, 2020.

[9]Suh C, Rajan K. Invited review: data mining and informatics for crystal chemistry: establishing measurement techniques for mapping structure–property relationships[J]. Materials Science and Technology, 2009, 25(4): 466-471.

[10]Ye W, Chen C, Wang Z, et al. Deep neural networks for accurate predictions of crystal stability[J]. Nature communications, 2018, 9(1): 1-6.

[11]McCue I, Stuckner J, Murayama M, et al. Gaining new insights into nanoporous gold by mining and analysis of published images[J]. Scientific reports, 2018, 8(1): 1-11.

[12]Du P, Zebrowski A, Zola J, et al. Microstructure design using graphs[J]. npj Computational Materials, 2018, 4(1): 1-7.

[13]Yang Z, Li X, Catherine Brinson L, et al. Microstructural materials design via deep adversarial learning methodology[J]. Journal of Mechanical Design, 2018, 140(11).

[14]Ziatdinov M, Dyck O, Maksov A, et al. Deep learning of atomically resolved scanning transmission electron microscopy images: chemical identification and tracking local transformations[J]. ACS nano, 2017, 11(12): 12742-12752.

[15]Madsen J, Liu P, Kling J, et al. A deep learning approach to identify local structures in atomic‐resolution transmission electron microscopy images[J]. Advanced Theory and Simulations, 2018, 1(8): 1800037.

[16]Xu W, LeBeau J M. A deep convolutional neural network to analyze position averaged convergent beam electron diffraction patterns[J]. Ultramicroscopy, 2018, 188: 59-69.

[17]Kauwe S K, Welker T, Sparks T D. Extracting knowledge from DFT: experimental band gap predictions through ensemble learning[J]. Integrating Materials and Manufacturing Innovation, 2020: 1-8.

[18]Ouyang R, Ahmetcik E, Carbogno C, et al. Simultaneous learning of several materials properties from incomplete databases with multi-task SISSO[J]. Journal of Physics: Materials, 2019, 2(2): 024002.

[19]Suh C, Sieg S C, Heying M J, et al. Visualization of high-dimensional combinatorial catalysis data[J]. Journal of combinatorial chemistry, 2009, 11(3): 385-392.

[20]Rickman J M. Data analytics and parallel-coordinate materials property charts[J]. npj Computational Materials, 2018, 4(1): 1-8.

[21]Mueller T, Kusne A G, Ramprasad R. Machine learning in materials science: Recent progress and emerging applications[J]. Reviews in Computational Chemistry, 2016, 29: 186-273.

[22]Suh C, Biagioni D, Glynn S, et al. Exploring high-dimensional data space: identifying optimal process conditions in photovoltaics[C]//2011 37th IEEE Photovoltaic Specialists Conference. IEEE, 2011: 000762-000767.

[23]Tabor D P, Roch L M, Saikin S K, et al. Accelerating the discovery of materials for clean energy in the era of smart automation[J]. Nature Reviews Materials, 2018, 3(5): 5-20.

[24]Nouira A, Sokolovska N, Crivello J C. Crystalgan: learning to discover crystallographic structures with generative adversarial networks[J]. arXiv preprint arXiv:1810.11203, 2018.

[25]Jha D, Ward L, Paul A, et al. Elemnet: Deep learning the chemistry of materials from only elemental composition[J]. Scientific reports, 2018, 8(1): 1-13.

[26]Schütt K T, Sauceda H E, Kindermans P J, et al. SchNet–A deep learning architecture for molecules and materials[J]. The Journal of Chemical Physics, 2018, 148(24): 241722.

PaperWeekly

推荐、解读、讨论和报道人工智能前沿论文成果的学术平台。

理论机器学习