MIT团队使用图神经网络，加速无定形聚合物电解质筛选，促进下一代锂电池技术开发 - ai人工智能 - 透明七彩巨人-tmqcjr.com

编辑 | 萝卜皮

聚合物电解质是下一代锂离子电池技术的有希望的候选者。聚合物电解质的大规模筛选，受到无定形系统中分子动力学（MD）模拟的巨大成本的阻碍：聚合物的无定形结构需要多次重复采样以降低噪声，而缓慢的弛豫需要较长的模拟时间才能收敛。

在这里，麻省理工学院的研究人员，使用多任务图神经网络加速筛选，该网络从大量嘈杂、未收敛的短 MD 数据和少量收敛的长 MD 数据中学习。他们实现了 4 种不同收敛特性的准确预测，并筛选了 6247 种聚合物的空间，该空间比以前的计算研究大了几个数量级。

此外，研究人员提取了聚合物电解质的几个设计原则，并为社区提供了一个开放的数据集。研究表明，该方法可以适用于涉及模拟复杂、无定形材料的广泛类型的材料发现问题。

该研究以「 Accelerating amorphous polymer electrolyte screening by learning to reduce errors in molecular dynamics simulated properties」为题，于 2022 年 6 月 14 日发布在《 Nature Communications》。

研究背景与困境

聚合物电解质因其低成本、安全性和制造兼容性，而成为下一代锂离子电池技术的有希望的候选者。当前聚合物电解质的主要问题是它们的低离子电导率，这限制了在实际应用中的使用。为了突破这种限制，领域内的研究人员通过实验和原子尺度模拟探索新型聚合物。

然而，由于聚合物电解质的无定形性质及其动力学所涉及的时间尺度的多样性，离子电导率的模拟非常昂贵，极大地限制了采用高通量计算筛选方法的能力。

请注意，尽管一些聚合物具有晶体结构，并且过去的研究已经通过密度泛函理论计算对晶体聚合物进行了大规模筛选；但筛选具有较低结晶度的聚合物，需要更昂贵的分子动力学 (MD) 模拟来对平衡结构和动力学进行采样。

例如，最近一项探索具有经典 MD 的无定形聚合物电解质的研究，仅模拟了大约 10 种聚合物。相比之下，将机器学习方法应用于文献数据的研究能够探索更大的化学空间，但受到过去研究的聚合物多样性的限制。超越已知化学空间的探索，将需要显著加速聚合物电解质的计算筛选。

用 MD 模拟聚合物电解质的离子电导率计算成本高的主要原因有两个。

首先，聚合物电解质的无定形结构只能使用例如蒙特卡罗算法从随机分布中采样，但由于 MD 模拟中缺乏遍历性，这种初始结构对模拟离子电导率有显著影响。因此，需要从独立配置开始进行多次仿真，以正确采样相空间并降低统计噪声。

其次，聚合物的缓慢弛豫需要较长的 MD 模拟时间才能实现离子电导率的收敛（大约 10 到 100 ns），因此每个 MD 模拟的计算成本也很高。

切实可行的解决途径

机器学习 (ML) 技术已被广泛用于加速有序材料的筛选，但大多数先前的研究都隐含地假设用于训练 ML 模型的属性是通过确定性、无偏见的过程生成的。然而，复杂材料（如无定形聚合物）的 MD 模拟本质上是随机的，并且由于计算成本大，通过运行重复模拟来获得具有低统计不确定性的数据在大规模上是不切实际的。

另一种方法是降低单个 MD 模拟的精度要求，并学习使用大量成本较低但不完善的数据来减少随机和系统误差。之前已经证明，ML 模型可以从噪声数据中学习并恢复图像和图形的真实标签。过去的工作还表明，可以通过采用迁移学习技术来学习数据集之间的系统差异。

受这些结果的启发，麻省理工学院的研究人员希望通过采用带有短的、未收敛的 MD 模拟的嘈杂、有偏差的模拟方案，来显著降低模拟聚合物传输行为的计算成本。

图示：聚合物空间和学习框架。（来源：论文）

在这项工作中，研究人员通过从大量有偏、有噪声的数据和少量来自分子动力学模拟的无偏数据中学习，来加速聚合物电解质的高通量计算筛选。尽管对初始结构的依赖会导致较大的随机误差，但他们只对每种聚合物进行一次 MD 模拟，并学习跨聚合物的共享模型以减少随机误差，并恢复从重复模拟中获得的真实特性。

为了减少长的 MD 模拟时间，他们执行了大量的短的、未收敛的 MD 模拟和少量的长的、收敛的模拟。然后，采用多任务学习来学习从短模拟属性到长模拟属性的校正。

图示：纠正系统错误的表现。（来源：论文）

研究人员发现该模型对真实属性的预测误差小于来自单个 MD 模拟的随机误差，并且它还比线性校正更好地校正了来自未收敛模拟的系统误差。

结合随机误差和系统误差的减少，研究人员成功地筛选了 6247 种聚合物的空间，并从该空间中发现了最好的聚合物电解质，与直接模拟每种聚合物的长时间模拟相比，这相当于 22.8 倍的加速度。

具体做了些什么

研究人员通过学习减少来自多任务学习框架的分子动力学模拟的随机和系统误差，对聚合物电解质进行了大规模计算筛选。他们的筛选表明，类 PEO 结构是一类广泛的羰基聚合物的最佳结构。

尽管结果似乎并不令人惊讶，因为 PEO 自 1973 年被发现以来一直是最好的聚合物电解质之一，但它显示了类 PEO 聚合物相对于非常多样化的化学结构的优势。聚合物候选物的唯一限制是具有羰基结构，并且结构的其余部分是从大型药物样分子数据库中随机采样的，几乎没有人为偏见。

图示：聚合物电解质的筛选。（来源：论文）

由于 PEO 子结构自动从候选者中出现，这表明 PEO 子结构比多样化数据库中几乎所有其他类型的化学结构都具有优势，因为聚合物中存在羰基。这一结果可以解释为什么 PEO 仍然是最好的聚合物电解质之一，尽管在社区中努力寻找更好的候选者。对于发现比 PEO 更好的聚合物电解质，几个潜在的方向仍然开放。

首先是寻找在非常高的盐浓度下实现最佳电导率的聚合物电解质。电导率通常随着盐浓度的增加而增加，但离子聚集和扩散率降低会降低高浓度下的电导率。对于不同的聚合物，他们的筛选保持 1.5 mol/kg LiTFSI 的恒定浓度，但一些聚碳酸酯电解质在极高的盐浓度下显示出优势。

其次是探索该研究之外的高分子化学。由于用于生成初始配置的蒙特卡罗程序的局限性，他们的模拟不包括具有芳环的聚合物。最近的研究提出了具有高脆性和芳香环的聚合物作为聚合物电解质的潜力，这是由于离子电导率与结构弛豫的去耦。含有不同路易斯酸性杂原子或非羰基基序的主链，也可以产生更好的聚合物电解质。

大规模筛选是可能的，研究人员通过使用多任务学习框架从不完美的数据中学习，显著降低了单个模拟的计算成本。神经网络从噪声数据中学习的能力在机器学习中得到了广泛的研究，最近已被应用于降低材料科学中带激发压电响应力显微镜的信噪比。

尽管在材料发现中广泛使用图神经网络，但对训练数据中的随机误差的研究较少，这可能是因为以前的研究集中在随机误差小得多的简单材料上。

图示：减少随机错误的性能。（来源：论文）

研究人员表明，即使每次模拟的随机误差很大，也可以通过学习跨不同化学的图神经网络来有效减少随机误差。它提供了一种潜在的通用方法，以加速筛选其结构只能从分布中取样的复杂材料，例如无定形聚合物、表面缺陷等，因为采用该方法只需对每种材料进行一次模拟，而不是多次模拟。

这项研究中展示的系统性错误减少，与旨在结合不同来源数据的迁移学习研究密切相关。研究人员在这项工作中的独特贡献是展示了在材料筛选背景下短的、未收敛的 MD 模拟的价值。

图示：6247 搜索空间中聚合物的几个描述符与预测的 50 ns MD 锂离子电导率之间的关系。（来源：论文）

他们发现，5 到 50 ns 模拟传输特性之间的系统误差可以通过少量 50 ns 模拟来纠正，这可以推广到其他类型的材料、特性和模拟方法。因为他们的多任务 GCN 架构使用 5 ns 属性作为额外输入来预测 50 ns 属性，所以它在概念上也类似于 delta-learning 方法。

总之，研究人员希望在这项工作中观察到的随机和系统误差减少，可以突出以前可能被忽视的不完美、更便宜的材料筛选模拟的价值。如果可以识别出廉价、嘈杂和有偏见的模拟方法，则可以使用类似的方法筛选更广泛类别的复杂材料。

论文链接： https://www.nature.com/articles/s41467-022-30994-1

理论

联系人：	透明七彩巨人
Email：	weok168@gmail.com