复旦团队提出Transformer生成的原子嵌入策略,可通过ML提高晶体特性的预测准确性
- 2025-02-14 16:47:00
- 刘大牛 转自文章
- 273
编辑 | 白菜叶
近年来,在化学分子性质与结构预测领域出现了大量基于 Transformer 的训练方法和预测模型,例如 OrbNet、3D-Transformer 等。
科学家们认为这些方法和模型,能够充分发挥 Transformer 架构在处理原子相互作用和捕捉三维结构方面的优势,从而高效地表示原子间复杂的相互作用。
在这些进步的推动下,复旦大学的研究人员开发了自制的 CrystalTransformer 模型,基于 Transformer 架构生成称为 ct-UAE 的通用原子嵌入,该模型为每个原子学习独特的「指纹」,捕捉它们在材料中的功能和相互作用的本质。
然后将得到的嵌入转移到不同的深度学习模型中。使用均匀流形近似和投影(UMAP)聚类方法,研究人员将原子分为不同的组,分析嵌入与真实原子之间的联系。
该研究以「 Transformer-generated atomic embeddings to enhance prediction accuracy of crystal properties with machine learning」为题,于 2025 年 1 月 31 日发布在《 Nature Communications》。
通过机器学习加速新型晶体材料的发现,对于推动从清洁能源到信息处理等各种技术的发展至关重要。用于预测材料特性的机器学习模型需要嵌入原子信息,而传统方法在提高预测精度方面效果有限。
研究人员提出了一种称为通用原子嵌入(UAE)的原子嵌入策略,因为它们作为原子指纹具有广泛的适用性,并基于提出的 CrystalTransformer 模型生成 UAE 张量。
通过在广泛使用的材料数据库上进行实验,该团队基于 CrystalTransformer 的 UAE(ct-UAE)被证明能够准确捕捉复杂的原子特征,基于材料项目数据库,当使用形成能作为目标时,CGCNN 的预测准确度提高了 14%,ALIGNN 的预测准确度提高了 18%。
图示:CrystalTransformer 模型架构。(来源:论文)
研究人员还证明了 ct-UAE 在各种数据库中具有良好的可移植性。基于多任务 ct-UAE 的聚类分析,可以对元素周期表中的元素进行分类,并在原子特征和目标晶体特性之间建立合理的联系。
图示:使用经过不同任务训练的 ct-UAE 进行钙钛矿特性预测的流程图和结果比较。(来源:论文)
在应用 ct-UAE 预测混合钙钛矿数据库中的形成能后,该团队实现了准确度的提高,MEGNET 提高了 34%,CGCNN 提高了 16%,展示了它们作为原子指纹解决数据稀缺挑战的潜力。
论文链接: https://www.nature.com/articles/s41467-025-56481-x
联系人: | 透明七彩巨人 |
---|---|
Email: | weok168@gmail.com |