Data-Efficient Machine Learning Potentials via Difference Vectors Based on Local Atomic Environments
Xuqiang Shao, Yuqi Zhang, Di Zhang, Zhaoyan Dong, Tianxiang Gao, Mingzhe Li, Xinyuan Liu, Zhiran Gan, Fanshun Meng, Lingcai Kong, Zhengyang Gao, Hao Lic, Weijie Yangd
构建高效和多样化的数据集对于在原子模拟中开发准确的机器学习潜力(MLP)至关重要。 然而,现有方法经常受到数据冗余和高计算成本的影响。 在这里,我们提出了一种新的方法——基于局部原子环境(DV-LAE)的差异矢量——它通过基于直方图的描述符对结构差异进行编码,并通过t-SNE尺寸减小实现可视化分析。 这种方法有助于冗余检测和数据集优化,同时保持结构多样性。 我们证明DV-LAE可显著减少各种材料系统的数据集大小和训练时间,包括高压氢、铁氢双星、氢化镁和碳同素体,在预测精度方面具有最小的折衷。 例如,在α-Fe/H系统中,保持高度相似的MLP精度,每次迭代的数据集大小减少了56次训练时间,超过50次可视化DV-LAE表示有助于通过检查高误差预测点的空间分布来识别分配外数据,为模拟期间的新结构提供了强大的可靠性指标。 我们的研究结果强调了本地环境可视化的实用性,不仅作为一种可解释性工具,而且作为加速MLP开发和确保大规模原子建模数据效率的实用手段。
Constructing efficient and diverse datasets is essential for the development of accurate machine learning potentials (MLPs) in atomistic simulations. However, existing approaches often suffer from data redundancy and high computational costs. Herein, we propose a new method–Difference Vectors based on Local Atomic Environments (DV-LAE)–that encodes structural differences via histogram-based descriptors and enables visual analysis through t-SNE dimensionality reduction. This approach facilitates ...