Maximizing Efficiency of Dataset Compression for Machine Learning Potentials With Information Theory
Benjamin Yu, Vincenzo Lordi, Daniel Schwalbe-Koda
与密度功能理论计算相比,机器学习间原子电位(MLIP)平衡了高精度和更低的成本,但它们的性能通常取决于训练数据集的大小和多样性。 大型数据集提高了模型的准确性和概括性,但在生产和训练方面成本高昂,而较小的数据集可能会丢弃罕见但重要的原子环境并损害MLIP的准确性/可靠性。 在这里,我们开发了一个信息理论框架,以量化数据集压缩方法的效率,并提出了一种最大化这种效率的算法。 通过将原子数据集压缩作为以原子为中心的环境的最小集覆盖(MSC)问题的实例,我们的方法确定了最小的结构子集,这些结构包含尽可能多的原始数据集,同时修剪冗余信息。 该方法在GAP-20和TM23数据集上进行了广泛演示,并在ColabFit存储库的64个不同数据集上进行了验证。 在所有情况下,MSC始终保留异常值,保留数据集多样性,即使在高压缩率下也能再现力的长尾分布,优于其他子采样方法。 此外,在MSC压缩数据集上训练的MLIP即使在低数据机制中也表现出减少的分配外数据的错误。 我们使用异常分析来解释这些结果,并表明这种定量结论无法用传统的降维方法实现。 该算法在开源QUESTS包中实现,可用于原子建模中的几项任务,从数据子采样,异常检测和以更低的成本训练改进的MLIP。
Machine learning interatomic potentials (MLIPs) balance high accuracy and lower costs compared to density functional theory calculations, but their performance often depends on the size and diversity of training datasets. Large datasets improve model accuracy and generalization but are computationally expensive to produce and train on, while smaller datasets risk discarding rare but important atomic environments and compromising MLIP accuracy/reliability. Here, we develop an information-theoreti...