42digest首页
随机功能作为机器学习分子过程的数据压缩机

Random functions as data compressors for machine learning of molecular processes

Jayashrita Debnath and Gerhard Hummer

arXiv
2025年9月7日

机器学习(ML)正在迅速改变分子动力学模拟的进行和分析方式,从材料建模到蛋白质折叠和功能的研究。 ML算法通常用于学习构象景观的低维表示,并将轨迹聚类到相关的元稳定状态。 这些算法中的大多数都需要选择少量的描述兴趣问题的特征。 虽然深度神经网络可以解决大量的输入功能,但训练成本随着输入大小而增加,这使得选择特征子集对于大多数实际感兴趣的问题都是强制性的。 在这里,我们表明随机非线性投影可用于压缩大型特征空间并使计算更快而不会大量丢失信息。 我们描述了一种产生随机投影的有效方法,然后举例说明蛋白质折叠的一般过程。 对于我们的测试用例NTL9和二诺列素变体的维林头片,我们发现随机压缩保留了原始高维特征空间的核心静态和动态信息,并使轨迹分析更加稳健。

Machine learning (ML) is rapidly transforming the way molecular dynamics simulations are performed and analyzed, from materials modeling to studies of protein folding and function. ML algorithms are often employed to learn low-dimensional representations of conformational landscapes and to cluster trajectories into relevant metastable states. Most of these algorithms require selecting a small number of features that describe the problem of interest. Although deep neural networks can tackle large...