数据分析、统计与概率研究快报
用 AI 跟踪日新月异的数据分析、统计与概率领域进展

贝叶斯符号回归:从物理学家的角度来看自动方程发现
符号回归自动化从数据中学习封闭式数学模型的过程。 符号回归的标准方法以及较新的深度学习方法依赖于英雄主义模型选择标准,英雄主义正则化和模型空间的人文主义探索。 在这里,我们讨论了符号回归的概率方法,这是这种与信息理论和统计物理学直接相关的后人主义方法的替代品。 我们展示了概率方法如何从基本考虑和明确的近似值中建立模型合理性,以及它如何提供经验方法缺乏的性能保证。 我们还讨论了概率方法如何迫使我们考虑模型集合,而不是单一模型。

加速哈密尔顿蒙特卡洛在神经网络和神经运算符中的贝叶斯推理
Hamiltonian Monte Carlo (HMC) 是一种强大而准确的方法,可以从贝叶斯推理中的后验分布中取样。 然而,HMC技术对贝叶斯神经网络的计算要求很高,因为网络的参数空间的噪声性及其后分布的非凸性。 因此,各种近似技术,如变化推断(VI)或随机梯度MCMC,通常用于推断网络参数的后验分布。 这种近似值在推断的分布中引入不准确之处,导致不可靠的不确定性估计。 在这项工作中,我们提出了一种混合方法,该方法结合了廉价的VI和精确的HMC方法,以有效和准确地量化神经网络和神经网络运算符的不确定性。 拟议的办法利用了关于整个网络的初步第六培训。 我们考察单个参数对预测不确定性的影响,这表明很大一部分参数对网络预测的不确定性没有实质性的贡献。 然后,这些信息用于显著减小参数空间的维度,HMC仅针对强烈影响预测不确定性的网络参数子集执行。 这产生了一个框架,用于加速神经网络中后推理的全批HMC。 我们展示了在深度神经网络和运算网络上提出的框架的效率和准确性,表明可以为具有数以万计到数十万个参数的大型网络执行推理。 我们表明,这种方法可以通过建模从上游条件映射到高声波流圆锥体上的壁压数据的操作员来有效地学习复杂物理系统的代理。

分层无维学习(Hi-π):用于发现无维参数组合的物理-数据混合驱动方法
维度分析为降低物理复杂性和揭示固有规律提供了一个通用框架。 然而,它应用于高维系统仍然会产生冗余的无尺寸参数,因此建立物理上有意义的描述具有挑战性。 在这里,我们介绍了分层无维学习(Hi-π),这是一种物理数据混合驱动方法,结合了尺寸分析和符号回归,自动发现关键无维参数组合。 我们把这种方法应用于流体力学各种研究领域的经典例子。 对于Rayleigh-Bénard对流,这种方法准确地提取了两个内在的无维参数:Rayleigh数和Prandtl数,验证了其在多尺度数据中的统一表示优势。 对于圆形管道中的粘稠流动,该方法会自动发现两个最佳无尺寸参数:雷诺数和相对粗糙度,在精度和复杂性之间实现平衡。 对于亚声波流中的可压缩性校正,该方法有效地提取了经典的可压缩校正配方,同时展示了其通过最佳参数变换发现分层结构表达式的能力。
相关分类
最新研究
贝叶斯符号回归:从物理学家的角度来看自动方程发现
符号回归自动化从数据中学习封闭式数学模型的过程。 符号回归的标准方法以及较新的深度学习方法依赖于英雄主义模型选择标准,英雄主义正则化和模型空间的人文主义探索。 在这里,我们讨论了符号回归的概率方法,这是这种与信息理论和统计物理学直接相关的后人主义方法的替代品。 我们展示了概率方法如何从基本考虑和明确的近似值中建立模型合理性,以及它如何提供经验方法缺乏的性能保证。 我们还讨论了概率方法如何迫使我们考虑模型集合,而不是单一模型。
探索自动驾驶实验室 kNN 嘈杂功能检测和恢复的前沿
自动驾驶实验室(SDL)已经显示出通过将机器学习与自动化实验平台集成来加速材料发现的承诺。 然而,输入参数捕获的错误可能会损坏用于建模系统性能的功能,从而影响当前和未来的活动。 这项研究开发了一个自动化工作流程,可以系统地检测嘈杂的特征,确定可以纠正的样本特征配对,并最终恢复正确的特征值。 然后进行系统研究,研究数据集大小、噪声强度和特征值分布如何影响噪声特征的可检测性和可恢复性。 一般来说,高强度噪声和大型训练数据集有利于噪声特征的检测和校正。 低强度噪声可减少检测和恢复,但可以通过更大的清洁训练数据集来补偿。 检测和校正结果因连续和分散特征分布的特征而异,与具有离散或窄分布的特征相比,显示更大的可恢复性。 这项系统研究不仅展示了在存在噪声、有限数据和不同特征分布的情况下合理数据恢复的与模型无关框架,而且还提供了材料数据集中kNN估算的有形基准。 最终,它旨在提高自动化材料发现中的数据质量和实验精度。
分层无维学习(Hi-π):用于发现无维参数组合的物理-数据混合驱动方法
维度分析为降低物理复杂性和揭示固有规律提供了一个通用框架。 然而,它应用于高维系统仍然会产生冗余的无尺寸参数,因此建立物理上有意义的描述具有挑战性。 在这里,我们介绍了分层无维学习(Hi-π),这是一种物理数据混合驱动方法,结合了尺寸分析和符号回归,自动发现关键无维参数组合。 我们把这种方法应用于流体力学各种研究领域的经典例子。 对于Rayleigh-Bénard对流,这种方法准确地提取了两个内在的无维参数:Rayleigh数和Prandtl数,验证了其在多尺度数据中的统一表示优势。 对于圆形管道中的粘稠流动,该方法会自动发现两个最佳无尺寸参数:雷诺数和相对粗糙度,在精度和复杂性之间实现平衡。 对于亚声波流中的可压缩性校正,该方法有效地提取了经典的可压缩校正配方,同时展示了其通过最佳参数变换发现分层结构表达式的能力。
迈向大型物理基准
我们引入了由科学界开发的基准框架,以评估,监测和指导基础物理学中的大型语言模型发展。 基于科学理解和创造力的哲学概念,我们开发了一个评分系统,其中每个问题都由专家为其正确性,难度和惊喜进行评分。 问题有三种形式:(一)概念理解的多项选择题,(二)需要数学推导的分析问题,以及(三)需要复杂解决问题的开放式任务。 我们当前的数据集包含各种各样的示例,包括机器学习挑战,对高能物理事件进行分类,例如四个顶级夸克信号。 为了确保持续相关性,我们提出了一个活生生的基准,物理学家在这里提出问题,例如与新出版物一起。 我们请通过:http://www.physicsbenchmarks.org/发言。 我们希望这个基准能够实现有针对性的人工智能开发,能够为基础物理研究做出有意义的贡献。
加速哈密尔顿蒙特卡洛在神经网络和神经运算符中的贝叶斯推理
Hamiltonian Monte Carlo (HMC) 是一种强大而准确的方法,可以从贝叶斯推理中的后验分布中取样。 然而,HMC技术对贝叶斯神经网络的计算要求很高,因为网络的参数空间的噪声性及其后分布的非凸性。 因此,各种近似技术,如变化推断(VI)或随机梯度MCMC,通常用于推断网络参数的后验分布。 这种近似值在推断的分布中引入不准确之处,导致不可靠的不确定性估计。 在这项工作中,我们提出了一种混合方法,该方法结合了廉价的VI和精确的HMC方法,以有效和准确地量化神经网络和神经网络运算符的不确定性。 拟议的办法利用了关于整个网络的初步第六培训。 我们考察单个参数对预测不确定性的影响,这表明很大一部分参数对网络预测的不确定性没有实质性的贡献。 然后,这些信息用于显著减小参数空间的维度,HMC仅针对强烈影响预测不确定性的网络参数子集执行。 这产生了一个框架,用于加速神经网络中后推理的全批HMC。 我们展示了在深度神经网络和运算网络上提出的框架的效率和准确性,表明可以为具有数以万计到数十万个参数的大型网络执行推理。 我们表明,这种方法可以通过建模从上游条件映射到高声波流圆锥体上的壁压数据的操作员来有效地学习复杂物理系统的代理。
强大的因果发现在真实世界的时间序列与电源法
在随机时间序列中探索因果关系是一项具有挑战性但至关重要的任务,涉及广泛的应用,包括金融,经济,神经科学和气候科学。 已经提出了许多因果发现(CD)算法,但它们通常表现出对噪声的高度敏感性,导致应用于真实数据时的误导性因果推断。 在本文中,我们观察到典型现实世界时间序列的频率光谱遵循功率法分布,特别是由于固有的自我组织行为。 利用这种洞察力,我们构建了一个强大的CD方法,该方法基于功率-law光谱特征的提取,放大真正的因果信号。 我们的方法在具有已知因果结构的合成基准和真实世界数据集上的表现一直优于最先进的替代品,证明了其稳健性和实际相关性。
钙钛矿催化剂中可解释描述物发现的神经网络引导符号回归
理解和预测氧化钙钛矿催化剂对氧进化反应(OER)的活性需要准确和物理可解释的描述符。 虽然符号回归(SR)提供了发现这些公式的路径,但其性能随着高维输入和小数据集而退化。 我们提出了一个两阶段框架,结合了神经网络(NN)、特征重要性分析和符号回归(SR),以发现氧化物钙钛矿中OER活性的可解释描述符。 在第一阶段,使用一个小数据集和七个结构特征,我们通过工程复合特征和应用符号回归来复制和改进已知的μ/t描述符,分别实现22.8和20.8 meV的训练和验证MAE。 在第二阶段,我们扩展到164个特征,减小了尺寸,并将LUMO能量识别为关键的电子描述符。 使用μ/t、μ/RA和LUMO能量的最终公式提高了精度(22.1和20.6 meV的训练和验证MAE),具有很强的物理可解释性。 我们的结果表明,NN引导的符号回归能够在数据稀缺机制中实现准确,可解释和物理上有意义的描述符发现,表明可解释性不需要牺牲材料信息学的准确性。
Hypergraph Link 通过 Hyperedge 复制进行预测
我们提出了一个时间演变的超图的生成模型,其中超边通过嘈杂复制以前的超边形形成。 我们提出的模型从许多经验超图中再现了几个程式化的事实,可以从数据中学习,并定义了一个完整的超图而不是基于自我或其他亚超图的可能性。 分析我们的模型,我们根据模型参数得出节点度、边缘大小和边缘交叉点大小分布的描述。 我们还展示了经验超图的几个特征,这些特征是由我们的模型成功捕获的。 我们提供可扩展的随机期望最大化算法,我们可以将模型与具有数百万个节点和边缘的超图数据集相适应。 最后,我们根据超图链路预测任务评估我们的模型,发现仅使用11个参数的实例化模型就可以通过大型神经网络实现有竞争力的预测性能。
分子特性的主动深度内核学习:实现动态结构嵌入
随着大量的化学身份数据库变得越来越可用,挑战转移到我们如何有效地探索和利用这些资源来研究分子特性。 本文介绍了使用深度内核学习(DKL)进行分子发现的主动学习方法,在QM9数据集上演示。 DKL将结构嵌入直接链接到属性,创建有组织的潜在空间,优先考虑相关的属性信息。 通过迭代重新计算与目标属性对齐的嵌入向量,DKL揭示了代表关键分子特性的集中最大值,并揭示了具有创新潜力的未开发区域。 这种方法强调了DKL在推进分子研究和发现方面的潜力。
基于熵的模型,将现实世界的超图随机化
网络理论经常忽视多体关系,只关注成对的互动:然而,忽视它们可能导致复杂系统的误导性表示。 Hypergraphs 代表了一个合适的框架来描述多亚体相互作用。 在这里,我们利用基于发生率矩阵的超图表示,将基于熵的方法扩展到高阶结构:与指数随机图类比,我们引入了指数随机超图(ERH)。 在探索阈值泛化阈值的渐近行为后,我们将应用ERHs来研究真实世界的数据。 首先,我们将关键网络指标泛化为超图;然后,我们计算它们的预期值并将其与经验值进行比较,以检测随机行为的偏差。 我们的方法在分析上是可处理的,可扩展的,能够揭示现实世界超图的结构模式,这些模式与由于更简单的限制而出现的变化有很大不同。
通过知识知情的生成建模捕捉看不见的空间极端
观测到的气候极端情况提供了不完整的风险图景,错过了超越历史界限的“看不见的”极端情况。 与此同时,忽视空间依赖低估了放大影响的同步危害的风险。 为了应对这些挑战,我们开发了DeepX-GAN(物理极限嵌入 - 生成对抗网络),这是一种知识渊博的深层生成模型,旨在更好地捕捉罕见极端的空间结构。 DeepX-GAN的零镜头可推广性能够模拟超越历史经验的看不见的极端,但在统计学上仍然是合理的。 我们定义了两种类型的看不见的极端:“checkmate”极端,直接击中目标,和“稳定”极端,勉强错过。 这些未实现的场景暴露了脆弱系统中的潜在风险,如果被忽视,可能会加强虚假的复原力。 特别是,接近失误可以促使积极主动的适应或危险的自满,这取决于它们的解释方式。 将DeepX-GAN应用于中东和北非(MENA),我们发现这些看不见的极端不成比例地影响高度脆弱性和低社会经济准备的地区,但在紧迫性和解释方面有所不同。 未来的变暖可能会扩大和重新分配这些看不见的极端,在印度 - 巴基斯坦和中非出现暴露热点。 这种分配转变凸显了传统危险规划中的关键盲点,并强调需要制定空间适应性政策,预测新出现的风险热点,而不是简单地从历史模式中推断。
发现不确定性存在中的管理方程
在复杂的动力学系统的研究中,理解和准确建模潜在的物理过程对于预测系统行为和设计有效的干预措施至关重要。 然而,现实世界的系统表现出明显的输入(或系统)可变性,并通过嘈杂的有限数据条件进行观察,这些条件混淆了传统的发现方法,这些方法假设了固定系数的确定性模型。 在这项工作中,我们推测,将系统可变性与测量噪声一起核算是持续发现动态系统底层的调节方程的关键。 因此,我们引入了一个随机的逆物理发现(SIP)框架,该框架将未知系数视为随机变量,并通过最小化后验样本的推力和经验数据分布之间的Kullback-Leibler差异来推断其后验分布。 关于四个规范问题的基准 - Lotka-Volterra捕食者捕食系统(多和单轨迹),历史悠久的哈德逊湾猞猁-野牛数据,混沌的Lorenz吸引器,以及使用低粘度和高粘度液体的多孔介质中的流体渗透 - 表明SIP一致地识别正确的方程,并将系数根均值误差降低82%。 由此产生的后分布产生95%的可信间隔,密切跟踪观察到的轨迹,提供可解释的模型具有量化的不确定性。 因此,SIP为在嘈杂、可变和数据有限的设置中一致的物理发现提供了稳健、数据高效的方法。
小心差距:使用最佳运输地图导航推理
机器学习(ML)技术最近使整个科学的灵敏度有了巨大的增长。 在粒子物理学中,这种进展的大部分依赖于对各种物理过程的出色模拟。 然而,由于现代机器学习(ML)算法的复杂性和对高质量训练样本的依赖,模拟和实验数据之间的差异可能会显着限制ML技术的有效性。 在这项工作中,我们提出了解决这个“错误规格”问题的方法:基于最佳传输的校准方法,我们首次将其应用于高维模拟。 我们通过使用CMS启发的数据集,通过喷射标记演示我们方法的性能。 研究了来自强大的通用通用分类器的128维内部射流表示;在校准了这种内部“延迟”表示后,我们发现从中提取的下游任务的多种数量也进行了适当的校准:使用这种校准的高维表示,可以在LHC分析中使用强大的喷射风味信息的新应用。 这是允许在粒子物理学中正确校准的“基础模型”的关键一步。 更广泛地说,这种校准框架具有广泛的应用,可以纠正整个科学的高维模拟。
历史在地质情景的不确定性下与隐含的地质现实主义控制与生成式深度学习和图形卷积相匹配
基于图形的变异自动编码器代表一种结构,它可以通过低维潜在空间的概念来处理不同地质场景(如沉积或结构)的不确定性。 与最近的研究的主要区别在于在水库建模中使用基于图的方法,而不是更传统的基于格子的深度学习方法。 我们提供了一个解决方案,通过生成模型和大地测量指标的潜在变量隐式控制地质现实主义。 我们用合成数据集对AHM进行的实验,该数据集由具有一个或两个通道的两个不同的情景的通道化地质表征的3D实现组成,显示了该方法的可行性。 我们使用PCA,t-SNE和TDA等工具对潜在空间进行深入分析,以说明其结构。
迈向稳健的代孕模型:基准机器学习方法,以加快 Brittle Fracture 的相位现场模拟
数据驱动的方法有可能使建模复杂,非线性的物理现象显着更具可计算处理性。 例如,骨折的计算建模是一个核心挑战,机器学习技术有可能提供急需的加速,从而实现在诸如多尺度建模和不确定性量化等领域的进步。 目前,断裂的相位场建模(PFM)就是这样一种方法,为裂纹成核,分支和传播提供了方便的变异配方。 迄今为止,机器学习技术在近似PFM模拟方面显示出希望。 然而,大多数研究依赖于过于简单的基准,这些基准不能反映PFM作为方法的断裂过程的真正复杂性。 为了解决这一差距,我们引入了一个基于PFM模拟的具有挑战性的数据集,旨在对断裂建模的ML方法进行基准测试。 该数据集包括三种能量分解方法,两个边界条件和1000个随机初始裂纹配置,共6000个模拟。 每个样本包含100个时间步骤,捕捉裂纹场的时间演变。 除了这个数据集,我们还实现和评估物理信息神经网络(PINN),傅里叶神经运算符(FNO)和UNet模型作为基线,并探索集成策略对预测准确性的影响。 通过从文献中提取的数据集和基线模型的这种组合,我们的目标是为评估机器学习方法的固体力学提供一个标准化和具有挑战性的基准。 我们的研究结果强调了当前流行模型的前景和局限性,并展示了该数据集作为推进骨折力学研究中机器学习的测试平台的实用性。
从科学文献中提取燃料电池的ORR催化剂信息
氧还原反应(ORR)催化剂在提高燃料电池效率方面起着关键作用,使其成为材料科学研究的重点。 然而,由于文本数据的复杂性和多样性,从大量科学文献中提取有关ORR催化剂的结构化信息仍然是一个重大挑战。 在这项研究中,我们提出了一种命名实体识别(NER)和关系提取(RE)方法,使用DyGIE++与多种预训练BERT变体,包括MatSciBERT和PubMedBERT,从科学文献中提取ORR催化剂相关信息,这些信息被编译成材料信息学(FC-CoMIcs)的燃料电池语料库。 通过识别12个关键实体和两种实体对之间的关系类型,手动构建了一个全面的数据集。 我们的方法涉及基于变压器模型的数据注释、集成和微调,以提高信息提取的准确性。 我们评估不同BERT变体对提取性能的影响,并研究注释一致性的影响。 实验评估表明,经过微调的PubMedBERT模型实现了82.19的最高NER F1得分
信息驱动的成像系统设计
在现代成像系统中,原始测量数据通常在人类观察之前或替代人类观察时经过计算处理,此时信息内容比视觉外观更为重要。然而,开发能够处理真实世界测量复杂性同时又足够实用以广泛使用的信息估计器已被证明具有挑战性。我们提出了一种数据驱动的方法来估计未知物体与其噪声测量之间的互信息。我们的技术将概率模型拟合到测量数据及其噪声过程,无需真实数据或对物体结构做出假设即可量化信息内容。我们在多个应用领域验证了我们的方法——彩色摄影、射电天文学、无透镜成像和显微技术——证明信息估计能可靠预测系统性能。最后,我们提出了信息驱动编码器分析学习(IDEAL),通过优化成像系统以最大化信息捕获。我们的工作解锁了信息理论作为一个强大而实用的工具,可用于分析和设计广泛应用的成像系统。本工作的视频摘要可见于:https://waller-lab.github.io/EncodingInformationWebsite/
银河化学进化中基于模型的比较和基于模拟的推理的COMPASS
我们介绍了基于模拟的新型推理框架COMPASS,它将基于分数的扩散模型与变压器架构相结合,共同在竞争激烈的银河化学进化(GCE)模型中执行参数估计和贝叶斯模型比较。 COMPASS处理高维、不完整和可变大小的恒星丰度数据集。 应用于高精度的元素丰度测量,COMPASS评估40种核合成屈服表的组合。 该模型强烈支持来自NuGrid的Asymptotic Giant Branch产量和IllustrisTNG模拟中使用的核心崩溃SN收益率,实现了近乎统一的累积后概率。 使用首选模型,我们推断出陡峭的高质量IMF坡度和较高的超新星Ia正常化,与以前的太阳能社区研究一致,但现在来自完全摊销的贝叶斯推断。 我们的结果表明,现代SBI方法可以在天体物理模拟器中牢固地限制不确定的物理,并在分析复杂的基于模拟的数据时实现有原则的模型选择。
物理引导的双隐神经表征源分离
对大多数先进的实验和观测技术进行有效的数据分析存在重大挑战,因为收集到的信号通常包括不需要的贡献 - 例如背景和信号失真 - 可以掩盖感兴趣的物理相关信息。 为了解决这个问题,我们开发了一种自我监督的机器学习方法,使用双隐式神经表示框架进行源分离,该框架共同训练两个神经网络:一个用于近似感兴趣的物理信号的失真,另一个用于学习有效的背景贡献。 我们的方法直接从原始数据中学习,最大限度地减少基于重建的丢失函数,而无需标记数据或预先定义的字典。 我们通过考虑一项具有挑战性的案例研究来证明我们的框架的有效性,该研究涉及大规模模拟以及实验动力-能量依赖性非弹性中子散射数据在四维参数空间中,其特点是异质背景贡献和未知对目标信号的扭曲。 该方法被发现可以成功地将物理上有意义的信号与复杂或结构化的背景分开,即使信号特征在参数空间的所有四个维度上有所不同。 介绍了一种分析方法,为正则化参数的选择提供信息。 我们的方法提供了一个多功能框架,用于解决不同领域的源分离问题,从天文测量中的叠加信号到生物医学图像重建中的结构特征。
分类问题中高阶特征效应的信息理论量化
了解预测模型中单个特征的贡献仍然是可解释机器学习的核心目标,虽然存在许多与模型无关的方法来估计特征重要性,但它们往往在捕获高阶交互和消除重叠贡献方面做得很短。 在这项工作中,我们介绍了功能重要性(Hi-Fi)方法的高阶交互的信息理论扩展,利用通过k-Nearest Neighbor(kNN)方法估计的条件相互信息(CMI),该方法处理混合离散和连续随机变量。 我们的框架将功能贡献分解为独特的、协同的和冗余的组件,从而更丰富、独立于模型地理解其预测角色。 我们使用具有已知高斯结构的合成数据集验证该方法,其中地面真实相互作用模式被分析导出,并进一步测试来自TCGA-BRCA的非高斯和现实世界的基因表达数据。 结果表明,拟议的估计器可以准确地恢复理论和预期结果,为开发基于交互分析的特征选择算法或模型开发提供了潜在的用例。