随着深度学习和大型语言模型中快速发现新兴现象,解释和理解它们的原因已成为迫切需要。 在这里,我们提出了一个严格的熵力理论,用于理解用随机梯度下降(SGD)训练的神经网络的学习动力学及其变体。 基于参数对称性和熵损失景观的理论,我们表明,表征学习受到随机性和离散时间更新产生的新兴熵力至关重要。 这些力系统地打破连续的参数对称并保存离散的参数对称性,导致一系列梯度平衡现象,类似于热系统的装备特性。 反过来,这些现象(a)解释了AI模型之间神经表征的普遍对齐,并导致柏拉图表征假说(b)调和深度学习优化的尖锐和扁平化行为看似矛盾的观察。 我们的理论和实验表明,熵力和对称断裂的结合是理解深度学习中新兴现象的关键。
扩散模型是最先进的生成模型,关于数据模式,如图像,音频,蛋白质和材料。 这些模式在傅里叶域中共享指数衰减方差和幅度的属性。 在加法白噪声的标准去噪扩散概率模型(DDPM)向前过程下,该属性导致高频组件在其信噪比(SNR)上比低频组件更快,更早地损坏。 然后反向过程在高频细节之前生成低频信息。 在这项工作中,我们研究了傅里叶空间扩散模型向前过程的电感偏差。 我们理论上分析和经验证明,DDPM中高频组件的噪声加快导致反向过程中违反正常假设。 我们的实验表明,这导致高频组件的生成质量下降。 然后,我们研究了傅里叶空间中的另一个前进过程,该过程以相同的速率腐蚀所有频率,在生成过程中消除典型的频率层次结构,并在高频为主要数据集上展示显着的性能改进,同时在标准成像基准上与DDPM相当。
尽管在深度学习模型的优化领域取得了重大进展,其中最先进的开源混合专家模型参数量高达数百亿,但依赖Hessian向量积的方法仍然仅限于在单个GPU上运行,因此甚至无法应用于参数量级在十亿范围内的模型。我们发布了一个软件包HessFormer,它与著名的Transformers包很好地集成,并允许在具有多个GPU的单个节点上进行分布式Hessian向量计算。我们的实现底层是分布式随机Lanczos求积算法,我们将其公开发布。使用这个包,我们研究了最近的Deepseek 700亿参数模型的Hessian谱密度。
数据整合方法正日益被用于提高研究效率和泛化能力。然而,这些方法的关键局限性在于假设不同数据集的结果指标是相同的——这一假设在实践中往往不成立。考虑以下阿片类物质使用障碍 (OUD) 研究:XBOT 试验和 POAT 研究,两者均评估药物对 OUD 患者戒断症状严重程度的影响(并非两项试验的主要结果)。XBOT 使用主观阿片类物质戒断量表来衡量戒断症状严重程度,而 POAT 使用临床阿片类物质戒断量表。我们分析了这种现实但具有挑战性的情况,即不同研究的结果指标不同,并且两项研究均未记录两种类型的指标。本文研究了整合具有不同结果指标的研究是否以及何时能够带来效率提升。我们引入了三组假设——具有不同强度——来关联两种结果指标。我们的理论和实证结果提出了一个警示性案例:只有在关联结果指标的最强假设下,整合才能提高渐近效率。然而,对该假设的错误设定会导致偏差。相反,较温和的假设可能产生有限样本效率提升,但随着样本量的增加,这些收益会减少。我们通过整合 XBOT 和 POAT 数据集来估计两种药物对阿片类物质使用障碍患者戒断症状的比较效果,从而说明了这些权衡。通过系统地改变关联 SOW 和 COW 量表的假设,我们展示了潜在的效率提升和偏差风险。我们的研究结果强调了在融合具有不同结果指标的数据集时,仔细选择假设的必要性,并为研究人员提供了应对现代数据整合中这一常见挑战的指导。
我们研究用于优化的Hamiltonian流(HF-opt),它模拟了Hamiltonian动态一段时间的集成时间,并将速度重置为0以降低目标函数;这是用于采样的Hamiltonian Monte Carlo算法的优化模拟。 在较短的集成时间中,HF-opt具有与梯度下降相同的收敛率,用于最小化强弱凸函数。 我们表明,通过随机化HF-opt中的集成时间,由此产生的随机哈密尔顿流(RHF)在连续时间内实现加速收敛率,类似于加速梯度流的速率。 我们研究RHF作为随机汉密尔顿梯度下降(RHGD)算法的离散时间实现。 我们证明RHGD实现了与Nesterov的加速梯度下降(AGD)相同的加速收敛率,以最小化平滑强弱凸函数。 我们提供数值实验来证明RHGD在所有设置中与经典的加速方法(如AGD)具有竞争力,并在某些机制中优于它们。
尽管在深度学习模型的优化领域取得了重大进展,其中最先进的开源混合专家模型参数量高达数百亿,但依赖Hessian向量积的方法仍然仅限于在单个GPU上运行,因此甚至无法应用于参数量级在十亿范围内的模型。我们发布了一个软件包HessFormer,它与著名的Transformers包很好地集成,并允许在具有多个GPU的单个节点上进行分布式Hessian向量计算。我们的实现底层是分布式随机Lanczos求积算法,我们将其公开发布。使用这个包,我们研究了最近的Deepseek 700亿参数模型的Hessian谱密度。
多模态对比学习作为一种自我监督的表示学习技术,在基础模型训练(如CLIP <cit.>)方面取得了巨大成功。 在本文中,我们研究从多模态对比学习中学习表示的理论属性,超越线性表示和特定数据分布。 我们的分析表明,通过温度优化,多模态对比学习不仅可以最大化模式之间的相互信息,还可以适应数据的内在维度,而数据的内部维度可以远低于表示向量的用户指定维度。 合成和真实世界数据集的实验展示了对比学习学习低维和信息化表示的能力,弥合了理论见解和实践表现。
在过去的几十年里,人们对研究高维数据中的低维结构产生了浓厚的兴趣。 统计因子模型 - 即低等级加上对角线协方差结构 - 为建模此类结构提供了强大的框架。 然而,用于拟合统计因子模型的传统方法,如主成分分析(PCA)或假设数据为高斯的最大可能性估计,对观察到的数据中的重尾和异常值高度敏感。 在本文中,我们提出了一种新的期望最大化(EM)算法,用于稳健拟合统计因子模型。 我们的方法基于Tyler对椭圆分布的散点矩阵的M估计器,包括解决Tyler的最大可能性估计问题,同时施加结构约束,强制执行低等级加对角协方差结构。 我们介绍了合成和真实示例的数值实验,展示了我们在非均匀噪声和子空间恢复中到达方向估计方法的稳健性。
专家混合(MoE)方法是大多数大型语言模型架构的关键组成部分,包括最近的一系列DeepSeek模型。 与其他MoE实现相比,DeepSeekMoE脱颖而出,因为有两个独特的功能:部署共享专家策略和标准化的sigmoid闸门机制。 尽管DeepSeekMoE在DeepSeek系列模型的成功中发挥了突出作用,但从理论上讲,只有几次尝试证明共享专家策略的价值是合理的,而其标准化的sigmoid闸门仍然没有被探索。 为了弥补这一差距,我们从统计角度对DeepSeekMoE的这两个特征进行了全面的理论研究。 我们对专家估计任务进行收敛分析,以突出共享专家策略和标准化的sigmoid闸门的样品效率的提高,为专家和闩门结构的设计提供有用的见解。 为了验证我们的理论发现,我们在(视觉)语言建模任务的合成数据和真实世界数据集上进行了几次实验。 最后,我们对路由器行为进行了广泛的实证分析,从路由器饱和度、路由器变化率到专家利用率。
用户和实体行为分析(UEBA)是数据分析的一个广泛分支,试图建立正常的行为配置文件,以检测异常事件。 在用于检测异常的技术中,Deep Autoencoders构成了UEBA任务中最有前途的深度学习模型之一,允许可解释的安全事件检测,可能导致个人数据泄漏,劫持系统或访问敏感业务信息。 在这项研究中,我们介绍了基于UEBA的可解释的异常检测框架的第一个实现,该框架利用Deep Autoencoders与Doc2Vec相结合来处理数值和文本特征。 此外,基于神经网络的理论基础,我们提供了一个新颖的证明,证明了完全连接神经网络的两个广泛使用的定义的等效性。 实验结果表明,拟议的框架能力可以检测从真实攻击数据中有效生成的真实和合成异常,表明这些模型不仅提供了对异常的正确识别,而且还提供了可解释的结果,从而重建了异常的可能起源。 我们的研究结果表明,拟议的UEBA框架可以无缝集成到企业环境中,补充现有的安全系统,以便进行可解释的威胁检测。
基于高斯工艺的贝叶斯优化是一种广泛应用的算法,用于在不确定性下学习和优化,以其样本效率而闻名。 然而,最近 - 更常见的 - 研究已经实证地证明,高斯工艺拟合程序的核心可能是其最相关的弱点。 拟合高斯过程意味着将其内核的超参数调整为一组观测,但通常适用于学习任务的常见最大可能估计技术在贝叶斯优化中显示出不同的关键,使得该算法的理论分析成为一项开放的挑战。 利用高斯过程和高斯分布之间的类比,我们提出了一种新的方法,它使用一组前缀的超参数值来配合许多高斯过程,然后将它们组合成一个独特的模型,作为高斯过程的Wasserstein Barycenter。 我们既考虑了“简单”的测试问题,也考虑了其他已知破坏香草贝叶斯优化算法的问题。 新方法,即Wasserstein Barycenter Gausssian Process基于Bayesian Optimization(WBGP-BO),产生了有希望的结果,能够与香草贝叶斯优化相反,在最“棘手”的测试问题上也趋同到最佳。
我们用一般侧面信息研究高斯土匪的问题,首先由Wu,Szepesvari和Gyorgy介绍。 在这个设置中,手臂的播放揭示了关于其他手臂的信息,根据任意的先验已知侧信息矩阵:这个矩阵的每个元素都编码“行”手臂揭示的关于“柱”手臂的信息的保真度。 在高斯噪声的情况下,该模型将标准土匪,全反馈和图形结构反馈作为特殊情况。 在这项工作中,我们首先在遗憾上构建了一个基于LP的渐近视量实例依赖下限。 LP 优化了可靠地估计每个臂的次优差距所需的成本(遗憾)。 这个LP下界激励我们的主要贡献:第一个已知的这种一般设置的渐近最优算法。
具有正交约束的优化经常出现在机器学习等各个领域。 Riemannian优化为解决这些问题提供了一个强大的框架,通过配备Riemannian流形结构的约束,并在流形上执行本质上的优化。 这种方法通常涉及计算切线空间中的搜索方向,并通过回缩操作更新变量。 然而,随着变量的大小增加,回撤的计算成本可能会变得过高,限制了黎曼优化对大规模问题的适用性。 为了应对这一挑战并增强可扩展性,我们提出了一种新的方法,可以限制随机子歧体上的每次更新,从而显着降低每个迭代的复杂性。 我们介绍了两种选择随机子歧体的采样策略,并理论上分析了建议方法的收敛。 我们为满足 Riemannian Polyak-Lojasiewicz 条件的一般非凸函数和函数以及随机优化设置提供收敛结果。 此外,我们展示了如何将我们的方法推广到源自正交流形的细变量。 广泛的实验验证了建议的方法的好处,跨越了各种各样的问题。
我们引入了一种新的框架,用于通过数据截断进行微分私有(DP)统计估计,当数据支持不受限制时,解决DP估计中的一个关键挑战。 传统方法依赖于特定于问题的敏感性分析,限制了其适用性。 通过利用截断统计的技术,我们开发计算高效的DP估计器用于指数型家族分布,包括高斯均值和协方差估计,实现近乎最优的样本复杂性。 以前关于指数家庭的作品只考虑有界限或一维的家庭。 我们的方法通过截断减轻灵敏度,同时使用最大概率估计和DP随机梯度下降仔细纠正引入的偏置。 在此过程中,我们建立了改进的统一收敛保证,为指数家庭的可能性函数,这可能是独立的兴趣。 我们的结果通过截断的统计为DP算法设计提供了通用蓝图。
在两个多维时间序列之间找到最相似的子序列有许多应用:例如捕获股票市场的依赖性或发现狒狒的协调移动。 考虑到一个时间序列中发生的一种模式,我们可能会想知道同一模式是否发生在另一个时间序列中,并且具有一些可能具有不同长度的失真。 然而,据我们所知,目前还没有有效的框架来处理这个问题。 在这项工作中,我们提出了一个算法,该算法提供了在时间序列之间找到最相似的多维子序列的确切解决方案,其中时间序列和子序列之间的长度都有差异。 该算法建立在正确性和有效性的理论保证之上。 模拟数据集的结果表明,我们的方法不仅提供了正确的解决方案,而且还只使用了与基线方法相比的四分之一时间的运行时间。 在真实世界的数据集中,它以更快的速度提取最相似的子序列(与基线方法相比,速度高达20倍),并提供了关于股票市场情况的见解以及狒狒运动的多维时间序列关系。 我们的方法可用于任何时间序列。 这项工作的代码和数据集提供给公众使用。
顺序蒙特卡洛(SMC)方法为贝叶斯不确定性量化提供了一种有原则的方法,但传统上受到全批梯度评估需求的限制。 我们通过将随机梯度哈密尔顿蒙特卡洛(SGHMC)提案纳入SMC,引入可扩展变体,从而实现基于小型批量的高效采样。 我们生成的 SRCSGHMC 算法优于标准随机梯度下降 (SGD) 和深度集成,包括图像分类、异种 (OOD) 检测和传输学习任务。 我们进一步证明,SMCSGHMC可减轻过拟合并改善校准,为将预训练的神经网络转换为校准良好的贝叶斯模型提供了灵活、可扩展的途径。
从观察数据中估计个体化治疗效果是因果推断的核心挑战,主要是由于协变失衡和非随机治疗分配的混杂偏差。 虽然逆概率加权(IPW)是解决这个问题的既定解决方案,但它与现代深度学习框架的集成仍然有限。 在这项工作中,我们提出了重要性加权扩散蒸馏(IWDD),这是一种新颖的生成框架,将扩散模型的预训练与重要性加权分数蒸馏相结合,以实现准确和快速的因果估计 - 包括潜在的结果预测和处理效果估计。 我们演示了如何自然地将IPW纳入预训练扩散模型的蒸馏中,并进一步引入了基于随机化的调整,消除了明确计算IPW的需要,从而简化了计算,更重要的是,可以证明地减少了梯度估计的方差。 经验结果表明,IWDD实现了最先进的样本外预测性能,与其他基线相比,胜率最高,显着改善了因果估计并支持个体化治疗策略的发展。 我们将发布我们的 PyTorch 代码,用于可重复性和未来的研究。
机器学习中的公平性已成为一个关键问题,特别是在高风险应用中。 现有方法通常侧重于在预测模型产生的所有分数范围内实现完全公平,确保高得分和低得分人群的公平性。 然而,这种严格的要求可能会损害预测性能,并且可能与利益相关者的实际公平问题不一致。 在这项工作中,我们提出了构建部分公平的机器学习模型的新框架,该模型在特定感兴趣的分数范围内强制执行公平性,例如决策最具争议的中间范围,同时保持其他地区的灵活性。 我们引入两个统计指标来严格评估给定分数范围内的部分公平性,例如前20实现部分公平,我们通过将模型训练问题制定为具有差分约束约束的有限优化来提出处理方法,可以通过不精确的凸差算法(IDCA)来解决。 我们提供IDCA的复杂性分析,以找到一个近KKT点。 通过现实世界数据集的数值实验,我们证明我们的框架实现了高预测性能,同时在最重要的地方执行部分公平性。
本文介绍了一种用于缺失数据估算的新颖迭代方法,可依次减少数据与其相应缺失掩码之间的相互信息。 受基于GAN的方法的启发,该方法训练生成器降低缺失模式的可预测性,我们的方法明确针对减少相互信息。 具体来说,我们的算法迭代地将计算数据的联合分布和缺失掩码之间的KL差异最小化,以及它们与前一次迭代的边缘产品之间的差异。 我们表明,该框架下的最佳估算对应于解决ODE,其速度字段可最小化已纠正的流量训练目标。 我们进一步说明,一些现有的估算技术可以解释为我们相互信息减少框架的近似特殊情况。 关于合成和真实世界数据集的综合实验验证了我们提出的方法的有效性,证明了卓越的估算性能。
我们介绍了NeuralSurv,这是第一个包含贝叶斯不确定性量化的深度生存模型。 我们的非参数,架构无关的框架通过新颖的两级数据增强方案,灵活地捕捉时间变化的协变风险关系,为此我们建立了理论保证。 为了高效的后验推理,我们引入了一个均场变异算法,具有坐标提升更新,以模型大小线性缩放。 通过局部线性化贝叶斯神经网络,我们获得完整的共轭,并以封闭形式导出所有坐标更新。 在实验中,与最先进的深度生存模型相比,NeuralSurv提供了卓越的校准,同时在合成基准和现实世界数据集中匹配或超过其判别性能。 我们的研究结果通过增强模型校准和为生存函数提供稳健、校准良好的不确定性估计,证明了贝叶斯原理在数据避量制度中的价值。
本文通过分析具有自适应传感的Oja算法的压缩采样变体,解决了高维空间中高效主成分分析(PCA)的挑战。 传统的PCA方法会产生大量的计算成本,这些成本与数据维度的扩展性差,而像Oja这样的子空间跟踪算法提供了更有效的替代方案,但通常需要全维观测。 我们分析一个变体,在每次迭代中,只进行两个压缩测量:一个在当前估计的方向,一个在随机正交方向。 我们证明,这种自适应传感方法在跟踪具有特征 Δ=λ_1-λ_2 的数据流的主要特征向量时,在噪声的存在下实现了全局收敛。 我们的理论分析表明,该算法经历了两个阶段:(1)一个热化阶段,需要 O(λ_1λ_2d^2/Δ^2) 迭代来实现与真实特征向量的恒定水平对齐,其次是(2)一个局部收敛阶段,其中正文对齐误差以 O(λ_1λ_2d^2/Δ^2 t) 的速度衰减迭代 t。 该保证与现有的minimax下界保持一致,由于压缩采样,增加了d因子。 这项工作为具有噪声的子空间跟踪的自适应传感提供了第一个融合保证。 我们的证明技术也比以前的作品简单得多。 这些结果对获取全维样品具有挑战性或成本高昂的应用具有重要意义。
正态预测通过有效的预测集增强点预测,假设可交换性,量化机器学习模型的不确定性。 对于涉及多个试验、模型或数据源的复杂场景,可以聚合构象预测集,以创建捕获总体不确定性的预测集,通常提高精度。 然而,将多个预测集与单个1-α覆盖聚合在一起,不可避免地会削弱整体保证,通常导致1-2α最坏情况的覆盖范围。 在这项工作中,我们提出了一个预测集加权聚合的框架,其中根据它们的贡献为每个预测集分配权重。 我们的框架提供了对集合如何聚合的灵活控制,实现了在组合模型的1-2α保证和单个模型的1-α保证之间插入的更紧密的覆盖边界,具体取决于权重的分布。 我们将框架扩展到数据依赖权重,并且我们得出了数据依赖权重聚合的一般过程,该过程保持有限样本的有效性。 我们通过在专家混合环境中对合成和真实数据的实验来证明我们方法的有效性,并且我们表明,具有数据依赖权重的聚合提供了一种自适应覆盖形式。
基于内核的条件独立性(KCI)测试是一种强大的非参数化方法,通常用于因果发现任务。 尽管具有灵活性和统计可靠性,但立方计算的复杂性限制了其应用于大型数据集。 为了解决这一计算瓶颈,我们提出了FastKCI,这是一种可扩展且可并行的基于内核的条件独立性测试,该测试采用了由高斯过程令人尴尬的并行推理技术启发的。 通过将数据集基于高斯混合模型与调节变量进行分区,FastKCI并行进行局部KCI测试,使用重要性加权抽样方案汇总结果。 关于合成数据集和真实世界生产数据基准的实验证实,FastKCI保持了原始KCI测试的统计能力,同时实现了大量的计算速度。 因此,FastKCI代表了在大规模数据因果推断中条件独立性测试的实用而有效的解决方案。
流体热力学支持大气动力学、气候科学、工业应用和能源系统。 然而,此类系统的直接数值模拟(DNS)在计算上令人望而却步。 为了解决这个问题,我们提出了一种新的物理信息空间-时间代理模型,用于瑞利-贝纳德对流(RBC),这是对流流体流动的典型例子。 我们的方法将用于空间特征提取的卷积神经网络与受大型语言模型启发的创新循环架构相结合,包括上下文构建器和序列生成器以捕获时间动态。 推理在管理偏微分方程方面受到惩罚,以确保物理可解释性。 鉴于湍流对流对流对初始条件的敏感性,我们使用构象预测框架量化不确定性。 该模型复制了RBC动力学的关键特征,同时显着降低了计算成本,为长期模拟提供了可扩展的DNS替代品。
在许多缺少数据问题的科学领域,张量完成至关重要。 传统的低水平张量模型,包括CP,Tucker和Tensor-Train,利用低维结构来恢复丢失的数据。 然而,这些方法通常对称地处理所有张量模式,未能捕获科学数据中固有的独特的时空模式,其中时间成分同时表现出低频稳定性和高频变化。 为了解决这个问题,我们提出了一个新颖的模型,傅里叶低阶和稀疏张力(FLoST),它使用傅里叶变换沿着时间维度分解张量。 这种方法捕获具有低水平矩阵和具有稀疏性的高频波动的低频组件,从而产生混合结构,有效地模拟平滑和局部变化。 与众所周知的输卵管级模型相比,该模型假设所有频率组件的低转速,FLoST需要更少的参数,使其计算效率更高,特别是在时间维度大的时候。 通过理论分析和实证实验,我们证明FLoST在准确性和计算效率方面优于现有的张量完成模型,为时空数据重建提供了更可解释的解决方案。