我们通过最优控制理论的视角研究变形金刚,使用连续时间公式中的工具,对培训和建筑设计产生可操作的见解。 该框架提高了现有变形金刚模型的性能,同时提供了理想的理论保证,包括泛化和稳健性。 我们的框架旨在即插即用,实现与已建立的 Transformer 模型的无缝集成,并且只需要对实现进行轻微的更改。 我们对文本生成、情绪分析、图像分类和点云分类等动机的任务进行了7次广泛的实验。 实验结果表明,该框架提高了基线的测试性能,同时提高了参数效率。 在使用 nanoGPT 的字符级文本生成上,我们的框架实现了 46 42 的最终测试损失,证明了对更大模型的可扩展性。 据我们所知,这是第一个将最优控制理论应用于变形金刚的训练和架构的工作。 它为系统,理论驱动的改进提供了新的基础,并超越了昂贵的试错方法。
我们研究用于优化的Hamiltonian流(HF-opt),它模拟了Hamiltonian动态一段时间的集成时间,并将速度重置为0以降低目标函数;这是用于采样的Hamiltonian Monte Carlo算法的优化模拟。 在较短的集成时间中,HF-opt具有与梯度下降相同的收敛率,用于最小化强弱凸函数。 我们表明,通过随机化HF-opt中的集成时间,由此产生的随机哈密尔顿流(RHF)在连续时间内实现加速收敛率,类似于加速梯度流的速率。 我们研究RHF作为随机汉密尔顿梯度下降(RHGD)算法的离散时间实现。 我们证明RHGD实现了与Nesterov的加速梯度下降(AGD)相同的加速收敛率,以最小化平滑强弱凸函数。 我们提供数值实验来证明RHGD在所有设置中与经典的加速方法(如AGD)具有竞争力,并在某些机制中优于它们。
我们通过二阶动量(PG-SOM)开发策略梯度,这是一种用于强化学习策略的轻量级二阶优化方案。 PG-SOM通过两个指数加权统计数据增强了经典的REINFORCE更新:一阶梯度平均值和对角线的Hessian。 通过这种曲率估计来预置梯度,该方法自适应地重新缩放每个参数,产生更快,更稳定的预期返回。 我们提供简明的推导,确定对角线Hessian estimator在温和的规律性假设下是无偏和正定义的,并证明由此产生的更新是预期的下降方向。 标准控制基准上的数值实验显示,与一阶和费舍尔基数基线相比,样品效率提高了2.1倍,方差显着降低。 这些结果表明,即使是粗糙的二阶信息也能带来显着的实际收益,同时仅产生D内存开销的D参数策略。 所有代码和可重复性脚本都将公开提供。
深度选择性状态空间模型(SSM)以输入依赖性、时间变化的参数为特征,具有显著的表达能力,但对稳定性分析提出了挑战,特别是不连续的闸门信号。 在本文中,我们通过被动性和输入状态稳定性(ISS)的镜头研究了连续时间选择性SSM的稳定性和规律性。 我们确定内在的能量耗散保证了过去状态的指数式遗忘。 至关重要的是,我们证明非受迫系统动力学具有底层最小二次能量函数,其定义矩阵表现出强大的AUC_loc规律性,容纳不连续的闸门。 此外,假设通用二次存储函数可确保所有输入的被动性,我们得出参数化的LMI条件和内核约束,这些限制闸门机制,使循环模型的“不可逆转的遗忘”形式化。 最后,我们为全球国际空间站提供了充分的条件,将均匀的局部分散性与整个系统的稳健性联系起来。 我们的研究结果为理解和设计稳定可靠的深度选择性SSM提供了严格的框架。
在过去的几十年里,人们对研究高维数据中的低维结构产生了浓厚的兴趣。 统计因子模型 - 即低等级加上对角线协方差结构 - 为建模此类结构提供了强大的框架。 然而,用于拟合统计因子模型的传统方法,如主成分分析(PCA)或假设数据为高斯的最大可能性估计,对观察到的数据中的重尾和异常值高度敏感。 在本文中,我们提出了一种新的期望最大化(EM)算法,用于稳健拟合统计因子模型。 我们的方法基于Tyler对椭圆分布的散点矩阵的M估计器,包括解决Tyler的最大可能性估计问题,同时施加结构约束,强制执行低等级加对角协方差结构。 我们介绍了合成和真实示例的数值实验,展示了我们在非均匀噪声和子空间恢复中到达方向估计方法的稳健性。
我们通过最优控制理论的视角研究变形金刚,使用连续时间公式中的工具,对培训和建筑设计产生可操作的见解。 该框架提高了现有变形金刚模型的性能,同时提供了理想的理论保证,包括泛化和稳健性。 我们的框架旨在即插即用,实现与已建立的 Transformer 模型的无缝集成,并且只需要对实现进行轻微的更改。 我们对文本生成、情绪分析、图像分类和点云分类等动机的任务进行了7次广泛的实验。 实验结果表明,该框架提高了基线的测试性能,同时提高了参数效率。 在使用 nanoGPT 的字符级文本生成上,我们的框架实现了 46 42 的最终测试损失,证明了对更大模型的可扩展性。 据我们所知,这是第一个将最优控制理论应用于变形金刚的训练和架构的工作。 它为系统,理论驱动的改进提供了新的基础,并超越了昂贵的试错方法。
在过去的几十年里,人们对研究高维数据中的低维结构产生了浓厚的兴趣。 统计因子模型 - 即低等级加上对角线协方差结构 - 为建模此类结构提供了强大的框架。 然而,用于拟合统计因子模型的传统方法,如主成分分析(PCA)或假设数据为高斯的最大可能性估计,对观察到的数据中的重尾和异常值高度敏感。 在本文中,我们提出了一种新的期望最大化(EM)算法,用于稳健拟合统计因子模型。 我们的方法基于Tyler对椭圆分布的散点矩阵的M估计器,包括解决Tyler的最大可能性估计问题,同时施加结构约束,强制执行低等级加对角协方差结构。 我们介绍了合成和真实示例的数值实验,展示了我们在非均匀噪声和子空间恢复中到达方向估计方法的稳健性。
基于高斯工艺的贝叶斯优化是一种广泛应用的算法,用于在不确定性下学习和优化,以其样本效率而闻名。 然而,最近 - 更常见的 - 研究已经实证地证明,高斯工艺拟合程序的核心可能是其最相关的弱点。 拟合高斯过程意味着将其内核的超参数调整为一组观测,但通常适用于学习任务的常见最大可能估计技术在贝叶斯优化中显示出不同的关键,使得该算法的理论分析成为一项开放的挑战。 利用高斯过程和高斯分布之间的类比,我们提出了一种新的方法,它使用一组前缀的超参数值来配合许多高斯过程,然后将它们组合成一个独特的模型,作为高斯过程的Wasserstein Barycenter。 我们既考虑了“简单”的测试问题,也考虑了其他已知破坏香草贝叶斯优化算法的问题。 新方法,即Wasserstein Barycenter Gausssian Process基于Bayesian Optimization(WBGP-BO),产生了有希望的结果,能够与香草贝叶斯优化相反,在最“棘手”的测试问题上也趋同到最佳。
具有正交约束的优化经常出现在机器学习等各个领域。 Riemannian优化为解决这些问题提供了一个强大的框架,通过配备Riemannian流形结构的约束,并在流形上执行本质上的优化。 这种方法通常涉及计算切线空间中的搜索方向,并通过回缩操作更新变量。 然而,随着变量的大小增加,回撤的计算成本可能会变得过高,限制了黎曼优化对大规模问题的适用性。 为了应对这一挑战并增强可扩展性,我们提出了一种新的方法,可以限制随机子歧体上的每次更新,从而显着降低每个迭代的复杂性。 我们介绍了两种选择随机子歧体的采样策略,并理论上分析了建议方法的收敛。 我们为满足 Riemannian Polyak-Lojasiewicz 条件的一般非凸函数和函数以及随机优化设置提供收敛结果。 此外,我们展示了如何将我们的方法推广到源自正交流形的细变量。 广泛的实验验证了建议的方法的好处,跨越了各种各样的问题。
我们研究Frank-Wolfe算法在产品聚物上的线性收敛。 我们根据单个聚位元组的条件数分析产品多顶点的两个条件数,即金字塔宽度和顶点面距离。 因此,对于 μ-Polyak-Łojasiewicz 的凸目标,我们显示了以结果条件数量化的线性收敛率。 我们将我们的结果应用于在高维数交点中大致找到一个可行点的问题,并通过经验结果证明我们的算法的实用效率。
机器学习中的公平性已成为一个关键问题,特别是在高风险应用中。 现有方法通常侧重于在预测模型产生的所有分数范围内实现完全公平,确保高得分和低得分人群的公平性。 然而,这种严格的要求可能会损害预测性能,并且可能与利益相关者的实际公平问题不一致。 在这项工作中,我们提出了构建部分公平的机器学习模型的新框架,该模型在特定感兴趣的分数范围内强制执行公平性,例如决策最具争议的中间范围,同时保持其他地区的灵活性。 我们引入两个统计指标来严格评估给定分数范围内的部分公平性,例如前20实现部分公平,我们通过将模型训练问题制定为具有差分约束约束的有限优化来提出处理方法,可以通过不精确的凸差算法(IDCA)来解决。 我们提供IDCA的复杂性分析,以找到一个近KKT点。 通过现实世界数据集的数值实验,我们证明我们的框架实现了高预测性能,同时在最重要的地方执行部分公平性。
我们解决了贝叶斯逆 Navier-Stokes (N-S) 问题,该问题吸收了速度测量数据,以便共同重建流场并学习未知的 N-S 参数。 通过将Carreau剪切变薄粘度模型纳入N-S问题,我们设计了一种算法,该算法仅从速度测量数据中学习剪切薄流体的最有可能的Carreau参数,并估计其不确定性。 然后,我们进行流MRI实验,通过理想化医疗设备(FDA喷嘴)获得轴对称层流喷流的速度数据,用于血液模拟液。 我们表明,该算法可以通过学习最有可能的Carreau参数来成功重建流场,并且学习的参数与流层测量非常一致。 该算法接受任何代数有效粘度模型,只要该模型是可微的,并且它可以扩展到更复杂的非牛顿流体(例如。 Oldroyd-B流体)如果一个粘弹性模型被纳入N-S问题。
在本文中,我们解决了多智能网络中分布式学习的两个实际挑战,即个性化和弹性。 个性化是异构代理需要学习针对自己的数据和任务量身定制的本地模型,同时仍然很好地推广;另一方面,学习过程必须具有抵御网络攻击或异常训练数据的能力,以避免中断。 受这两个需求之间概念上的亲和力的激励,我们设计了一种分布式学习算法,该算法结合了分布式梯度下降和Friedkin-Johnsen意见动力学模型,以满足它们。 我们量化其收敛速度和包含最终学习模型的邻域,可以通过调整算法参数以强制更个性化/弹性的行为轻松控制。 我们在数字上展示了我们的算法在合成和现实世界的分布式学习任务上的有效性,与标准策略相比,它为个性化模型和恶意代理实现了高全球精度。
最近的工作探索梯度流下同质神经网络权重的训练动力学,并进行了小规模的初始化,这些训练的早期阶段,权重仍然很小,并且接近起源,但向方向趋同。 基于此,当前论文研究了具有局部Lipschitz梯度的同质神经网络的梯度流动力学,因为它们逃离了起源。 从这种分析中获得的见解用于表征梯度流在逃离起源后遇到的第一个马鞍点。 此外,研究表明,对于同质的馈向神经网络,在某些条件下,在逃逸之前在权重中产生的间距结构在逃离起源后保留下来,直到到达下一个马鞍点。
本文介绍了EXAdam(EXtended Adam),这是一种基于广泛使用的Adam优化器的新型优化算法。 EXAdam 包含两个关键增强功能:(1) 改进 moment 估计值的新脱边项和(2) 基于梯度的加速机制,以提高对当前损失环境的响应能力。 这些创新协同工作,以解决原始Adam算法的局限性,可能提供更好的收敛属性,增强的逃脱马鞍点的能力,以及可能更大的超参数选择稳健性,尽管这需要进一步调查。 我们提供了 EXAdam 组件及其相互作用的理论分析,强调了该算法在导航复杂优化景观方面的潜在优势。 经验评估证明了EXAdam优于Adam,在应用于CIFAR-10数据集上训练的CNN时,分别在训练,验证和测试精度方面达到38.46。 虽然这些结果很有希望,但针对不同任务的进一步经验验证对于充分衡量EXAdam的功效至关重要。 尽管如此,EXAdam代表了自适应优化技术的重大进步,对广泛的机器学习应用产生了巨大的影响。 这项工作旨在促进机器学习和人工智能领域更高效、适应性强和普遍适用的优化方法的持续发展。
我们研究非线性网络系统的可识别性,当网络动力学在边缘和节点上的非线性时,具有部分激发和部分测量。 我们假设图拓扑和节点级别的非线性函数是已知的,我们的目标是识别图形的重量矩阵。 我们的主要结果是证明完全连接的分层前馈网络可以通过令人兴奋的源和测量跨源的分析函数类中的水槽在本地识别。 即使所有其他节点仍然不兴奋和未测量,并且与大多数需要测量和/或激发每个节点的网络可识别性的研究结果形成鲜明对比。 结果特别适用于没有偏移量的前馈人工神经网络,并通过考虑更广泛的功能和拓扑结构来概括以前的文献。
我们表明,线性编程和线性二价方程组合的提升和项目层次结构并没有解决近似的图形着色。 证明是基于组合张量理论。
我们开发一类混合整数配方,用于在松弛强度方面与大M和凸式船体配方中间的不结约束。 主要的想法是捕捉大M和凸船体配方中的最佳状态:一种计算轻的配方,具有紧密的放松。 “P-slit”配方基于一个提升的变换,将凸可添加的可分割约束分为P分区,并形成线性化和分区分离的凸体。 “P-slit”公式针对每个分期内具有凸约束的分序约束,我们用非对接约束来概括结果。 我们分析了P-slit配方的持续松弛,并表明在某些假设下,这些配方形成了一个层次结构,从大M等价物开始,并汇合到凸船体。 我们计算比较了344个测试实例中的P-分裂配方与大M和凸壳体配方。 测试问题包括 K 手段聚类、半监督聚类、P_ball 问题以及经过训练的 ReLU 神经网络的优化。 计算结果表明P-分裂配方具有有希望的潜力。 对于许多测试问题,P-slit配方通过与凸船体配方相似的探索节点数量来解决,同时将解决方案时间缩短了一个数量级,并在时间和探索节点的数量上优于大M。
深度学习优化的最新发展带来了基于线性最小化Oracle(LMO)框架的全新算法,例如Muon和Scion。 经过十多年亚当的主导地位,这些基于LMO的方法正在成为可行的替代品,提供了几个实际优势,如提高内存效率,更好的超参数传输性,最重要的是,在大规模任务(包括LLM训练)上具有卓越的经验性能。 然而,它们的实际用途和我们目前的理论理解之间仍然存在显着差距:先前的分析(1)忽略了这些优化器在实践中的层-明智的LMO应用,(2)依赖于不切实际的平滑性假设,导致不切实际的小步数。 为了解决这两种问题,我们提出了一种新的基于LMO的方法,称为Gluon,将先前理论分析的方法捕获为特殊情况,并引入了一种新的精炼的广义平滑度模型,该模型捕获了神经网络的层-智能几何形状,与Muon和Scion的层智能实践实现相匹配,并具有强大的实际预测能力。 与先前的结果不同,我们的理论步骤与Pethick等人报告的微调值紧密匹配。 (2025年)。 我们对NanoGPT和CNN的实验证实,我们的假设沿着优化轨迹保持,最终缩小了理论与实践之间的差距。
不同的基于梯度的方法来优化超参数化模型,都可以实现零训练错误,但收敛到诱导不同泛化属性的明显不同的解决方案。 我们提供了P-norm正态最陡下降(NSD)和动量最陡下降(NMD)算法在多类线性分类中具有交叉熵损失的隐式优化偏置的第一个完整表征。 我们的关键理论贡献是证明这些算法收敛到解决方案,最大限度地提高分类器矩阵的p-norm的余量,并建立了收敛率。 这些结果包括重要的特殊情况,包括Spectral Descent和Muon,我们将其与光谱规范的最大利润率解决方案相融合。 我们贡献的一个关键见解是,通过利用相对于最大规范的所有p规范及其双和规范之间的自然排序属性,可以将一般入口和Schatten p-norms的分析简化为具有max-norms的max-norms的分析。 对于与max-norm相关的下降的具体案例,我们进一步扩展了我们的分析,包括预后,表明Adam收敛到矩阵的max-norm解决方案。 我们的结果表明,多类线性设置(本质上比二进制对应物更丰富)为研究矩阵参数优化算法的隐性偏差提供了最透明的框架。
尽管机器学习中存在越来越多的偏见放大的经验证据,但其理论基础仍然知之甚少。 我们为多数少数群体学习任务制定了一个正式框架,展示了标准培训如何有利于多数群体,并产生忽视少数群体特定特征的陈规定型预测器。 假设人口和方差不平衡,我们的分析揭示了三个关键发现:(i)“全数据”和刻板预测器之间的接近度,(ii)训练整个模型往往只学习多数特征的区域的主导地位,以及(iii)所需的额外训练的下限。 我们的结果通过表格和图像分类任务的深度学习实验来说明。
图像处理和计算机视觉的许多关键任务被制定为反向问题。 因此,设计快速和健壮的算法来解决这些问题非常重要。 在本文中,我们专注于广义的投影梯度下降(GPGD)算法,其中通过学习神经网络实现广义投影,并为成像逆问题提供最先进的结果。 事实上,神经网络允许对未知的低维集合进行投影,这些集合对复杂的数据(如图像)进行建模。 我们称这些预测为深度预测。 在通用设置中,当使用低维模型集的正交投影时,在限制的等距假设下,已经显示相应的正交PGD以线性速率收敛,在稀疏恢复的经典情况下产生接近最优的收敛(在GPGD方法的类内)。 然而,对于受过经典平均平方误差损失训练的深度投影先验,几乎不能保证线性收敛的假设得到满足。 在本文中,我们提出了深度投影先验的训练损失的随机正交正交。 这种正则化是由我们的理论结果驱动的:正交投影的足够好的近似保证了线性稳定的恢复,性能接近正交PGD。 我们通过实验表明,使用两种不同的深度投影先验(基于自动编码器和去核化网络),我们的随机正交正极正态正交化产生预测,根据我们的理论发现,在具有挑战性的逆问题设置中提高GPGD的收敛速度和稳健性。
解码策略在现代语言模型的文本生成中起着关键作用,但令人费解的差距将理论和实践分开。 令人惊讶的是,应该直观地优化的策略,例如Maximum a Posteriori(MAP),在实践中通常表现不佳。 与此同时,流行的归人主义方法,如Top-k和Nucleus采样,采用条件下图概率的截断和正常化,取得了巨大的经验成功,但缺乏理论理由。 在本文中,我们提出了解码游戏,这是一个全面的理论框架,将文本生成重新想象为战略家之间的一个双人零和游戏,他试图在真实分布中产生可信的文本,而自然则扭曲了真正的分布。 在讨论了多步骤生成后的可分解性之后,我们以封闭形式导出了一步解码游戏的最佳策略。 结果表明,对抗性自然对可能性最大化施加了隐含的正则化,截断-规范化方法是这种正则化下对最优策略的第一顺序近似。 此外,通过推广解码游戏的目标和参数,近乎最优的策略包括各种方法,如贪婪的搜索,温度缩放和混合。 进行数值实验以补充我们的理论分析。
在量子热力学中,一个系统由Hamiltonian描述,并且列出了代表粒子数或电荷等保守数量的非通勤电荷,一个重要的目标是在这些保守电荷的存在下确定系统的最低能量。 在优化理论中,半确定性程序(SDP)涉及在正半确定性运算符的圆锥体上优化的线性目标函数。 这些问题产生于物理和优化社区中的不同动机,并使用非常不同的术语措辞,但它们在数学上基本上是相同的。 通过采用Jaynes以量子热力学为动力的心态,我们观察到,在上述热力学问题中最小化自由能量,而不是能量,导致在化学潜在参数中凹陷的双重化学电位最大化问题方面获得优雅的解决方案。 因此,可以使用标准(随机)梯度上升方法来找到这些参数的最佳值,并且这些方法保证快速收敛。 在低温下,最小自由能量为最低能量提供了极好的近似值。 然后,我们展示了这种Jaynes启发的梯度上升方法如何用于一阶和二阶经典和混合量子经典算法,以最小化能量,并等效地,它如何用于解决SDP,并保证算法的运行时。 这里讨论的方法完全基于量子热力学,因此,提供了物理动机,为什么在Jaynes的开创性工作五十年后发布的算法,包括矩阵乘法权重更新方法,矩阵指数梯度更新方法及其量子算法泛化,在解决SDP方面表现良好。
深度选择性状态空间模型(SSM)以输入依赖性、时间变化的参数为特征,具有显著的表达能力,但对稳定性分析提出了挑战,特别是不连续的闸门信号。 在本文中,我们通过被动性和输入状态稳定性(ISS)的镜头研究了连续时间选择性SSM的稳定性和规律性。 我们确定内在的能量耗散保证了过去状态的指数式遗忘。 至关重要的是,我们证明非受迫系统动力学具有底层最小二次能量函数,其定义矩阵表现出强大的AUC_loc规律性,容纳不连续的闸门。 此外,假设通用二次存储函数可确保所有输入的被动性,我们得出参数化的LMI条件和内核约束,这些限制闸门机制,使循环模型的“不可逆转的遗忘”形式化。 最后,我们为全球国际空间站提供了充分的条件,将均匀的局部分散性与整个系统的稳健性联系起来。 我们的研究结果为理解和设计稳定可靠的深度选择性SSM提供了严格的框架。