随着深度学习和大型语言模型中快速发现新兴现象,解释和理解它们的原因已成为迫切需要。 在这里,我们提出了一个严格的熵力理论,用于理解用随机梯度下降(SGD)训练的神经网络的学习动力学及其变体。 基于参数对称性和熵损失景观的理论,我们表明,表征学习受到随机性和离散时间更新产生的新兴熵力至关重要。 这些力系统地打破连续的参数对称并保存离散的参数对称性,导致一系列梯度平衡现象,类似于热系统的装备特性。 反过来,这些现象(a)解释了AI模型之间神经表征的普遍对齐,并导致柏拉图表征假说(b)调和深度学习优化的尖锐和扁平化行为看似矛盾的观察。 我们的理论和实验表明,熵力和对称断裂的结合是理解深度学习中新兴现象的关键。
非本地游戏测试在量子系统中的非局部性和纠缠,并用于在不受信任的设备中认证量子态的自我测试。 然而,这些协议是针对理想状态量身定制的,因此逼真的噪音可以防止最大的违规行为,并使许多部分非本地州未被检测到。 根据噪声的“坚固性”选择自我测试可以针对特定应用定制协议,但目前的文献缺乏标准化的噪声稳健性度量。 创建这样的度量具有挑战性,因为没有操作措施来比较不同尺寸和输入输出设置的测试。 我们提出并研究了三种比较措施:噪音耐受性,说服力和称为间隙得分的说服力的分析近似。 我们的计算实验和分析框架表明,说服力为噪声强性提供了最细致入微的衡量标准。 然后我们展示,CHSH游戏具有最高的噪声-强率与更复杂的游戏(2-CHSH变体和Magic Square游戏)相比,当给予相等的资源时,而对于不平等的资源,一些2-CHSH变体可以以高资源成本超越CHSH。 这项工作为比较自测试协议中的噪声强性提供了第一个系统化和操作框架,为理解自检的噪声强性和量子资源利用率的实际改进的理论进展奠定了基础。
我们通过最优控制理论的视角研究变形金刚,使用连续时间公式中的工具,对培训和建筑设计产生可操作的见解。 该框架提高了现有变形金刚模型的性能,同时提供了理想的理论保证,包括泛化和稳健性。 我们的框架旨在即插即用,实现与已建立的 Transformer 模型的无缝集成,并且只需要对实现进行轻微的更改。 我们对文本生成、情绪分析、图像分类和点云分类等动机的任务进行了7次广泛的实验。 实验结果表明,该框架提高了基线的测试性能,同时提高了参数效率。 在使用 nanoGPT 的字符级文本生成上,我们的框架实现了 46 42 的最终测试损失,证明了对更大模型的可扩展性。 据我们所知,这是第一个将最优控制理论应用于变形金刚的训练和架构的工作。 它为系统,理论驱动的改进提供了新的基础,并超越了昂贵的试错方法。
我们研究用于优化的Hamiltonian流(HF-opt),它模拟了Hamiltonian动态一段时间的集成时间,并将速度重置为0以降低目标函数;这是用于采样的Hamiltonian Monte Carlo算法的优化模拟。 在较短的集成时间中,HF-opt具有与梯度下降相同的收敛率,用于最小化强弱凸函数。 我们表明,通过随机化HF-opt中的集成时间,由此产生的随机哈密尔顿流(RHF)在连续时间内实现加速收敛率,类似于加速梯度流的速率。 我们研究RHF作为随机汉密尔顿梯度下降(RHGD)算法的离散时间实现。 我们证明RHGD实现了与Nesterov的加速梯度下降(AGD)相同的加速收敛率,以最小化平滑强弱凸函数。 我们提供数值实验来证明RHGD在所有设置中与经典的加速方法(如AGD)具有竞争力,并在某些机制中优于它们。
我们通过二阶动量(PG-SOM)开发策略梯度,这是一种用于强化学习策略的轻量级二阶优化方案。 PG-SOM通过两个指数加权统计数据增强了经典的REINFORCE更新:一阶梯度平均值和对角线的Hessian。 通过这种曲率估计来预置梯度,该方法自适应地重新缩放每个参数,产生更快,更稳定的预期返回。 我们提供简明的推导,确定对角线Hessian estimator在温和的规律性假设下是无偏和正定义的,并证明由此产生的更新是预期的下降方向。 标准控制基准上的数值实验显示,与一阶和费舍尔基数基线相比,样品效率提高了2.1倍,方差显着降低。 这些结果表明,即使是粗糙的二阶信息也能带来显着的实际收益,同时仅产生D内存开销的D参数策略。 所有代码和可重复性脚本都将公开提供。
我们通过最优控制理论的视角研究变形金刚,使用连续时间公式中的工具,对培训和建筑设计产生可操作的见解。 该框架提高了现有变形金刚模型的性能,同时提供了理想的理论保证,包括泛化和稳健性。 我们的框架旨在即插即用,实现与已建立的 Transformer 模型的无缝集成,并且只需要对实现进行轻微的更改。 我们对文本生成、情绪分析、图像分类和点云分类等动机的任务进行了7次广泛的实验。 实验结果表明,该框架提高了基线的测试性能,同时提高了参数效率。 在使用 nanoGPT 的字符级文本生成上,我们的框架实现了 46 42 的最终测试损失,证明了对更大模型的可扩展性。 据我们所知,这是第一个将最优控制理论应用于变形金刚的训练和架构的工作。 它为系统,理论驱动的改进提供了新的基础,并超越了昂贵的试错方法。
多模态对比学习作为一种自我监督的表示学习技术,在基础模型训练(如CLIP <cit.>)方面取得了巨大成功。 在本文中,我们研究从多模态对比学习中学习表示的理论属性,超越线性表示和特定数据分布。 我们的分析表明,通过温度优化,多模态对比学习不仅可以最大化模式之间的相互信息,还可以适应数据的内在维度,而数据的内部维度可以远低于表示向量的用户指定维度。 合成和真实世界数据集的实验展示了对比学习学习低维和信息化表示的能力,弥合了理论见解和实践表现。
在过去的几十年里,人们对研究高维数据中的低维结构产生了浓厚的兴趣。 统计因子模型 - 即低等级加上对角线协方差结构 - 为建模此类结构提供了强大的框架。 然而,用于拟合统计因子模型的传统方法,如主成分分析(PCA)或假设数据为高斯的最大可能性估计,对观察到的数据中的重尾和异常值高度敏感。 在本文中,我们提出了一种新的期望最大化(EM)算法,用于稳健拟合统计因子模型。 我们的方法基于Tyler对椭圆分布的散点矩阵的M估计器,包括解决Tyler的最大可能性估计问题,同时施加结构约束,强制执行低等级加对角协方差结构。 我们介绍了合成和真实示例的数值实验,展示了我们在非均匀噪声和子空间恢复中到达方向估计方法的稳健性。
现实世界中的人往往对未来回报有模糊的了解,对此量化是不可行的或可取的。 我们认为,语言具有不同的传达模糊信息的能力,在主观期望中起着重要但鲜为人知的角色。 从经验上讲,我们发现在他们的报告中,分析师在语言表达中包括有用的信息,而不是数字预测。 具体而言,分析师报告的文本语调具有预测误差和随后数字预测修订的预测能力,当分析师的语言模糊时,当不确定性更高时,当分析师更忙时,这种关系变得更加牢固。 总的来说,我们的理论和证据表明,一些有用的信息是模糊的,只能通过语言传达。
基于高斯工艺的贝叶斯优化是一种广泛应用的算法,用于在不确定性下学习和优化,以其样本效率而闻名。 然而,最近 - 更常见的 - 研究已经实证地证明,高斯工艺拟合程序的核心可能是其最相关的弱点。 拟合高斯过程意味着将其内核的超参数调整为一组观测,但通常适用于学习任务的常见最大可能估计技术在贝叶斯优化中显示出不同的关键,使得该算法的理论分析成为一项开放的挑战。 利用高斯过程和高斯分布之间的类比,我们提出了一种新的方法,它使用一组前缀的超参数值来配合许多高斯过程,然后将它们组合成一个独特的模型,作为高斯过程的Wasserstein Barycenter。 我们既考虑了“简单”的测试问题,也考虑了其他已知破坏香草贝叶斯优化算法的问题。 新方法,即Wasserstein Barycenter Gausssian Process基于Bayesian Optimization(WBGP-BO),产生了有希望的结果,能够与香草贝叶斯优化相反,在最“棘手”的测试问题上也趋同到最佳。
具有正交约束的优化经常出现在机器学习等各个领域。 Riemannian优化为解决这些问题提供了一个强大的框架,通过配备Riemannian流形结构的约束,并在流形上执行本质上的优化。 这种方法通常涉及计算切线空间中的搜索方向,并通过回缩操作更新变量。 然而,随着变量的大小增加,回撤的计算成本可能会变得过高,限制了黎曼优化对大规模问题的适用性。 为了应对这一挑战并增强可扩展性,我们提出了一种新的方法,可以限制随机子歧体上的每次更新,从而显着降低每个迭代的复杂性。 我们介绍了两种选择随机子歧体的采样策略,并理论上分析了建议方法的收敛。 我们为满足 Riemannian Polyak-Lojasiewicz 条件的一般非凸函数和函数以及随机优化设置提供收敛结果。 此外,我们展示了如何将我们的方法推广到源自正交流形的细变量。 广泛的实验验证了建议的方法的好处,跨越了各种各样的问题。
高效的矩阵跟踪估计对于可扩展的log-determinants、矩阵规范和分布差异的计算至关重要。 在许多大规模应用中,所涉及的矩阵太大,无法完全存储或访问,甚至使单个矩阵向量(mat-vec)产品不可行。 相反,通常只能访问限制索引集上的矩阵或本地化矩阵向量产品的小子块。 Hutch++实现了最佳的收敛率,但依赖于随机SVD并假设完全的mat-vec访问,因此很难在这些受限设置中应用。 我们提出了Block-Orthonormal Stochastic Lanczos Quadrature(BOLT),它将Hutch++的准确性与基于正畸块探针和Lanczos迭代的更简单的实现相匹配。 BOLT建立在Stochastic Lanczos Quadrature(SLQ)框架的基础上,该框架将随机探测与Krylov子空间方法相结合,以有效地近似矩阵函数的痕迹,并且在近平谱机制中比Hutch++表现更好。 为了解决内存限制和部分访问限制,我们引入了Subblock SLQ,这是BOLT的一个变体,仅在小主基子矩阵上运行。 因此,该框架产生了代理KL发散估计器和计算高斯人之间的Wasserstein-2距离的有效方法 - 两者都与低内存和部分访问机制兼容。 我们提供理论保证,并在一系列高维设置中展示强大的经验性能。
伪光谱分析是矩阵计算和线性和非线性动态系统研究的强大工具。 在各种数值策略中,随机抽样,特别是第1级扰动的形式,提供了一种实用且计算效率的方法。 此外,由于在统一相似性下的不变性,任何复杂的矩阵都可以简化为其上三角形形式,从而简化分析。 在这项研究中,我们开发了一种定量浓度理论,用于在1级随机抽样扰动下的复杂矩阵的伪光谱,为光谱表征建立了一个严格的概率框架。 首先,对于正常的矩阵,我们得出一个正则的浓度不等式,并证明分离半径与维度缩放为 δ_d ∼ 1/√(d)。 接下来,对于零能约旦区块的等价类,我们利用经典的概率工具,特别是Hanson-Wright浓度不等式和Carbery-Wright反集中不等式,以获得奇异的浓度边界,并证明分离半径表现出相同的维度依赖缩放。 这产生了一个奇异的伪光谱浓度框架。 最后,观察到上三角形Toeplitz矩阵可以通过nilpotent Jordan块的符号多项式表示,我们使用理性函数的部分部分分解来扩展单个框架到上三角形Toeplitz矩阵的等价类。
我们表明,对于具有保守Maltsev多态性的每个有限结构B,B的约束满意度问题可以通过对称线性Z2-Datalog程序来解决,特别是在复杂度类奇偶校验-L中。 证明有两个步骤:我们首先为某个亚类呈现结果,其多态代数在遗传上是可不可还原的。 然后我们表明,我们类中的每一个其他结构都可以由子类中的一个结构原始地积极构建。 第二步需要不同的技术,并将呈现在配套文章中。
用大型语言模型(LLM)写小说提出了一个关键问题:人类创作的大纲需要多少才能产生高质量的百万字小说? 虽然DOME,Plan Write和Long Writer等框架提高了风格连贯性和逻辑一致性,但它们主要针对较短的小说(10k-100k)字,使超长一代基本上未被探索。 利用LLMZip和LLM2Vec等最近文本压缩方法的见解,我们进行了信息理论分析,量化了LLM在不同压缩扩展比下压缩和重建超长小说时发生的失真。 我们引入了分层的两级生成管道(大纲 -> 详细大纲 -> 手稿),并找到一个平衡信息保存与人类努力的最佳轮廓长度。 通过对中国小说的广泛实验,我们建立了两阶段的分层大纲方法,与单阶段方法相比,大大减少了语义失真。 我们的研究结果为作者和研究人员提供了基于经验的指导,并与LLM合作创作了百万字小说。
大规模随机访问是在下一代无线通信系统中实现超大规模连接的重要技术。 它旨在解决初始访问阶段的主要挑战,包括活跃用户检测(AUD)、信道估计(CE)和数据检测(DD)。 本文研究了大规模多输入多输出(MIMO)系统中的大规模访问,其中深度学习用于解决具有挑战性的AUD,CE和DD功能。 首先,我们引入了针对可变试点长度访问量身定做的Transformer-AUD方案。 这种方法将飞行员长度信息和空间相关性模块集成到基于变压器的探测器中,使单个模型能够跨各种试点长度和天线号进行概括。 接下来,我们提出了一个生成扩散模型(GDM)驱动的迭代CE和DD框架。 GDM采用评分功能来捕获大量MIMO通道和数据符号的后验分布。 分数函数的一部分是通过神经网络从通道数据集中学习的,而剩余的分数组件则通过应用符号前置星座分布和已知传输模型以封闭形式导出。 利用这些后验,我们设计了一个异步交替CE和DD框架,该框架采用预测校正器采样技术,在反向扩散过程中迭代生成通道估计和数据检测结果。 模拟结果表明,我们提出的方法在 AUD、CE 和 DD 方面显著优于基线方法。
我们评估受大变形和磁场影响层层磁弹性半空间的表面稳定性条件。 在回顾了欧莱西亚和拉格朗日形式的磁静方程的基本度量和总结后,我们从依赖于变形梯度和拉格朗日磁感应的总能量函数中得出了构成关系。 能量原理产生平衡方程、磁场方程和边界条件。 能量功能的第二个变化为稳定性分析提供了增量方程和条件。 表面不稳定性是通过在磁场正常到表面的磁场下对有限变形状态的线性化增量和磁感应来研究的。 考虑四个说明性案例:(i) 分层不可磁化半空间,具有不同的刚度对比度;(二) 磁弹性半空间作为磁感应功能的关键拉伸;(iii) 磁敏层在不可磁基板上的表面稳定性;(iv) 双层磁弹性固体中的分叉条件,具有不同的刚度比。 图形结果贯穿始终。
我们研究Frank-Wolfe算法在产品聚物上的线性收敛。 我们根据单个聚位元组的条件数分析产品多顶点的两个条件数,即金字塔宽度和顶点面距离。 因此,对于 μ-Polyak-Łojasiewicz 的凸目标,我们显示了以结果条件数量化的线性收敛率。 我们将我们的结果应用于在高维数交点中大致找到一个可行点的问题,并通过经验结果证明我们的算法的实用效率。
图形的正确薄度是一个不变的,它概括了适当的间隔图的概念。 每个图形都有适当的薄度的数值,具有适当薄度的图形1正是适当的间隔图。 图形是适当的k-薄,如果它的顶点可以排序,这样顶点有一个分区的顶点到k类满足,对于每个三重顶点r < s < t,这样r和t之间有一个边缘,这是真的,如果r和s属于同一个类,那么s和t之间有一个边缘,如果s和t属于同一个类,那么有一个边缘。 适当的薄度是k的最小值,因此图形是适当的k-薄。 在这项工作中,我们专注于计算树木的适当薄度。 我们表征了适当的薄度2,无论是结构上还是通过其最小的禁止诱导子图。 获得的表征导致了多项式时间识别算法。 我们还展示了为什么为适当薄的树木2获得的结构结果不能直接推广到适当的薄度3的树木。
聚类是一种广泛使用且功能强大的机器学习技术,但其有效性通常受限于需要指定聚类数量,k,或者依靠隐式确定k的阈值。 我们引入了 k*-means,这是一种新颖的聚类算法,消除了设置 k 或任何其他参数的需要。 相反,它使用最小描述长度原则,通过拆分和合并簇来自动确定最优的簇数量,同时优化标准k-均值目标。 我们证明 k*-means 保证收敛,并通过实验证明,在 k 未知的场景中,它显著优于现有方法。 我们还表明,它在估计 k 时是准确的,并且其运行时与现有方法具有竞争性,并且与数据集大小很好地扩展。
机器学习中的公平性已成为一个关键问题,特别是在高风险应用中。 现有方法通常侧重于在预测模型产生的所有分数范围内实现完全公平,确保高得分和低得分人群的公平性。 然而,这种严格的要求可能会损害预测性能,并且可能与利益相关者的实际公平问题不一致。 在这项工作中,我们提出了构建部分公平的机器学习模型的新框架,该模型在特定感兴趣的分数范围内强制执行公平性,例如决策最具争议的中间范围,同时保持其他地区的灵活性。 我们引入两个统计指标来严格评估给定分数范围内的部分公平性,例如前20实现部分公平,我们通过将模型训练问题制定为具有差分约束约束的有限优化来提出处理方法,可以通过不精确的凸差算法(IDCA)来解决。 我们提供IDCA的复杂性分析,以找到一个近KKT点。 通过现实世界数据集的数值实验,我们证明我们的框架实现了高预测性能,同时在最重要的地方执行部分公平性。
空中计算(AirComp)已成为一项有前途的技术,通过无线信道实现同步传输和计算。 在本文中,我们调查了多个集群中的网络化AirComp,允许进行多样化的数据计算,这还受到收发器协调和干扰管理的挑战。 特别是,我们的目标是最大限度地提高多组加权和AirComp速率,其中传输标量和接收波束成形在解决干扰问题时共同调查。 从优化的角度来看,我们分解了制定的问题,并采用迭代过程的交替优化技术来近似解决方案。 然后,我们通过算法展开的原理重新解释迭代,其中通道条件和AirComp网络中的相互干扰构成了一个底层图形。 因此,拟议的展开架构学习图形神经网络参数化的权重,该神经网络通过随机梯度下降方法进行训练。 模拟结果表明,我们的建议优于常规方案,拟议的展开图学习大大减轻了干扰,并实现了卓越的计算性能,并具有强大而高效的适应动态和可扩展的网络。
内核插值是从分散的数据中近似函数的基本技术,在插入复制内核希尔伯特空间的元素时具有很好的趋同理论。 除了这种经典的设置之外,研究还关注两种机制:错误指定的插值,内核平滑度超过目标函数,以及超级融合,其中目标比希尔伯特空间更平滑。 这项工作解决了后者,其中更平滑的目标函数产生更高的收敛率,并通过表征一般希尔伯特空间的预测超级融合来扩展现有结果。 我们展示了位于某些运算符范围的功能,包括嵌入的相邻,表现出加速收敛,我们跨越这些范围和整个希尔伯特空间之间的插值尺度。 特别是,我们分析美世操作员并将相邻操作员的图像链接到美世电源空间。 详细讨论了Sobolev空间的应用,突出了超级融合如何关键地依赖于边界条件。 我们的研究结果概括和完善了以前的结果,为理解和利用超级融合提供了更广泛的框架。 结果由数值实验支持。
运算器分裂方法已经被广泛用于通过将方程拆分成更易于管理的部分来解决微分方程。 在这项工作中,我们解决了长期存在的问题——如何建立具有负权重的多产品扩展(MPE)拆分方法的稳定性。 之所以出现困难,是因为高阶MPE方法中的负重导致权重大于一个的绝对值之和,使得标准稳定性证明失败。 特别是,我们将半线性抛物线方程作为典型模型,并建立了具有正时间步骤但可能是负权重的任意高阶MPE分裂方法的稳定性。 随后从稳定性结果中获得严格的收敛分析。 广泛的数值实验验证了各种高阶MPE分裂方法的稳定性和准确性,突出了它们的效率和鲁棒性。
提出了一种高阶牛顿多网格方法,用于模拟具有常规和不规则几何形状的开放通道中的稳态浅水流。 该方法集成了两个组件:(1)有限体积离散化与三阶加权基本非振荡(WENO)重建为管辖浅水方程,(2)牛顿多网格方法与雅各布矩阵的高效近似为生成的离散系统。 在牛顿迭代中生成完整的Jacobian矩阵会导致巨大的计算成本。 为了解决这个问题,我们观察到矩阵中的大多数非零元素表现出微不足道的幅度。 通过消除这些元素,我们用更少的模板近似Jacobian矩阵,从而显着减少了计算时间。 数字结果表明,拟议的简化策略提高了计算效率,同时保持与整个Jacobian方法的收敛率相当。 此外,采用连续过度放松快速滑动平滑器的几何多网格方法,用于线性化系统优化性能。 进行了各种数值实验,包括一维平滑亚临界流,流过驼峰,以及二维液压跳跃过楔,以说明建议方法的三阶精度,效率和稳健性。