We introduce a new family of algorithms for detecting and estimating a rank-one signal from a noisy observation under prior information about that signal's direction, focusing on examples where the signal is known to have entries biased to be positive. Given a matrix observation 𝐘, our algorithms construct a nonlinear Laplacian, another matrix of the form 𝐘 + diag(σ(𝐘1)) for a nonlinear σ: ℝ→ℝ, and examine the top eigenvalue and eigenvector of this matrix. When 𝐘 is the (suitably normalized) adjacency matrix of a graph, our approach gives a class of algorithms that search for unusually dense subgraphs by computing a spectrum of the graph "deformed" by the degree profile 𝐘1. We study the performance of such algorithms compared to direct spectral algorithms (the case σ = 0) on models of sparse principal component analysis with biased signals, including the Gaussian planted submatrix problem. For such models, we rigorously characterize the critical threshold strength of rank-one signal, as a function of the nonlinearity σ, at which an outlier eigenvalue appears in the spectrum of a nonlinear Laplacian. While identifying the σ that minimizes this critical signal strength in closed form seems intractable, we explore three approaches to design σ numerically: exhaustively searching over simple classes of σ, learning σ from datasets of problem instances, and tuning σ using black-box optimization of the critical signal strength. We find both theoretically and empirically that, if σ is chosen appropriately, then nonlinear Laplacian spectral algorithms substantially outperform direct spectral algorithms, while avoiding the complexity of broader classes of algorithms like approximate message passing or general first order methods.
伪光谱分析是矩阵计算和线性和非线性动态系统研究的强大工具。 在各种数值策略中,随机抽样,特别是第1级扰动的形式,提供了一种实用且计算效率的方法。 此外,由于在统一相似性下的不变性,任何复杂的矩阵都可以简化为其上三角形形式,从而简化分析。 在这项研究中,我们开发了一种定量浓度理论,用于在1级随机抽样扰动下的复杂矩阵的伪光谱,为光谱表征建立了一个严格的概率框架。 首先,对于正常的矩阵,我们得出一个正则的浓度不等式,并证明分离半径与维度缩放为 δ_d ∼ 1/√(d)。 接下来,对于零能约旦区块的等价类,我们利用经典的概率工具,特别是Hanson-Wright浓度不等式和Carbery-Wright反集中不等式,以获得奇异的浓度边界,并证明分离半径表现出相同的维度依赖缩放。 这产生了一个奇异的伪光谱浓度框架。 最后,观察到上三角形Toeplitz矩阵可以通过nilpotent Jordan块的符号多项式表示,我们使用理性函数的部分部分分解来扩展单个框架到上三角形Toeplitz矩阵的等价类。
本文讨论了在建立聚合器站点产品排名模型时遇到的挑战,使用基于点击后转换的小额信贷机构(MFI)排名的例子。 我们建议应该考虑MFI的哪些特征,并使用基于马尔可夫链的算法,我们在真实数据上展示了这些特征的“有用性”。 这项工作中开发的想法可以应用于小额保险中的聚合网站,特别是当个人数据不可用时。 由于我们在公共领域没有找到类似的数据集,我们正在发布数据集,并详细说明其属性。
The random batch method [J. Comput. Phys. 400 (2020) 108877] is not only an efficient algorithm for simulation of classical N-particle systems and their mean-field limit, but also a new model for interacting particle system that could be more physical in some applications. In this work, we establish the propagation of chaos for the random batch particle system and at the same time obtain its sharp approximation error to the classical mean field limit of N-particle systems. The proof leverages the BBGKY hierarchy and achieves a sharp bound both in the particle number N and the time step τ. In particular, by introducing a coupling of the division of the random batches to resolve the N-dependence, we derive an 𝒪(k^2/N^2 + kτ^2) bound on the k-particle relative entropy between the law of the system and the tensorized law of the mean-field limit. This result provides a useful understanding of the convergence properties of the random batch system in the mean field regime.
伪光谱分析是矩阵计算和线性和非线性动态系统研究的强大工具。 在各种数值策略中,随机抽样,特别是第1级扰动的形式,提供了一种实用且计算效率的方法。 此外,由于在统一相似性下的不变性,任何复杂的矩阵都可以简化为其上三角形形式,从而简化分析。 在这项研究中,我们开发了一种定量浓度理论,用于在1级随机抽样扰动下的复杂矩阵的伪光谱,为光谱表征建立了一个严格的概率框架。 首先,对于正常的矩阵,我们得出一个正则的浓度不等式,并证明分离半径与维度缩放为 δ_d ∼ 1/√(d)。 接下来,对于零能约旦区块的等价类,我们利用经典的概率工具,特别是Hanson-Wright浓度不等式和Carbery-Wright反集中不等式,以获得奇异的浓度边界,并证明分离半径表现出相同的维度依赖缩放。 这产生了一个奇异的伪光谱浓度框架。 最后,观察到上三角形Toeplitz矩阵可以通过nilpotent Jordan块的符号多项式表示,我们使用理性函数的部分部分分解来扩展单个框架到上三角形Toeplitz矩阵的等价类。
本文通过向后Euler-Maruyama(BEM)方法在无限视界广义单调和Khasminskii型条件下,通过后向的Euler-Maruyama(BEM)方法研究随机延迟微分方程(SDDE)的近似。 首先,通过建立BEM方法的统一时刻边界和有限时间强收敛,我们证明对于足够小的步尺寸,数值近似值以1/2的速度在无限视界中强烈收敛到底层解决方案,这与最优的有限时间强收敛率相吻合。 接下来,我们将与BEM方法相关联的分段过程建立概率的统一边界和收敛。 该分析进一步表明,数值段过程的概率测量与SDDE的底层不变量度收并。 最后,提供了一个数值示例和模拟来说明理论结果。
鉴于繁忙的时期和繁忙的周期在排队系统中的重要性,对各自分配功能的知识至关重要,这是允许计算重要概率的原因。 对于 M|G|∞ 队列系统,这些分布函数没有圆形公式。 但是,对于 M|D|∞ 队列来说,由于其繁忙的周期和繁忙的周期都有Laplace变换表达式圆形形式,对于任何其他 M|G|∞ 队列系统都没有发生的事情,由Platzman,Ammons和Bartholdi III创建的算法允许尾概率计算,因为已知对应器Laplace变换回合形式,这些分布函数计算是可能的。 在这里,我们将通过一个FORTRAN程序实现该算法。
我们严格研究通过随机梯度下降(SGD)的训练动力学与经验黑森和梯度矩阵的光谱之间的关系。 我们证明,在多类高维混合物和1层或2层神经网络的两个规范分类任务中,Hessian和梯度矩阵的SGD轨迹和新兴异常特征空间与常见的低维子空间保持一致。 此外,在多层设置中,这种对齐发生在每层,最终层的异常特征空间在训练过程中演变,当SGD收敛到次优分类器时,表现出等级缺陷。 这建立了一些丰富的预测,这些预测来自过去十年中关于黑森光谱和信息矩阵在过度参数化网络训练过程中的广泛数值研究。
量化和修剪是压缩神经网络的两种基本技术,但它们通常得到独立处理,有限的理论分析将它们连接起来。 本文介绍了使用随机路径遵循算法进行训练后量化和修剪的统一框架。 我们的方法建立在随机路径跟随量化(SPFQ)方法的基础上,将其适用性扩展到修剪和低位量化,包括具有挑战性的1位机制。 通过合并缩放参数并推广随机运算符,建议的方法实现了稳健的纠错,并为量化和修剪及其组合产生了严格的理论误差边界。
在本文中,我们计算了随机矩阵的多项式特征值问题解决方案的预期对数能量。 我们概括了Shub-Smale多项式和球形合奏的一些已知结果。 这两个过程是多项式特征值问题的两个极端特定情况,我们证明对数能量介于这两个情况之间。 特别是,舒布-誷体多项式的根源是家庭对数能量最低的。
本文讨论了在建立聚合器站点产品排名模型时遇到的挑战,使用基于点击后转换的小额信贷机构(MFI)排名的例子。 我们建议应该考虑MFI的哪些特征,并使用基于马尔可夫链的算法,我们在真实数据上展示了这些特征的“有用性”。 这项工作中开发的想法可以应用于小额保险中的聚合网站,特别是当个人数据不可用时。 由于我们在公共领域没有找到类似的数据集,我们正在发布数据集,并详细说明其属性。
我们考虑多个卖家在T期销售期间的价格竞争。 在每个时期,卖家同时提供他们的价格,然后观察他们各自的需求,这是竞争对手无法观察到的。 每个卖方的需求函数取决于所有卖方通过私人,未知和非线性关系的价格。 为了应对这一挑战,我们提出了一个非线性均值函数的半参数最小二乘估计,该估计值不要求卖家传达需求信息。 我们表明,当所有卖家采用我们的政策时,他们的价格会以 O(T^-1/7) 达到卖家充分知情的纳什均衡价格的速度收敛。 每个卖方都会对O(T^5/7)动态基准政策感到遗憾。 我们工作的一个理论贡献是通过s-concavity的概念来证明形状受限的需求函数下平衡的存在,并建立了我们拟议政策的遗憾界限。 从技术上讲,我们还为形状约束下最小二乘的估算器建立新的浓度结果。 我们的研究结果为动态竞争意识定价提供了重要的见解,并有助于在战略决策中对非参数学习进行更广泛的研究。
推进操作使人们能够通过确定性地图重新分配概率度量。 它在统计和优化中起着关键作用:许多学习问题(特别是通过最优传输,生成建模和算法公平性)包括作为模型推进条件的限制或惩罚。 然而,文献缺乏关于这种约束的(非)凸性及其对相关学习问题的后果的一般理论见解。 本文旨在填补这一空白。 在第一部分中,我们为两组函数的(非)凸性提供了一系列充分和必要的条件:将一个概率度量向另一个概率度量的地图和在不同概率度量中诱导相等输出分布的地图。 这突出表明,对于大多数概率措施,这些推进约束不是凸。 在第二部分中,我们展示了这一结果如何意味着对学习生成模型或分组公平预测器的凸优化问题设计的关键限制。 这项工作有望帮助研究人员和从业者更好地了解推进条件对凸度的关键影响。
栽种的斜面问题是统计到计算差距的范式模型:栽种的集团是信息理论可检测的,如果它的大小为k≥2log_2 n,但多项式时间算法仅存在于k=Ω(√(n))时恢复任务。 到目前为止,有许多算法在k = Ω(√(n))上成功。 然而,显然没有黑箱优化方法,例如梯度下降或大都市过程,已被证明有效。 事实上,Chen,Mossel和Zadik最近表明,任何状态空间为集团集的Metropolis过程如果从空集中自然初始化,在多项式时间找不到任何亚线性大小的种植集团。 我们表明,使用拉格朗日乘数的方法,即优化由目标函数的总和和所有子图空间的集团约束给出的哈密尔顿,成功了。 特别是,我们证明,马尔可夫链,尽量减少这个哈密顿(梯度下降和低温松弛)成功地恢复种植的k = Ω(√(n))的种植集团,如果从完整的图初始化。 重要的是,从空集中初始化,放松仍然无助于梯度下降找到亚线性种植的斜面。 我们还在自然污染模型下展示了这些马尔可夫链方法的稳健性。
平均或平滑是从嘈杂的观测中获得稳定、去噪的估计的基本方法。 在某些情景中,沿着随机动力学系统的轨迹进行的观察特别感兴趣。 这种情景的一种流行的平滑技术是指数移动平均(EMA),它分配了观察的重量,其重量在年龄上呈指数级下降,从而使年轻的观测具有更大的权重。 然而,EMA未能享受强大的随机收敛特性,这源于分配给最年轻的观察的重量随时间而恒定,防止平均数量中的噪声从减少到零。 在这项工作中,我们考虑对EMA的调整,我们称之为p-EMA,其中分配给最后一次观测的权重以亚谐波速率降至零。 我们为这种在底层随机动态系统自动关联的温和假设下的平均值提供随机收敛保证。 我们进一步讨论了结果对最近推出的随机梯度梯度(SGD)的自适应步尺寸控制的影响,该控制使用p-EMA进行平均嘈杂观测。
自适应带宽的选择是非参数回归的一个基本挑战。 本文介绍了一种新的带宽选择程序,灵感来自l_0-惩罚回归的最优性标准。 虽然在精神上类似于莱普斯基的方法及其在选择满足可接受性标准的最大区间的变体,但我们的方法源于一种独特的哲学,利用基于l_2-规范的区间预测的标准,而不是明确的点和方差估计。 我们根据我们的带宽选择程序获得本地多项式回归方法的非渐近风险边界,该过程可在其域的所有点同时适应(近)底层回归函数的本地Hölder指数。 此外,我们表明,在上述局部适应性的每种情况下,全局调谐参数都有一个单一的理想选择。 我们方法的最佳风险来自具有独立兴趣的新“带宽选择方程”的解决方案属性。 我们认为,我们方法背后的原则为当地适应性非参数回归的经典但永远相关的问题提供了新的视角。
异质性对许多现实世界的大规模决策问题构成了根本性的挑战,但在很大程度上仍然缺乏研究。 在本文中,我们研究了一类突出的此类问题的完全异质设置,称为弱耦合马尔可夫决策过程(WCMDP)。 每个 WCMDP 由 N 臂(或子问题)组成,在完全异构的设置中具有不同的模型参数,导致 N 很大时对尺寸的诅咒。 我们表明,在温和的假设下,有效的可计算策略在N变大时完全异构的WCMDPs的长期平均奖励中实现了O(1/√(N))的最优性差距。 这是完全异构平均回报 WCMDP 的第一个渐近最优结果。 我们的主要技术创新是构建基于投影的Lyapunov功能,即使在完全异质性下,也能证明奖励和成本与最佳区域融合。
Transformers在自然语言处理和计算机视觉任务方面表现出色。 然而,在推广Out-of-Distribution(OOD)数据集时,他们仍然面临挑战,即分布分布(OOD)数据集的分布与训练期间的数据不同。 OOD检测旨在区分异常值,同时保持分布内(ID)数据性能。 本文介绍了变压器的OOD检测可能是正确的(PAC)理论,该理论为变压器的OOD检测可学习性建立了数据分发和模型配置的条件。 它表明,在条件下,可以准确地表示和区分异常值,并有足够的数据。 理论意义突出了理论原则和实践培训范式之间的权衡。 通过检查这种权衡,我们自然而然地得出了利用辅助异常值来增强 OOD 检测的理由。 我们的理论表明,通过惩罚损失函数中异常值的错误分类并战略性地产生软合成异常值,可以有力地增强变压器网络的可靠性。 这种方法产生了一种新的算法,可以确保可学习性,并完善内利者和异常值之间的决策边界。 在实践中,该算法在各种数据格式中始终实现最先进的(SOTA)性能。
众所周知,随机初始化,推进,完全连接的神经网络弱收敛到各向高斯过程,在所有层的宽度进入无穷大的极限中。 在本文中,我们建议使用限制字段的角功率谱来表征网络架构的复杂性。 特别是,我们定义了与角功率谱相关的随机变量序列,并提供了网络复杂性的完整表征,这些序列的渐近分布作为深度分化。 在此基础上,我们将神经网络分类为低差、稀疏或高差;我们展示了这种分类如何突出标准激活函数的一些不同特征,特别是ReLU网络的稀疏特性。 我们的理论结果也通过数值模拟验证。
出现了两个概率论的高级“图片”:一个是随机变量概念的核心,一个是专注于分布和概率通道(Markov内核)。 虽然基于通道的图片已经成功地被公给公理化,并且被广泛推广,使用马尔可夫类别的概念,但随机变量图的分类语义仍然不太清楚。 辛普森的概率是最近的方法,其中允许随机变量等概率概念在样本空间的站点上有所不同。 辛普森在这些网站上发现了丰富的结构,最明显的是条件独立性的抽象概念,并给出了从数据库概率到名义集合的例子。 我们的目标是将这种发展与马尔可夫类别的一般性和抽象结合在一起:我们表明,对于任何合适的马尔可夫类别,可以定义一个满足辛普森公理的样本空间类别,并且概率棚理论可以在这个设置中纯粹合成地开发。 我们从著名的马尔可夫类别中以统一的方式恢复辛普森的例子,并考虑进一步的概括。
我们采用伽马和 Malliavin Calculi 观点,以便将基于分数的扩散生成模型(SGM)推广到无限维度的抽象希尔伯特式设置。 特别是,我们使用与高斯度量和维纳混沌的Cameron-Martin空间相关联的Dirichlet形式定义了前向的嘈杂过程;而依靠抽象的时间逆转公式,我们表明得分函数是Malivin导数,它对应于条件期望。 这使我们能够将SGMs推广到无限维设置。 此外,我们通过强调Cameron-Martin规范在数据分布信息的Fisher信息中发挥的作用,将现有的有限维熵收敛边界扩展到这个Hilbertian设置。 最后,我们指定了球形随机字段的讨论,考虑作为噪声源的Whittle-Matérn随机球形字段。
并发系统被定义为在有限状态集上微量单体的单体动作。 并发系统表示状态分布的状态模型,状态变化是局部的。 从并发系统组合的光谱属性开始,我们证明了马尔可夫度量相对于任何重量分布的无限轨迹空间的存在和独特性。 反过来,我们通过证明相关的Möbius矩阵的内核具有维度1来获得组合结果;Möbius矩阵在这种情况下扩展了微量单体的Möbius多项式。 我们研究不可还原并发系统的人体工学特性,我们证明了大量强大的定律。 它允许我们引入加速作为无限轨迹中并发的平均量测量。 例子被研究。
我们描述了一种用于分析受光尾(但不一定有边界)随机性的学习算法的一般还原技术,这种情景通常是理论分析的重点。 我们表明,这种算法的分析可以以减少,以黑箱的方式,并且只有对数因素的微小损失,以分析使用边界随机变量并且通常更容易分析的相同算法的更简单变体。 这种方法同时适用于任何光尾随机化,包括指数级、亚高斯式和较一般的快衰分布,而不需要诉诸专门的浓度不等式。 提供了广义的Azuma不等式,随机优化中的收敛边界以及具有一般光尾随机化的多臂匪徒的遗憾分析的衍生物,以说明该技术。
我们引入了基于 Malliavin calculus 的新框架,为分数函数 ∇log p_t(x) 得出精确的分析表达式,即与随机微分方程(SDE)解关联的 log-density 的梯度。 我们的方法将经典的逐件集成技术与现代随机分析工具相结合,例如Bismut的公式和Maliavivin演算,它适用于线性和非线性SDE。 在这样做的过程中,我们在 Malliavin 衍生物、其副体、 Malliavin 发散(Skorokhod 积分)和扩散生成模型之间建立了严格的连接,从而为计算 ∇log p_t(x) 提供了一种系统化的方法。 在线性案例中,我们提出了一个详细的分析,表明我们的公式与来自福克-普朗克方程的解得出的分析评分函数相吻合。 对于具有状态无关扩散系数的非线性 SDE,我们得出 ∇log p_t(x) 的闭模表达式。 我们评估跨多个生成任务的拟议框架,并发现其性能与最先进的方法相当。 这些结果可以推广到更广泛的SDE类,为新的基于分数的扩散生成模型铺平道路。