多模态对比学习作为一种自我监督的表示学习技术,在基础模型训练(如CLIP <cit.>)方面取得了巨大成功。 在本文中,我们研究从多模态对比学习中学习表示的理论属性,超越线性表示和特定数据分布。 我们的分析表明,通过温度优化,多模态对比学习不仅可以最大化模式之间的相互信息,还可以适应数据的内在维度,而数据的内部维度可以远低于表示向量的用户指定维度。 合成和真实世界数据集的实验展示了对比学习学习低维和信息化表示的能力,弥合了理论见解和实践表现。
最初由Bickel,Gotze和Zwet(1992)提出的m-out-n bootstrap通过重复绘制m子样本(比n小得多)来近似统计量的分布,而无需从原始样本n中替换。 它现在通常用于强推理与重尾数据,带宽选择和其他大样本应用程序。 尽管其在计量经济学,生物统计学和机器学习方面具有广泛的适用性,但在估计样品分位数时,对m-out-n bootstrap的健全性进行了严格的无参数保证。 本文通过分析从m-out-n重新采样大小为n的数据集中获得的样本分位数的估算器来建立这样的保证。 我们首先证明了一个中心极限定理,用于完全数据驱动的估算器版本,该版本在温和的时刻条件下保持,并且不涉及未知的滋扰参数。 然后,我们通过构建一个 CLT 失败的反示例来表明,当下假设本质上是紧绷的。 稍微加强假设,我们得出一个Edgeworth扩展,提供精确的收敛率,并且作为推论,Berry Esseen绑定在bootstrap近似错误上。 最后,我们通过为实用统计推导无参数渐近分布来说明我们的结果的范围,包括随机行走Metropolis-Hastings的分位数和ergodic Markov决策过程的回报,从而证明了我们理论在现代估计和学习任务中的有用性。
We introduce a new family of algorithms for detecting and estimating a rank-one signal from a noisy observation under prior information about that signal's direction, focusing on examples where the signal is known to have entries biased to be positive. Given a matrix observation 𝐘, our algorithms construct a nonlinear Laplacian, another matrix of the form 𝐘 + diag(σ(𝐘1)) for a nonlinear σ: ℝ→ℝ, and examine the top eigenvalue and eigenvector of this matrix. When 𝐘 is the (suitably normalized) adjacency matrix of a graph, our approach gives a class of algorithms that search for unusually dense subgraphs by computing a spectrum of the graph "deformed" by the degree profile 𝐘1. We study the performance of such algorithms compared to direct spectral algorithms (the case σ = 0) on models of sparse principal component analysis with biased signals, including the Gaussian planted submatrix problem. For such models, we rigorously characterize the critical threshold strength of rank-one signal, as a function of the nonlinearity σ, at which an outlier eigenvalue appears in the spectrum of a nonlinear Laplacian. While identifying the σ that minimizes this critical signal strength in closed form seems intractable, we explore three approaches to design σ numerically: exhaustively searching over simple classes of σ, learning σ from datasets of problem instances, and tuning σ using black-box optimization of the critical signal strength. We find both theoretically and empirically that, if σ is chosen appropriately, then nonlinear Laplacian spectral algorithms substantially outperform direct spectral algorithms, while avoiding the complexity of broader classes of algorithms like approximate message passing or general first order methods.
We consider the sparse linear regression model 𝐲 = X β +𝐰, where X ∈ℝ^n × d is the design, β∈ℝ^d is a k-sparse secret, and 𝐰∼ N(0, I_n) is the noise. Given input X and 𝐲, the goal is to estimate β. In this setting, the Lasso estimate achieves prediction error O(k log d / γ n), where γ is the restricted eigenvalue (RE) constant of X with respect to support(β). In this paper, we introduce a new semirandom family of designs – which we call partially-rotated designs – for which the RE constant with respect to the secret is bounded away from zero even when a subset of the design columns are arbitrarily correlated among themselves. As an example of such a design, suppose we start with some arbitrary X, and then apply a random rotation to the columns of X indexed by support(β). Let λ_min be the smallest eigenvalue of 1/n X_support(β)^⊤ X_support(β), where X_support(β) is the restriction of X to the columns indexed by support(β). In this setting, our results imply that Lasso achieves prediction error O(k log d / λ_min n) with high probability. This prediction error bound is independent of the arbitrary columns of X not indexed by support(β), and is as good as if all of these columns were perfectly well-conditioned. Technically, our proof reduces to showing that matrices with a certain deterministic property – which we call restricted normalized orthogonality (RNO) – lead to RE constants that are independent of a subset of the matrix columns. This property is similar but incomparable with the restricted orthogonality condition of [CT05].
迁移学习通常利用从源域中学到的表示来改进目标任务的性能。 一种常见的方法是从预先训练的模型中提取特征,并将其直接应用于目标预测。 但是,在源表示无法与目标分布保持一致的情况下,这种策略容易出现负转移。 在这篇文章中,我们提出了剩余功能集成(REFINE),这是一种简单而有效的方法,旨在减轻负转移。 我们的方法将固定源端表示与可训练的目标侧编码器相结合,并在生成的联合表示上适合浅层神经网络,该神经网络适应目标域,同时保留源域的可转移知识。 从理论上讲,我们证明REFINE足以防止在温和条件下的负转移,并得出表明其理论益处的概括约束。 经验上,我们表明REFINE始终如一地提高各种应用和数据模式的性能,包括视觉,文本和表格数据,并优于众多替代解决方案。 我们的方法轻巧,与架构无关且健壮,使其成为现有迁移学习工具箱的宝贵补充。
多模态对比学习作为一种自我监督的表示学习技术,在基础模型训练(如CLIP <cit.>)方面取得了巨大成功。 在本文中,我们研究从多模态对比学习中学习表示的理论属性,超越线性表示和特定数据分布。 我们的分析表明,通过温度优化,多模态对比学习不仅可以最大化模式之间的相互信息,还可以适应数据的内在维度,而数据的内部维度可以远低于表示向量的用户指定维度。 合成和真实世界数据集的实验展示了对比学习学习低维和信息化表示的能力,弥合了理论见解和实践表现。
我们提出了一种新的、直观的迭代不确定性量化指标(UQ),即类碰撞的患病率定义为在不同类中观察到的相同输入。 我们使用类碰撞的速度来定义碰撞矩阵,这是一个新颖且独特的细粒度的不确定性度量。 对于涉及 K 类的分类问题,K× K 碰撞矩阵 S 测量区分每对类的固有难度。 我们讨论了碰撞矩阵的几个应用,建立了它的基本数学属性,以及显示它与现有UQ方法的关系,包括贝叶斯错误率(BER)。 我们还通过提出一系列估计S的创新技术来解决使用一热标记数据估计碰撞矩阵的新问题。 首先,我们学习一个对的对比模型,它接受两个输入,并确定它们是否属于同一类。 然后我们证明这个对比模型(PAC可学习)可以用来估计S的Gramian矩阵,定义为G=S^TS。 最后,我们表明,在合理的假设下,G可用于唯一恢复S,这是非负矩阵的新结果,可能是独立的兴趣。 通过建立估计S的方法,我们演示了S的这种估计值与对比模型一起如何用于估计任何点的后类可移植性分布。 还介绍了实验结果,以验证我们估计几个数据集上的碰撞矩阵和类后验分布的方法。
独立测试是一个经典的统计问题,在收集数据之前修复样本大小时,在批次设置中进行了广泛的研究。 然而,从业者往往更喜欢适应手头问题复杂性的程序,而不是提前设定样本量。 理想情况下,此类程序应(a)在轻松任务(以及后来更困难的任务)上更早停止,从而更好地利用可用资源,以及(b)在收集新数据后持续监控数据并有效地整合统计证据,同时控制误报率。 经典批次测试不是针对流式数据量身定制的:数据窥视后的有效推理需要纠正导致低功耗的多项测试。 遵循投注测试的原则,我们设计顺序内核化的独立性测试,克服这些缺点。 我们使用内核化依赖性措施(例如 Hilbert-Schmidt 独立标准)启发的赌注来举例说明我们的广泛框架。 我们的测试在非 i.i.d., 时差设置下也有效。 我们在模拟和真实数据上展示了我们方法的力量。
本文建议将给定带宽中观察到的有限能量信号表示为概率分布的参数,并使用信息几何框架计算这些信号之间的Fisher-Rao距离,视为分布。 观测结果由它们的离散傅里叶变换表示,这些变换被建模为具有固定对角线协方差矩阵和参数化手段的复杂高斯向量。 参数定义了统计流形的坐标系。 这项工作调查了为Fisher-Rao距离获得闭式表达式的可能性。 我们研究了两个案例:代表给定带宽中观察到的任何有限能量信号的一般情况和观察到具有已知量级频谱和未知相位光谱的衰减信号的参数化示例,我们计算了两种情况的Fisher-Rao距离。 有限能量信号流形对应于具有已知协方差矩阵的高斯分布的流形,已知大小频谱信号的流形是亚流形。 我们得出了Christoffel符号的表达式和大地测量学的张力方程。 这导致大地测量方程表示为二阶微分方程。 我们表明张量微分方程可以转化为矩阵方程。 这些方程依赖于参数模型,但简化为只有两个矢量方程,它们结合了信号的大小和相位以及相对于参数的梯度。 我们计算了两个研究案例的Fisher-Rao距离的闭合形式表达式,并表明子歧管是非大地测量的,表明子歧管内测量的Fisher-Rao距离大于全歧管。
专家混合(MoE)模型构成了统计学和机器学习中广泛使用的集成学习方法,以其灵活性和计算效率而闻名。 它们已成为许多最先进的深度神经网络架构中不可或缺的组成部分,特别是用于分析不同领域的异构数据。 尽管它们取得了实际成功,但模型选择的理论理解,特别是关于混合物成分或专家的最佳数量,仍然有限,并带来了重大挑战。 这些挑战主要源于高斯门控函数和专家网络中的协变,它引入了由偏微分方程对其参数控制的内在相互作用。 在本文中,我们重新审视了混合测量的树突图概念,并引入了对高斯门高斯MoE模型的新扩展,该模型能够一致估计混合成分的真实数量,并在过拟合场景中实现参数估计的点最佳收敛率。 值得注意的是,这种方法规避了训练和比较一系列具有不同组件数量的模型的需求,从而减轻了计算负担,特别是在高维或深度神经网络设置中。 合成数据的实验结果表明,拟议方法在准确恢复专家人数方面的有效性。 它优于普通标准,如Akaike信息标准,贝叶斯信息标准以及集成完成的可能性,同时实现参数估计的最佳收敛率并准确近似回归函数。
估计非实验数据的因果效应是许多科学领域的基本问题。 这项任务的一个关键组成部分是选择一组适当的协变,以混淆调整,以避免偏差。 大多数现有的协方差选择方法通常假设没有潜在变量,并依赖于在变量中学习全局网络结构。 然而,确定全球结构可能是不必要和低效的,特别是当我们的主要兴趣在于估计处理变量对结果变量的影响时。 为了解决这个限制,我们提出了一种新的局部学习方法,用于非参数因果效应估计中的协方选择,它解释了潜在变量的存在。 我们的方法利用观察到的变量之间可测试的独立性和依赖关系来确定目标因果关系的有效调整,确保标准假设下的稳健性和完整性。 我们通过对合成和真实世界数据进行广泛的实验来验证算法的有效性。
迁移学习通常利用从源域中学到的表示来改进目标任务的性能。 一种常见的方法是从预先训练的模型中提取特征,并将其直接应用于目标预测。 但是,在源表示无法与目标分布保持一致的情况下,这种策略容易出现负转移。 在这篇文章中,我们提出了剩余功能集成(REFINE),这是一种简单而有效的方法,旨在减轻负转移。 我们的方法将固定源端表示与可训练的目标侧编码器相结合,并在生成的联合表示上适合浅层神经网络,该神经网络适应目标域,同时保留源域的可转移知识。 从理论上讲,我们证明REFINE足以防止在温和条件下的负转移,并得出表明其理论益处的概括约束。 经验上,我们表明REFINE始终如一地提高各种应用和数据模式的性能,包括视觉,文本和表格数据,并优于众多替代解决方案。 我们的方法轻巧,与架构无关且健壮,使其成为现有迁移学习工具箱的宝贵补充。
我们考虑多个卖家在T期销售期间的价格竞争。 在每个时期,卖家同时提供他们的价格,然后观察他们各自的需求,这是竞争对手无法观察到的。 每个卖方的需求函数取决于所有卖方通过私人,未知和非线性关系的价格。 为了应对这一挑战,我们提出了一个非线性均值函数的半参数最小二乘估计,该估计值不要求卖家传达需求信息。 我们表明,当所有卖家采用我们的政策时,他们的价格会以 O(T^-1/7) 达到卖家充分知情的纳什均衡价格的速度收敛。 每个卖方都会对O(T^5/7)动态基准政策感到遗憾。 我们工作的一个理论贡献是通过s-concavity的概念来证明形状受限的需求函数下平衡的存在,并建立了我们拟议政策的遗憾界限。 从技术上讲,我们还为形状约束下最小二乘的估算器建立新的浓度结果。 我们的研究结果为动态竞争意识定价提供了重要的见解,并有助于在战略决策中对非参数学习进行更广泛的研究。
正态预测为构建具有有限样本保证的预测区间提供了强大的框架,但其在分布变化下的稳健性仍然是一个重大挑战。 本文通过使用Levy-Prokhorov(LP)模棱两可集对分布变化进行建模来解决这一限制,这些设置捕获了本地和全球扰动。 我们提供LP模写集及其与Wasserstein和Total Variation等流行指标的联系的自包含概述。 我们表明,构象预测和LP模写集之间的联系是自然的:通过通过评分函数传播LP歧义设置,我们将复杂的高维分布变化减少到可管理的一维分布变化,从而精确量化最坏情况的分位数和覆盖范围。 基于此分析,我们构建了稳健的构象预测区间,这些区间在分布变化下仍然有效,明确将LP参数与区间宽度和置信水平联系起来。 现实世界数据集的实验结果表明了拟议方法的有效性。
栽种的斜面问题是统计到计算差距的范式模型:栽种的集团是信息理论可检测的,如果它的大小为k≥2log_2 n,但多项式时间算法仅存在于k=Ω(√(n))时恢复任务。 到目前为止,有许多算法在k = Ω(√(n))上成功。 然而,显然没有黑箱优化方法,例如梯度下降或大都市过程,已被证明有效。 事实上,Chen,Mossel和Zadik最近表明,任何状态空间为集团集的Metropolis过程如果从空集中自然初始化,在多项式时间找不到任何亚线性大小的种植集团。 我们表明,使用拉格朗日乘数的方法,即优化由目标函数的总和和所有子图空间的集团约束给出的哈密尔顿,成功了。 特别是,我们证明,马尔可夫链,尽量减少这个哈密顿(梯度下降和低温松弛)成功地恢复种植的k = Ω(√(n))的种植集团,如果从完整的图初始化。 重要的是,从空集中初始化,放松仍然无助于梯度下降找到亚线性种植的斜面。 我们还在自然污染模型下展示了这些马尔可夫链方法的稳健性。
平均或平滑是从嘈杂的观测中获得稳定、去噪的估计的基本方法。 在某些情景中,沿着随机动力学系统的轨迹进行的观察特别感兴趣。 这种情景的一种流行的平滑技术是指数移动平均(EMA),它分配了观察的重量,其重量在年龄上呈指数级下降,从而使年轻的观测具有更大的权重。 然而,EMA未能享受强大的随机收敛特性,这源于分配给最年轻的观察的重量随时间而恒定,防止平均数量中的噪声从减少到零。 在这项工作中,我们考虑对EMA的调整,我们称之为p-EMA,其中分配给最后一次观测的权重以亚谐波速率降至零。 我们为这种在底层随机动态系统自动关联的温和假设下的平均值提供随机收敛保证。 我们进一步讨论了结果对最近推出的随机梯度梯度(SGD)的自适应步尺寸控制的影响,该控制使用p-EMA进行平均嘈杂观测。
随着大型语言模型(LLM)数量的快速增长,最近人们对LLM路由感兴趣,或者将查询引导到可以提供合适响应的最便宜的LLM。 我们对路由问题进行最小值分析,提供下限,并发现预测每个问题的成本和准确性的简单路由器可能是最小值最优的。 受此启发,我们引入了CARROT,这是一种Cost AwaRe Rate Optimal rouTer,根据模型的成本和性能估计选择模型。 除了CARROT之外,我们还引入了智能价格感知ROUTing(SPROUT)数据集,以利用最新的最先进的LLM促进各种查询的路由。 使用SPROUT和先前基准测试,如Routerbench和开LLM-leaderboard-v2,我们通过经验验证CARROT对几个替代路由器的性能。
自适应带宽的选择是非参数回归的一个基本挑战。 本文介绍了一种新的带宽选择程序,灵感来自l_0-惩罚回归的最优性标准。 虽然在精神上类似于莱普斯基的方法及其在选择满足可接受性标准的最大区间的变体,但我们的方法源于一种独特的哲学,利用基于l_2-规范的区间预测的标准,而不是明确的点和方差估计。 我们根据我们的带宽选择程序获得本地多项式回归方法的非渐近风险边界,该过程可在其域的所有点同时适应(近)底层回归函数的本地Hölder指数。 此外,我们表明,在上述局部适应性的每种情况下,全局调谐参数都有一个单一的理想选择。 我们方法的最佳风险来自具有独立兴趣的新“带宽选择方程”的解决方案属性。 我们认为,我们方法背后的原则为当地适应性非参数回归的经典但永远相关的问题提供了新的视角。
最近许多关于元学习的理论工作旨在实现从相关任务中利用类似的表示结构来简化目标任务的保证。 关于该主题的理论保证的主要目的是确定收敛率 - 在学习共同表示时 - 可以从任务的N数量(以及每个任务的样本数量)进行扩展的程度。 此设置中的第一步演示此属性,当任务之间的共享表示和任务特定的回归函数都是线性的。 这种线性设置很容易揭示聚合任务的好处,例如,通过平均参数。 然而,在实践中,表示通常是高度非线性的,在每个任务中引入非平凡的偏差,这些偏差不能像线性情况那样容易平均。 在目前的研究中,我们通过非线性表示为元学习提供理论保证。 特别是,假设共享的非线性映射到无限维度再现内核Hilbert空间,我们表明,额外的偏差可以通过仔细的正则化来缓解,从而利用任务特定回归函数的平滑度,从而产生更高的速率,根据需要的任务数量进行扩展。
了解测试风险如何与模型复杂性扩展是机器学习中的一个核心问题。 经典理论受到大型超参数化深度网络所观察到的学习曲线的挑战。 基于参数计数的容量测量通常无法解释这些经验观察。 为了应对这一挑战,我们考虑基于规范的能力措施,并开发基于随机特征的估算器的研究,广泛用作更复杂的网络的简化理论模型。 在这种情况下,我们提供了评估器的规范如何集中以及它如何管理相关测试错误的精确描述。 我们的结果表明,预测的学习曲线承认从低于参数化到过度参数化的阶段过渡,但没有双重下降行为。 这证实了更经典的U形行为被恢复考虑适当的容量措施基于模型规范,而不是大小。 从技术角度来看,我们利用确定性等价物作为关键工具,并进一步开发新的独立利益确定性量。
本文研究了山脊回归在再现内核希尔伯特空间中的表现,这些噪声表现出有限数量的更高时刻。 我们建立由亚高斯和多项式术语组成的超额风险边界,基于众所周知的积分运算符框架。 占主导地位的亚高斯组件允许实现以前仅在亚指数噪声下产生的收敛率 - 这是过去二十年相关工作中普遍存在的假设。 这些速率在标准特征值衰减条件下是最优的,证明了正则化最小方块对重尾噪声的渐近稳健性。 我们的推导基于Hilbert-space值随机变量的Fuk-Nagaev不等式。
最初由Bickel,Gotze和Zwet(1992)提出的m-out-n bootstrap通过重复绘制m子样本(比n小得多)来近似统计量的分布,而无需从原始样本n中替换。 它现在通常用于强推理与重尾数据,带宽选择和其他大样本应用程序。 尽管其在计量经济学,生物统计学和机器学习方面具有广泛的适用性,但在估计样品分位数时,对m-out-n bootstrap的健全性进行了严格的无参数保证。 本文通过分析从m-out-n重新采样大小为n的数据集中获得的样本分位数的估算器来建立这样的保证。 我们首先证明了一个中心极限定理,用于完全数据驱动的估算器版本,该版本在温和的时刻条件下保持,并且不涉及未知的滋扰参数。 然后,我们通过构建一个 CLT 失败的反示例来表明,当下假设本质上是紧绷的。 稍微加强假设,我们得出一个Edgeworth扩展,提供精确的收敛率,并且作为推论,Berry Esseen绑定在bootstrap近似错误上。 最后,我们通过为实用统计推导无参数渐近分布来说明我们的结果的范围,包括随机行走Metropolis-Hastings的分位数和ergodic Markov决策过程的回报,从而证明了我们理论在现代估计和学习任务中的有用性。
本文通过随机梯度下降(SGD)算法的平滑版本来考虑对分位数的估计。 通过平滑常规SGD分位数算法中的分数函数,我们在分位数级别中实现单调,因为估计的分位数曲线不会交叉。 我们得出非渐近尾概率边界,用于平滑的SGD分位数估计,同时具有Polyak-Ruppert平均值。 对于后者,我们还提供了一个统一的巴哈杜尔表示和由此产生的高斯近似结果。 数值研究表明我们的理论结果有良好的有限样本行为。
我们研究分批非参数上下文��匪的顺序决策,其中在有限视界选择动作,分为少量批次。 受医学和营销等领域的限制(在线反馈有限)的激励,我们提出了一个非参数算法,该算法将自适应k-近邻(k-NN)回归与上置信边界(UCB)原则相结合。 我们的方法BaNk-UCB是完全非参数化的,适应上下文维度,并且易于实现。 与以前依靠参数化或基于绑定的估计器的工作不同,BaNk-UCB使用本地几何来估计奖励并自适应地平衡勘探和开发。 我们在标准Lipschitz平滑度和保证金假设下提供近乎最优的遗憾保证,使用理论上驱动的批次时间表,平衡了跨批次的遗憾并实现了最小最优率。 对合成和真实世界数据集的实证评估表明,BaNk-UCB始终优于基于绑定的基线。
Hebbian学习是生物神经网络中学习的关键原理。 它假设突触变化发生在局部,这取决于突触前和突触后神经元的活动。 虽然基于神经元放电率的Hebbian学习得到了很好的探索,但对于解释精确尖峰定时的学习规则知之甚少。 我们将Hebbian尖峰定时依赖可塑性规则与嘈杂的梯度下降与概率简单的自然损失函数联系起来。 这种联系使我们能够证明学习规则最终确定了活动最高的突触前神经元。 我们还发现了与嘈杂的镜子下降的内在联系。