作为一种在未知环境中进行序列决策的范式,强化学习(RL)近年来受到广泛关注。然而,新兴应用中模型复杂度的爆炸式增长以及非凸性的存在,加剧了在样本匮乏情况下实现高效强化学习的挑战——这些情况下数据收集成本高昂、耗时,甚至具有高风险(例如临床试验、自主系统和在线广告领域)。因此,如何理解和提升RL算法的样本效率与计算效率备受关注。本教程旨在介绍RL领域若干重要的算法与理论进展,着重阐释新思想与经典主题之间的联系。以Markov Decision Processes为核心数学模型,我们涵盖了几种典型的RL场景(包括模拟器环境下的RL、在线RL、离线RL、鲁棒RL以及带人类反馈的RL),并介绍了几种主流RL方法(包括基于模型的方法、基于价值的方法以及策略优化方法)。我们的讨论围绕样本复杂度、计算效率等问题展开,并从非渐进视角探讨算法依赖的下界和信息论下界。
我们提出了一种新颖的基于扩散的金融时间序列生成框架,该框架将Black-Scholes理论的基石——几何布朗运动(GBM)纳入正向噪声过程。与将价格轨迹视为通用数值序列的标准分数模型不同,我们的方法在每个时间步按资产价格比例注入噪声,反映了金融时间序列中观察到的异方差性。通过精确平衡漂移项和扩散项,我们证明所得对数价格过程可简化为方差爆炸型随机微分方程,这与基于分数的生成模型公式一致。逆向生成过程通过去噪分数匹配进行训练,使用基于Transformer的架构(改编自条件分数扩散插补CSDI框架)。对历史股票数据的实证评估表明,与传统扩散模型相比,我们的模型更真实地复现了关键典型事实:厚尾收益分布、波动率聚集和杠杆效应。
本文提出了神经布朗运动(NBM),这是一类用于在习得不确定性下建模动态的新随机过程。NBM通过用相对于由神经网络参数化的倒向随机微分方程(BSDE)驱动项f_θ生成的神经期望算子ε^θ的非线性期望性质,替代经典的线性期望下的鞅性质,从而公理化地定义。我们的主要结果是关于规范NBM的表示定理,我们将其定义为物理测度下零漂移的连续ε^θ-鞅。我们证明,在驱动项的关键结构假设下,这样的规范NBM存在且是形如d M_t = ν_θ(t, M_t) d W_t的随机微分方程的唯一强解。关键的是,波动率函数ν_θ不是先验假设的,而是由代数约束g_θ(t, M_t, ν_θ(t, M_t)) = 0隐式定义的,其中g_θ是BSDE驱动项的特化。我们为此过程发展了随机微积分,并证明了二次情况下的Girsanov型定理,表明NBM在新的习得测度下获得漂移。该测度的特征(悲观或乐观)由习得参数θ内生决定,为那些将不确定性态度作为可发现特征的模型提供了严格基础。
在这项研究中,我们探索了基于神经网络的方法,在BlackScholes和Heston模型下为多维美国投价选项定价,扩展至五个维度。 我们专注于两种方法:时间深度梯度流(TDGF)方法和深度加勒金方法(DGM)。 我们扩展了TDGF方法来处理美国选项中固有的自由边界偏微分方程。 我们在培训期间精心设计采样策略,以提高性能。 TDGF和DGM都实现了高精度,同时在计算速度方面优于传统的蒙特卡洛方法。 特别是,TDGF在训练期间往往比DGM更快。
我们开发了一个工具箱,用于对随机数据中一类高维非凸优化问题的迭代算法进行精确分析。 虽然之前的工作已经表明,(广义的)一阶方法的低维统计可以通过称为状态进化的确定性递归来预测,但我们的重点是为更一般的一类算法开发这样的预测。 我们为任何迭代由(可能交错)一阶和马鞍点更新给出的方法提供状态演进,显示两个主要结果。 首先,我们建立了一个严格的状态进化预测,即使更新不是协调的可分离的,也保持这种预测。 第二,我们建立有限样本保证,将经验更新与既定状态演变的偏差。 在这个过程中,我们开发了一个技术工具包,它可能在相关问题中被证明是有用的。 该工具包的一个组件是一般的希尔伯特空间提升技术,以证明状态演化的方便参数化的存在和独特性。 该工具包的另一个组件将Bolthausen调理方法的通用应用与Gordon's Gaussian比较不等式的一个顺序变体相结合,并提供了额外的成分,从而实现了一般的有限样本分析。
给定一个被视为常数的字母表大小m∈ℕ,以及一个其条目总和为n的k⃗ = (k_1,…,k_m),k⃗-多切片是向量x∈ [m]^n的集合,其中每个符号i∈ [m]恰好出现k_i次。我们展示了多切片上低度函数的不变性原理,相对于乘积空间([m]^n,μ^n)中的函数,其中μ(i) = k_i/n。这回答了Filmus等人提出的问题。作为不变性原理的应用,我们展示了:1. 对于一类特定的独裁测试,展示了“独裁测试意味着计算硬度”范式的类比,适用于具有完美完备性的问题。我们的计算硬度是在假设最近强化的Unique-Games猜想,称为Rich 2-to-1 Games猜想的情况下证明的。使用这一类比,我们展示了在假设Rich 2-to-1 Games猜想的情况下,(a)存在一个r元CSP 𝒫_r,对于它来说,区分CSP的可满足实例和最多2r+1/2^r + o(1)可满足的实例是NP难的,以及(b)区分3可着色图和那些不包含大小为o(1)的独立集的图的硬度。2. 将研究多切片上函数乘积期望的问题简化为研究相关乘积空间上函数乘积期望的问题。特别是,我们能够从<cit.>中推导出多切片的高斯界限的类比。3. 在一篇伴随论文中,我们展示了我们的不变性原理在极值组合学中的进一步应用,更具体地说,是证明了一类广泛的超图H称为ζ-森林的移除引理,这是对广泛研究的匹配情况的自然扩展。
本文证明了对于任何轴对齐立方体𝒞,其ℓ_0等周系数ψ_𝒞为Θ(n^-1/2);对于任何可测体K,其等周系数ψ_K的阶为O(n^-1/2)。作为推论,我们得出轴对齐立方体本质上"最大化"了ℓ_0等周系数:存在一个正常数q > 0,使得当𝒞是轴对齐立方体且K是任意可测集时,有ψ_K ≤ q·ψ_𝒞。最后,我们给出了这些结果在Coordinate-Hit-and-Run算法从凸体均匀采样时的混合时间上的直接应用。
Ehler和Gröchenig将球面t-design曲线定义为球面上一条连续、分段光滑、闭合且有有限自交点的曲线,其对任何次数不超过t的多项式的线积分等于该多项式在球面上的平均值。这些作者提出了证明存在S^d上t-design曲线序列(γ_t)_t=0^∞的问题,这些曲线具有渐近最优长度ℓ(γ_t)≍ t^d-1当t→∞时,并解决了d=2的情况。本工作通过证明对于d=3的情况,存在常数𝒞>0使得对于任何C≥𝒞和t∈ N_+,都存在长度为Ct^2的简单t-design曲线在S^3上,从而解决了这个问题。
在这项研究中,我们探索了基于神经网络的方法,在BlackScholes和Heston模型下为多维美国投价选项定价,扩展至五个维度。 我们专注于两种方法:时间深度梯度流(TDGF)方法和深度加勒金方法(DGM)。 我们扩展了TDGF方法来处理美国选项中固有的自由边界偏微分方程。 我们在培训期间精心设计采样策略,以提高性能。 TDGF和DGM都实现了高精度,同时在计算速度方面优于传统的蒙特卡洛方法。 特别是,TDGF在训练期间往往比DGM更快。
我们开发了一个工具箱,用于对随机数据中一类高维非凸优化问题的迭代算法进行精确分析。 虽然之前的工作已经表明,(广义的)一阶方法的低维统计可以通过称为状态进化的确定性递归来预测,但我们的重点是为更一般的一类算法开发这样的预测。 我们为任何迭代由(可能交错)一阶和马鞍点更新给出的方法提供状态演进,显示两个主要结果。 首先,我们建立了一个严格的状态进化预测,即使更新不是协调的可分离的,也保持这种预测。 第二,我们建立有限样本保证,将经验更新与既定状态演变的偏差。 在这个过程中,我们开发了一个技术工具包,它可能在相关问题中被证明是有用的。 该工具包的一个组件是一般的希尔伯特空间提升技术,以证明状态演化的方便参数化的存在和独特性。 该工具包的另一个组件将Bolthausen调理方法的通用应用与Gordon's Gaussian比较不等式的一个顺序变体相结合,并提供了额外的成分,从而实现了一般的有限样本分析。
预算规划和维护优化对于基础设施资产管理至关重要,确保成本效益和可持续性。 然而,组合动作空间、资产多样化恶化、严格的预算限制和环境不确定性所产生的复杂性大大限制了现有方法的可扩展性。 本文提出了一种专门为多年基础设施规划量身定制的分层深度强化学习方法。 我们的方法将问题分为两个层次层面:一个在明确可行性范围内分配年度预算的高级预算规划师,以及一个在分配预算内优先考虑资产的低级维护规划师。 通过将宏观预算决策与资产级优先级分开,并将线性编程预测整合到分层软演员-关键框架中,该方法有效地解决了行动空间的指数增长,并确保严格的预算合规性。 评估不同大小(10、15和20个下水道棚)的下水道网络的案例研究说明了拟议方法的有效性。 与传统的Deep Q-Learning和增强的遗传算法相比,我们的方法融合得更快,有效扩展,并且即使在网络规模增长时也能始终如一地提供近乎最优的解决方案。
遵循Shor在整数中进行时期查找的算法的例子,我们探索了离散无限组的隐藏子组问题(HSP)。 在硬度方面,我们表明HSP对于理性数的添加剂组和非非阿贝尔自由组的正常子组来说是NP-硬的。 我们还间接将短向向问题的一个版本减少到 Z^k 的伪多项式查询成本中的 HSP。 在算法方面,我们将 Z^k 中的 HSP 的 Shor-Kitaev 算法(具有标准的多项式查询成本)推广到隐藏子组存在缺陷等级或等效无限索引的情况。 最后,我们概述了阿贝尔隐藏移位问题(AHShP)的拉伸指数时间算法,扩展了作者以及Regev和Peikert的前期工作。 因此,在任何有限生成的 HSP 中,几乎 abelian 组也有一个拉伸的指数时间算法。
我们为具有连续代理的无限游戏开发运算符代数框架,并证明由非交换连续性方程控制的基于遗憾的学习动力学在轻度规律性假设下收敛到独特的量子响应均衡。 该框架统一了功能分析,粗几何和博弈论,为每场比赛分配一个代表集体战略演变的冯诺依曼代数。 在这个代数中,反射性遗憾运算符推动了策略分布的流动,其固定点表征了平衡。 我们引入了序折叠索引,这是一个可计算的可排序值度量,用于测量动力学的自引用深度,并表明它限制了收敛所需的超有限时间,在粗糙的可调和网络上崩溃为零。 该理论产生了新的不变的亚代数刚性结果,在连续经济中建立了羡慕的自由和最大份额分配的存在和独特性,并将后悔流的分析属性与大型语言模型中的经验稳定性现象联系起来。 这些贡献为大规模多代理系统提供了严格的数学基础,并证明了有序指标对均衡选择的效用。
随着量子硬件迅速迈向早期容错时代,一个关键的挑战是开发量子算法,这些算法不仅在理论上是健全的,而且在近期设备上对硬件友好。 在这项工作中,我们提出了一个量子算法,用于求解线性普通微分方程(ODEs),具有可证明的运行时保证。 我们的算法只使用单个 ancilla qubit,并且是局部性保存,即当 ODE 的系数矩阵为 k-local 时,该算法只需要实现 (k+1)-local Hamiltonians 的时间演进。 我们还讨论了我们提议的算法和Lindbladian模拟之间的联系,以及它与相互作用的Hatano-Nelson模型的应用,这是一个被广泛研究的非Hermitian模型,具有丰富的现象学。
规范相关性分析(CCA)是一种在两个数据集之间寻找相关特征集的技术。 在本文中,我们提出了CCA对在线流数据设置的新扩展:滑动窗口信息规范相关性分析(SWICCA)。 我们的方法使用流主成分分析(PCA)算法作为后端,并将这些输出与样品的小滑动窗口相结合,实时估计CCA组件。 我们激励和描述我们的算法,提供数值模拟来表征其性能,并提供理论性能保证。 SWICCA方法适用于并可扩展到极高的尺寸,我们提供了一个真实的数据示例,展示了这种能力。
Pairwise欧几里得距离计算是许多机器学习和数据分析算法的基本步骤。 然而,在现实世界中,这些距离经常被异质性噪声x2014a普遍存在的不均匀腐败形式扭曲,其特征是数据观测中可变噪声量级。 这种噪声以非平凡的方式膨胀计算的距离,导致对底层数据几何的歪曲。 在这项工作中,我们解决了估计每次观测的噪声量级并在异质性噪声下校正成对的欧几里得距离的任务。 也许令人惊讶的是,我们表明,在一般高维设置中,并且没有事先了解清洁数据结构或噪声分布,即使噪声水平差异很大,也可以可靠地执行这两个任务。 具体来说,我们开发了一种有原则的超参数自由方法,可以共同估计噪声量级并纠正距离。 我们为我们的方法提供理论保证,在噪声量级和距离的估计误差上建立概率边界。 这些边界以标准化 l_1 规范测量,随着特征维度和数据集大小的增加,以多项式速率收敛为零。 合成数据集的实验表明,我们的方法准确地估计了具有挑战性的机制中的距离,显着提高了后续基于距离的计算的稳健性。 值得注意的是,当应用于单细胞RNA测序数据时,我们的方法产生与既定原型模型一致的噪声量级估计值,从而实现对许多下游分析至关重要的精确近邻识别。
我们在自动猜想系统 生成的图论中提出了四个开放的猜想。 每个猜想都是简洁的,以自然图不变为基础,并在数百个图形中进行了经验验证。 尽管做出了广泛的努力,这些陈述仍未解决 - 无视证据和反例。 它们不仅是数学挑战,而且创造性表达 - 诞生于符号模式识别和数学家定义的启发式,通过多年的人类对话而完善,现在作为协作文物提供给社区。 这些猜想不仅邀请了正式的证据,而且还反映了机器如何唤起惊奇,激发好奇心,并为发现的原材料做出贡献。 通过强调这些问题,我们的目标是激励人类数学家和人工智能系统与他们接触 - 不仅解决这些问题,而且反思当机器有意义地参与数学思维的创造性过程时意味着什么。
本文研究了DIverse MultiPLEx签名的广义随机点产品图(DIMPLE-SGRDPG)网络模型(Pensky(2024),其中网络的所有层都有相同的节点集合。 此外,所有层都可以被分割成组,以便同一组中的层嵌入在同一环境子空间中,但否则连接概率矩阵可能完全不同。 此设置包括大多数多层网络模型作为其特定情况。 该模型的关键任务是恢复具有独特子空间结构的图层组,因为网络的所有层都嵌入在同一子空间中的情况已经得到相当好的研究。 到目前为止,此类网络中的层聚类基于层层分析,这要求多层网络足够密集。 然而,在本文中,我们成功地将所有层中的信息汇集在一起,并提供了一种基于张量的方法,确保为更稀疏的网络提供完美的聚类。 我们的理论结果是在直观的非限制性假设下建立的,它断言,新技术在稀散条件下实现了完美的聚类,并且与计算下限同时进行更简单的模型。
公开发布具有训练参数的模型的规范意味着对手可以通过训练数据重建攻击来重建训练数据的信息,这是现代机器学习方法的一个主要漏洞。 本文有三个主要贡献:建立一个数学框架来表达问题,通过最大平均差异等价物表征训练数据的特征,并概述在贝叶斯和非贝叶斯模型中重建数据的分数匹配框架,前者是文献中的第一个。
来自相关物理层观测的秘密密钥协议是信息理论安全的基石。 本文提出并严格分析了使用稀疏回归代码(SPARC)从高斯来源的秘密密钥协议的完整,建设性的协议。 我们的协议系统地利用了SPARCs对速率扭曲和Wyner-Ziv(WZ)编码的已知最优性,这得益于其固有的嵌套结构。 这项工作的主要贡献是全面的端到端分析,表明拟议的计划通过强烈的保密保证实现了近乎最佳的秘密关键率,通过消失的变异距离量化。 我们明确描述了与最优速率的差距,揭示了关键利率与所需公共通信开销之间的基本权衡,这是由可调量化参数控制的。 此外,我们发现了该参数的非平凡约束优化,表明SPARC代码参数的实际约束会导致可实现的秘密密钥速率的峰值。 这项工作将SPARCs作为一个可行的和理论上合理的安全密钥生成框架,为现有方案提供了一个引人注目的低复杂性替代方案,并为此类协议的实际设计提供了新的见解。
本文提出了一种统一的方法来设计随机优化算法,这些算法可以稳健地扩展到联合学习设置。 我们的工作研究一类专业最小化(MM)问题,它拥有一个线性参数化家族的专业化代理功能。 该框架包括(近似)梯度算法(正则化)平滑目标,期望最大化算法,以及许多被视为变异替代MM的问题。 我们表明,我们的框架激励了一种称为随机近似随机导体MM()的统一算法,其中包括以前的随机MM程序作为特殊实例。 然后,我们扩展到联合设置,同时考虑常见的瓶颈,如数据异质性,部分参与和通信约束;这会产生。 原创性是本地学习,然后聚合表征代理优先函数的信息,与学习和聚合原始参数的经典算法相反。 最后,为了展示这种方法超出我们的理论设置的灵活性,我们用它来设计一种算法,用于计算联邦环境中的最佳传输图。
本文研究了矩阵去噪模型中的细粒度奇异子空间估计,其中确定性低等级信号矩阵被高斯噪声的随机矩阵所干扰。 我们确定领先样本和人口奇异向量之间的对齐差的最大欧几里得行规范(即二对无穷大值)接近Gumbel分布在大矩阵极限,在适当的信噪比条件下,并在适当的中心化和缩放之后。 我们应用我们新颖的渐近分布理论来测试在领先的单向量及其相应的主子空间中编码的低等级信号结构的假设。 我们为相应的讨厌信号奇异值提供去偏定估计器,并表明我们提议的插件测试统计量具有理想的属性。 值得注意的是,与使用Frobenius规范子空间距离相比,我们基于双对无穷大规范的测试统计量具有更高的功率来检测仅几个矩阵条目或行中与null不同的结构化替代方案。 我们的主要成果是通过一种新的综合和技术分析获得的,涉及入口矩阵扰动分析,极端值理论,马鞍点近似方法和随机矩阵理论。 我们的贡献补充了矩阵去噪的现有文献,重点是最小值,平均平方误差分析,子空间之间的单位不变距离,分向渐近分布理论和行通用统一误差边界。 数字模拟说明了我们的主要结果,并证明了我们的测试程序对非高斯噪声分布的鲁棒性特性。
本文介绍了使用随机结构的储罐计算机(SSRC)识别和模拟金融和经济系统的方法。 拟议的框架利用结构保护嵌入和图知情耦合矩阵来建模代理间动力学,增强可解释性。 受限优化方案可确保学习模型满足随机和结构约束。 两个实证案例研究,代理之间的资源竞争的动态行为模型,以及区域通货膨胀网络动态,说明了该方法在捕获和预测复杂的非线性模式以及在不确定性下进行可解释的可解释性分析的有效性。
在数学或理论物理学中,人们通常有兴趣获得一些数据的精确分析描述,这些数据原则上可以产生任意的准确性。 例如,人们可能想知道一个确定的整体的确切分析形式。 这些问题并不适合数值符号回归,因为典型的数值方法只会导致近似。 但是,如果对分析结果应所在的功能空间有一定的了解,则可以通过以足够精度以足够数量的速度对数据进行明智地采样来推断确切的答案。 我们演示如何为计算Feynman积分而做到这一点。 我们表明,通过将高精度数值集成与函数空间的分析知识相结合,人们通常可以使用格子还原来推断确切的答案。 给出了一些例子,并探讨了数据点的数量,功能谓词的数量,数据的精度和计算之间的权衡。 这种方法提供了一种自下而上的方法,它巧妙地补充了自上而下的Landau-bootstrap方法,试图仅使用分析结构来约束确切的答案。 虽然我们专注于对Feynman积分的应用,但这里介绍的技术更加普遍,可以适用于需要确切答案并且功能空间得到充分理解的广泛问题。
我们介绍了由简单图建模的复制数据库上的对称私有信息检索(SPIR)问题。 在这个模型中,每个顶点对应一个服务器,如果并且只有当它们之间存在边缘时,才会在两个服务器上复制一条消息。 我们考虑实现 SPIR 所必需的服务器端共随机性在服务器上也根据图形在服务器上复制的设置,我们将其称为消息特异性的常见随机性。 在这种设置中,我们通过提出一个可实现的 SPIR 方案,在 SPIR 容量上建立一个下限,即对一般图形的最大下载速率。 接下来,我们证明,对于任何SPIR方案都是可行的,消息特定随机性的最小大小应该等于消息的大小。 最后,通过提供匹配的上限,我们得出路径和常规图形类的确切 SPIR 容量。