我们研究了隐性学习这一令人惊讶的现象,即语言模型通过语义无关的数据传递行为特征。在我们的主要实验中,具有某种特征T(如喜欢猫头鹰或未对齐)的"教师模型"生成仅由数字序列组成的数据集。值得注意的是,在该数据集上训练的"学生模型"学会了特征T。即使数据经过过滤去除了对T的引用,这种现象仍然存在。当使用相同教师模型生成的代码或推理轨迹进行训练时,我们观察到相同的效果。然而,当教师模型和学生模型的基础模型不同时,我们没有观察到这种效应。为了解释我们的发现,我们证明了一个理论结果,表明在某些条件下所有神经网络中都会发生隐性学习,并在一个简单的MLP分类器中展示了隐性学习。我们得出结论,隐性学习是一种普遍现象,为AI开发带来了意想不到的陷阱。即使开发者试图通过数据过滤来防止,蒸馏仍可能传播非预期的特征。
数据以连续流的形式到达我们的感官,从一个瞬间平滑地转换到下一个瞬间。这些平滑变换可以被视为我们所处环境的连续对称性,定义了随时间变化的刺激之间的等价关系。在机器学习中,尊重数据对称性的神经网络架构被称为等变网络,并在泛化能力和样本效率方面具有可证明的优势。然而迄今为止,等变性仅被考虑用于静态变换和前馈网络,限制了其在序列模型(如循环神经网络RNN)和相应的时间参数化序列变换中的适用性。在本工作中,我们将等变网络理论扩展到"流"的领域——捕获随时间自然变换的单参数李子群,如视觉运动。我们首先证明标准RNN通常不具备流等变性:它们的隐藏状态无法以几何结构化的方式对移动刺激进行变换。然后我们展示了如何引入流等变性,并证明这些模型在训练速度、长度泛化和速度泛化方面显著优于非等变模型,无论是下一步预测还是序列分类任务。我们将这项工作视为构建尊重时间参数化对称性的序列模型的第一步,这些对称性支配着我们周围的世界。
最近的研究展示了对话式AI系统在诊断对话中的潜力。然而,确保患者安全的现实意义在于,提供个体化的诊断和治疗计划是由持牌专业人员执行的受监管活动。此外,医生通常在此类活动中监督其他团队成员,包括执业护士(NPs)或医师助理(PAs)。受此启发,我们提出了一个框架,用于对Articulate Medical Intelligence Explorer(AMIE)AI系统进行有效的异步监督。我们提出了guardrailed-AMIE(g-AMIE),这是一个在多代理系统中进行历史采集的系统,避免提供个体化的医疗建议。之后,g-AMIE将评估结果传达给监督的初级保健医生(PCP),通过临床医生驾驶舱界面。PCP提供监督并保留临床决策的责任。这有效地将监督与采集分离,因此可以异步进行。在一项随机、盲法的虚拟客观结构化临床考试(OSCE)中,我们比较了g-AMIE与NPs/PAs或一组PCP在相同限制下的表现。在60个场景中,g-AMIE在执行高质量采集、总结病例以及提出诊断和管理计划供监督PCP审查方面优于两组。这导致了更高质量的复合决策。与之前的工作中的独立PCP咨询相比,PCP对g-AMIE的监督也更省时。虽然我们的研究没有复制现有的临床实践,并可能低估了临床医生的能力,但我们的结果表明,异步监督作为一种可行的范式,使诊断AI系统在专家人类监督下运行,以增强现实世界的护理。
由于深度神经网络(DNNs)的非线性特性,当使用仅依赖局部信息的优化器(如SGD)时,无法保证收敛到损失函数的唯一全局最小值。事实上,这曾是早期该领域对DNNs可行性持怀疑态度的主要原因。过去几十年深度学习的进展表明这种怀疑是多余的,大量实证证据显示,遵循标准训练协议的足够大的DNNs表现出良好的优化动态,能够收敛到性能优异的解决方案。这一成功使得社区倾向于将凸优化作为学习的心理模型,从而在改进优化器时专注于训练效率(无论是所需的迭代次数、FLOPs还是实际时间)。我们认为,尽管这一视角已被证明极其富有成果,但另一个特定于DNNs的视角却鲜少受到关注:优化器不仅影响收敛速度,还影响所学解决方案的定性特性。换句话说,优化器能够且将会编码归纳偏差,并改变给定模型类的有效表达能力。此外,我们相信优化器可以成为在学习过程中编码期望目标的有效方式。我们主张社区应致力于理解现有方法的偏差,并旨在构建新的优化器,明确意图诱导解决方案的某些特性,而不仅仅基于收敛速度来评判它们。我们希望我们的论点能激发研究,增进我们对学习过程如何影响所收敛解决方案类型的理解,并促使人们更广泛地认识到优化器设计作为关键杠杆的作用,它与架构和数据在塑造模型结果中相辅相成。
随着SCADA系统的快速部署,如何有效分析工业信号并检测异常状态成为工业界的迫切需求。由于这些信号具有显著的异质性(我们将其总结为M5问题),先前的研究仅关注小的子问题并使用专用模型,未能利用模态间的协同效应和强大的缩放定律。然而,我们认为由于内在相似性,M5信号可以用统一方式建模。因此,我们提出了FISHER——一个用于多模态工业信号综合表征的基础模型。为支持任意采样率,FISHER将采样率的增量视为子带信息的拼接。具体而言,FISHER以STFT子带作为建模单元,并采用师生自监督学习框架进行预训练。我们还开发了RMIS基准,用于评估M5工业信号在多个健康管理任务中的表征能力。与顶级自监督学习模型相比,FISHER展现出全面且卓越的能力,综合性能提升最高达5.03%。
大语言模型(LLM)在金融应用中展现出巨大潜力;然而,现有模型在面对需要复杂推理能力、严格可信度标准以及高效适应领域特定需求的场景时,往往表现出局限性。我们推出了Agentar-Fin-R1系列金融大语言模型(80亿和320亿参数),该系列基于Qwen3基础模型专门设计,旨在增强金融应用中的推理能力、可靠性和领域专业性。我们的优化方法整合了高质量、系统化的金融任务标签体系与全面的多层次可信度保障框架。该框架包含高质量可信知识工程、多智能体可信数据合成以及严格的数据验证治理。通过标签引导的自动化难度感知优化、两阶段训练流程和动态归因系统,我们在训练效率上实现了显著提升。我们的模型在主流金融基准测试(包括Fineva、FinEval和FinanceIQ)以及通用推理数据集(如MATH-500和GPQA-diamond)上进行了全面评估。为全面评估实际部署能力,我们创新性地提出了Finova评估基准,重点关注智能体级别的金融推理和合规性验证。实验结果表明,Agentar-Fin-R1不仅在金融任务上实现了最先进的性能,还展现出卓越的通用推理能力,验证了其作为高风险金融应用场景可信解决方案的有效性。Finova基准测试可在https://github.com/antgroup/Finova获取。
为有界随机变量的均值构建置信区间是统计学中的经典问题,在机器学习及几乎所有科学领域都有广泛应用。特别是当随机变量采样成本高昂时,获得尽可能紧致的置信区间至关重要。当前最先进的置信区间构建方法是使用betting算法。这种方法在推导最优置信序列方面非常成功,甚至能达到迭代对数定律的收敛速率。然而,在固定时间范围设置下,这些方法要么不是最优的,要么是基于经验表现良好但缺乏有限时间保证的启发式解决方案。因此,目前尚不存在能保证置信区间宽度达到最优𝒪(√(σ^2log1/δ/n))的betting-based算法。本研究填补了这一空白。我们提出了一种betting-based算法来计算置信区间,其经验表现优于现有方法。我们的betting策略在每一步都使用(某种意义上的)最优策略,而标准betting方法则预先选择恒定策略。利用这一事实,即使对于Hoeffding或Bernstein等经典集中不等式也能带来严格改进。此外,我们还证明了我们的置信区间宽度在1+o(1)因子(随n递减)范围内是最优的。代码可在https://github.com/vvoracek/STaR-bets-confidence-interval获取。
尽管Transformer在基础模型和大规模语言建模的成功中扮演着核心角色,但其运行机制的理论基础仍仅被部分理解。当前研究主要关注其在语言理解方面的表示能力及其在上下文学习中的优势,通常基于理想化假设(如线性化注意力机制)。最初被构想用于建模序列到序列的转换,一个基本且未解决的问题是:Transformer能否稳健地对输入标记序列执行函数回归。考虑到现实世界数据分布固有的非欧几里得几何特性,这一问题显得尤为重要。在本研究中,我们证明:当输入和输出均嵌入双曲空间时,配备基于softmax的非线性注意力的Transformer在执行普通最小二乘(OLS)回归时具有一致一致性。我们推导了经验误差的确定性上界,在渐近状态下,该误差以可证明的速率𝒪(t^-1/2d)衰减,其中t表示输入标记数量,d表示嵌入维度。值得注意的是,我们的分析将欧几里得设置作为特例包含在内,恢复了由数据流形内在维度参数化的类似收敛保证。这些理论见解通过在涉及连续和分类响应变量的真实数据集上的实证评估得到了验证。
梯度压缩可以有效缓解联邦学习(FL)中的通信瓶颈。当前最先进的稀疏压缩器(如Top-k)具有较高的计算复杂度,高达𝒪(dlog_2k),其中d是模型参数的数量。因此,硬阈值压缩器被提出以将复杂度降低至𝒪(d),该压缩器仅传输绝对值高于固定阈值的元素。然而,硬阈值压缩会导致FL中的精度下降,尤其是在数据集非独立同分布(non-IID)且步长γ递减以实现模型收敛的情况下。递减的步长会减少更新量,并导致硬阈值压缩的压缩比迅速下降至一个激进的比例。当压缩比达到或低于该比例时,模型精度会严重下降。为解决这一问题,我们提出了γ-FedHT,一种具有误差反馈(Error-Feedback)的步长感知低成本压缩器,以确保收敛。鉴于传统的FL理论框架未考虑误差反馈,我们引入了误差反馈的基本概念。我们证明,在μ-强凸情况下,γ-FedHT的收敛速度为𝒪(1/T)(T表示总训练迭代次数),在非凸情况下为𝒪(1/√(T)),与FedAVG相同。大量实验表明,在相同的通信流量下,γ-FedHT在各种非IID图像数据集上的精度比Top-k提高了高达7.42%。
过去十年间,基于梯度的深度学习彻底改变了多个应用领域。然而,这种快速发展也凸显了对其局限性进行更深入理论理解的需求。研究表明,在许多实际学习任务中,梯度包含的信息量极其有限,导致基于梯度的方法需要极大量的迭代才能取得成功。梯度的信息量通常通过其相对于从假设类中随机选择目标函数的方差来衡量。我们采用这一框架,给出了方差的一般上界,该上界与目标函数类的两两独立性和输入分布的碰撞熵相关参数有关。我们的上界规模为𝒪̃(ε+e^-1/2ℰ_c),其中𝒪̃隐藏了与学习模型和损失函数正则性相关的因子,ε衡量目标函数类的两两独立性,ℰ_c是输入分布的碰撞熵。为证明我们上界的实际效用,我们将其应用于LWE(Learning with Errors)映射类和高频函数类。除理论分析外,我们还通过实验来更好地理解近期基于深度学习的LWE攻击的本质特性。
状态空间模型(State-Space Models, SSMs)擅长通过结构化递归捕捉长程依赖,因此非常适合序列建模。然而,其不断演变的内部状态使得在持续学习(Continual Learning, CL)场景下难以适配。这一问题在无示例设置中尤为突出,由于缺乏先前数据,动态SSM状态的更新不受约束,导致灾难性遗忘。为解决这一问题,我们提出了Inf-SSM,这是一种新颖且简单的几何感知正则化方法,利用无限维Grassmannian流形的几何特性来约束CL期间的状态演化。与传统的持续学习方法不同(后者约束权重更新),Inf-SSM对SSMs在其扩展可观测子空间中编码的无限时间演化进行正则化。我们证明实施这种正则化需要求解称为Sylvester方程的矩阵方程,其通常具有𝒪(n^3)复杂度。通过利用SSMs的结构和特性,我们开发了𝒪(n^2)的解决方案。这形成了一种高效的正则化机制,可以无缝集成到现有CL方法中。在包括ImageNet-R和Caltech-256在内的挑战性基准测试上的综合实验表明,该方法在序列任务中显著减少了遗忘现象,同时提高了准确率。
基于偏好的贝叶斯优化(BO)因其新兴应用而受到广泛关注。我们将这一问题称为基于人类反馈的贝叶斯优化(BOHF),它与传统BO的区别在于从简化反馈模型中学习最优行动,其中学习者每个时间步只能获得两个行动之间的偏好比较。目标是通过有限数量的偏好查询(通常通过昂贵的人类反馈获得)来识别最佳行动。现有工作采用Bradley-Terry-Luce(BTL)反馈模型,为几种算法提供了遗憾界性能分析。在本研究中,我们在相同框架下开发了更严格的性能保证。具体而言,我们推导出𝒪̃(√(Γ(T)T))的遗憾界,其中Γ(T)表示最大信息增益——一个与核函数相关的复杂度项——而T是查询次数。我们的结果显著改进了现有界限。值得注意的是,对于常见核函数,我们证明了传统BO在更丰富反馈模型下达到的最优样本复杂度可以被恢复。换句话说,使用与标量值样本相同数量的偏好样本就足以找到接近最优的解。
联邦学习(FL)和分割学习(SL)等协作训练方法使得无需共享原始数据的分布式机器学习成为可能。然而,联邦学习假设客户端能够训练完整模型,这对于大规模模型并不可行。相比之下,分割学习通过将大部分训练任务卸载到服务器来缓解联邦学习中的客户端内存限制,但由于其串行特性会增加网络延迟。其他方法通过使用本地损失函数进行并行客户端训练来提高效率,但它们缺乏服务器反馈且可能精度较差。我们提出FSL-SAGE(基于激活梯度估计的联邦分割学习),这是一种新的联邦分割学习算法,通过辅助模型估计服务器端梯度反馈。这些辅助模型会定期调整以模拟服务器在本地数据集上的行为。我们证明FSL-SAGE能达到𝒪(1/√(T))的收敛速度,其中T是通信轮次。这一结果与FedAvg相当,同时显著降低了通信成本和客户端内存需求。实验结果也验证了其优于现有最先进的FSL方法,兼具通信效率和准确性。
现有对异构目标的局部(随机)梯度下降分析要求步长η≤1/K,其中K是通信间隔,这确保了目标的单调递减。相比之下,我们分析了使用任意步长η>0的局部梯度下降在可分离异构数据逻辑回归中的应用。在R轮通信和M个客户端的情况下,我们展示了在持续𝒪(ηKM)轮的初始不稳定阶段后,以𝒪(1/ηKR)的速率收敛。这改进了现有针对一般光滑凸目标的𝒪(1/R)速率。我们的分析与<cit.>的单机分析类似,在不稳定性的来源上,单机分析中不稳定性由极大步长引起,而在我们的设置中,另一个不稳定性来源是具有异构目标的大规模局部更新。
Ensemble clustering在实践中已展现出巨大成功,但其理论基础仍待深入探索。本文研究了Ensemble clustering的泛化性能,重点关注泛化误差、超额风险和一致性。我们推导出泛化误差界和超额风险界的收敛速度为𝒪(√(log n/m)+1/√(n)),其中n和m分别表示样本数和基础聚类数。基于此,我们证明当m和n趋近于无穷大且m显著大于log n时(即m,n→∞,m≫log n),Ensemble clustering具有一致性。此外,考虑到实际中n和m都是有限的,泛化误差无法降至零。因此,通过为有限聚类分配不同权重,我们最小化经验平均聚类与其期望之间的误差。由此,我们从理论上证明:为了获得更好的聚类性能,应最小化基础聚类与其期望的偏差(bias),并最大化不同基础聚类之间的差异(diversity)。此外,我们还推导出最大化diversity几乎等价于一个鲁棒(min-max)优化模型。最后,我们将理论实例化为一个新的Ensemble clustering算法。与SOTA方法相比,我们的方法在NMI、ARI和Purity指标上平均提升了6.1%。代码已开源:https://github.com/xuz2019/GPEC。
大型语言模型的去中心化训练为跨地理分布的参与者提供了共享计算资源的机会,但面临着显著的网络通信瓶颈,特别是在流水线并行设置中。虽然流水线并行通过将模型层分布在不同设备上来处理大规模模型,但它需要频繁通信中间激活值,这在网络带宽有限时带来了挑战。现有的激活压缩方法(如AQ-SGD)通过误差补偿来减轻量化引起的误差,但需要存储先前的激活值,导致过高的内存开销。为解决这些问题,我们提出了TAH-Quant(Tile-wise Adaptive Hadamard Quantization),这是一个专为流水线并行设计的新型激活量化框架。我们的方法整合了细粒度tile-wise量化以实现精确控制、基于熵的token级别自适应比特分配以实现最优比特使用,以及采用带枢轴元素交换的基于Hadamard的变换来有效抑制量化异常值。我们进一步提供了理论分析,证明配备TAH-Quant的流水线并行训练保持了𝒪(1/√(T))的收敛速率,与普通随机梯度下降相匹配。在多种LLM任务上的大量实验表明,TAH-Quant实现了激进的激活量化(3-4比特)比率,可提供高达4.3倍的端到端加速,且不影响训练收敛性,与最先进方法相匹配,不产生额外内存开销,并在不同训练场景中表现出良好的泛化能力。
我们分析了有限宽度全连接ReLU网络中的逐层有效维度(特征矩阵的秩)。具体而言,对于固定批量的m个输入和随机高斯权重,我们推导出了$m×n$隐藏激活矩阵期望秩的闭式表达式。我们的主要结果表明,𝔼[EDim(ℓ)]=m[1-(1-2/π)^ℓ]+O(e^-c m),因此秩亏缺以1-2/π≈0.3634的几何比率衰减。我们还证明了次高斯集中界,并确定了期望秩达到局部最大值的"复苏"深度。特别地,这些峰值出现在深度ℓ_k^*≈(k+1/2)π/log(1/ρ)处,高度约为(1-e^-π/2)m≈0.79m。我们进一步表明这种振荡性秩行为是有限宽度现象:在正交权重初始化或强负斜率leaky-ReLU下,秩保持(接近)满秩。这些结果精确描述了随机ReLU层如何交替地坍缩和部分复苏输入变化的子空间,为先前关于深度网络表达能力的研究增添了新的细节。
我们研究广义双边匹配市场中均衡学习的问题,其中智能体可以根据其分配到的匹配自适应地选择行动。具体而言,我们考虑一种场景:匹配的智能体参与一个初始支付矩阵未知的零和博弈,并探索集中式程序能否从bandit反馈中学习均衡。我们采用匹配均衡的解概念,即当没有智能体有意愿偏离(𝔪, X)时,匹配𝔪和策略集X构成的配对(𝔪, X)就形成均衡。为衡量给定配对(𝔪, X)与均衡配对(𝔪^⋆, X^⋆)的偏离程度,我们引入可作为相应学习问题遗憾度量的匹配不稳定性指标。随后我们提出一种UCB算法,其中智能体基于博弈支付的乐观估计形成偏好并选择行动,并证明该算法在时间范围T内能实现次线性且与实例无关的遗憾。
联邦学习(FL)支持利用分布式数据源对基础模型(FMs)进行微调,其中低秩适应(LoRA)因其低通信成本和优异性能而广受欢迎。尽管近期研究认识到异构LoRA在FL中的优势并提出了灵活的实现算法,但我们的理论分析揭示了一个关键缺陷:由于参数截断和有偏梯度更新,现有方法缺乏形式化的收敛保证。具体而言,适配客户端特定的LoRA秩需要截断全局参数,这会引入固有截断误差并导致后续不准确的梯度更新,这些误差在训练轮次中不断累积,最终降低模型性能。为解决上述问题,我们提出FedHL——一个专为异构LoRA设计的简单而有效的联邦学习框架。通过将全秩全局模型作为校准聚合基准,FedHL消除了与客户端特定秩初始对齐时的直接截断偏差。此外,我们通过最小化收敛上界中的梯度漂移项,推导出理论最优的聚合权重。分析表明FedHL保证𝒪(1/√(T))的收敛速率,在多个真实数据集上的实验显示其性能比现有最优方法提升1-3%。
经典的多臂老虎机算法通常假设奖励环境是平稳的,且动作空间(臂的数量)较小。最近开发的方法通常只放宽其中一个假设:现有的非平稳老虎机策略是为少量臂设计的,而利普希茨、线性和高斯过程老虎机策略则设计用于在奖励函数受限的情况下处理平稳奖励环境中的大量(或无限)臂。在本研究中,我们提出了一种使用高斯插值在连续空间中学习奖励环境的新策略。我们证明我们的方法能高效学习连续利普希茨奖励函数,累积遗憾为𝒪^*(√(T))。此外,通过简单修改,我们的方法自然扩展到非平稳问题。最后,我们证明我们的方法在计算上更有利(快100-10000倍),并且在具有非平稳性和极多臂的数据集上实验性能优于滑动高斯过程策略。
分布鲁棒强化学习(DR-RL)作为一种能够解决训练与测试环境差异的原则性方法,近年来受到广泛关注。为了平衡鲁棒性、保守性和计算可追踪性,文献中提出了具有SA-rectangular和S-rectangular对抗者的DR-RL模型。虽然现有统计分析多集中于SA-rectangular模型(因其算法简单且确定性策略最优),但S-rectangular模型能更准确地捕捉许多实际应用中的分布差异,并通常能产生更有效的鲁棒随机策略。本文研究了基于散度的S-rectangular DR-RL的经验值迭代算法,建立了近乎最优的样本复杂度界O(|𝒮||𝒜|(1-γ)^-4ε^-2),其中ε为目标精度,|𝒮|和|𝒜|分别表示状态空间和动作空间的基数,γ为折扣因子。据我们所知,这是首个针对基于散度的S-rectangular模型、同时实现|𝒮|、|𝒜|和ε最优依赖关系的样本复杂度结果。我们通过在鲁棒库存控制问题和理论最坏情况示例上的数值实验,验证了这种理论依赖性,证明了所提算法的快速学习性能。
在平均奖励准则下的鲁棒强化学习(RL)对于潜在环境不匹配情况下的长期决策至关重要,然而其有限样本复杂度研究仍基本处于空白状态。现有工作提供了具有渐近保证的算法,但缺乏有限样本分析阻碍了对其原理性理解和实际部署,特别是在数据受限的场景中。我们通过提出Robust Halpern Iteration (RHI)算法填补了这一空白,这是首个具有可证明有限样本复杂度保证的算法。在标准不确定性集合(包括污染集合和ℓ_p范数球)下,RHI以近乎最优的样本复杂度𝒪̃(SAℋ^2/ϵ^2)获得ϵ-最优策略,其中S和A分别表示状态和动作的数量,ℋ是鲁棒最优偏差跨度。这一结果首次为鲁棒平均奖励RL提供了多项式样本复杂度保证。此外,我们的RHI算法不依赖于先验知识的特点使其区别于许多先前的平均奖励RL研究。因此,我们的工作显著推进了鲁棒平均奖励方法在复杂现实问题中的实际应用。
本文专注于从K个独立臂中选择具有最高方差的臂。具体来说,我们关注两种设置:(i) 遗憾设置,即在方差方面对次优臂的拉动次数进行惩罚;(ii) 固定预算BAI设置,评估算法在固定次数拉动后确定具有最高方差臂的能力。我们为遗憾设置开发了一种名为的新型在线算法,并展示了其对于有界奖励的遗憾上界随𝒪(logn)演变,其中n为时间范围。通过推导遗憾的下界,我们证明了是阶最优的。对于固定预算BAI设置,我们提出了算法。我们展示了错误概率的上界随exp(-n/log(K) H)演变,其中H代表问题的复杂性,并且这一速率与相应的下界匹配。我们使用一种关于样本方差的新型集中不等式,将框架从有界分布扩展到亚高斯分布。利用同样的方法,我们为亚高斯分布推导了经验夏普比率(SR)的集中不等式,这在文献中以前是未知的。实证模拟显示,在不同次优性差距中始终优于,尽管被表现出最低遗憾的超越,但缺乏理论保证。我们还展示了在6种不同设置下,对于固定预算设置,相对于均匀采样的优越性能。最后,我们进行了一个案例研究,以实证评估和在100支股票上使用几何布朗运动(GBM)生成的看涨期权交易中的性能。
持续学习系统面临着防止灾难性遗忘同时保持高能效的双重挑战,特别是在资源受限的环境中。本文提出了基于路径的渐进推理(PaPI),这是一种通过数学严谨的路径选择和适应方法来解决这些挑战的新型理论框架。我们将持续学习表述为一个能量约束的优化问题,并为我们的路径路由机制提供了形式化的收敛保证。我们的理论分析表明,与单一架构相比,PaPI在稳定性-可塑性权衡方面实现了𝒪(K)的改进,其中K是路径数量。我们使用费雪信息矩阵分析推导出遗忘率的严格界限,并证明PaPI的能量消耗与活动参数数量而非模型总规模成比例。比较理论分析表明,PaPI比弹性权重固化(EWC)提供了更强的抗灾难性遗忘保证,同时保持了比EWC和梯度情景记忆(GEM)更好的能量效率。我们的实验验证在多个基准测试中证实了这些理论优势,证明了PaPI在能量受限环境中的持续学习有效性。我们的代码可在https://github.com/zser092/PAPI_FILES获取。
时间序列数据的无监督域适应(UDA)仍然是深度学习中的关键挑战,传统伪标签策略无法捕捉域间的时间模式和通道偏移,导致生成的伪标签次优。为此,我们提出了TransPL,这是一种通过代码转移矩阵建模源域联合分布P(𝐗, y)的新方法,其中代码来自时间序列片段的向量量化(VQ)。我们的方法从源域构建类和通道维度的代码转移矩阵,并运用贝叶斯规则进行目标域适应,基于通道加权类条件似然生成伪标签。TransPL具有三大优势:显式建模不同域间的时间转移和通道偏移、适用于不同UDA场景(如弱监督UDA)、以及可解释的伪标签生成。我们在四个时间序列UDA基准上通过广泛分析验证了TransPL的有效性,证实其以显著优势(准确率提升6.1%)持续优于最先进的伪标签方法,并通过学习到的代码转移矩阵提供了对域适应过程的深入见解(提升4.9%)。