大型语言模型(LLM)通常通过基准测试数据集进行评估。但有什么理由能让我们根据LLM对一组精心设计问题的回答来推断其真实能力?本文首先引入一个正式框架来解决这个问题。关键在于注意到用于测试LLM的基准(如AP考试)同样被用于测试人类。然而这引发了一个隐含问题:只有当LLM对概念的理解方式与人类误解方式相同时,这些基准才是有效的测试。否则,基准测试的成功只证明了虚假理解现象:这种理解假象源于模型给出的答案与任何人类对概念的解释都不可调和。我们提出了两种量化这种虚假理解现象的方法:一种使用在三个领域专门设计的基准测试,另一种使用能提供其普遍性下限的通用流程。我们发现虚假理解现象在模型、任务和领域中普遍存在。这些失败不仅反映了错误的理解,更揭示了概念表征中更深层的内部不一致性。
最近的基准测试表明,单细胞扰动响应模型的表现常常不如简单预测数据集均值。我们将这一异常现象归因于指标缺陷:当对照组存在偏差或生物信号稀疏时,对照组参考差异和未加权误差指标会奖励模式坍塌。大规模的计算机模拟和两个真实世界扰动数据集的分析证实,共享参考偏移而非真实的生物变化驱动了这些评估中的高性能表现。我们引入了差异表达基因(DEG)感知指标——针对所有扰动的加权均方误差(WMSE)和加权差异R^2(R^2_w(Δ)),这些指标能以高灵敏度测量特定信号中的误差。我们还引入了负向和正向性能基线来校准这些指标。通过这些改进,均值基线降至无效性能水平,而真正的预测因子得到了正确奖励。最后,我们证明使用WMSE作为损失函数可以减少模式坍塌并提高模型性能。
本文介绍了机器人操作平台的创新设计,其基础是变革性物联网(IoT)架构,无缝集成了大型语言模型(LLM)、生成式AI、边缘计算和5G网络等尖端技术。 拟议的平台旨在提高物联网系统和机器人的智能化和自主性,使他们能够做出实时决策,并动态地适应不断变化的环境。 通过一系列引人注目的案例研究,包括智能制造,医疗保健和服务部门,本文展示了物联网机器人在优化运营工作流程,提高生产力和提供创新的可扩展解决方案方面的巨大潜力。 通过强调LLM和生成式AI的作用,该研究强调了这些技术如何推动智能机器人和物联网的发展,塑造行业特定进步的未来。 这些发现不仅展示了这些技术的变革力量,而且还提供了对其更广泛的社会和工业影响的前瞻性观点,将它们定位为下一代自动化和技术融合的催化剂。
随着物联网的出现,无线家庭自动化系统WHAS逐渐普及。 这些系统面临着多重挑战,如安全性;通过单一界面和用户友好性控制各种家用电器。 在本文中,我们提出了一个系统,该系统使用Twitter等社交网站的安全认证系统,跟踪社交网络上的最终用户活动,然后控制他或她的家用电器。 最后,我们强调了拟议的WHAS的应用,并比较了我们提议的系统与传统家庭自动化系统的优势。
视觉语言分割的最新进展显著提高了基础视觉理解。 然而,这些模型经常表现出幻觉,为不基于图像内容的物体制作分割面罩,或者错误地标记不相关的区域。 现有的分割幻觉评估协议主要侧重于标签或文本幻觉,而不操纵视觉环境,限制了它们诊断关键故障的能力。 作为回应,我们介绍了HalnuSegBench,这是第一个专门用于通过反事实视觉推理的镜头评估视觉接地的幻觉的基准。 我们的基准包括1340个反事实实例对的新数据集,这些反事实实例对跨越281个独特的对象类别,以及一组新引入的指标,在视觉连贯的场景编辑下量化幻觉灵敏度。 HalluSegBench与最先进的视觉语言分割模型的实验表明,视觉驱动的幻觉比标签驱动的幻觉更普遍,模型通常持续存在于错误的分割,突出了反事实推理诊断接地保真度的必要性。
扩展Buehler等人的2019年深度对冲范式,我们创新地使用深度神经网络来参数化凸风险最小化(CVaR / ES)用于投资组合尾部风险对冲问题。 通过在危机时期的引导市场模拟器上进行全面的数字实验 - 可定制交易成本,风险预算,流动性限制和市场影响 - 我们的端到端框架不仅实现了重要的单日99
间歇性需求的产品由于需求事件的零星发生而导致销售损失和陈旧的风险很高。 一般来说,点预测和概率预测方法都应用于间歇性需求。 特别是概率预测,模型需求作为一个随机过程,能够捕捉不确定性。 这种建模的一个例子是使用Lévy过程,它拥有独立的增量并容纳不连续的变化(跳跃)。 然而,据我们所知,在使用Lévy流程的库存控制中,没有研究调查订单数量和重新排序点如何影响总成本。 一个主要的困难是在重新订货点触发的库存补充的数学公式。 为了应对这一挑战,本研究制定了重新排序点政策,将累积需求建模为漂移的Poisson过程,并引入停止时间来表示达到重新排序点的时间。 此外,通过将总成本与ARIMA模型与重新排序点策略相结合的情况获得的总成本进行比较来验证建议方法的有效性。 作为主要结果,虽然基于ARIMA的预测下的总成本随着时间的推移线性增加,但基于Lévy工艺的配方为总成本提供了分析表达式,揭示了随机需求波动导致预期总成本以比线性更快的速度增长。
本文探讨了多个密切相关的主题:将Diophantine方程的复杂性与整数捆绑在一起,并与形式定理证明者并行开发数学证明。 希尔伯特的第十个问题(H10)询问双锥体方程的可判定性,戴维斯,普特南,罗宾逊和马蒂耶塞维奇已经否定地回答了。 很自然地询问Diophantine方程H10的哪些子类仍然不可决定。 这些子类可以用通用对来定义:变量 ν 和程度δ的数量边界,使得所有 Diophantine 方程最多可以重写这种复杂性。 我们的工作为整数未知开发了显式通用对(ν, δ),实现了新的界限,无法通过从已知的结果超过N的幼稚翻译中获得。 同时,我们使用证明助理伊莎贝尔对我们的结果进行了正式验证。 虽然正式证明验证传统上被应用于已知结果的后验,但该项目将形式化整合到发现和开发过程中。 在最后一节中,我们描述了从这种不寻常的方法中获得的关键见解及其对数学实践的影响。 我们的工作既有助于二恶雄方程的研究,也有助于数学如何在21世纪进行更广泛的问题。
我们提出了BayesLoRA,这是一个特定于任务的不确定性量化框架,将MC-Dropout集成到低等级适配器(LoRA)中。 与通用变压器不确定性方法不同,BayesLoRA提供针对下游工作流程量身定制的护栏,使代理商能够在不确定性下进行反省和调节行为。 我们在数学和经验上证明,LoRA适配器在微调分布之外表现出放大的方差,为代理决策提供可靠的信心估计。
经过越来越多的研究,在过去的15年中,通过添加剂组合器的想法和工具建立了熵不平等,在这项工作中,我们获得了一系列新的边界,用于连续随机变量的总和,产品和总和产品组合的差异熵。 部分受Goh最近关于“添加剂能量”概念的离散熵版本的工作所激励,我们引入了连续随机变量对的添加剂能量,并证明了各种版本的语句,“如果并且只有在总和的熵很小的情况下,添加剂能量才大”,以及Balog-Szemerédi-Gowers定理的一个版本。 然后,部分受Máthé和O'Regan最近工作的启发,我们建立了一系列新的产品差异熵不平等和连续随机变量的总和产品组合。 特别是,我们证明了一个新的,一般的,环Plünnecke-Ruzsa熵不平等。 我们简要地回到离散熵的例子,并提供了离散随机变量与“大倍增”的表征,类似于陶的弗雷曼型逆图理论为小倍数的情况。 最后,我们考虑了二代数随机变量的Erdös-Szemerédi和产品现象的自然熵模拟。 我们表明,如果它确实成立,那么它所做的参数范围必然会比预期的组合对应物受到更大的限制。
综合信息理论(IIT)为解释意识现象提供了一个定量框架,假设意识系统包含通过因果属性集成的元素。 我们将IIT 3.0和4.0(该框架的最新迭代)应用于大语言模型(LLM)表示序列,分析来自现有心智理论(ToM)测试结果的数据。 我们的研究系统地调查了在LLM表示中呈现的ToM测试性能的差异是否可以通过IIT估计值(即Φ^max(IIT 3.0),Φ(IIT 4.0),概念信息(IIT 3.0)和Φ结构(IIT 4.0)来揭示。 此外,我们将这些指标与Span Representations进行比较,独立于任何对意识的估计。 这项额外的努力旨在区分LLM表示空间中潜在的“意识”现象和固有分离。 我们进行全面的实验,检查LLM变压器层的变化和刺激的语言跨度。 我们的研究结果表明,当代基于变形金刚的LLM表示序列缺乏观察到的“意识”现象的统计显著指标,但在空间排列分析下表现出有趣的模式。 附录和守则可作为补充材料查阅:https://doi.org/10.1016/j.nlp.2025.100163。
从玻尔兹曼分布中学习采样的计算方法 - 其中目标分布仅已知未规范的能量函数 - 最近取得了显着进展。 然而,由于缺乏明确的靶标样本,基于扩散的先前方法(称为扩散采样器)通常需要重要性加权估计或复杂的学习过程。 两者都通过广泛的能源和模型评估来交换可扩展性,从而限制了它们的实际使用。 在这项工作中,我们提出了Adjoint Schrödinger Bridge Sampler(ASBS),这是一种新的扩散采样器,采用简单且可扩展的基于匹配的目标,但在训练过程中无需估计目标样本。 ASBS基于数学模型 - 薛定谔桥 - 通过动力学最佳运输提高采样效率。 通过随机最优控制理论的新镜头,我们演示了如何通过相邻匹配大规模学习基于SB的扩散采样器,并证明与全球解决方案的收敛。 值得注意的是,ASBS将最近的Adjoint Sampling(Havens et al., 2025)推广到任意源分布,通过放松所谓的无记忆条件,在很大程度上限制了设计空间。 通过广泛的实验,我们证明了ASBS在从经典能量函数,摊销的构象生成和分子玻尔兹曼分布的采样方面的有效性。
生物多样性丧失是一个关键的行星边界,但它与计算的联系在很大程度上仍未得到审查。 以前的计算可持续性工作集中在碳和水上,由于缺乏适当的指标和建模框架,忽略了生物多样性。 本文介绍了计算系统对生物多样性影响的首次端到端分析。 我们引入了两个新的指标 - 嵌入式生物多样性指数(EBI)和运营生物多样性指数(OBI) - 来量化整个生命周期的生物多样性影响,并介绍了FABRIC,这是一个将计算工作负载与生物多样性影响的建模框架。 我们的评估强调了在可持续计算设计和优化中考虑生物多样性以及碳和水的必要性。 代码可在https://github.com/TianyaoShi/FABRIC查阅。
离散时间随机最优控制问题和马尔可夫决策过程(MDP)是不确定性下顺序决策的基本模型,因此提供了强化学习理论的数学框架。 解决MDP的一个中心工具是Bellman方程及其解,即所谓的Q函数。 在这篇文章中,我们构建了深度神经网络(DNN)近似值,用于与具有无限时间视界和有限控制集A的MDP相关的Q函数。 更具体地说,我们表明,如果MDP的支付函数和随机过渡动力学可以通过具有泄漏的整流线性单元(ReLU)激活的DNN进行适当的近似,那么相关的Bellman方程的解 Q_dR^d→R^|A|, d∈N, 也可以近似于L^2-sense的DNN,其参数数量在多称的维度中增长最多。规定错误 ε∈ (0,1)。 我们的证明依赖于最近推出的全历史递归多级定点(MLFP)近似方案。
面对不断变化的网络威胁,如恶意软件、勒索软件和网络钓鱼,自主网络安全防御(ACD)系统已成为通过可选的人工干预进行实时威胁检测和响应的关键。 然而,现有的ACD系统依赖于限制假设,特别是底层网络动态的稳定性。 在现实场景中,由于攻击者或防御者采取的行动、系统故障或网络的时间演变,网络拓扑结构可能会发生变化,从而导致当前防御代理的自适应能力失败。 此外,许多代理在静态环境中接受训练,导致对特定拓扑结构的过度拟合,这阻碍了它们向分发外网络拓扑进行概括的能力。 这项工作通过探索开发代理的方法来解决这些挑战,以学习跨动态网络环境(一般ACD(GACD))的可推广策略。
语音嵌入通常保留敏感属性,如扬声器身份,口音或人口统计信息,在有偏见的模型培训和隐私泄漏中构成风险。 我们提出了WavShape,一个信息理论语音表示学习框架,优化公平和隐私的嵌入,同时保护任务相关信息。 我们利用相互信息(MI)估计,使用Donsker-Varadhan公式来指导基于MI的编码器,该编码器系统地过滤敏感属性,同时保持下游任务所必需的语音内容。 三个已知数据集的实验结果表明,WavShape将嵌入和敏感属性之间的MI减少了高达81
本文通过在内部和外部压力下系统分析网络参数,探讨了强化学习(RL)策略稳健性。 受神经科学中突触可塑性的启发,突触过滤通过选择性扰动参数引入内部应力,而对抗性攻击通过修改的代理观察来施加外部应力。 这种双重方法使参数能够根据其对清洁和对抗性环境中的政策性能的影响,将参数分类为易碎,健壮或抗脆弱性。 参数分数的定义是量化这些特征,该框架在Mujoco连续控制环境中的PPO训练的代理上进行了验证。 研究结果强调了抗脆弱性参数的存在,这些参数增强了压力下的政策性能,证明了有针对性的过滤技术在提高RL策略适应性方面的潜力。 这些见解为未来在稳健和抗脆弱性的RL系统设计方面的进步奠定了基础。
仅限API访问最先进的LLM的兴起突出表明需要有效的黑箱越狱方法来识别现实世界环境中的模型漏洞。 没有基于梯度优化的原则性目标,大多数现有方法都依赖于遗传算法,这些算法受到初始化和依赖手动策划的提示池的限制。 此外,这些方法需要为每个提示进行单独的优化,无法对模型漏洞进行全面描述。 为了解决这一差距,我们介绍了用于 jAilbreaking 的 VERA: Variational infErence fRMework。 VERA将黑箱越狱提示作为一个变异推理问题,训练一个小攻击者LLM在对抗提示上近似目标LLM的后验。 一旦训练,攻击者可以生成各种,流畅的越狱提示,用于目标查询,而无需重新优化。 实验结果表明,VERA在一系列目标LLM中实现了强劲的性能,突出了对抗性提示生成的概率推断值。
在未来城市系统中检测车辆的车队可能对交通管理变得很重要,因为这种路由可能会破坏城市网络的稳定,导致驾驶条件恶化。 因此,在本文中,我们讨论了是否有可能确定车队车辆在所有路线上的流量,因为车队的规模和行为以及车队和非舰队车辆在每条路线上的总流量。 我们证明,这个反向舰队分配问题的答案是近视舰队策略的“是”,这些策略比“利他主义”更“自私”,而“否”,否则,在路线/链路性能函数的温和假设下。 为了得出这些结论,我们引入了前方舰队分配操作员并研究其属性,证明它是车队控制器的“坏”目标。 我们还讨论了在现实世界中实施近视舰队路由的挑战,并将其与Stackelberg和Nash路由进行比较。 最后,我们表明,在某些情况下,最佳的Stackelberg车队路由可能涉及高度可变的混合策略,这可能会导致流量网络的混乱。
我们引入了Hidsight-Guided Momentum(HGM),这是一种一阶优化算法,可以根据最近更新的方向一致性自适应扩展学习率。 传统的自适应方法,如Adam或RMSprop,仅使用梯度的幅度来适应学习动力学,通常忽略重要的几何线索。几何线索是指方向信息,例如当前梯度和过去更新之间的对齐,这反映了优化路径的局部曲率和一致性。 HGM通过结合后见后机制来解决这个问题,该机制评估当前梯度和累积动量之间的余辛相似性。 这使其能够区分连贯和相互冲突的梯度方向,在更新对齐时提高学习率,并在振荡或噪声区域减少学习率。 其结果是一种响应更灵敏的优化器,可加速在损失表面平滑区域中的收敛,同时在更锐利或更不稳定的区域保持稳定。 尽管增加了适应性,但该方法保留了现有优化器的计算和内存效率。 通过更智能地响应优化环境的结构,HGM提供了对现有方法的简单而有效的改进,特别是在深度神经网络训练等非凸设置中。