大型语言模型(LLM)通常通过基准测试数据集进行评估。但有什么理由能让我们根据LLM对一组精心设计问题的回答来推断其真实能力?本文首先引入一个正式框架来解决这个问题。关键在于注意到用于测试LLM的基准(如AP考试)同样被用于测试人类。然而这引发了一个隐含问题:只有当LLM对概念的理解方式与人类误解方式相同时,这些基准才是有效的测试。否则,基准测试的成功只证明了虚假理解现象:这种理解假象源于模型给出的答案与任何人类对概念的解释都不可调和。我们提出了两种量化这种虚假理解现象的方法:一种使用在三个领域专门设计的基准测试,另一种使用能提供其普遍性下限的通用流程。我们发现虚假理解现象在模型、任务和领域中普遍存在。这些失败不仅反映了错误的理解,更揭示了概念表征中更深层的内部不一致性。
本文介绍了机器人操作平台的创新设计,其基础是变革性物联网(IoT)架构,无缝集成了大型语言模型(LLM)、生成式AI、边缘计算和5G网络等尖端技术。 拟议的平台旨在提高物联网系统和机器人的智能化和自主性,使他们能够做出实时决策,并动态地适应不断变化的环境。 通过一系列引人注目的案例研究,包括智能制造,医疗保健和服务部门,本文展示了物联网机器人在优化运营工作流程,提高生产力和提供创新的可扩展解决方案方面的巨大潜力。 通过强调LLM和生成式AI的作用,该研究强调了这些技术如何推动智能机器人和物联网的发展,塑造行业特定进步的未来。 这些发现不仅展示了这些技术的变革力量,而且还提供了对其更广泛的社会和工业影响的前瞻性观点,将它们定位为下一代自动化和技术融合的催化剂。
视觉语言分割的最新进展显著提高了基础视觉理解。 然而,这些模型经常表现出幻觉,为不基于图像内容的物体制作分割面罩,或者错误地标记不相关的区域。 现有的分割幻觉评估协议主要侧重于标签或文本幻觉,而不操纵视觉环境,限制了它们诊断关键故障的能力。 作为回应,我们介绍了HalnuSegBench,这是第一个专门用于通过反事实视觉推理的镜头评估视觉接地的幻觉的基准。 我们的基准包括1340个反事实实例对的新数据集,这些反事实实例对跨越281个独特的对象类别,以及一组新引入的指标,在视觉连贯的场景编辑下量化幻觉灵敏度。 HalluSegBench与最先进的视觉语言分割模型的实验表明,视觉驱动的幻觉比标签驱动的幻觉更普遍,模型通常持续存在于错误的分割,突出了反事实推理诊断接地保真度的必要性。
我们提出了BayesLoRA,这是一个特定于任务的不确定性量化框架,将MC-Dropout集成到低等级适配器(LoRA)中。 与通用变压器不确定性方法不同,BayesLoRA提供针对下游工作流程量身定制的护栏,使代理商能够在不确定性下进行反省和调节行为。 我们在数学和经验上证明,LoRA适配器在微调分布之外表现出放大的方差,为代理决策提供可靠的信心估计。
综合信息理论(IIT)为解释意识现象提供了一个定量框架,假设意识系统包含通过因果属性集成的元素。 我们将IIT 3.0和4.0(该框架的最新迭代)应用于大语言模型(LLM)表示序列,分析来自现有心智理论(ToM)测试结果的数据。 我们的研究系统地调查了在LLM表示中呈现的ToM测试性能的差异是否可以通过IIT估计值(即Φ^max(IIT 3.0),Φ(IIT 4.0),概念信息(IIT 3.0)和Φ结构(IIT 4.0)来揭示。 此外,我们将这些指标与Span Representations进行比较,独立于任何对意识的估计。 这项额外的努力旨在区分LLM表示空间中潜在的“意识”现象和固有分离。 我们进行全面的实验,检查LLM变压器层的变化和刺激的语言跨度。 我们的研究结果表明,当代基于变形金刚的LLM表示序列缺乏观察到的“意识”现象的统计显著指标,但在空间排列分析下表现出有趣的模式。 附录和守则可作为补充材料查阅:https://doi.org/10.1016/j.nlp.2025.100163。
面对不断变化的网络威胁,如恶意软件、勒索软件和网络钓鱼,自主网络安全防御(ACD)系统已成为通过可选的人工干预进行实时威胁检测和响应的关键。 然而,现有的ACD系统依赖于限制假设,特别是底层网络动态的稳定性。 在现实场景中,由于攻击者或防御者采取的行动、系统故障或网络的时间演变,网络拓扑结构可能会发生变化,从而导致当前防御代理的自适应能力失败。 此外,许多代理在静态环境中接受训练,导致对特定拓扑结构的过度拟合,这阻碍了它们向分发外网络拓扑进行概括的能力。 这项工作通过探索开发代理的方法来解决这些挑战,以学习跨动态网络环境(一般ACD(GACD))的可推广策略。
语音嵌入通常保留敏感属性,如扬声器身份,口音或人口统计信息,在有偏见的模型培训和隐私泄漏中构成风险。 我们提出了WavShape,一个信息理论语音表示学习框架,优化公平和隐私的嵌入,同时保护任务相关信息。 我们利用相互信息(MI)估计,使用Donsker-Varadhan公式来指导基于MI的编码器,该编码器系统地过滤敏感属性,同时保持下游任务所必需的语音内容。 三个已知数据集的实验结果表明,WavShape将嵌入和敏感属性之间的MI减少了高达81
我们引入了Hidsight-Guided Momentum(HGM),这是一种一阶优化算法,可以根据最近更新的方向一致性自适应扩展学习率。 传统的自适应方法,如Adam或RMSprop,仅使用梯度的幅度来适应学习动力学,通常忽略重要的几何线索。几何线索是指方向信息,例如当前梯度和过去更新之间的对齐,这反映了优化路径的局部曲率和一致性。 HGM通过结合后见后机制来解决这个问题,该机制评估当前梯度和累积动量之间的余辛相似性。 这使其能够区分连贯和相互冲突的梯度方向,在更新对齐时提高学习率,并在振荡或噪声区域减少学习率。 其结果是一种响应更灵敏的优化器,可加速在损失表面平滑区域中的收敛,同时在更锐利或更不稳定的区域保持稳定。 尽管增加了适应性,但该方法保留了现有优化器的计算和内存效率。 通过更智能地响应优化环境的结构,HGM提供了对现有方法的简单而有效的改进,特别是在深度神经网络训练等非凸设置中。
多线性变换是高性能计算(HPC)和人工智能(AI)工作负载的关键,其中数据表示为张量。 然而,他们的高计算和内存需求,随着维度的增长而增长,通常会减慢关键任务的速度。 此外,通过扩大并行处理单元的数量来扩展计算大大增加了能源消耗,限制了广泛的采用,特别是对于稀疏数据,这在HPC和AI应用中很常见。 本文介绍了三线性算法和同态算法设备架构(TriADA),通过以下创新来应对这些挑战:(1)用于计算一系列三线性(3D)离散正交变换(3D-DXT)的大规模并行低阶算法,这是更通用的3模矩阵乘法乘法(3D-GEMT)的特殊情况;(2)基于外部产品的GEMM。到提议的算法,完全分布式的3D网络网格互连处理元素或具有无坐标,数据驱动的本地处理活动的单元,独立于问题大小;(4)一种弹性稀疏外产品(ESOP)方法,避免不必要的计算和通信操作与零值操作数,从而提高能源效率,计算准确性和稳定性。 TriADA能够在线性时间步骤中执行具有超立方运算复杂性的各种三线性变换。 TriADA 的大规模并行、可扩展和节能架构是加速多线性张量操作的理想选择,这是 AI 和 HPC 工作负载中最苛刻的部分。
我们引入了TAPAS(使用agentS基于任务的适应和规划),这是一个多代理框架,将大型语言模型(LLM)与符号规划集成在一起,以解决复杂的任务,而无需手动定义环境模型。 TAPAS采用专门的基于LLM的代理,使用结构化工具调用机制,根据需要协同生成和调整域模型,初始状态和目标规范。 通过这种基于工具的交互,下游代理可以请求上游代理的修改,无需手动域重新定义即可适应新的属性和约束。 ReAct(Reason+Act)风格的执行代理,加上自然语言计划翻译,弥合了动态生成计划和现实世界机器人能力之间的差距。 TAPAS在基准规划领域和VirtualHome模拟现实世界环境中表现出色。
为高度自动化的驾驶系统开发决策算法仍然具有挑战性,因为这些系统必须在开放和复杂的环境中安全运行。 强化学习(RL)方法可以直接从经验中学习全面的决策策略,并在简单的驾驶任务中已经显示出有希望的结果。 然而,目前的方法未能实现更复杂的驾驶任务的可推广性,并且缺乏学习效率。 因此,我们介绍了基于场景的自动驾驶强化学习(SAD-RL),这是第一个在基于场景的环境中整合分层策略的强化学习(RL)的框架。 高级别策略选择由低级控制逻辑评估和执行的机动模板。 基于场景的环境允许控制代理的培训体验,并明确将具有挑战性的但速率的情况引入训练过程。 我们的实验表明,使用SAD-RL框架训练的代理可以在轻松和具有挑战性的情况下有效地实现安全行为。 我们的消融研究证实,HRL和情景多样性对于实现这些结果至关重要。
鉴于社交媒体上冲突的兴起,检测有害行为的有效分类模型至关重要。 遵循垃圾垃圾的最大化,机器学习性能在很大程度上取决于训练数据质量。 然而,高质量的标签数据,特别是对于识别冲突行为等细微任务,是有限的,昂贵的,很难获得。 此外,随着社交媒体平台越来越多地限制对研究数据的访问,文本数据增强作为生成训练数据的替代品正在受到关注。 由于大型语言模型(LLM)护栏,增加与冲突相关的数据带来了独特的挑战,这些护栏可以防止产生攻击性内容。 本文介绍了PromptAug,一种基于LLM的创新数据增强方法。 PromptAug实现了2的统计学显着改进,这项工作将PromptAug作为在冲突检测等敏感任务中增加数据的有效方法,提供基于自然语言处理和社会科学方法的独特跨学科评估。
随着图形神经网络(GNN)的日益普及,解释他们的预测变得越来越重要。 然而,将预测归因于特定的边缘或特征仍然计算昂贵。 例如,使用3层GNN对100个邻居的节点进行分类可能涉及识别数百万候选人的重要边缘。 为了应对这一挑战,我们提出了 DistShap,这是一种并行算法,可以在多个 GPU 之间分发基于 Shapley 值的解释。 DistShap通过在分布式设置中采样子图来操作,跨GPU并行执行GNN推理,并解决分布式最小二乘问题以计算边缘重要性分数。 DistShap在准确性上优于大多数现有的GNN解释方法,并且是第一个通过在NERSC Perlmutter超级计算机上使用多达128个GPU来扩展到具有数百万个功能的GNN模型。
本文介绍了TEDI(真实,表达和维度不敏感的方法),一种无谨慎的算法,用于学习真实和实用最大化机制。 现有的基于学习的方法通常依赖于结果空间的离散化,以确保真实性,从而导致效率低下,问题规模越来越大。 为了解决这一限制,我们将定价规则的概念正式化,定义为将结果映射到价格的功能。 基于这个概念,我们提出了一种新的菜单机制,它可以相当于特定条件下的真实直接机制。 TEDI的核心思想在于使用Partial GroupMax Network对定价规则进行参数化,这是一个新的网络架构,旨在普遍近似部分凸函数。 为了学习最优的定价规则,我们开发新颖的训练技术,包括协方差技巧和连续采样,以导出与一阶优化兼容的无偏梯度估计器。 理论分析证实,TEDI保证真实性,充分的表现力和维度不敏感。 在研究拍卖环境中的实验评估表明,TEDI取得了强劲的表现,具有或超过最先进的方法。 这项工作提出了学习真实机制而不产生结果离散的第一批方法,从而提高算法效率。 提出的概念、网络架构和学习技术可能提供潜在的价值,并为自动化机制设计和可微分经济学提供新的见解。
超分辨率(SR)是一个不构成的逆问题,许多可行的解决方案与给定的低分辨率图像一致。 一方面,回归式SR模型旨在平衡保真度和感知质量,以产生单一解决方案,但这种权衡通常会引入工件,在信息关键型应用中产生歧义,例如识别数字或字母。 另一方面,扩散模型生成了一组不同的SR图像,但从这组中选择最值得信赖的解决方案仍然是一个挑战。 本文介绍了一个健壮的自动化框架,通过利用视觉语言模型(VLM)的语义推理功能,从扩散生成的集合中识别最值得信赖的SR样本。 具体来说,像BLIP-2,GPT-4o这样的VLM及其变体通过结构化查询来预测语义正确性,视觉质量和人工制品存在。 然后,排名靠前的SR候选人以具有成本效益的方式集成,以产生单一值得信赖的产出。 为了严格评估VLM所选样本的有效性,我们提出了一种新的可信度评分(TWS)混合指标,该指标基于三个互补组件量化SR可靠性:通过CLIP嵌入的语义相似性,边缘地图上使用SSIM的结构完整性,以及通过多级小波分解的工件灵敏度。 我们的经验表明,TWS在模棱两可和自然的图像中与人类偏好密切相关,并且VLM引导的选择始终如一地产生高TWS值。 与PSNR等传统指标相比,LPIPS未能反映信息保真度,我们的方法提供了一个有原则,可扩展和可推广的解决方案,用于导航扩散SR空间的不确定性。 通过将输出与人类的期望和语义正确性对齐,这项工作为生成式SR的可信度设定了新的基准。
文本到图像检索(TIR)旨在根据文本查询找到相关的图像,但现有方法主要基于全图像标题,缺乏可解释性。 同时,引用表达式分割(RES)可以实现基于自然语言描述的精确对象本地化,但在大型图像集合中应用时计算成本昂贵。 为了弥补这一差距,我们引入了 Mask-aware TIR (MaTIR),这是一项统一 TIR 和 RES 的新任务,需要高效的图像搜索和准确的对象分割。 为了解决这个问题,我们提出了一个两阶段框架,包括分割感知图像检索的第一阶段和多模态大语言模型(MLLM)的重新排名和对象接地的第二阶段。 我们利用 SAM 2 生成对象掩码和 Alpha-CLIP ,首先离线提取区域级嵌入,从而实现有效且可扩展的在线检索。 其次,MLLM用于改进检索排名并生成边界框,这些框与分割面罩相匹配。 我们评估我们在COCO和D^3数据集上的方法,表明检索精度和分割质量比以前的方法显着提高。
传统的网络钓鱼检测往往忽略了心理操纵。 这项研究研究使用大型语言模型(LLM)上下文内学习(ICL)进行基于40种操纵技术的分类网络钓鱼电子邮件的细粒度分类。 在真实的法国网络钓鱼电子邮件(SignalSpam)上使用GPT-4o-mini的少量示例,我们根据人类注释的测试集(100封电子邮件)评估了性能。 该方法有效地确定了流行的技术(例如,诱饵,好奇心上诉,请求未成年人),有希望的精度为0.76。 这项工作展示了ICL进行细致入微的网络钓鱼分析的潜力,并提供了对攻击者策略的见解。
来自地球静止卫星的可见光反射数据对气象观测至关重要,在天气监测和预报中发挥着重要作用。 然而,由于夜间缺乏可见光,不可能使用可见光反射数据进行连续全天天气观测。 这项研究开创了使用生成扩散模型来解决这一限制。 基于来自风云-4B(FY4B)地球静止卫星上先进地球静止辐射成像仪(AGRI)的多波段热红外亮度温度数据,我们开发了一种高精度可见光反射率检索模型,称为反射扩散(RefDiff),在夜间可实现0.47μm,0.65μm和0.825μm波段可见光反射检索。 与经典模型相比,RefDiff不仅通过集成平均显著提高了准确性,而且还提供了不确定性估计。 具体来说,RefDiff的SSIM指数可以达到0.90,在云结构复杂和云层厚的区域有特别显著的改进。 该模型的夜间检索功能使用VIRS夜间产品进行了验证,证明了与白天同行相当的性能。 总之,这项研究在在夜间检索可见光反射率的能力方面取得了实质性进展,有可能扩大夜间可见光数据的应用。
在这项工作中,我们重新审视了移动稳健优化(MRO)算法,并研究使用离线强化学习学习最佳细胞个体偏移调的可能性。 这种方法利用收集的离线数据集来学习最佳策略,而无需进一步探索。 我们适应并应用了一种基于序列的方法,称为决策变形金刚(Decinion Transformers)以及一种基于价值的方法,称为保守Q-Learning,以学习与基于香草规则的MRO相同的目标奖励的最佳策略。 使用了与故障、乒乓球和其他交接问题相关的相同输入功能。 对流量组合中具有3500 MHz载波频率的现实新无线电网络的评估,包括不同的用户服务类型和特定的可调单元对,表明离线-RL方法优于基于规则的MRO,提供多达7个
量子神经网络(QNNs)是量子机器学习(QML)中的一种突出方法,正在成为经典机器学习方法的强大替代品。 最近的研究侧重于QNN对各种任务的适用性,例如时间序列预测,预测和分类,涉及广泛的应用,包括网络安全和医学成像。 随着可再生能源系统集成推动智能电网的使用增加,机器学习在预测电力需求和检测系统干扰方面发挥着重要作用。 这项研究对QNN进行了深入调查,用于预测风力涡轮机的功率输出。 我们根据 Z Feature Map 的数据编码和不同的 ansatz 结构评估六个 QNN 配置的预测性能和模拟时间。 通过详细的交叉验证实验和对看不见的保留数据集的测试,我们通过实验证明QNN可以达到与基准经典方法相比更具竞争力的预测性能,并且在某些情况下比基准经典方法略胜一筹。 我们的结果还揭示了数据集大小和电路复杂性对预测性能和模拟时间的影响。 我们相信,我们的研究结果将为希望将量子机器学习纳入工作的能源领域的研究人员提供有价值的见解。