世界模型从视频中学习通用知识,并在想象中模拟经验来训练行为,为智能体提供了一条通向智能的路径。然而,先前世界模型无法准确预测复杂环境中的物体交互。我们介绍了Dreamer 4,这是一个可扩展的智能体,通过在快速准确的世界模型内部进行强化学习来学习解决控制任务。在复杂的视频游戏Minecraft中,该世界模型准确预测了物体交互和游戏机制,大幅超越了先前世界模型。通过捷径强制目标和高效的transformer架构,世界模型在单个GPU上实现了实时交互推理。此外,世界模型仅从少量数据中学习通用的动作条件化,使其能够从多样化的未标记视频中提取大部分知识。我们提出了仅从离线数据在Minecraft中获取钻石的挑战,这与机器人等实际应用相一致,在这些应用中从环境交互中学习可能不安全且缓慢。该任务需要从原始像素中选择超过20,000个鼠标和键盘动作序列。通过在想象中学习行为,Dreamer 4成为首个纯粹从离线数据、无需环境交互就在Minecraft中获得钻石的智能体。我们的工作为想象训练提供了一个可扩展的方案,标志着向智能体迈出了一步。
自约翰·冯·诺依曼和阿兰·图灵以来,计算系统与大脑之间的关系一直是理论先驱者的研究动机。均匀的、无标度的生物网络(如大脑)具有强大的特性,包括随时间推移的泛化能力,这是机器学习在通往通用推理模型道路上的主要障碍。我们介绍了"龙宝宝"(BDH),这是一种新的大型语言模型架构,基于一个由n个局部相互作用的神经元粒子组成的无标度生物启发网络。BDH结合了强大的理论基础和固有的可解释性,同时不牺牲类似Transformer的性能。BDH是一个实用的、高性能的、基于注意力的最先进状态空间序列学习架构。除了作为图模型外,BDH还支持GPU友好的实现。它表现出类似Transformer的缩放定律:经验表明,在相同参数数量(1000万到10亿)和相同训练数据的情况下,BDH在语言和翻译任务上的性能可与GPT2相媲美。BDH可以表示为脑模型。BDH在推理过程中的工作记忆完全依赖于使用脉冲神经元的Hebbian学习的突触可塑性。我们经验证实,在处理语言输入时,每当BDH听到或推理特定概念时,特定的单个突触会加强连接。BDH的神经元相互作用网络是一个具有重尾度分布的高模块化图。BDH模型在生物学上是合理的,解释了人类神经元可能用来实现言语的一种可能机制。BDH专为可解释性而设计。BDH的激活向量是稀疏且正的。我们在语言任务上证明了BDH的单义性。状态的可解释性(超越神经元和模型参数的可解释性)是BDH架构的固有特征。
我们介绍了Qwen3-Omni,这是一个单一的多模态模型,首次在文本、图像、音频和视频上保持最先进的性能,且相对于单模态对应模型没有任何退化。Qwen3-Omni在Qwen系列中与同尺寸单模态模型的性能相匹配,并在音频任务上表现尤为突出。在36个音频和音视频基准测试中,Qwen3-Omni在32个基准测试上达到开源SOTA,在22个基准测试上达到总体SOTA,超越了强大的闭源模型,如Gemini-2.5-Pro、Seed-ASR和GPT-4o-Transcribe。Qwen3-Omni采用Thinker-Talker MoE架构,统一了文本、图像、音频和视频的感知与生成,产生流畅的文本和自然的实时语音。它支持119种语言的文本交互、19种语言的语音理解和10种语言的语音生成。为了减少流式合成中的首包延迟,Talker使用多码本方案自回归预测离散语音编解码器。利用这些码本的表示能力,我们用轻量级因果ConvNet替换计算密集的块级扩散,实现从第一个编解码器帧开始的流式处理。在冷启动设置下,Qwen3-Omni实现了理论端到端首包延迟为234毫秒。为了进一步增强多模态推理,我们引入了一个Thinking模型,该模型显式地对来自任何模态的输入进行推理。由于研究社区目前缺乏通用的音频描述模型,我们对Qwen3-Omni-30B-A3B进行了微调,获得了Qwen3-Omni-30B-A3B-Captioner,该模型能为任意音频输入生成详细、低幻觉的描述。Qwen3-Omni-30B-A3B、Qwen3-Omni-30B-A3B-Thinking和Qwen3-Omni-30B-A3B-Captioner在Apache 2.0许可下公开发布。
公众和学术界都对谄媚现象表示担忧,即人工智能过度同意或奉承用户的现象。然而,除了媒体零散报道的严重后果(如强化妄想)之外,人们对谄媚现象的程度或其如何影响AI使用者知之甚少。在此我们展示了当人们向AI寻求建议时谄媚现象的普遍性和有害影响。首先,在11个最先进的AI模型中,我们发现这些模型高度谄媚:它们对用户行为的肯定率达到50%
长序列处理是现代大语言模型的关键能力。然而,标准Transformer架构中的自注意力机制在处理长序列时面临严重的计算和内存瓶颈。虽然可训练的稀疏注意力方法提供了一个有前景的解决方案,但现有方法如NSA引入了过多的额外参数,并破坏了传统的短序列预训练、长序列微调工作流程,导致收敛缓慢且难以加速。为了克服这些限制,我们引入了稠密-稀疏可切换注意力框架,称为InfLLM-V2。InfLLM-V2是一种可训练的稀疏注意力,能够无缝地将模型从短序列适应到长序列。具体而言,InfLLM-V2通过无参数架构修改重用稠密注意力参数,保持短序列和长序列处理之间的一致性。此外,InfLLM-V2通过使用稠密注意力处理短输入并平滑过渡到稀疏注意力处理长序列,确保在所有序列长度上的计算效率。为了实现实际加速,我们进一步引入了InfLLM-V2的高效实现,显著降低了计算开销。我们在长上下文理解和思维链推理上的实验表明,InfLLM-V2比稠密注意力快4倍,同时保持98.1%的性能。
从人类参与中学习旨在将人类主体纳入监控和纠正代理行为错误。 虽然大多数互动模仿学习方法侧重于在当前状态下纠正代理人的行动,但它们不会调整其在未来状态中的行为,这可能会造成更严重的危险。 为了解决这个问题,我们引入了人类干预的预测偏好学习(PPL),它利用人类干预中包含的隐性偏好信号来为未来推出的预测提供信息。 PPL的关键思想是将每个人类干预引导到L未来时间步骤中,称为偏好视界,假设代理遵循相同的动作,并且人类在偏好视界中做出相同的干预。 通过对这些未来状态进行偏好优化,专家校正被传播到预计代理商探索的安全关键区域,显着提高学习效率和减少所需的人类演示。 我们通过自动驾驶和机器人操纵基准的实验来评估我们的方法,并证明其效率和普遍性。 我们的理论分析进一步表明,选择合适的偏好视界L平衡了风险状态与标签正确性的覆盖,从而限制了算法最优性差距。 演示和代码可在:https://metadriverse.github.io/ppl
基于深度学习的三维(3D)形状重建从二维(2D)磁共振成像(MRI)在医疗疾病诊断,治疗规划和计算建模中变得越来越重要。 本综述调查了3D MRI重建的方法图,重点关注4种主要方法:点云,基于网格,形状感知和体积模型。 对于每个类别,我们分析当前最先进的技术,它们的方法论基础,局限性以及跨解剖结构的应用。 我们提供从心脏到神经到肺成像的广泛概述。 我们还关注模型对疾病解剖学的临床适用性,以及它们的训练和测试数据的影响。 我们检查公开可用的数据集、计算需求和评估指标。 最后,我们重点介绍了新兴的研究方向,包括多模态集成和跨模式框架。 本综述旨在为研究人员提供当前3D重建方法的结构化概述,以确定推动深度学习走向更强大,可推广和临床影响的解决方案的机会。
对于许多现实世界的应用程序来说,理解特征结果关系与实现高预测准确性一样重要。 虽然传统的神经网络擅长预测,但其黑箱性质掩盖了潜在的功能关系。 Kolmogorov-Arnold Networks(KAN)通过在边缘使用可学习的基于spline的激活功能来解决这个问题,从而在保持竞争性能的同时恢复符号表示。 然而,KAN的架构为网络修剪带来了独特的挑战。 由于对输入坐标移位的敏感性,传统的基于量级的方法变得不可靠。 我们提出了ShapKAN,一个使用Shapley值归因的修剪框架,以不变的方式评估节点的重要性。 与基于量级的方法不同,ShapKAN量化了每个节点的实际贡献,无论输入参数化如何,都能确保一致的重要性排名。 关于合成和真实世界数据集的广泛实验表明,ShapKAN保留了真正的节点重要性,同时实现了有效的网络压缩。 我们的方法提高了 KAN 的可解释性优势,促进了在资源受限环境中的部署。
蛋白质功能由大小和拓扑结构各异的连贯子结构驱动,然而当前的蛋白质表示学习模型(PRL)通过依赖刚性子结构(如k跳和固定半径邻域)扭曲了这些信号。我们提出了BioBlobs,一个即插即用、完全可微分的模块,通过将结构动态划分为灵活大小、非重叠的子结构("blobs")来表示蛋白质。生成的blobs被量化到一个共享且可解释的码本中,产生一个用于计算蛋白质嵌入的功能相关蛋白质子结构的离散词汇表。我们展示了BioBlobs表示在各种PRL任务中提高了广泛使用的蛋白质编码器(如GVP-GNN)的性能。我们的方法强调了直接捕获功能相关蛋白质子结构的架构的价值,既能提高预测性能,又能提供对蛋白质功能的机制性洞察。
针对网络代理已经提出了多种提示注入攻击。与此同时,各种检测通用提示注入攻击的方法也被开发出来,但尚未有系统性地针对网络代理进行评估。在本工作中,我们通过提出首个针对网络代理提示注入攻击检测的全面基准研究来填补这一空白。我们首先基于威胁模型对此类攻击进行了细粒度分类。然后我们构建了包含恶意和良性样本的数据集:由不同攻击生成的恶意文本片段、来自四个类别的良性文本片段、由攻击产生的恶意图像以及来自两个类别的良性图像。接下来,我们系统化了基于文本和基于图像的检测方法。最后,我们在多个场景下评估了它们的性能。我们的关键发现表明,虽然某些检测器能够以中等至高准确率识别依赖显式文本指令或可见图像扰动的攻击,但它们大多无法检测省略显式指令或采用不可察觉扰动的攻击。我们的数据集和代码发布于:https://github.com/Norrrrrrr-lyn/WAInjectBench。
本研究提出了一种名为LiLa-Net的3D自编码器架构,该架构仅利用LiDAR的点云数据,从真实交通环境中编码高效特征。为此,我们使用了配备Velodyne LiDAR的真实半自动驾驶车辆。该系统利用跳连概念来提高性能,而无需像最先进架构那样使用大量资源。关键改进包括减少编码器层数和简化跳连,同时仍能产生高效且具有代表性的潜在空间,从而准确重建原始点云。此外,在跳连携带的信息和潜在编码之间实现了有效平衡,在不影响性能的前提下提高了重建质量。最后,该模型展现出强大的泛化能力,能够成功重建与原始交通环境无关的物体。
在企业规模上开发文档理解模型需要大量、多样化且标注良好的数据集,涵盖广泛的文档类型。然而,由于隐私约束、法律限制以及所需的大量手动标注工作,收集此类数据的成本极其高昂——可能达到数百万美元。我们介绍了FlexDoc,一个可扩展的合成数据生成框架,该框架结合了随机模式和参数化采样,能够生成具有丰富标注的逼真多语言半结构化文档。通过对布局模式、视觉结构和内容变异性进行概率建模,FlexDoc能够以可控的方式大规模生成多样化的文档变体。在关键信息提取任务上的实验表明,FlexDoc生成的数据将绝对F1分数提高了高达11
本文提出DeMuon,一种在给定通信拓扑上进行去中心化矩阵优化的方法。DeMuon通过牛顿-舒尔茨迭代实现矩阵正交化——这一技术继承自其集中式前身Muon——并采用梯度追踪来缓解局部函数间的异质性。在重尾噪声条件和额外的温和假设下,我们建立了DeMuon达到近似随机稳定点的迭代复杂度。该复杂度结果在目标容忍度的依赖关系方面与集中式算法的最佳已知复杂度界限相匹配。据我们所知,DeMuon是Muon到图上具有可证明复杂度保证的去中心化优化的首个直接扩展。我们在具有不同连接度的图上进行了去中心化transformer预训练的初步数值实验。我们的数值结果表明,在不同网络拓扑下,DeMuon相比其他流行的去中心化算法具有明显的改进优势。
细粒度视觉推理仍然是多模态大语言模型(MLLMs)面临的核心挑战。最近引入的ReasonMap通过展示即使是先进的MLLMs在结构化且信息丰富的环境(如交通地图)中进行空间推理也存在困难,突显了这一差距,这是一项具有明确实践和科学重要性的任务。然而,在此类任务上使用标准强化学习(RL)受到稀疏奖励和不稳定优化的阻碍。为解决这一问题,我们首先构建了ReasonMap-Plus,这是一个通过视觉问答(VQA)任务引入密集奖励信号的扩展数据集,能够有效冷启动训练细粒度视觉理解技能。接下来,我们提出了RewardMap,一个旨在提升MLLMs视觉理解和推理能力的多阶段强化学习框架。RewardMap包含两个关键设计。首先,我们引入了难度感知奖励设计,该设计包含细节奖励,直接解决稀疏奖励问题,同时提供更丰富的监督信号。其次,我们提出了一个多阶段强化学习方案,该方案从简单感知任务引导训练到复杂推理任务,提供了比传统监督微调(SFT)更有效的冷启动策略。在ReasonMap和ReasonMap-Plus上的实验表明,RewardMap的每个组件都对性能提升做出了持续贡献,而它们的组合产生了最佳结果。此外,使用RewardMap训练的模型平均提升了3.47
多模态语言模型中的视频理解仍然受到上下文长度的限制:模型经常错过关键过渡帧,并且难以在长时间尺度上保持连贯性。为了解决这个问题,我们将原生稀疏注意力(NSA)适配到视频-语言模型中。我们的方法VideoNSA通过在216K视频指令数据集上进行端到端训练来适配Qwen2.5-VL。我们采用硬件感知的混合注意力方法,为文本保留密集注意力,同时为视频使用NSA。与令牌压缩和无训练稀疏基线相比,VideoNSA在长视频理解、时序推理和空间基准测试中实现了改进的性能。进一步的消融分析揭示了四个关键发现:(1)可靠扩展到128K令牌;(2)在固定预算下实现最优的全局-局部注意力分配;(3)任务相关的分支使用模式;以及(4)可学习的组合稀疏注意力有助于诱导动态注意力汇聚点。
我们提出了一种以数据为中心的方法,通过使用合成前缀来缓解实时神经查询自动补全系统中的呈现偏差。这些前缀是从常规搜索会话中收集的完整用户查询生成的,在这些会话中自动补全功能未被激活。这使我们能够用更多样化和偏差更小的样本来丰富学习排序模型的训练数据。该方法解决了从实时查询自动补全交互中收集的参与度信号所固有的偏差问题,在这种交互中,模型建议会影响用户行为。我们的神经排序器针对严格延迟约束下的实时部署进行了优化,并包含丰富的特征集,包括查询流行度、季节性、模糊匹配分数以及上下文信号,如部门亲和性、设备类型和与先前用户查询的垂直对齐。为了支持高效训练,我们引入了列表损失的任务特定简化,通过利用查询自动补全结构中每个前缀只有一个真实选择的特点,将计算复杂度从O(n²)降低到O(n)。在大规模电子商务环境中部署后,我们的系统在用户参与度方面显示出统计显著的改进,通过平均倒数排名和相关指标进行衡量。我们的研究结果表明,合成前缀不仅提高了泛化能力,还为其他低延迟排序任务(包括相关搜索和查询推荐)中的偏差缓解提供了可扩展的路径。
本研究针对高风险场景下自动摘要的可靠性问题,提出了一种集成不确定性量化与风险感知机制的大语言模型框架。从信息过载和高风险决策的需求出发,构建了基于条件生成的摘要模型,并在生成过程中引入贝叶斯推断来建模参数空间的不确定性,这有助于避免过度自信的预测。使用预测分布熵来衡量生成内容的不确定性水平,并应用熵正则化与风险感知损失的联合优化,确保在信息压缩过程中关键信息得以保留且风险属性得到明确表达。在此基础上,模型整合了风险评分与调控模块,使摘要既能准确覆盖核心内容,又能通过明确的风险级别提示来增强可信度。对比实验与敏感性分析验证了所提方法在保持流畅性和语义完整性的同时,显著提升了高风险应用中摘要的鲁棒性与可靠性。本研究为可信摘要生成提供了系统性解决方案,并在方法论层面展示了可扩展性与实用价值。
系统日志是网络威胁情报(CTI)的重要来源,记录了攻击者行为、被利用的漏洞以及恶意活动的痕迹。然而,由于缺乏结构、语义不一致以及跨设备和会话的碎片化,其效用往往受到限制。因此,从日志中提取可操作的CTI需要能够将噪声、异构数据协调为连贯且可互操作表示的方法。我们介绍了OntoLogX,这是一种自主人工智能(AI)代理,利用大语言模型(LLM)将原始日志转换为基于本体的知识图谱(KG)。OntoLogX将轻量级日志本体与检索增强生成(RAG)和迭代校正步骤相结合,确保生成的KG在语法和语义上有效。除了事件级分析外,该系统还将KG聚合到会话中,并采用LLM来预测MITRE ATT&CK战术,将低级日志证据与高级对抗性目标联系起来。我们在公共基准测试的日志和真实世界蜜罐数据集上评估了OntoLogX,证明了在多个KG后端上具有稳健的KG生成能力,并能准确将对抗性活动映射到ATT&CK战术。结果突显了检索和校正对精确率和召回率的益处,面向代码的模型在结构化日志分析中的有效性,以及基于本体的表示对可操作CTI提取的价值。
尽管当前的大型视觉语言模型(VLMs)在多模态理解和推理方面取得了进展,但其基本的感知和推理能力仍然有限。具体而言,即使在简单的拼图任务上,现有的VLMs表现也接近随机水平,揭示了核心感知和推理能力的不足。虽然高质量的视觉语言数据可以增强这些能力,但其稀缺性和有限的可扩展性带来了显著约束。为解决这一问题,我们提出了AGILE,一种用于增强VLMs视觉感知和推理能力的智能拼图交互学习框架。AGILE将拼图求解制定为一个交互过程,使模型能够逐步与环境互动。在每一步中,模型基于当前状态生成可执行代码来执行动作,而环境则提供细粒度的视觉反馈来指导任务完成。通过这种观察与交互的迭代循环,模型通过探索和反馈逐步提升其感知和推理能力。实验结果表明,AGILE不仅显著提升了在不同复杂度拼图任务上的性能(例如将准确率从9.5
预分词作为现代分词流程中的初始步骤,将文本分割为称为预分词单元的较小单元,通常基于空格和标点进行分割。虽然这一过程鼓励将完整的独立单词作为分词单元,但它给大多数分词算法(如字节对编码BPE)带来了根本性限制。具体而言,预分词导致语料库中的分词分布严重偏向于常见的完整长度单词。这种偏斜分布限制了扩展到更大词汇表的好处,因为额外的分词单元出现频率逐渐降低。为克服这一障碍,我们提出了BoundlessBPE,一种改进的BPE算法,它放宽了预分词边界约束。我们的方法选择性地将两个完整的预分词单元合并为一个更大的单元,我们称之为超词。超词不一定具有语义连贯性。例如,预分词单元" of"和" the"可能合并形成超词" of the"。这种合并策略相比标准BPE在语料库中产生了显著更均匀的分词分布,并更有效地压缩文本,最高可达15
在多目标优化中,基于集的质量指标是基准测试和性能评估的基石。它们通过将一组权衡解的质量简化为标量数值来捕捉其质量。最常用的基于集的指标之一是R2指标,它描述了在效用函数分布下解集对决策者的期望效用。通常,该指标通过离散化后者的分布来应用,产生弱Pareto兼容的指标。因此,向解集中添加非支配解或支配解可能——但不一定——改善指标值。在本文中,我们在具有连续、均匀的(Tchebycheff)效用函数分布的前提下重新研究R2指标。我们详细分析了其性质,证明这种连续变体确实是Pareto兼容的——即任何有益的解都会改善指标值。此外,我们提供了高效的计算程序,能够(a)在𝒪(N log N)时间内计算双目标问题的该指标,以及(b)当解被添加到当前解集(或从中移除)时,可以执行指标的增量更新,而无需为整个集合重新计算指标。因此,这项工作为最先进的Pareto兼容一元性能指标(如超体积指标)做出了贡献,提供了一个高效且有前景的替代方案。
大型语言模型(LLM)在复杂任务中展现出了卓越的推理能力,通常依赖于思维链(CoT)推理。然而,由于其自回归的token级生成特性,推理过程主要局限于局部决策,缺乏全局规划。这一限制经常导致冗余、不连贯或不准确的推理,显著降低了整体性能。现有方法,如基于树的算法和强化学习(RL),试图解决这个问题,但存在计算成本高且往往无法产生最优推理轨迹的问题。为应对这一挑战,我们提出了PTA-GRPO(规划后行动增强推理与组相对策略优化),这是一个旨在同时改进高层次规划和细粒度CoT推理的两阶段框架。在第一阶段,我们利用先进的LLM将CoT提炼为紧凑的高层次指导,然后用于监督微调(SFT)。在第二阶段,我们引入了一种指导感知的强化学习方法,联合优化最终输出和高层次指导的质量,从而提升推理效果。我们在多个数学推理基准上进行了广泛实验,包括MATH、AIME2024、AIME2025和AMC,涵盖了多样化的基础模型,如Qwen2.5-7B-Instruct、Qwen3-8B、Qwen3-14B和LLaMA3.2-3B。实验结果表明,PTA-GRPO在不同模型和任务上持续实现了稳定且显著的改进,验证了其有效性和泛化能力。
具有可验证奖励的强化学习(RLVR)改善了大型语言模型(LLM)的推理能力,但在探索方面仍存在困难,这一问题在多模态LLM(MLLM)中仍然存在。当前方法将视觉输入视为固定的确定性条件,忽略了模糊性的关键来源,并且难以构建对合理视觉变化具有鲁棒性的策略。我们提出了VOGUE(视觉不确定性引导探索),这是一种新颖的方法,将探索从输出(文本)空间转移到输入(视觉)空间。通过将图像视为随机上下文,VOGUE使用"原始"分支和"噪声"分支之间的对称KL散度来量化策略对视觉扰动的敏感性,从而为不确定性感知探索创建直接信号。该信号通过一个与不确定性成比例的奖励项来塑造学习目标,该奖励项与令牌熵奖励和退火采样策略相结合,有效平衡了探索与利用。在两种模型规模(Qwen2.5-VL-3B/7B)上通过GRPO实现,VOGUE将pass@1准确率平均提高了2.6
推理需要超越模式匹配或解决方案的记忆,以识别并实现可用于推导难题答案的"算法过程"。这需要识别最相关的基元、中间结果或共享过程,并在此基础上进行构建。虽然基于长思维链的强化学习后训练最终旨在揭示这类算法行为,但大型模型学习到的大多数推理轨迹未能一致地捕捉或重用过程,反而陷入冗长和退化的探索。为了更有效地进行推理,我们引入了推理抽象:对过程和事实知识的简洁自然语言描述,指导模型学习成功的推理。我们训练模型能够在给定问题时提出多个抽象,然后通过强化学习激励在利用这些抽象提供的信息的同时构建解决方案。这产生了一个双玩家强化学习训练范式,简称为RLAD,它联合训练一个抽象生成器和一个解决方案生成器。这种设置有效地实现了结构化探索,将抽象提议和解决方案生成的学习信号解耦,并提高了对更难问题的泛化能力。我们还表明,在较大的测试预算下,将更多测试时间计算资源分配给生成抽象比生成更多解决方案对性能更有益,这说明了抽象在指导有意义探索中的作用。
公众和学术界都对谄媚现象表示担忧,即人工智能过度同意或奉承用户的现象。然而,除了媒体零散报道的严重后果(如强化妄想)之外,人们对谄媚现象的程度或其如何影响AI使用者知之甚少。在此我们展示了当人们向AI寻求建议时谄媚现象的普遍性和有害影响。首先,在11个最先进的AI模型中,我们发现这些模型高度谄媚:它们对用户行为的肯定率达到50%