2025年8月,OpenAI发布了GPT-OSS模型,这是自2019年GPT-2以来其首个开源权重的大型语言模型,包含两个专家混合架构,参数量分别为120B和20B。我们在十个基准测试上评估了这两个变体,涵盖通用知识、数学推理、代码生成、多语言理解和对话能力,并与六个当代开源大型语言模型进行比较,这些模型的参数量从14.7B到235B不等,代表了密集和稀疏两种设计。所有模型均在非量化形式下使用标准化推理设置进行测试,并采用麦克尼马尔检验和效应大小分析进行统计验证。结果显示,尽管gpt-oss-20B每个响应所需的内存和能量显著较少,但在多个基准测试(如HumanEval和MMLU)上 consistently 优于gpt-oss-120B。两个模型在当前开源生态中都表现出中等水平的整体性能,在代码生成方面具有相对优势,但在多语言任务中存在明显弱点。这些发现提供了经验证据,表明稀疏架构中的扩展可能不会带来成比例的性能提升,强调了需要进一步研究优化策略,并为未来开源部署提供更高效的模型选择信息。
实现规模化个性化医疗需要能够从纵向患者病程中提炼洞察的方法,这些病程可视为一系列医疗事件。基于大规模医疗事件数据预训练的基础模型代表了扩展真实世界证据生成并泛化到多样化下游任务的有前景方向。利用Epic Cosmos数据集——包含来自310个医疗系统的3亿独特患者记录的163亿次就诊的去标识化纵向健康记录中的医疗事件,我们引入了Cosmos医疗事件transformer(CoMET)模型系列,这是一组仅在解码器端使用的transformer模型,在1.18亿患者代表的1150亿个离散医疗事件(1510亿个token)上进行了预训练。我们提出了医疗事件数据领域最大规模的缩放定律研究,建立了预训练方法学并揭示了计算量、token数量和模型规模之间的幂律缩放关系。基于此,我们预训练了一系列计算最优模型,参数规模高达10亿。基于患者的真实世界历史,CoMET自回归地生成下一个医疗事件,模拟患者健康时间线。我们研究了78个真实世界任务,包括诊断预测、疾病预后和医疗运营。值得注意的是,对于一个具有通用预训练和基于模拟推理的基础模型,CoMET在这些任务上通常优于或匹配特定任务的监督模型,且无需特定任务的微调或少样本示例。CoMET的预测能力随着模型和预训练规模的扩大而持续提升。我们的结果表明,CoMET这一生成式医疗事件基础模型能够有效捕捉复杂的临床动态,提供一个可扩展和可泛化的框架来支持临床决策、简化医疗运营并改善患者结局。
大型语言模型(LLM)代理评估人员利用专门工具来接地LLM的合理决策,使其非常适合帮助科学发现,例如受限的逆行规划。 约束的逆行规划是化学中必不可少的,但具有挑战性的过程,用于确定从市售起始材料到所需目标分子的合成路线,受到实际限制。 在这里,我们介绍了LARC,第一个基于LLM的逆行适应规划框架在Constraints下。 LARC通过Agent-as-a-Judge将代理约束评估直接纳入逆行规划过程,使用基于工具推理的代理反馈来指导和约束路线生成。 我们严格评估LARC在3种约束类型的48个受限的逆行规划任务上精心策划。 LARC 达到72.9
自动语音识别(ASR)取得了显着的进步,OpenAI Whisper和NVIDIA Canary等模型在离线转录方面实现了最先进的(SOTA)性能。 然而,由于架构和培训方法的限制,这些模型不是为流式传输(在线或实时)转录而设计的。 我们提出了一种方法,将变压器编码器解码器模型变成低延迟流模型,对未来环境粗心大意。 我们提出了一个分析,解释了为什么将编码器解码器变压器转换为低延迟流模型并不简单。 我们提出的方法通过使用低等级适应(LoRA)和弱对齐数据集对编码器进行微调,将现有的(非因果关系)编码器修改为因果编码器。 然后,我们提出了一个更新的推理机制,该机制利用微调因果编码器和解码器来产生贪婪和波束搜索解码,并且被证明是局部最优的。 关于低延迟块大小(低于300 msec)的实验表明,我们的微调模型在大多数情况下优于现有的非微调流方法,同时使用较低的复杂性。 此外,我们观察到我们的训练过程可以更好地对齐,从而能够提取单词级时间戳的简单方法。 我们发布我们的培训和推理代码以及微调模型,以支持流媒体ASR的进一步研究和开发。
指令视觉分割(IVS)任务需要根据自然语言指令对图像或视频中的对象进行细分。 虽然最近的多模态大型语言模型(MLLM)在IVS上取得了强劲的业绩,但它们的推理成本仍然是一个主要瓶颈,特别是在视频中。 我们经验性地分析MLLM中的视觉令牌采样,并观察子集令牌覆盖率和分割性能之间的强相关性。 这激励我们设计了一种简单而有效的令牌修剪方法,该方法选择紧凑但具有空间代表性的令牌子集以加速推理。 在本文中,我们介绍了一种新颖的IVS视觉令牌修剪方法,称为EVTP-IV,该方法通过集成空间信息来确保更好的覆盖范围,从而建立在k中心的基础上。 我们进一步提供信息理论分析,以支持我们的设计。 标准IVS基准测试的实验表明,我们的方法在视频任务上实现了高达5倍的速度,在图像任务上实现了3.5倍的加速,同时仅使用20个即可保持可比精度。
在本文中,我们探讨了信息在哪里被收集,以及如何在大型语言模型(LLM)中层层中传播。 我们首先研究标点符号的惊人计算重要性,以前的工作已经确定为注意力下沉和记忆辅助工具。 使用基于干预的技术,我们评估GPT-2,DeepSeek和Gemma中跨层标点符号的必要性和充足性(用于保持模型性能)。 我们的结果表明了明显的模型特异性差异:对于GPT-2,标点符号在多层中既必要又足够,而这一点在DeepSeek中则远小于,在Gemma则根本不存在。 超越标点符号,我们询问LLM是否通过形成跨网络重复使用的早期静态摘要来处理输入的不同组件(例如,主题,形容词,标点符号,完整句子),或者模型是否对这些组件跨层的变化保持敏感。 超越标点符号,我们调查LLM是否以不同的方式处理不同的推理规则。 特别是,通过交换干预和层交换实验,我们发现条件语句(如果,然后)和通用量化(对于所有)的处理非常不同。 我们的发现为LLM中标点符号使用和推理的内部机制提供了新的见解,并对可解释性产生了影响。
扩散大型语言模型(dLLM)的最新进展为自然语言生成任务引入了一种有前途的替代自回归(AR)LLM,利用全量注意力和基于去去的解码策略。 然而,由于其巨大的参数规模和很高的资源需求,这些模型在边缘设备上的部署仍然具有挑战性。 虽然训练后量化(PTQ)已成为一种广泛采用的压缩AR LLM的技术,但其对dLLM的适用性在很大程度上仍未被探索。 在这项工作中,我们提出了关于量化基于扩散的语言模型的第一个系统研究。 我们首先确定激活异常值的存在,其特征是异常大的激活值,主导动态范围。 这些异常值对低位量化构成了关键挑战,因为它们很难为大多数值保持精度。 更重要的是,我们实施最先进的PTQ方法,并在多种任务类型和模型变体中进行全面的评估。 我们的分析按四个关键维度进行结构:比特带宽、量化方法、任务类别和模型类型。 通过这种多视角评估,我们提供了不同配置下dLLM量化行为的实用见解。 我们希望我们的研究结果为未来的高效dLLM部署研究奠定基础。 所有代码和实验设置都将发布以支持社区。
创建数据报告是一项劳动密集型任务,涉及迭代数据探索、洞察力提取和叙事构建。 一个关键的挑战在于将分析逻辑从定义目标和转换数据到识别和传达见解。 手动编写这种逻辑在认知上可能要求很高。 虽然经验丰富的分析师经常重复使用过去项目的脚本,但找到新数据集的完美匹配是罕见的。 即使在线提供类似的分析,它们通常也只共享结果或可视化,而不是底层代码,这使得重用变得困难。 为了解决这个问题,我们介绍了ReSpark,一个利用大型语言模型(LLM)从现有报告中逆向工程分析逻辑的系统,并将其适应新的数据集。 通过生成分析步骤草案,ReSpark为用户提供了一个温暖的开始。 它还支持交互式改进,允许用户检查中间输出,插入目标并修改内容。 我们通过比较和用户研究来评估ReSpark,证明它在降低生成数据报告的障碍方面的有效性,而不依赖于现有的分析代码。
大型语言模型(LLM)已经证明了非凡的能力,但它们的输出有时可能不可靠或事实上不正确。 为了解决这个问题,我们引入了Self Logits Evolution Decoding(SLED),这是一种新颖的解码框架,无需依赖外部知识库或需要进一步微调即可增强LLM的真实性。 从优化的角度来看,我们的SLED框架利用LLM中嵌入的潜在知识,将来自最终层的输出日志与早期层的输出日志进行对比。 然后,它使用近似梯度方法,使潜在知识能够指导输出的自我精炼,从而有效地提高事实的准确性。 在各种模型家族(Gemma,Qwen,Mixtral,gpt-oss)和秤(从1B到45B)的既定基准上进行了广泛的实验,包括更先进的架构配置,如专家(MoE)的混合物。 我们的评估涵盖了各种各样的任务,结果表明,与现有的解码方法相比,SLED始终如一地提高了事实的准确性,同时保持了自然语言的流畅性和可忽略不计的开销。 此外,它可以与其他解码方法灵活结合,以进一步提高其性能。
在本文中,我们提出了RAG-Boost(ST-ShinozakiLab任务I系统),该系统增强了基于MLM的基于LLM的基线ASR系统(任务I),并具有检索增强生成(RAG)模块。 每个部分ASR假设查询音频文本对和域项的矢量存储,检索的结果与实时ASR假设融合,以修复识别错误。 融合的假设传递给LLM,产生更好的反应。
南乌兹别克(uzs)是阿富汗约500万人使用的突厥语种,与北乌兹别克(uzn)在语音学,词汇学和正交法方面有很大不同。 尽管发言者人数众多,但南乌兹别克在自然语言处理方面的代表性不足。 我们为南乌兹别克机器翻译提供了新的资源,包括997句FLORES + dev集,39,994个来自字典,文学和网络源的平行句子,以及一个微调的NLLB-200模型(lutfiy)。 我们还提出了一种后处理方法,用于恢复阿拉伯脚本半空间字符,从而改进了形态边界的处理。 所有数据集、模型和工具都公开发布,以支持未来在亚兹别克南部和其他低资源语言方面的工作。
基于扩散的大型语言模型(dLLM)通过将解码作为去噪过程来并行文本生成,但受到高计算开销的影响,因为它们预测每个步骤的所有未来后缀令牌,同时只保留一小部分。 我们提出了Diffusion Scratchpad(DPad),这是一种无训练的方法,它限制了对附近一小套后缀令牌的关注,保留了保真度,同时消除了冗余。 DPad集成了两种策略:(i)一个滑动窗口,它保持一个固定长度的后缀窗口,以及(ii)距离衰变辍学,在注意力计算之前,它确定性地删除远处的后缀令牌。 这种简单的设计与现有的优化(如前缀缓存)兼容,并且只需几行代码即可实现。 对LLaDA-1.5和Dream模型的多个基准进行的全面评估表明,DPad在香草dLLM上提供高达61.4倍的加速,同时保持可比的准确性,突出了其高效和可扩展的长序列推断的潜力。 我们的代码可在https://github.com/Crys-Chen/DPad。
临床总结在医疗保健中至关重要,因为它将复杂的医疗数据提炼成可消化的信息,增强患者的理解和护理管理。 大型语言模型(LLM)由于其先进的自然语言理解能力,在自动化和提高这种总结的准确性方面显示出巨大的潜力。 这些模型在总结医学/临床文本的背景下特别适用,其中精确和简洁的信息传输至关重要。 在本文中,我们调查了开源LLM在从出院报告中提取关键事件的有效性,包括录取原因,主要的住院事件和关键的后续行动。 此外,我们还在这些模型产生的摘要中评估各种类型的幻觉的患病率。 检测幻觉至关重要,因为它直接影响信息的可靠性,可能影响患者的护理和治疗结果。 我们进行全面的模拟,以严格评估这些模型的性能,进一步探索临床总结中提取内容的准确性和保真度。 我们的结果表明,虽然LLM(例如Qwen2.5和DeepSeek-v2)在捕获入院原因和住院事件方面表现相当不错,但在确定后续建议时,它们通常不太一致,突出了利用LLM进行全面总结的更广泛挑战。
假设 Alice 有分布 P,Bob 有分布 Q。 Alice希望绘制一个样本a∼P和Bob一个样本b∼Q,这样a=b的概率尽可能高。 众所周知,通过从分布之间的最优耦合中采样,Alice和Bob可以实现[a = b] = 1 - D_TV(P,Q),其中D_TV(P,Q)是P和Q之间的总变异距离。 如果爱丽丝和鲍勃必须解决同样的问题而不沟通呢? 也许令人惊讶的是,通过访问公共随机性,他们仍然可以使用基于加权MinHash算法的简单协议实现[a = b] ≥1 - D_TV(P),Q)/1 + D_TV(P,Q)≥1-2D_TV(P,Q)。 在最坏的情况下,这种约束被证明是最佳的[Bavarian et al.,2020]。 在这项工作中,我们重新审视了无通信耦合问题。 我们提供[Bavarian et al., 2020]最优结果的更简单的证明。 我们表明,虽然加权MinHash的最坏情况成功概率无法改善,但基于Gumbel采样的同样简单的协议提供了Pareto改进:对于每对分布P,Q,Gumbel采样实现与加权MinHash相等或更高的值[a = b]。 重要的是,这种改进转化为实践。 我们展示了将无通信耦合应用于推测解码,这是加速自动回归大型语言模型的最近方法[Leviathan,Kalman,Matias,ICML 2023]。 我们表明,无通信协议可用于构造方案,其输出具有理想的属性,即给定固定的随机种子,无论什么起草者用于推测。 在语言生成任务的实验中,Gumbel采样优于加权MinHash。 代码可查阅https://github.com/majid-daliri/DISD。
随着大型语言模型(LLM)越来越多地部署在决策关键领域,因此确保其信心估计忠实地符合其实际正确性变得至关重要。 现有的校准方法主要集中在临时调整或辅助模型培训上;然而,其中许多方法需要额外的监督或参数更新。 在这项工作中,我们提出了一个新的基于提示的校准框架,灵感来自于Credence校准游戏。 我们的方法建立了一个结构化的交互循环,其中LLM根据预测的信心与正确性的一致性接收反馈。 通过反馈驱动的提示和先前性能的自然语言摘要,我们的框架动态改进了模型校准。 跨模型和游戏配置的广泛实验证明了评估指标的一致改进。 我们的研究结果强调了基于游戏的提示作为LLM校准的有效策略的潜力。 代码和数据可查阅https://anonymous.4open.science/r/LLM-Calibration/。
神经手语制作(SLP)的主要挑战之一是符号的高在类内可变性,由训练数据中的符号形态和风格多样性产生。 为了提高这种变化的鲁棒性,我们提出了对标准渐进式变压器(PT)架构的两项增强(Saunders et al., 2020)。 首先,我们在四边空间使用骨旋转进行编码姿势,并以大地测量损失进行训练,以提高角关节运动的准确性和清晰度。 其次,我们引入了一个对比性损失,通过语义相似性对结构解码器嵌入,使用光泽重叠或基于SBERT的句子相似性,旨在过滤掉不传达相关语义信息的解剖学和文体特征。 在Phoenix14T数据集上,仅反差损失就产生了16
合成数据生成最近已成为一种有前途的方法,用于增强大型语言模型(LLM)的能力,而无需昂贵的人类注释。 然而,现有方法通常生成可能低质量或设计的数据。 在本文中,我们介绍了Source2Synth,这是一种基于真实世界数据源的合成数据生成和策划的可扩展方法。 Source2Synth作为输入一个自定义数据源,并生成具有中间推理步骤的合成数据示例。 我们的方法通过基于其可响应性丢弃低质量的一代来提高数据集质量。 我们通过将其应用于利用两种不同类型的数据的两个任务来展示这种方法的普遍性:多跳问题回答(MHQA),我们利用文档测试复杂的推理能力,以及表格问题回答(TQA),我们测试工具使用利用表格。 我们的方法将性能提高 25.51
多模态大语言模型(MLLM)极大地推进了研究领域,并提供了强大的视觉语言理解能力。 然而,这些模型往往从他们的训练数据中继承了根深蒂固的社会偏见,导致对种族和性别等属性的不舒服的反应。 本文通过i)引入具有多个社会概念(CMSC)的综合反事实数据集来解决MLLM中的社会偏见问题,该数据集通过提供18个多样化和平衡的社会概念来补充现有数据集;ii)提出了反固性偏差(CSD)策略,通过利用普遍存在的刻板印象的对立面来缓解MLLM中的社会偏见。 CSD既集成了一种新的偏置感知数据采样方法,也集成了损失调整方法,使模型能够有效地减少偏差。 我们用四种流行的MLLM架构进行广泛的实验。 结果表明,与现有竞争方法相比,CMSC数据集和CSD策略的优势在减少社会偏见方面的优势,同时不影响一般多模态推理基准的整体性能。
人工智能和机器人技术的快速发展可能会导致深刻的社会变革,因为人类和机器人开始在共享社区中共存,带来了机遇和挑战。 为了探索这一未来,我们展示了虚拟社区 - 一个面向人类,机器人和社会的开放世界平台,该平台建立在通用的物理引擎上,并以现实世界的3D场景为基础。 通过虚拟社区,我们的目标是大规模研究体现的社会智能:1)机器人如何智能合作或竞争;2)人类如何发展社会关系和建立社区;3)更重要的是,智能机器人和人类如何在开放的世界中共存。 为了支持这些,虚拟社区功能:1)一个开源的多智能物理模拟器,支持机器人,人类及其在社会中的互动; 2)一个大规模的,现实世界一致的社区生成管道,包括广阔的室外空间,多样化的室内场景,以及具有丰富角色和外观的接地代理社区。 利用虚拟社区,我们提出了两个新的挑战。 社区规划挑战评估开放环境中的多代理推理和规划能力,例如合作帮助代理进行日常活动并有效地连接其他代理。 社区机器人挑战赛需要多个异构机器人协作解决复杂的开放世界任务。 我们评估这些任务的各种基线,并展示高层开放世界任务规划和低级别合作控制方面的挑战。 我们希望虚拟社区能够解锁对开放世界环境中人类与机器人共存的进一步研究。
通过长思想链(CoT)扩展推理在大型语言模型(LLM)中释放了令人印象深刻的推理能力,但推理过程几乎完全以英语为中心。 我们构建了两个流行的英语推理数据集的翻译版本,微调Qwen 2.5(7B)和Qwen 3(8B)模型,并提出了针对法语,日本,拉脱维亚和斯瓦希里语的长CoT生成的系统研究。 我们的实验揭示了三个关键发现。 首先,使用英语作为枢轴语言的功效因语言而异:它对法语没有好处,当用作日语和拉脱维亚语的推理语言时,它提高了性能,并且对于斯瓦希里语来说是不够的,因为任务理解和推理都很差。 其次,Qwen 3中广泛的多语言预训练缩小,但并不能消除跨语言性能差距。 只需使用1k痕的轻量微调仍然可以在斯瓦希里语中提高30%以上的性能。 第三,数据质量与规模权衡取决于语言:小的,精心策划的数据集足以满足英语和法语,而更大但更嘈值的语料库对斯瓦希里语和拉脱维亚语更有效。 这些结果共同阐明了长期CoT何时以及为什么跨语言转移,并提供翻译的数据集,以促进公平的多语言推理研究。
大型语言模型(LLM)已被证明具有一定程度的自我识别能力 - 识别给定文本是否由自己生成的能力。 之前的工作已经证明,这种能力在Pair Presentation Paradigm(PPP)下可靠地表达,其中模型有两个文本,并要求选择它的作者。 然而,在个人陈述范式(IPP)下,性能急剧恶化,其中模型被赋予单一文本来判断作者身份。 虽然已经观察到这种现象,但其根本原因尚未得到系统分析。 在本文中,我们首先复制了现有的发现,以确认LLM在IPP下难以区分自我与其他生成的文本。 然后,我们调查这种失败的原因,并将其归因于一种现象,我们称为隐性领土意识(ITA) - 该模型在表示空间中区分自我和其他文本的潜在能力,该模型在其输出行为中仍未表达。 为了唤醒LLM的ITA,我们提出了认知手术(CoSur),这是一个由四个主要模块组成的新框架:表示提取,领土建设,作者歧视和认知编辑。 实验结果表明,我们提出的方法提高了三种不同LLM在IPP情景中的性能,实现了83.25的平均精度
我们提出了一个低计算的非生成系统,用于实施面试式会话代理,可用于通过受控交互和定量分析促进定性数据收集。 用例包括跟踪态度形成或行为变化的应用程序,其中需要控制或标准化对话流。 我们展示了如何通过在线管理面板轻松调整我们的系统,以创建新的面试,使该工具无需编码即可访问。 两个案例研究作为示例应用,一个是关于COVID-19的Expressive Interviewing系统,另一个是关于调查公众对新兴神经技术的半结构化访谈。 我们的代码是开源的,允许其他人从我们的工作中构建,并为其他功能开发扩展。
大型语言模型(LLM)表现出显着的类比学习能力,称为上下文学习(ICL)。 然而,最近的研究揭示了这种能力的局限性。 在本文中,我们研究了涉及一阶量词的任务(如所有和部分)以及具有线性函数的ICL上的这些限制。 我们确定Softmax,注意力机制中的评分函数,作为这些约束因素的促成因素。 为了解决这个问题,我们提出了缩放签名平均(SSA),这是Softmax的新替代品。 经验结果表明,SSA极大地提高了我们目标任务的性能。 此外,我们使用SSA评估仅编码器和解码器的变压器模型,证明它们在各种语言探测任务中匹配或超过基于Softmax的对应物。
模型上下文协议已成为将大型语言模型与外部数据源和工具连接起来的变革标准,迅速在主要人工智能提供商和开发平台上获得采用。 然而,现有的基准过于简单化,无法捕捉真正的应用挑战,如长视推理和大型不熟悉的工具空间。 为了解决这一关键差距,我们引入了MCP-Universe,这是第一个旨在通过与现实世界的MCP服务器交互来评估现实和硬任务中的LLM的综合基准。 我们的基准包括6个核心领域,涵盖11个不同的MCP服务器:位置导航,存储库管理,财务分析,3D设计,浏览器自动化和Web搜索。 为了确保严格的评估,我们实施基于执行的评估器,包括代理格式合规性的格式评估器,用于时间不变内容匹配的静态评估器,以及自动检索时间敏感任务的实时地面真实情况的动态评估器。 通过对领先的LLM的广泛评估,我们发现甚至SOTA型号如GPT-5(43.72)
在边缘硬件上部署大型语言模型(LLM)需要积极的,快速感知的动态修剪,以减少计算而不会降低质量。 基于静态或预测器的方案要么锁定单个色差模式,要么产生额外的运行时开销,最近的零拍摄方法依赖于单个提示的统计在短提示和/或长生成场景中失败。 我们介绍了A / I-GLASS:基于激活和Impact的基于全局局部神经重要性聚合,用于前馈网络SparSification,两种无训练方法,使用快速局部和模型内元全局神经元统计的等级聚合来动态选择FFN单元。 跨多个LLM和基准的实证结果表明,GLASS明显优于以前的无训练方法,特别是在具有挑战性的长形式生成场景中,而不依赖于辅助预测器或添加任何推理开销。