在关于生成式AI的版权诉讼中,原告和被告经常对大型语言模型(LLM)在多大程度上记住原告受保护的表达提出反对。 利用对抗性ML和版权法,我们表明这些两极分化的立场大大简化了记忆和版权之间的关系。 为此,我们利用最近的概率提取技术,从13个开放权重的LLM中提取Books3数据集。 通过许多实验,我们表明,从不同的LLM中提取至少一些书籍的很大一部分是可能的。 这是LLM背诵提取文本的证据;这种记忆内容被复制在模型参数内。 但结果很复杂:记忆的程度因模型和书籍而异。 通过我们的具体实验,我们发现最大的LLM不会记住大多数书籍 - 无论是全部或部分。 然而,我们也发现Llama 3.1 70B记忆了一些书,比如《哈利·波特》和《1984》,几乎完全。 我们讨论了为什么我们的结果对版权案件有重大影响,尽管不是明确有利于任何一方的结果。
大型语言模型(LLM)及其多模态扩展(MLLM)的最新进展大大增强了不同任务的机器推理。 然而,这些模型主要依靠纯文本作为表达和结构推理的媒介,即使存在视觉信息。 在这项工作中,我们认为语言可能并不总是最自然或最有效的推理方式,特别是在涉及空间和几何信息的任务中。 以此为动力,我们提出了一种新的范式,视觉规划,它通过纯粹的视觉表示来实现规划,独立于文本。 在这个范式中,规划是通过在视觉领域编码逐步推断的图像序列来执行的,类似于人类如何绘制或可视化未来的行动。 我们引入了一个新的强化学习框架,视觉规划通过强化学习(VPRL),由GRPO授权用于训练后大型视觉模型,导致在选择具有代表性的视觉导航任务,FrozenLake,Maze和MiniBehavior的规划方面有了实质性的改进。 我们的视觉规划范式优于所有其他在文本空间中进行推理的规划变体。 我们的结果将视觉规划确立为基于语言的推理的可行和有希望的替代方案,为受益于直观,基于图像的推理的任务开辟了新的途径。
推理增强的大型语言模型(RLLMs),无论是为推理而明确训练,还是通过思维链(CoT)提示,在许多复杂的推理任务上都取得了最先进的性能。 然而,我们发现了一个令人惊讶和以前被忽视的现象:明确的CoT推理可以显着降低指令遵循的准确性。 在两个基准上评估15个模型:IFEval(具有简单的,可规则验证的约束)和ComplexBench(具有复杂的组合约束),当应用CoT提示时,我们始终如一地观察到性能下降。 通过大规模的案例研究和基于注意力的分析,我们确定了推理帮助(例如格式化或词汇精度)或伤害(例如,忽略简单约束或引入不必要的内容)的常见模式。 我们提出了一个度量,约束注意力,在生成过程中量化模型焦点,并表明CoT推理通常会转移注意力,远离与指令相关的令牌。 为了减轻这些影响,我们介绍并评估了四种策略:上下文学习、自我反思、自我选择性推理和分类器选择性推理。 我们的结果表明,选择性推理策略,特别是分类器选择性推理,可以大大恢复失去的性能。 据我们所知,这是首次系统地揭露教学遵循中的推理引起的失败并提供实际缓解策略的工作。
大型语言模型(LLMs),如ChatGPT,促使学术界担心它们对学术写作的影响。 现有的研究主要通过定量方法,如单词频率统计和基于概率的分析,研究了LLM在学术写作中的用法。 然而,很少有人系统地研究LLM对学术写作的语言特征的潜在影响。 为了解决这一差距,我们对过去十年从arXiv数据集发表的823,798个摘要进行了大规模分析。 通过对LLM首选词的频率,词汇复杂性,句法复杂性,凝聚力,可读性和情感等特征的语言分析,结果表明LLM首选单词在摘要中的比例显着增加,揭示了LLM对学术写作的广泛影响。 此外,我们观察到抽象中的词汇复杂性和情绪增加,但语法复杂性的减少,这表明LLM引入了更多的新词汇并简化了句子结构。 然而,凝聚力和可读性的显著下降表明,摘要的连接词较少,越来越难以阅读。 此外,我们的分析表明,英语水平较弱的学者更有可能使用LLM进行学术写作,并专注于提高摘要的整体逻辑和流畅性。 最后,在学科层面,我们发现计算机科学的学者在写作风格上表现出更明显的变化,而数学的变化是最小的。
分析关系抽取 (RE) 模型的一般化能力对于评估它们是学习了稳健的关系模式还是依赖于虚假相关性至关重要。我们的跨数据集实验发现,即使在相似领域内,RE 模型也难以处理未见过的数据。值得注意的是,更高的数据集内性能并不意味着更好的迁移能力,反而常常预示着过拟合到数据集特定的伪影。我们的结果还表明,数据质量而非词汇相似性是稳健迁移的关键,最佳的适应策略选择取决于可用数据的质量:虽然使用高质量数据进行微调可以获得最佳的跨数据集性能,但对于噪声数据,少样本上下文学习 (ICL) 效果更好。然而,即使在这些情况下,零样本基线有时也能优于所有跨数据集结果。RE 基准测试中的结构性问题,例如每样本单关系约束和非标准化负类定义,进一步阻碍了模型的可迁移性。
分析关系抽取 (RE) 模型的一般化能力对于评估它们是学习了稳健的关系模式还是依赖于虚假相关性至关重要。我们的跨数据集实验发现,即使在相似领域内,RE 模型也难以处理未见过的数据。值得注意的是,更高的数据集内性能并不意味着更好的迁移能力,反而常常预示着过拟合到数据集特定的伪影。我们的结果还表明,数据质量而非词汇相似性是稳健迁移的关键,最佳的适应策略选择取决于可用数据的质量:虽然使用高质量数据进行微调可以获得最佳的跨数据集性能,但对于噪声数据,少样本上下文学习 (ICL) 效果更好。然而,即使在这些情况下,零样本基线有时也能优于所有跨数据集结果。RE 基准测试中的结构性问题,例如每样本单关系约束和非标准化负类定义,进一步阻碍了模型的可迁移性。
大规模Transformer语言模型(LLM),仅通过在网络规模数据上进行下一个token预测进行训练,在看到少量示例后即可解决各种任务。这种能力背后的机制,即上下文学习(ICL),仍然存在争议且理解不足。一些研究认为这仅仅是记忆大量数据的结果,而另一些研究则认为这反映了语言模型中一种基本的、符号化的算法发展。在这项工作中,我们引入了一套调查任务和一种新方法,通过利用完整的Pythia扩展套件,包括捕获越来越多训练数据的中间检查点,来系统地研究ICL。通过仔细研究下游任务上的ICL性能,并同时对残差流子空间进行机械分析,我们证明ICL超越了对训练语料库的简单“记忆”,但并未实现独立符号算法的实现。我们的结果还阐明了ICL的几个方面,包括训练动态、模型能力和机械可解释性的要素。总而言之,我们的工作增进了对ICL及其影响的理解,为模型开发者提供了潜在改进的见解,并为AI安全从业者提供了制定更完善指南的基础。
奖励模型(RMs)在将大型语言模型(LLMs)与人类价值观对齐方面发挥着关键作用。然而,人类反馈中的噪声偏好会导致奖励泛化错误——一种奖励模型学习虚假相关性或过度拟合噪声偏好的现象,这给RMs的泛化带来了重要挑战。本文系统地分析了偏好对的特征,旨在识别噪声偏好与奖励建模中人类对齐偏好的区别。我们的分析表明,噪声偏好对于RMs来说难以拟合,因为它们会导致剧烈的训练波动和不规则的梯度更新。这些独特的动态表明了识别和排除此类噪声偏好的可行性。经验研究表明,使用在完整偏好数据集(包括大量噪声)上训练的奖励模型优化的策略LLM,其性能低于仅在高质量偏好子集上训练的策略LLM。为了应对这一挑战,我们提出了一种在线协作奖励建模(CRM)框架,通过同行评审和课程学习来实现鲁棒的偏好学习。特别是,CRM维护两个RMs,通过同行评审彼此的数据选择来协作过滤潜在的噪声偏好。课程学习同步了两个模型的能力,减轻了过度差异,以促进同行评审的效用。大量的实验表明,CRM显著增强了RM的泛化能力,在极端40%噪声下,RewardBench上的提升高达9.94分。此外,CRM可以无缝扩展到隐式奖励对齐方法,提供一种鲁棒且通用的对齐策略。
模型合并已成为增强大型语言模型的一种有前途的技术,尽管它在大规模预训练中的应用仍然相对未开发。 在本文中,我们介绍了在训练前过程中模型合并技术的全面调查。 通过对密集和混合专家(MoE)架构的广泛实验,从数百万到超过1000亿个参数,我们证明,将训练有恒定学习率的检查点合并不仅实现了显着的性能改进,而且还能够准确预测退火行为。 这些改进既能提高模型开发效率,又大大降低培训成本。 我们对合并策略和超参数的详细消融研究为潜在机制提供了新的见解,同时发现了新的应用。 通过全面的实验分析,我们提供了开源社区实用预培训指南,用于有效的模型合并。
大型语言模型(LLM)在广泛的编程任务中表现出强大的性能,但其代码优化的潜力仍然不足。 这项工作调查了LLM是否可以优化汇编代码的性能,其中对执行的细粒度控制可以实现难以用高级语言表达的改进。 我们提出了一个强化学习框架,使用近端策略优化(PPO)训练LLM,该框架由奖励函数引导,该函数既考虑功能正确性,又通过测试用例验证,以及相对于行业标准编译器gcc-O3的执行性能。 为了支持这项研究,我们引入了8,072个现实世界计划的基准。 我们的模型Qwen2.5-Coder-7B-PPO实现了96.0基线,优于所有其他评估的20个模型,包括Claude-3.7-sonnet。 这些结果表明,强化学习可以释放LLM的潜力,作为汇编代码性能的有效优化器。
强化学习(RL)在提高大型语言模型(LLM)的推理能力方面取得了显著成功。 最广泛使用的RL方法之一是组相对策略优化(GRPO)<cit.>,以其内存效率和训练DeepSeek-R1成功而闻名。 然而,当一组中所有采样响应不正确(称为全负样本组)时,GRPO会停滞不前,因为它未能更新策略,阻碍了学习进度。 本文的贡献是双重的。 首先,我们提出了一个简单而有效的框架,使用AI反馈在GRPO中引入全负样本组中的响应多样性。 我们还通过程式化模型提供理论分析,展示这种多样化如何改善学习动态。 其次,我们通过经验验证了我们的方法,展示了离线和在线学习环境中各种模型尺寸(7B,14B,32B)的改进性能,包括10个基准测试,包括基础和蒸馏变体。 我们的发现强调,从所有负样本组学习不仅可行,而且有益,从<cit.>推进最近的见解。
在本文中,我们提出了一种新的学习范式,称为Chain-of-Model(CoM),它把因果关系融入到每一层的隐藏状态中,作为链式样式,从而在模型训练和部署中引入很大的扩展效率和推理灵活性。 我们引入了“代表链”(CoR)的概念,该概念将每个层的隐藏状态作为隐藏维度级别的多个子表示(即链)的组合。 在每个图层中,来自输出表示的每个链只能查看输入表示中其所有前链。 因此,基于CoM框架的模型可以通过增加基于先前模型(即链)的链来逐步扩大模型大小,并通过使用不同的链号提供不同尺寸的多个子模型进行弹性推理。 基于这一原则,我们设计了Chain-of-Language-Model(CoLM),将CoM的想法融入到变形金刚架构的每一层中。 基于CoLM,我们通过引入KV共享机制进一步引入了CoLM-Air,该机制计算第一个链中的所有键和值,然后跨所有链共享。 这种设计展示了额外的可扩展性,例如实现无缝的LM切换,预填充加速等。 实验结果表明,我们的CoLM系列可以实现与标准Transformer的可比性能,同时实现更大的灵活性,例如渐进式扩展以提高训练效率,并为弹性推理提供多种不同的模型尺寸,为构建语言模型铺平了道路。 我们的代码将在未来发布:https://github.com/microsoft/CoLM。
确保大型语言模型(LLM)的安全性对于负责任的部署至关重要,但现有的评估通常优先考虑性能而不是识别故障模式。 我们引入了Phare,一个多语言诊断框架,用于在三个关键维度上探索和评估LLM行为:幻觉和可靠性,社会偏见和有害内容生成。 我们对17个最先进的LLM的评估揭示了所有安全维度的系统漏洞模式,包括系统,快速灵敏度和刻板印象再现。 通过突出这些特定的故障模式,而不是简单的排名模型,Pare为研究人员和从业者提供了可操作的见解,以构建更强大,对齐和值得信赖的语言系统。
大型语言模型(LLM)的最新进展显着改善了文本到语音(TTS)系统,增强了对语音风格,自然性和情感表达的控制,这使TTS系统更接近人类水平的性能。 虽然平均意见评分(MOS)仍然是TTS系统评估的标准,但它受到主观性,环境不一致和有限的可解释性的影响。 现有的评估数据集也缺乏多维设计,往往忽略了说话风格、语境多样性和陷阱话语等因素,这在中国TTS评价中尤为明显。 为了应对这些挑战,我们引入了音频图灵测试(ATT),这是一个多维的中文语料库数据集ATT-Corpus与一个简单的图灵测试启发的评估协议。 ATT没有依赖复杂的MOS刻度或直接的模型比较,而是要求评估人员判断声音是否听起来是人类的声音。 这种简化降低了评级偏差,提高了评估稳健性。 为了进一步支持快速模型开发,我们还将Qwen2-Audio-Instruct与人工判断数据作为自动评估的自动ATT进行微调。 实验结果表明,ATT通过其多维设计有效地区分了特定能力维度的模型。 Auto-ATT还证明了与人类评估的紧密配合,证实了其作为快速可靠的评估工具的价值。 白盒 ATT-Corpus 和 Auto-ATT 可以在 ATT Hugging Face Collection (https : / /huggingface.co/collections/meituan/audio-turing-test-6824463203648faeaf38a4)中找到。
尽管它们能够理解化学知识并准确生成顺序表示,但大型语言模型(LLM)在提出具有类似药物特性的新型分子的能力方面仍然有限。 此外,LLM提出的分子在实验室中制造往往具有挑战性。 为了更有效地发现功能性小分子,LLM需要学习分子语言。 然而,LLM目前受到来自原子的分子编码的限制。 在本文中,我们认为,就像将文本标记化为(子)词令牌而不是字符一样,分子应该在功能构建块的水平上进行分解和重新组装,即分子部分,这些分子部分带来了独特的功能,并作为现实世界自动化实验室合成的有效构建块。 这激励我们提出mCLM,一种模块化的化学语言模型,将分子标记到构建模块中,并学习函数和分子构建块的自然语言描述的双语语言模型。 通过对这些功能构建模块进行推理,mCLM保证由于最近基于块的化学进展而产生可合成的分子,同时还以原则性的方式改善分子的功能。 在430种FDA批准的药物的实验中,我们发现mCLM能够显着改善6个化学功能中的5个,这对于确定药物潜力至关重要。 更重要的是,mCLM可以在多个迭代中推理多个功能并改善FDA拒绝的药物(“堕落的天使”),以大大提高其缺点。
现实世界中的人往往对未来回报有模糊的了解,对此量化是不可行的或可取的。 我们认为,语言具有不同的传达模糊信息的能力,在主观期望中起着重要但鲜为人知的角色。 从经验上讲,我们发现在他们的报告中,分析师在语言表达中包括有用的信息,而不是数字预测。 具体而言,分析师报告的文本语调具有预测误差和随后数字预测修订的预测能力,当分析师的语言模糊时,当不确定性更高时,当分析师更忙时,这种关系变得更加牢固。 总的来说,我们的理论和证据表明,一些有用的信息是模糊的,只能通过语言传达。
我们证明,有发展顺序的课程显着提高了小语言模型(SLM)的推理透明度和样本效率。 具体来说,我们训练Cognivolve,一个124 M参数GPT-2模型,在一个四级教学大纲上,从词法匹配上升到多步符号推理,然后评估它,没有任何任务特定的微调。 Cognivolve在单相基线的一半优化步骤中达到目标精度,激活更梯度显着的推理头,并将这些头部转移到更深的层,产生更高的熵注意力,平衡局部和远程上下文。 附加或优化器重置相同的课程无法重现这些收益,证实进展 - 而不是额外的计算 - 推动了效果。 我们还确定了开放的挑战:最终答案的成功仍然落后于常规运行约30,我们的突出性调查在最困难的阶段检测到口头知识头,为混合阶段微调和探针扩展指明方向。
优化大型语言模型(LLM)性能需要精心设计的提示,但手动提示工程是劳动密集型的,而且通常无效。 自动提示优化技术解决了这一挑战,但大多数依赖于随机选择的评估子集,这些子集无法代表完整的数据集,导致不可靠的评价和次优提示。 专为 LLM 基准测试设计的现有核心集选择方法不适合快速优化,因为群集类似样本的挑战、高数据收集成本以及新或私有数据集无法提供性能数据。 为了克服这些问题,我们提出了IPOMP,这是一种迭代评估数据选择,使用实时模型性能进行有效的快速优化。 IPOMP是一种两阶段的方法,使用语义聚类和边界分析选择具有代表性和多样化的样本,然后使用实时模型性能数据进行迭代改进,以取代冗余样本。 对BIG-bench数据集的评估表明,IPOMP将有效性提高了1.6,至少57以下1个性能引导的改进方法可以普遍应用,以增强现有的核心集选择方法。
及时注入仍然是大型语言模型的主要安全风险。 然而,现有护栏模型在上下文感知设置中的功效仍然未开发,因为它们通常依赖于静态攻击基准。 此外,他们也有过度防御倾向。 我们引入了CAPTURE,这是一个新的上下文感知基准,以最小的领域示例评估攻击检测和过度防御倾向。 我们的实验表明,目前的提示注射护栏模型在对抗性病例中遭受高假阴性和良性场景中的过度假阳性,突出了关键的局限性。
大型语言模型(LLM)在各个部门的广泛整合突出表明,需要实证研究来理解其偏见,思维模式和社会影响,以确保道德和有效利用。 在这项研究中,我们提出了评估LLM的新框架,重点是通过定量分析436个二元选择问题来揭示他们的意识形态偏见,其中许多问题没有明确的答案。 通过将我们的框架应用于ChatGPT和双子座,研究结果表明,虽然LLM通常在许多主题上保持一致的意见,但它们的意识形态因模型和语言而异。 值得注意的是,ChatGPT表现出改变他们的意见以配合提问者的意见的倾向。 这两种模式也表现出有问题的偏见,不道德或不公平的主张,这可能会产生负面的社会影响。 这些结果强调了在评估LLM时解决意识形态和道德考虑的重要性。 拟议的框架提供了一种灵活的定量方法来评估LLM行为,为开发更社交一致的人工智能系统提供了有价值的见解。
检索增强生成(RAG)通过集成外部知识,通过增强事实正确性和查询特定的上下文化来响应大型语言模型(LLM)的静态知识限制。 然而,它也引入了新的攻击表面,如语料库中毒。 现有的防御方法大多依赖于模型的内部知识,这与RAG的设计理念相冲突。 为了弥补差距,EcoSafeRAG使用句子级处理和诱饵引导上下文多样性检测来识别恶意内容,通过分析候选文档的上下文多样性而不依赖于LLM内部知识。 实验表明,EcoSafeRAG通过即插即用部署提供最先进的安全性,同时提高清洁场景RAG性能,同时保持实际运营成本(相对于Vanilla RAG相对1.2倍的延迟,48%-80%的代币减少)。
在线虚假信息的快速传播带来了全球挑战,机器学习作为一种潜在的解决方案被广泛探索。 然而,多语言设置和低资源语言在这一领域往往被忽视。 为了解决这一差距,我们在SemEval 2025上进行了一项多语言索赔检索的共享任务,旨在识别事实核查的索赔,这些索赔与不同语言的社交媒体帖子中表达的新索赔相匹配。 任务包括两个子轨道:(1)单语轨道,其中社交帖子和索赔是同一种语言的,(2)一个跨语言轨道,其中社交帖子和索赔可能不同语言。 共有179名参与者报名参加这项任务,为52份测试提交材料。 31个团队中有23个提交了系统文件。 在本文中,我们报告了两个子轨道中性能最好的系统以及最常见和最有效的方法。 这项共享任务及其数据集和参与系统为多语言索赔检索和自动事实检查提供了宝贵的见解,支持该领域未来的研究。
Tiny QA Benchmark++(TQB++)推出了一个超轻量级的多语言烟雾测试套件,旨在为大语言模型(LLM)管道提供单元测试风格的安全网数据集,该数据集以最小的成本在几秒钟内运行。 诞生于紧密的反馈循环需求,构建Comet Opik提示优化SDK,在重量级基准测试中等待打破了开发人员的流量。 TQB++将52项英文黄金套装(小于20 kB)与基于提供商无关的LiteLLM构建的微小合成数据生成器pypi包耦合。 生成器允许从业者以任何语言,领域或难度铸造自己的小包装,而十个现成的包装已经涵盖了阿拉伯语,中文,法语,德语,日语,韩语,葡萄牙语,俄语,西班牙语和土耳其语。 每个数据集都包含面向OpenAI-Evals、LangChain和标准CI工具的Croissnt元数据和即插即用文件,因此团队可以直接将确定性的微基准放入拉取请求门、提示工程循环和生产仪表板中,而无需触摸GPU预算。 完整的TQB++运行仅为管道延迟增加几秒钟,但在MMLU或BIG-Bench等全尺寸套件完成配置之前,就可靠地标记提示模板错误,令牌化漂移和微调副作用。 整个框架的发布是为了加速整个生成式-AI生态系统的持续、资源效率的质量保证。
大型语言模型(LLM)的快速发展激发了对解决复杂医疗任务的多代理合作的兴趣。 然而,多剂协作方法的实际优势仍然知之甚少。 现有的评估往往缺乏可推广性,未能涵盖反映现实世界临床实践的不同任务,并且经常省略对基于单LLM和既定常规方法的严格比较。 为了解决这一关键差距,我们引入了MedAgentBoard,这是系统评估多代理协作、单LLM和常规方法的综合基准。 MedAgentBoard包括四种不同的医疗任务类别:(1)医疗(视觉)问题回答,(2)分层总结生成,(3)结构化电子健康记录(EHR)预测建模,以及(4)跨文本,医学图像和结构化EHR数据的临床工作流程自动化。 我们广泛的实验揭示了一个微妙的前景:虽然多代理协作在特定场景中展示了优势,例如增强临床工作流程自动化中的任务完整性,但它并没有始终如一地超越先进的单LLM(例如,在文本医疗QA中),或者,关键是专门的常规方法,通常在医疗VQA和基于EHR的预测等任务中保持更好的性能。 MedAgentBoard提供了重要的资源和可操作的见解,强调了选择和开发医学中AI解决方案的针对特定任务,基于证据的方法的必要性。 它强调,必须仔细权衡多剂合作的内在复杂性和开销与实际的业绩收益。 所有代码、数据集、详细提示和实验结果均在https : / /medagentboard.netlify.app / 开源。
大型语言模型(LLM)的稳健性和安全性已成为一个突出的研究领域。 一个值得注意的脆弱性是通过将有害查询翻译成稀有或代表性不足的语言来绕过LLM保障措施,这是一种简单而有效的“越狱”模型的方法。 尽管人们越来越担心,但在多语种情况下保护LLM的研究有限,这突出表明迫切需要加强多语种安全。 在这项工作中,我们研究了不同语言的各种攻击特征之间的相关性,并提出了多语言协作防御(MCD),这是一种新颖的学习方法,可以自动优化连续,软安全提示,以促进LLM的多语言保护。 MCD方法具有三个优势:首先,它有效地提高了多种语言的保障性能。 其次,MCD保持强大的推广能力,同时尽量减少虚假拒绝率。 第三,MCD减轻了LLM训练语料库不平衡造成的语言安全错位。 为了评估MCD的有效性,我们手动构建了常用越狱基准的多语言版本,如MaliciousInstruct和AdvBench,以评估各种保护方法。 此外,我们还以代表性不足(零镜头)语言引入这些数据集,以验证MCD的语言可转移性。 结果表明,MCD在防止多语言越狱尝试方面优于现有方法,同时也表现出强大的语言传输能力。 我们的代码可在https://github.com/HLiang-Lee/MCD。