大型语言模型(LLM)通常通过基准测试数据集进行评估。但有什么理由能让我们根据LLM对一组精心设计问题的回答来推断其真实能力?本文首先引入一个正式框架来解决这个问题。关键在于注意到用于测试LLM的基准(如AP考试)同样被用于测试人类。然而这引发了一个隐含问题:只有当LLM对概念的理解方式与人类误解方式相同时,这些基准才是有效的测试。否则,基准测试的成功只证明了虚假理解现象:这种理解假象源于模型给出的答案与任何人类对概念的解释都不可调和。我们提出了两种量化这种虚假理解现象的方法:一种使用在三个领域专门设计的基准测试,另一种使用能提供其普遍性下限的通用流程。我们发现虚假理解现象在模型、任务和领域中普遍存在。这些失败不仅反映了错误的理解,更揭示了概念表征中更深层的内部不一致性。
视觉语言分割的最新进展显著提高了基础视觉理解。 然而,这些模型经常表现出幻觉,为不基于图像内容的物体制作分割面罩,或者错误地标记不相关的区域。 现有的分割幻觉评估协议主要侧重于标签或文本幻觉,而不操纵视觉环境,限制了它们诊断关键故障的能力。 作为回应,我们介绍了HalnuSegBench,这是第一个专门用于通过反事实视觉推理的镜头评估视觉接地的幻觉的基准。 我们的基准包括1340个反事实实例对的新数据集,这些反事实实例对跨越281个独特的对象类别,以及一组新引入的指标,在视觉连贯的场景编辑下量化幻觉灵敏度。 HalluSegBench与最先进的视觉语言分割模型的实验表明,视觉驱动的幻觉比标签驱动的幻觉更普遍,模型通常持续存在于错误的分割,突出了反事实推理诊断接地保真度的必要性。
我们提出了BayesLoRA,这是一个特定于任务的不确定性量化框架,将MC-Dropout集成到低等级适配器(LoRA)中。 与通用变压器不确定性方法不同,BayesLoRA提供针对下游工作流程量身定制的护栏,使代理商能够在不确定性下进行反省和调节行为。 我们在数学和经验上证明,LoRA适配器在微调分布之外表现出放大的方差,为代理决策提供可靠的信心估计。
综合信息理论(IIT)为解释意识现象提供了一个定量框架,假设意识系统包含通过因果属性集成的元素。 我们将IIT 3.0和4.0(该框架的最新迭代)应用于大语言模型(LLM)表示序列,分析来自现有心智理论(ToM)测试结果的数据。 我们的研究系统地调查了在LLM表示中呈现的ToM测试性能的差异是否可以通过IIT估计值(即Φ^max(IIT 3.0),Φ(IIT 4.0),概念信息(IIT 3.0)和Φ结构(IIT 4.0)来揭示。 此外,我们将这些指标与Span Representations进行比较,独立于任何对意识的估计。 这项额外的努力旨在区分LLM表示空间中潜在的“意识”现象和固有分离。 我们进行全面的实验,检查LLM变压器层的变化和刺激的语言跨度。 我们的研究结果表明,当代基于变形金刚的LLM表示序列缺乏观察到的“意识”现象的统计显著指标,但在空间排列分析下表现出有趣的模式。 附录和守则可作为补充材料查阅:https://doi.org/10.1016/j.nlp.2025.100163。
仅限API访问最先进的LLM的兴起突出表明需要有效的黑箱越狱方法来识别现实世界环境中的模型漏洞。 没有基于梯度优化的原则性目标,大多数现有方法都依赖于遗传算法,这些算法受到初始化和依赖手动策划的提示池的限制。 此外,这些方法需要为每个提示进行单独的优化,无法对模型漏洞进行全面描述。 为了解决这一差距,我们介绍了用于 jAilbreaking 的 VERA: Variational infErence fRMework。 VERA将黑箱越狱提示作为一个变异推理问题,训练一个小攻击者LLM在对抗提示上近似目标LLM的后验。 一旦训练,攻击者可以生成各种,流畅的越狱提示,用于目标查询,而无需重新优化。 实验结果表明,VERA在一系列目标LLM中实现了强劲的性能,突出了对抗性提示生成的概率推断值。
鉴于社交媒体上冲突的兴起,检测有害行为的有效分类模型至关重要。 遵循垃圾垃圾的最大化,机器学习性能在很大程度上取决于训练数据质量。 然而,高质量的标签数据,特别是对于识别冲突行为等细微任务,是有限的,昂贵的,很难获得。 此外,随着社交媒体平台越来越多地限制对研究数据的访问,文本数据增强作为生成训练数据的替代品正在受到关注。 由于大型语言模型(LLM)护栏,增加与冲突相关的数据带来了独特的挑战,这些护栏可以防止产生攻击性内容。 本文介绍了PromptAug,一种基于LLM的创新数据增强方法。 PromptAug实现了2的统计学显着改进,这项工作将PromptAug作为在冲突检测等敏感任务中增加数据的有效方法,提供基于自然语言处理和社会科学方法的独特跨学科评估。
文本到图像检索(TIR)旨在根据文本查询找到相关的图像,但现有方法主要基于全图像标题,缺乏可解释性。 同时,引用表达式分割(RES)可以实现基于自然语言描述的精确对象本地化,但在大型图像集合中应用时计算成本昂贵。 为了弥补这一差距,我们引入了 Mask-aware TIR (MaTIR),这是一项统一 TIR 和 RES 的新任务,需要高效的图像搜索和准确的对象分割。 为了解决这个问题,我们提出了一个两阶段框架,包括分割感知图像检索的第一阶段和多模态大语言模型(MLLM)的重新排名和对象接地的第二阶段。 我们利用 SAM 2 生成对象掩码和 Alpha-CLIP ,首先离线提取区域级嵌入,从而实现有效且可扩展的在线检索。 其次,MLLM用于改进检索排名并生成边界框,这些框与分割面罩相匹配。 我们评估我们在COCO和D^3数据集上的方法,表明检索精度和分割质量比以前的方法显着提高。
政治指南针测试(PCT)或类似问卷已被用于量化LLM的政治倾向。 基于最近考察PCT测试有效性的工作,我们证明标准生成参数的变化对模型的PCT评分没有显著影响。 然而,外部因素,如快速变化和单独和组合的微调会影响相同的。 最后,我们证明,当模型在政治内容比其他数据更高的文本数据集上微调时,PCT分数不会受到差异影响。 这就要求对PCT和类似测试的有效性以及政治倾向在LLM中编码的机制进行彻底调查。
医疗视觉问题解答(MedVQA)通过为基于图像的查询提供上下文丰富的答案,在临床决策中起着至关重要的作用。 虽然视觉语言模型(VLM)被广泛用于这项任务,但它们经常产生事实不正确的答案。 检索增强的生成通过从外部来源提供信息来解决这一挑战,但有可能检索不相关的上下文,这可能会降低VLM的推理能力。 现有方法中引入的重新排序检索通过关注查询-文本对齐来增强检索相关性。 然而,这些方法忽略了视觉或多模态环境,这对于医学诊断尤为重要。 我们建议MOTOR,一种新的多式联运检索和重新排序方法,利用接地字幕和最佳运输。 它基于文本和视觉信息捕获查询和检索上下文之间的底层关系。 因此,我们的方法确定了更多与临床相关的环境,以增加VLM输入。 经验分析和人类专家评估表明,MOTOR在MedVQA数据集上实现了更高的精度,平均超过最先进的方法6.45
这项研究提出了一个模块化的多代理系统,用于使用AI代理对高度结构化的企业业务文档进行自动化审查。 与以前专注于非结构化文本或有限合规性检查的解决方案不同,该框架利用LangChain,CrewAI,TruLens和Guide等现代编排工具,对文档进行逐节评估,以实现准确性,一致性,完整性和清晰度。 专业代理,每个负责离散审查标准,如模板合规性或事实正确性,按要求并行操作或顺序。 评估输出被强制到标准化的、机器可读的模式,支持下游分析和可审计性。 持续监测和与人工审查员的反馈循环,允许迭代系统改进和偏倚缓解。 定量评估表明,AI Agent-as-Judge系统在关键领域接近或超过人类性能:实现99
在当今的数字世界中,随意的用户生成的内容往往包含微妙的线索,可能会无意中暴露敏感的个人属性。 这种风险突出表明,有效的文本匿名化对于保护个人隐私的重要性日益增加。 然而,现有方法要么依赖于刚性替换,要么损坏了公用事业或基于云的LLM,这些LLM成本高昂并带来隐私风险。 为了解决这些问题,我们探索使用本地部署的小规模语言模型(SLM)进行匿名化。 然而,由于高质量的监督有限,培训有效的可持续土地管理仍然具有挑战性。 为了应对这一挑战,我们提出了AgentStealth,一个自我强化的LLM匿名化框架。首先,我们引入了一个通过In-context Contrastive Learning和Adaptive Utility-Aware Control增强的对抗性匿名化工作流程。 其次,我们使用从工作流程中收集的高质量数据对SLM进行监督调整,这些数据包括匿名化和攻击信号。 最后,我们应用在线强化学习,其中模型利用其内部对抗反馈来迭代提高匿名性能。 在两个数据集上的实验表明,我们的方法在匿名化有效性方面优于基线(+12.3)
语义缓存通过存储和重用大型语言模型(LLM)响应显著降低计算成本并提高效率。 然而,现有系统主要依赖于匹配单个查询,缺乏对多转对话上下文的认识,当类似的查询出现在不同的对话设置中时,会导致不正确的缓存命中。 此演示引入了ContextCache,这是一种用于多转对话的上下文感知语义缓存系统。 ContextCache采用两阶段检索架构,首先在当前查询上执行基于矢量的检索,以识别潜在的匹配,然后通过自我关注机制集成当前和历史对话表示,以实现精确的上下文匹配。 对现实世界对话的评估表明,与现有方法相比,ContextCache提高了精度和回忆。 此外,缓存响应的延迟比直接LLM调用低约10倍,从而为LLM会话应用程序显着降低计算成本。
我们介绍了“机制的竞争:语言模型如何处理事实和反事实”(Ortu等人,2024年)的复制研究,该研究调查了事实回忆和反事实背景重复之间的语言模型机制的竞争。 我们的研究成功地再现了他们对事实和反事实信息的定位,注意力在机制竞争中的主导地位以及注意力负责人在处理竞争信息方面的专业化的主要发现。 我们在GPT-2(Radford等人,2019年)和Pythia 6.9B(Biderman等人,2023年)上复制了他们的结果。 我们把工作扩展到三个重要的方向。 首先,我们通过复制Llama 3.1 8B(Grattafiori等人,2024)的实验来探索这些发现对更大模型的可推广性,发现注意力高度专业化大大降低。 其次,我们通过引入变体来调查提示结构的影响,其中我们避免逐字重复反事实语句,或者我们更改前提词,观察反事实令牌的logit明显减少。 最后,我们测试作者对特定域提示的主张的有效性,发现某些类别的提示通过提供事实预测令牌作为句子主题的一部分来扭曲结果。 总的来说,我们发现在Ortu等人中提出了注意力头消融。 (2024)对于在其数据集中代表性不足的域无效,并且有效性根据模型架构,快速结构,域和任务而变化。
现在这种情况下,大型语言模型(LLM)正在确立其作为渗透到社会各个阶层的强大工具的存在。 虽然他们的效用为个人提供了宝贵的支持,但对潜在的滥用有多重担忧。 因此,一些学术努力试图引入水印技术,其特点是在机器生成的文本中包含标记,以促进算法识别。 该研究项目的重点是开发一种检测合成文本的新方法,其首要目标是确保LLM在人工智能驱动的文本生成中的伦理应用。 调查始于复制先前基线研究的结果,从而强调了其对基础生成模型变化的易感性。 随后,我们提出了一种创新的水印方法,并对其进行严格的评估,采用释义生成的文本来评估其稳健性。 与<cit.>水印方法相比,实验结果突出了我们提案的稳健性。
大型语言模型(LLM)表现出类似于赌博心理学中观察到的系统冒险行为,包括过度自信偏见,追逐损失倾向和概率误判。 从行为经济学和前景理论中,我们确定并正式化了这些“类似赌博”的模式,这些模式为高回报输出牺牲准确性,在错误之后表现出不断升级的风险承担,并系统地错误地校准了不确定性。 我们提出了风险意识响应生成(RARG)框架,结合赌博研究的见解,通过风险校准培训,损失厌恶机制和不确定性决策来解决这些行为偏见。 我们的方法引入了基于既定赌博心理学实验的新型评估范式,包括爱荷华州赌博任务的AI调整和概率学习评估。 实验结果表明,类似赌博的行为减少了可测量的减少:过度自信偏差减少了18.7%,追逐损失倾向减少了24.3%,并改进了不同场景的风险校准。 这项工作建立了第一个系统框架,用于理解和缓解人工智能系统中的赌博心理学模式。
监督微调(SFT)被广泛用于将大型语言模型(LLM)与信息提取(IE)任务(如命名实体识别(NER))对齐。 然而,注释这些细粒度的标签和培训特定领域的模型是昂贵的。 现有作品通常在多个领域训练统一模型,但这种方法缺乏适应和可扩展性,因为并非所有训练数据都有利于目标领域和扩展训练模型仍然具有挑战性。 我们提出了SaM框架,该框架在推理时间动态选择和合并专家模型。 具体来说,对于目标域,我们根据(i)与目标域的域相似度和(ii)采样实例的性能,选择针对现有域预先训练的域特定专家。 然后合并专家,创建针对目标域优化的任务特定模型。 通过动态合并有利于目标领域的专家,我们无需额外培训即可提高跨跨领域的推广。 此外,可以方便地添加或删除专家,从而实现极大的可扩展性。 对多个基准进行的广泛实验证明了我们的框架的有效性,它的平均性能优于统一模型10
大型语言模型(LLM)最近已应用于对话系统。 尽管取得了进展,但LLM在知识密集型场景中容易出错。 最近,出现了基于检索增强生成(RAG)和代理的方法,通过从外部知识库(KB)检索的知识增强LLM来提高事实准确性。 这主要是通过提示指令,示例和检索知识的LLM来实现的。 然而,LLM可能难以有效地使用检索到的知识进行响应生成,因为它们没有受过良好的训练,无法针对特定领域进行这种生成。 为了缓解这个问题,我们建议使用基于RAG和基于代理的系统中的LLM进行微调,并结合特定领域的外部知识,称为知识增强微调(KAFT)。 我们的研究基于MobileCS2数据集,这是一个现实生活中的客户服务对话数据集,具有密集的知识交互功能,可以系统地比较基于RAG和基于代理的系统中的提示和KAFT技术。 实验结果表明,KAFT在RAG和代理系统中大大超过了提示,特别是在事实准确性方面。 据我们所知,本文代表了第一个调查KAFT思想的扎实实证工作。
具有大型语言模型(LLM)的多语言生成对于中低资源语言来说往往质量较差。 基于可解释性的见解,我们展示了一个隐含的任务解决->翻译生成管道的存在,模型首先以目标语言无关的方式解决所需的任务,然后将答案概念翻译成预期的目标语言。 我们假设翻译阶段的失败是观察到的最终输出质量低的重要罪魁祸首,并将其正式化为翻译障碍假说。 我们测试了108种语言对的单词翻译任务的这个假设,使用logit镜头来观察中间层中的模型处理。 我们发现,整体失败的很大一部分确实源于翻译失败,或者模型无法将正确解决的中间概念翻译成目标语言。 对于低资源目标语言尤其如此。 我们的成果突出了端到端多语种生成的重要障碍,并为寻求提高LLM多语言性的未来工作提供了指导性见解。
社交媒体的迅速扩张导致仇恨言论明显增加,威胁到个人生活并导致许多仇恨犯罪。 检测仇恨言论带来了几个挑战:方言多样,代码混合频繁,以及社交媒体平台上用户生成内容中拼写错误的单词的流行。 最近仇恨言论检测的进展通常集中在高资源语言。 然而,由于缺乏大规模、高质量的数据集,低资源语言仍然面临重大挑战。 本文探讨了我们如何通过快速工程大型语言模型(LLM)来克服这一限制,该模型专注于低资源孟加拉语。 我们调查了六个提示策略 - 零射击提示,拒绝抑制,奉承分类器,多镜头提示,角色提示,最后我们的创新隐喻提示,以低资源语言有效地检测仇恨言论。 我们开创了这个隐喻,促使它绕过了 LLM 的内置安全机制,这标志着与现有的越狱方法的重大偏离。 我们研究了Llama2-7B模型上的所有六种不同提示策略,并将结果与三种预先训练的单词嵌入 - GloVe,Word2Vec和FastText进行了广泛的比较,用于三种不同的深度学习模型 - 多层感知器(MLP),卷积神经网络(CNN)和双向门循环单元(BiGRU)。 为了证明我们的隐喻在低资源孟加拉语中的有效性,我们还用另一种低资源语言 - 印地语和两种高资源语言 - 英语和德语来评估它。 使用F1评分和环境影响系数(IF)评估所有提示技术的性能,该系数测量CO_2排放,用电量和计算时间。
名称实体识别(NER)是一项基本的自然语言处理(NLP)任务,旨在识别和分类不同类别文本中提及的实体。 虽然英语等语言拥有大量高质量的资源,但巴西葡萄牙语仍然缺乏黄金标准NER数据集的数量,特别是在考虑特定领域时。 特别是,本文考虑了NER在数字人文背景下分析历史文本的重要性。 为了解决这一差距,这项工作概述了MariNER的构建:Mapaamento e Anotações de Registros hIstóricos para NER(NER历史记录的映射和注释),这是20世纪初巴西葡萄牙语的第一个金标准数据集,有超过9,000个手动注释句子。 我们还评估和比较数据集中最先进的NER模型的性能。