计算机科学
Computer Science
人工智能
Artificial Intelligence
计算与语言
Computation and Language
计算复杂性
Computational Complexity
有效的信息检索需要对部分证据进行推理,并在信息出现时改进策略。 然而,目前的方法却不足:神经检索器缺乏推理能力,大型语言模型(LLM)提供语义深度,但成本高昂,查询重写或分解限制了静态转换的改进。 因此,现有方法无法捕捉复杂的用户查询所需的探索、反馈和修订的迭代动态。 我们引入了Orion,一个训练框架,使紧凑的模型(350M-1.2B参数)能够通过学习的搜索策略执行迭代检索。 猎户座结合:(1)合成轨迹生成和监督微调,以鼓励模型中的多样化探索模式,(2)奖励有效查询改进和回溯行为的强化学习(RL),(3)利用RL期间学习的自我反射能力的推理时间波束搜索算法。 尽管仅使用3%的训练数据,但我们的1.2B模型在SciFact上取得了77.6%的成功。 先前猎犬的72.6%,BIGHT的25.2%(相对于。 22.1%),63.2%的 NFCorpus (相对于。 57.8%),在Fever,HotpotQA和MSMarco上保持竞争力。 在6个基准中的5个基准中,它的表现超过了200-400倍。 这些发现表明,当模型被训练搜索、反映和修改时,可以从学习策略中产生检索性能,而不仅仅是模型规模。
尽管发展迅速,但大型语言模型(LLM)在多转决策任务(即代理任务)中仍然遇到挑战,如网络购物和浏览器导航,这需要根据环境反馈做出一系列智能决策。 LLM代理公司以前的工作通常依赖于精心设计的快速工程或专家轨迹的微调,以提高性能。 在这项工作中,我们采取了不同的观点:我们探索构建过程奖励模型(PRM),以评估每个决策并指导代理的决策过程。 与LLM推理不同,其中每个步骤都是基于正确性的,代理任务中的动作没有明确的正确性。 相反,应该根据他们接近目标以及他们取得的进展来评估他们。 基于这一见解,我们提出了为代理任务重新定义的PRM,名为AgentPRM,以捕捉顺序决策之间的相互依存关系及其对最终目标的贡献。 从而实现更好的进度跟踪和勘探-开发平衡。 为了大规模地获取用于训练AgentPRM的标记数据,我们采用了基于时间差(TD)的估计方法与广义优势估计(GAE)相结合,证明比以前的方法更具样本效率。 跨不同代理任务的广泛实验表明,AgentPRM比基线高出8×以上的计算效率,并且在扩展测试时间计算时显示出强劲的改进。 此外,我们进行详细的分析,以显示我们的方法如何工作,并提供更多的见解,例如,将AgentPRM应用于LLM代理的强化学习。
下一个兴趣点(POI)建议通过根据用户的历史入住情况预测用户的下一个目的地,改进了基于位置的个性化服务。 然而,大多数现有方法都依赖于静态数据集和固定模型,限制了它们随着时间的推移适应用户行为变化的能力。 为了解决这一限制,我们探索了一项名为“持续下一个POI建议”的新任务,其中模型通过持续更新动态地适应不断变化的用户兴趣。 这项任务特别具有挑战性,因为它需要捕捉不断变化的用户行为,同时保留以前学到的知识。 此外,确保更新时间和内存使用的效率对于实际部署至关重要。 为此,我们提出了GIRAM(基于生成密钥的利息检索和自适应建模),这是一个高效的模型无关框架,将上下文感知的持续兴趣与最近的兴趣整合在一起。 GIRAM包括四个组件:(1)保留历史偏好的兴趣存储器;(2)用于统一兴趣密钥表示的上下文感知密钥编码模块;(3)基于生成密钥的检索模块,用于识别各种和相关的持续兴趣;(4)自适应兴趣更新和融合模块,以更新兴趣存储器和平衡持续和最近的兴趣。 特别是,GIRAM可以与现有的下一个POI推荐模型无缝集成。 对三个真实世界数据集的实验表明,GIRAM在更新时间和内存消耗方面始终优于最先进的方法,同时保持高效率。
大型语言模型已经显示出显着的语言处理和推理能力,但在被问及私人数据时容易产生幻觉。 检索增强生成 (RAG) 检索适合 LLM 上下文窗口的相关数据,并提示 LLM 给出答案。 GraphRAG将这种方法扩展到结构化的知识图谱(KGs)和关于实体多次跳转的问题。 最近的GraphRAG方法大多忽略了检索步骤,或者具有抽象或低效的临时检索过程。 这可以防止当 KG 存储在支持图形查询语言的图形数据库中时被采用。 在这项工作中,我们介绍了GraphRAFT,这是一个检索和推理框架,可以微调LLM以生成可证明的正确Cypher查询,以检索高质量的子图上下文并产生准确的答案。 我们的方法是第一个可以现成的解决方案,并用于存储在本地图形DB中的KG。 基准表明,我们的方法具有样本效率,并且随着训练数据的可用性而扩展。 我们的方法在两个具有挑战性的Q As上,在两个具有挑战性的Q As上,在所有四个标准指标上取得了明显更好的结果。
顺序建议(SR)根据用户的历史行为预测用户未来的交互。 大型语言模型(LLM)的兴起带来了强大的生成和推理能力,显着增强了SR性能,而多模态LLM(MLLM)通过引入图像和交互关系等数据进一步扩展了这一点。 然而,关键问题仍然存在,即(a) 由冗长和冗余的描述引起的次优项目表示,导致训练和推理效率低下;(b) 与模式相关的认知偏差,因为LLM主要在文本数据上预先训练,限制了它们有效整合和利用非文本模式的能力;(c) 在长交互序列中削弱顺序感知,其中注意力机制难以捕获早期的交互。 为了解决这些问题,我们提出了Speeder,这是一种基于MLLM的高效SR范式,具有三个关键创新:1)多模态表示压缩(MRC),它将项目属性浓缩成简洁而翔实的令牌,降低冗余和计算成本; 2)模式感知渐进优化(MPO),实现多模态表示的逐步学习; 3)顺序位置感知增强(SPAE),提高LLM在相对和相对的序列中捕获相对和连续的能力。 现实世界数据集的广泛实验证明了Speeder的有效性和效率。 Speeder将训练速度提高到原始训练的250%,同时将亚马逊数据集的推理时间缩短至25%。
硬底片对于训练有效的检索模型至关重要。 硬负挖掘通常依赖于使用交叉编码器或基于余氨酸距离等相似性指标的静态嵌入模型对文档进行排名。 硬负采矿对生物医学和科学领域来说变得具有挑战性,因为很难区分源和硬负文件。 然而,引用的文件自然与源文件具有上下文相关性,但不是重复的,因此非常适合硬底文。 在这项工作中,我们提出了BiCA:生物医学密度检索与引文 - 感知硬底片,一种通过利用20,000 PubMed文章中的引文链接来改善特定域的小致密猎犬的硬阴性挖掘方法。 我们使用这些引用式底片微调GTE_small和GTE_Base模型,并使用nDCG@10在BEIR上的域内和域外任务中观察零镜头密集检索的一致改进,并使用Success@5在LoTTE中超越长尾主题的基线。 我们的研究结果强调了利用文档链接结构产生高信息性底片的潜力,以最小的微调实现最先进的性能,并展示了实现高数据效率的域适应的道路。
受大脑启发的人工智能的最新进展试图利用CLIP等多模态模型将神经信号与视觉语义保持一致。 然而,现有方法通常将CLIP视为静态特征提取器,忽略了其对神经表征的适应性以及脑电图图像对齐中固有的生理符号间隙。 为了应对这些挑战,我们介绍了NeuroCLIP,这是一个为EEG到图像对比学习量身定制的提示调整框架。 我们的方法引入了三个核心创新:(1)我们设计了一个双流视觉嵌入管道,结合了动态过滤和令牌级融合,以生成实例级自适应提示,指导基于图像内容的补丁嵌入令牌的调整,从而在神经约束下实现视觉表示的细粒度调制;(2)我们是第一个将视觉提示令牌引入EEG-image对齐,充当全局模式级提示,与实例级调整一起工作。 这些视觉提示令牌被插入到 Transformer 架构中,以促进全球水平的神经感知适应和参数优化; (3) 受人类视觉编码的神经科学原理的启发,我们提出了一个精细的对比损失,更好地模拟脑电图信号中存在的语义模糊性和交叉模态噪声。 在THINGS-EEG2数据集上,NeuroCLIP在零拍摄图像检索中实现了63.2%的Top-1精度,超过了之前的最佳方法1 +2.3%,并在主题间条件下(+4.6% Top-1)展示了强大的概括性,突出了生理学感知提示调谐在连接大脑信号和视觉语义方面的潜力。
隐含的反馈,用于培训推荐系统,由于点击错误和位置偏差等因素,不可避免地面对噪音。 以前的研究试图通过它们不同的数据模式(如更高的损失值)来识别嘈杂的样本,并通过样本下降或重新加权来减轻它们的影响。 然而,我们观察到嘈杂的样品和硬样品表现出类似的模式,导致硬噪音的混乱问题。 这种混淆是有问题的,因为硬样本对于用户偏好的建模至关重要。 为了解决这个问题,我们提出了LLMHNI框架,利用大型语言模型(LLM)产生的两个辅助用户项目相关性信号来区分硬和嘈杂的样本。 LLMHNI从LLM编码的嵌入中获得用户项语义相关性,该嵌入用于负采样以选择硬否定,同时过滤出嘈杂的假否定。 提出了客观的对齐策略,将LLM编码的嵌入(最初用于一般语言任务)投射到针对用户-项目相关性建模优化的表示空间中。 LLMHNI 还利用用户-项目交互中 LLM 推断的逻辑相关性来识别硬和嘈杂的样本。 这些LLM推断的相互作用被集成到交互图中,并通过交叉图对比对齐引导去噪。 为了消除由LLM幻觉引起的不可靠相互作用的影响,我们提出了一个图形对比学习策略,该策略将随机边缘视图的表示对齐以抑制不可靠的边缘。 经验性结果表明,LLMHNI显著提高了去噪和推荐性能。
优化推荐系统以实现超越准确性的目标,如多样性、新颖性和个性化,对于长期用户满意度至关重要。 为此,工业从业者积累了大量的结构化领域知识,我们将其称为人类先验(例如,项目分类法,时间模式)。 这些知识通常通过排名或后排名的后期调整来应用。 然而,这种方法仍然与核心模型学习脱钩,随着行业转向端到端生成推荐基础模型,这一点尤其不受欢迎。 另一方面,许多针对这些超越准确性目标的方法通常需要特定于架构的修改,并通过以完全不受监督的方式学习用户意图来丢弃这些有价值的人类先验。 我们不是放弃多年实践中积累的人类先验,而是引入了一个与骨干无关的框架,将这些人的先验直接集成到生成推荐人的端到端培训中。 凭借轻巧的,预先条件的适配器头,受到高效的LLM解码策略的启发,我们的方法指导模型沿着人类可理解的轴(例如,交互类型,长与短期兴趣)分离用户意图。 我们还引入了一种分层组成策略,用于对不同先前类型的复杂交互进行建模。 对三个大规模数据集进行的广泛实验表明,我们的方法显着提高了准确性和超越准确性的目标。 我们还表明,人类先验允许骨干模型更有效地利用更长的上下文长度和更大的模型尺寸。
生成式推荐将每个项目表示为语义 ID,即离散令牌序列,并通过自动回归解码生成下一个项。 虽然有效,但现有的自动回归模型面临两个内在限制:(1)单向约束,其中因果关注限制每个令牌只关注其前身,阻碍了全局语义建模;(2)错误积累,其中固定的左向右生成顺序导致早期令牌的预测错误传播到后续令牌的预测。 为了解决这些问题,我们提出了LLaDA-Rec,一个离散的扩散框架,将推荐重新制定为并行语义ID生成。 通过将双向注意力与自适应生成顺序相结合,该方法可更有效地对项目间和项目内部依赖关系进行建模,并缓解错误积累。 具体来说,我们的方法包括三个关键设计:(1)一个并行令牌化方案,为双向建模生成语义ID,解决剩余量化和双向架构之间的不匹配;(2)用户历史和下一个项目级别的两个掩蔽机制,以捕获项目间顺序依赖关系和项目内部语义关系;(3)自适应的波束搜索策略,用于自适应顺序离散扩散解码,解决标准光束搜索与扩散的不兼容。 对三个真实世界数据集的实验表明,LLaDA-Rec始终优于基于ID和最先进的生成推荐者,将离散扩散作为生成推荐的新范式。
个性化推荐系统塑造了许多在线用户选择,但其针对性使得区分推荐的价值和基础商品具有挑战性。 我们构建了一个离散的选择模型,嵌入了推荐诱导的实用程序、低等级的异质性和灵活的状态依赖性,并将模型应用于 Netflix 的收视率数据。 我们利用推荐算法引入的特殊变异来识别和单独评估这些组件,并恢复我们可以用来验证结构模型的无模型分流比率。 我们使用该模型来评估反事实,量化个性化推荐产生的增量参与度。 首先,我们表明,用矩阵分解或基于人气的算法取代当前的推荐系统,将分别减少4%和12%的参与度,并减少消费多样性。 其次,建议增加的大部分消费来自有效定位,而不是机械曝光,其中极受欢迎的商品(而不是广泛吸引力或非常小众的商品)的收益最大。
本文介绍了TurkEmbed,这是一种新颖的土耳其语言嵌入模型,旨在超越现有模型,特别是在自然语言推理(NLI)和语义文本相似性(STS)任务中。 目前的土耳其嵌入模型通常依赖于机器翻译的数据集,可能限制其准确性和语义理解。 TurkEmbed利用各种数据集和高级训练技术(包括matryoshka表示学习)的组合来实现更稳健和准确的嵌入。 这种方法使模型能够适应各种资源受限的环境,提供更快的编码能力。 我们对土耳其STS-b-TR数据集的评估,使用Pearson和Spearman相关性指标,证明了语义相似性任务的显着改进。 此外,TurkEmbed在All-NLI-TR和STS-b-TR基准上超越了目前最先进的模型Emrecan,实现了1-4%的改进。 TurkEmbed承诺通过提供对语言的更细致的理解并促进下游应用的进步来增强土耳其NLP生态系统。
由于缺乏既定的措施和基准,验证用户仿真是一项艰巨的任务,这使得评估模拟器是否准确反映真实的用户行为具有挑战性。 作为Sim4IA研讨会SIGIR 2025微共享任务的一部分,我们展示了Sim4IA-Bench,这是用于预测下一个查询和话语的模拟基准套装,这是IR社区中的第一个此类。 作为套件的一部分,我们的数据集包括来自CORE搜索引擎的160个真实世界搜索会话。 对于其中70个会话,最多可提供62个模拟器运行,分为任务A和任务B,其中不同的方法预测用户下一个搜索查询或话语。 Sim4IA-Bench为评估和比较用户模拟方法以及开发模拟器有效性的新措施提供了基础。 虽然规模不大,但该套件代表了第一个公开的基准,将真正的搜索会话与模拟的下一步预测联系起来。 除了作为下一个查询预测的测试平台外,它还可以实现对查询重制行为,意图漂移和交互感知检索评估的探索性研究。 我们还引入了一项新措施,用于评估这项任务中的下一步预测。 通过公开提供该套件,我们的目标是促进可重复的研究,并刺激关于信息访问的现实和可解释的用户模拟的进一步工作:https://github.com/irgroup/Sim4IA-Bench。
本文解决了构建生产RAG的猜测游戏。 经典以排名为中心的IR指标(nDCG/MAP/MRR)不适合RAG,其中LLM消耗一组段落而不是浏览列表;位置折扣和流行盲聚合忽略了重要的事情:截止K的提示是否包含决定性的证据。 第二,没有标准化、可重复的构建和审核黄金套装的方法。 第三,存在排行榜,但缺乏反映生产权衡的端到端的有形基准。 第四,最先进的嵌入模型如何处理适当的名称身份信号和对话噪声仍然不透明。 为了解决这些问题,我们做出了贡献:(1)RA-nWG@K,一个稀有意识,每个被测试的标准化设置分数,以及通过池限制的神谕天花板(PROC)和PROC(%PROC)的百分比来区分检索,从在成本延迟质量(CLQ)镜头内订购头厅;(2) rag-gs(MIT),一个瘦削的金色集管道生产RAG(科学论文语料库)的基准跨越密集检索,混合致密+BM25,嵌入模型和尺寸,交叉编码器重排,ANN(HNSW)和量化;(4)有针对性的诊断,通过身份破坏和格式化分量量化适当的名称身份信号和对话噪声灵敏度。 这些组件共同提供从业者帕累托指导和可审计护栏,以支持可重复的预算/SLA意识决策。
现有的检索增强生成(RAG)系统通常使用集中式架构,导致数据收集、集成和管理成本高,以及隐私问题。 非常需要一个分散的RAG系统,使基础模型能够直接利用数据所有者的信息,这些数据所有者对其来源保持完全控制。 然而,去中心化带来了一个挑战:众多独立数据源在可靠性方面差异很大,这可能会降低检索的准确性和响应质量。 为了解决这个问题,我们分散的RAG系统具有一种新的可靠性评分机制,可以根据它在检索过程中生成和优先考虑高质量源的响应质量动态评估每个来源。 为了确保透明度和信任,通过基于区块链的智能合约安全地管理评分过程,创建可验证和防篡改的可靠性记录,而无需依赖中央权威。 我们通过两个Llama模型(3B和8B)在两个模拟环境中评估我们的分散系统,其中六个数据源具有不同程度的可靠性。 我们的系统在类似现实世界的不可靠数据环境中实现了比集中式对应系统性能提升 +10.7%。 值得注意的是,它在理想可靠的数据环境中接近集中系统的上行性能。 分散式基础设施可实现安全和值得信赖的评分管理,通过批次更新操作可节省约56%的边际成本。 我们的代码和系统在github.com/yining610/Reliable-dRAG开源。
对隐式反馈数据进行培训的推荐系统依靠负抽样来区分每个用户的正面项目和负面项目。 由于大多数积极互动来自一小部分活跃用户,因此负面采样者经常受到数据不平衡的影响,导致他们为突出用户选择更多信息性的否定,同时为不那么活跃的用户提供不太有用的负面信息。 这导致不活跃的用户在培训过程中进一步边缘化,从而收到低劣的建议。 在本文中,我们进行了一项全面的实证研究,证明最先进的负面抽样策略为活跃用户提供了比对不活跃的用户更准确的建议。 我们还发现,增加每个正项目的负面样本数量可以提高平均性能,但好处在用户群体中分布不均,活跃用户在非活动用户遭受性能下降时遇到性能增益。 为了解决这个问题,我们提出了一个特定于组的负抽样策略,将较小的负比分配给不活跃的用户组,并将较大的负比分配给活动组。 对8个负采样器的实验表明,与统一的全球比率相比,我们的方法提高了用户方面的公平和性能。
检索增强生成(RAG)已被证明可以有效地缓解大型语言模型中的幻觉,但在复杂的多步骤推理场景中,其有效性仍然有限。 最近的努力已经将基于搜索的交互纳入RAG,通过实时检索实现迭代推理。 大多数方法都依赖于基于结果的监督,没有为中间步骤提供明确的指导。 这通常会导致奖励黑客和退化的反应质量。 我们提出了Bi-RAR,这是一种新颖的检索增强推理框架,可以在前进和向后方向共同评估每个中间步骤。 为了评估每个步骤的信息完整性,我们引入了基于 Kolmogorov 复杂性的双向信息距离,通过语言模型生成概率近似。 这种量化既衡量了当前推理离答案有多远,又衡量了它解决问题的程度。 为了在这些双向信号下优化推理,我们采用了多目标强化学习框架,具有层叠奖励结构,强调早期轨迹对齐。 关于七个问题回答基准的经验结果表明,Bi-RAR超越了以前的方法,并在训练和推理期间与搜索引擎进行了有效的互动和推理。
我们测试了20多个 Transformer 模型,用于排名长文档(包括最近使用 FlashAttention 训练的 LongP 模型,以及由 OpenAI 和 Anthropic 云 API “供电”的 RankGPT 模型)。 我们将它们与简单的FirstP基线进行了比较,该基线将相同的模型应用于截断输入(最多512个令牌)。 在MS MARCO,TREC DL和Robust04上,没有长文档模型的表现超过FirstP超过5%(平均)。 我们假设这种缺乏改进不是由于固有的模型限制,而是由于基准位置偏差(大多数相关段落往往在文档早期发生),这在MS MARCO中已知存在。 为了证实这一点,我们分析了四个长文档corpora(有六个查询集)的位置相关性分布,并观察到了相同的早期位置偏差。 令人惊讶的是,我们还发现了六个BEIR集合中的偏差,这些集合通常被归类为短文档数据集。 然后,我们引入了一个新的诊断数据集MS MARCO FarRerevant,其中相关的跨度被故意放置在前512个令牌之外。 在这个数据集上,许多长上下文模型(包括RankGPT)在随机基线级别执行,建议过度适应位置偏差。 我们还尝试了去偏化训练数据,但成功有限。 我们的研究结果(1)强调了在评估文档排名的长上下文模型时需要仔细的基准设计,(2)确定对位置偏差更可靠的模型类型,(3)激励进一步研究debias训练数据的方法。 我们发布代码和数据以支持进一步的研究。
在这项工作中,我们介绍了TurkEmbed4Retrieval,这是TurkEmbed模型的检索专用变体,最初为自然语言推理(NLI)和语义文本相似性(STS)任务设计。 通过使用高级训练技术(包括Matryoshka表示学习和量身定制的多个负数排名损失)对MS MARCO TR数据集上的基础模型进行微调,我们实现了土耳其检索任务的SOTA性能。 广泛的实验表明,我们的模型在Scifact TR数据集的关键检索指标上优于土耳其colBERT,比19.26%高,从而为土耳其信息检索建立了新的基准。
混合向量和关系数据的日益普及需要高效、普遍的支持,这些查询将高维矢量搜索与复杂的关系过滤相结合。 然而,现有的过滤搜索解决方案从根本上受到专业索引的限制,这些索引限制了任意过滤,阻碍了与通用DBMS的集成。 这项工作引入了指南针,这是一个统一的框架,可以实现跨矢量和结构化数据的一般过滤搜索,而无需依赖新的索引设计。 Compass利用已建立的索引结构 - 例如用于向量属性的HNSW和IVF,以及用于关系属性的B +树 - 实施原则性合作查询执行策略,协调跨模式的候选生成和谓词评估。 独特的是,Compass通过允许任意连接,分离和范围谓词来保持通用性,同时确保即使使用高度选择性或多属性滤波器的稳健性。 全面的实证评估表明,指南针在多种混合查询工作负载中始终优于 NaviX,这是唯一现有的高性能通用框架。 它还匹配其最喜欢的设置中专用单属性索引的查询吞吐量,仅涉及单个属性,同时保持完全通用性和DBMS兼容性。 总体而言,Compass提供了一个实用且强大的解决方案,用于在矢量数据库系统中实现真正通用的过滤搜索。
继续滚动加载更多