信息检索研究快报
用 AI 跟踪日新月异的信息检索领域进展

不在此处,转向彼处:网络重定向模式分析
URI重定向是网络管理的重要组成部分,支持结构变更、SEO优化和安全防护。然而其复杂性会影响可用性、SEO表现和数字保存。本研究分析了1100万个唯一重定向URI,对每个URI追踪多达10次跳转,以揭示重定向实践的模式和影响。我们的发现表明...

MetaAgent:通过工具元学习实现自我进化的智能体
本文提出MetaAgent,这是一种受"做中学"原则启发的智能体范式,通过实践和持续自我改进来发展专业技能。MetaAgent从最小化工作流开始,仅具备基本推理和自适应求助能力。当遇到知识缺口时,MetaAgent会生成自然语言求助请求,这些请求会被专用的工具路由器路由到最合适的外部工具。在解决任务过程中,MetaAgent持续进行自我反思和答案验证,将可操作经验提炼为简洁文本并动态整合到未来任务上下文中。此外,MetaAgent通过组织其工具使用历史来自主构建内部工具和持久化知识库,进一步增强其检索和整合相关信息的能力。我们将这种持续的、数据驱动的过程称为元工具学习,通过这种方式,MetaAgent在不改变模型参数或需要额外训练的情况下,逐步优化其推理和工具使用策略。在包括GAIA、WebWalkerQA和BrowseCamp在内的知识发现基准测试中,MetaAgent始终优于基于工作流的基线方法,并与端到端训练的智能体相当或更优,展示了自我进化智能体系统在鲁棒、通用知识发现方面的潜力。源代码详见https://github.com/qhjqhj00/MetaAgent。

基于transformer嵌入向量的过滤近似最近邻搜索算法基准测试
文本、图像、音频和视频嵌入模型的进步推动了多个领域的进展,包括检索增强生成、推荐系统、车辆/人员重识别和人脸识别。这些领域的许多应用需要一种高效的方法来检索在嵌入空间中接近给定查询且满足基于项目属性的过滤条件的项目,这一问题被称为过滤近似最近邻搜索(FANNS)。在本工作中,我们对FANNS方法进行了全面的调查和分类,并分析了文献中如何进行基准测试。通过这样做,我们发现了当前FANNS领域的一个关键挑战:缺乏多样化和真实的数据集,特别是来自最新基于transformer的文本嵌入模型的数据集。为了解决这个问题,我们引入了一个新颖的数据集,包含来自arXiv存储库的270多万篇研究论文摘要的嵌入向量,并附带11个真实世界属性,如作者和类别。我们在新数据集上对多种FANNS方法进行了基准测试,发现每种方法都有独特的优势和局限性;没有单一方法在所有场景中表现最佳。例如,ACORN支持各种过滤类型并在不同规模的数据集上表现可靠,但通常被更专业的方法超越。SeRF在有序属性的范围过滤上表现出色,但无法处理分类属性。Filtered-DiskANN和UNG在中等规模数据集上表现优异,但在大规模数据集上失败,这凸显了基于transformer的嵌入带来的挑战,这些嵌入通常比早期嵌入大一个数量级以上。我们得出结论:不存在普遍最优的方法。

基于语义ID(SID)的生成式推荐:实践指南
与传统模型相比,生成式推荐(Generative Recommendation, GR)因其优异的性能表现受到越来越多的关注。GR成功的关键因素在于语义ID(Semantic ID, SID),它能够将连续的语义表示(例如来自大语言模型的表示)转换为离散的ID序列。这使得采用SID的GR模型既能融合语义信息,又能学习协同过滤信号,同时保留离散解码的优势。然而,现有文献中多样的建模技术、超参数和实验设置使得不同GR方案难以直接比较。此外,缺乏开源统一框架阻碍了系统性基准测试和扩展,拖慢了模型迭代速度。为解决这一问题,我们提出并开源了基于语义ID的生成式推荐框架GRID,其模块化设计便于组件替换和加速想法迭代。通过GRID,我们在公开基准上系统性地实验和消融了采用SID的GR模型的不同组件。全面的GRID实验表明,许多被忽视的架构组件对SID-GR模型的性能有重大影响。这既提供了新的见解,也验证了开源平台对稳健基准测试和GR研究推进的效用。GRID已在https://github.com/snap-research/GRID开源。

SelfRACG:使LLM能够自我表达和检索以进行代码生成
现有的检索增强代码生成(RACG)方法通常使用外部检索模块获取语义相似的代码片段用于生成后续片段。然而,即使是连续的代码片段,其内容也常因逻辑进展而出现分歧,导致内容间隙。这种间隙会削弱当前RACG方法的性能,因为基于内容匹配的外部检索模块无法推断LLM生成下一个代码片段的具体信息需求。因此,我们提出了SelfRACG这一新范式,使大语言模型(LLM)能够自我表达其信息需求以增强RACG。具体而言,SelfRACG包含一个信息需求表达模块和一个两阶段信息需求引导的训练策略,鼓励LLM表达其信息需求。大量实验表明,SelfRACG能够检索到更符合LLM自身信息需求的外部知识,相比原始RACG实现了更优的生成性能。
相关分类
最新研究
BioDisco:具有双模式证据,迭代反馈和时间评估的多代理假说生成
确定新的假设对于科学研究至关重要,但这一过程有可能被现有信息的庞大数量和复杂性所压倒。 现有的自动化方法往往难以产生新颖和有证据的假设,缺乏强有力的迭代改进,并且很少对未来发现潜力进行严格的时间评估。 为了解决这个问题,我们提出了BioDisco,一个多代理框架,利用基于语言模型的推理和基于语言模型的推理和双模式证据系统(生物医学知识图和自动文献检索)来构建新颖性,集成了内部评分和反馈循环,并通过开创性的时间和人评估验证性能,以及Bradley-Terry配对比较模型,以提供统计基础评估。 我们的评估证明了优于现有代理架构的可燃配置的卓越新颖性和重要性。 BioDisco专为灵活性和模块化而设计,可无缝集成自定义语言模型或知识图谱,只需几行代码即可运行。 我们预计研究人员使用这种实用工具作为发现新假设的催化剂。
MAO-ARAG:多代理编排用于自适应检索增强的一代
在问答(QA)系统中,检索增强生成(RAG)已成为提高响应准确性和减少幻觉问题的关键。 RAG系统的架构差异很大,包括单轮RAG,迭代RAG和推理RAG,每个系统都针对不同类型的查询量身定制。 由于现实世界查询的复杂性不同,固定的RAG管道经常难以平衡不同查询的性能和成本效益。 为了应对这一挑战,我们提出了一个名为MAO-ARAG的自适应RAG框架,该框架利用多代理编排。 我们的自适应RAG被设想为多转框架。 具体来说,我们定义了多个执行器代理,代表了典型的RAG模块,如查询重制代理、文档选择代理和生成代理。 规划师代理智能地选择并将这些执行者的适当代理集成到适合每个查询的工作流程中,在保持合理成本的同时争取高质量的答案。 在每个回合中,规划师代理使用强化学习进行训练,以基于结果的奖励(F1评分)和基于成本的罚款为指导,不断提高答案质量,同时将成本保持在合理的范围内。 在多个QA数据集上进行的实验表明,我们的方法,动态地计划每个查询的工作流程,不仅实现了高答案质量,而且还在可接受的范围内保持成本和延迟。MAO-ARAG的代码在https://github.com/chenyiqun/Agentic-RAG上。
用于用户表示的学习统一用户量化令牌化器
多源用户表示学习在网络平台(例如支付宝)上实现个性化服务方面起着关键作用。 虽然之前的工作已经采用了后期融合策略来结合异构数据源,但它们受到三个关键限制:缺乏统一的表示框架,数据压缩中的可扩展性和存储问题以及不灵活的交叉任务泛化。 为了应对这些挑战,我们提出 U^2QT (Unified User Quantized Tokenizers),这是一个新颖的框架,将跨域知识转移与早期融合的异质域集成在一起。 我们的框架采用两阶段架构:第一,因果Q-Former将特定域特征投射到共享的因果表示空间中,以保留多模态依赖关系;其次,多视图RQ-VAE通过共享和源特定的代码簿将因果嵌入分散到紧凑的令牌中,从而实现高效的存储,同时保持语义一致性。 实验结果展示 U^2QT 了不同下游任务的优势,在未来的行为预测和推荐任务中超越了特定任务的基线,同时实现了存储和计算的效率提升。 统一的令牌化框架可实现与语言模型的无缝集成,并支持工业规模的应用。
推进音乐理解的基础模型
音乐信息检索(MIR)领域是分散的,专业模型擅长于孤立的任务。 在这项工作中,我们通过引入名为MuFun的统一基础模型来挑战这一范式,以实现整体音乐理解。 我们的模型具有一种新的架构,共同处理器乐和抒情内容,并在大型数据集上训练,涵盖各种任务,如流派分类,音乐标记和问题回答。 为了促进稳健的评价,我们还提出了一个名为MuCUE(音乐综合理解评估)的多方面音乐理解的新基准。 实验表明,我们的模型在MuCUE任务中显著优于现有的音频大型语言模型,展示了其最先进的有效性和概括能力。
CM^3:校准多模态推荐
一致性和统一性是对比学习领域的基本原则。 在推荐系统中,先前的工作已经确定优化贝叶斯个性化排名(BPR)损失有助于对齐和统一的目标。 具体来说,对齐旨在将交互用户和项目的陈述组合在一起,而统一性要求跨单元高球单元的均匀分布和项目嵌入。 这项研究重新审视了多模态推荐系统背景下的对齐和均匀性,揭示了现有模型之间的倾向,以优先考虑统一性,从而不利于对齐。 我们的假设挑战了通过均匀性损失进行公平物品处理的传统假设,提出了一种更细致入微的方法,其中具有类似多模态属性的项目与超球流中的近端表示趋同。 具体来说,我们利用项目多模态数据之间的固有相似性来校准它们的均匀分布,从而在嵌入空间中不同实体之间产生更明显的排斥力。 理论分析阐明了这种校准均匀性损失与常规均匀函数之间的关系。 此外,为了增强多模态特性的融合,我们引入了一种球形Bézier方法,旨在集成任意数量的模式,同时确保由此产生的融合特征被限制为相同的超球形流形。 对五个真实世界数据集进行的实证评估证实了我们方法优于竞争基线的优越性。 我们还表明,建议的方法可以达到5.4。
端到端个性化:将推荐系统与大型语言模型统一
推荐系统对于通过提供个性化和相关的建议来引导用户了解数字内容的广阔和多样化景观至关重要。 然而,提高个性化和可解释性仍然是一个挑战,特别是在涉及有限用户反馈或异构项目属性的情况下。 在本文中,我们提出了一种新的混合推荐框架,将图形注意力网络(GAT)与大型语言模型(LLM)相结合,以解决这些限制。 LLM首先用于丰富用户和项目表示,通过基于元数据(如标题,类型和概述)生成具有语义意义的配置文件来丰富用户和项目表示。 这些丰富的嵌入作为用户和电影双部分图形的初始节点特征,该图形使用基于GAT的协作过滤模型进行处理。 为了提高排名准确性,我们引入了混合损失函数,结合了贝叶斯个性化排名(BPR),余辛相似性和稳健的负采样。 后处理涉及使用LLM对GAT生成的建议进行重新排序,LLM也生成自然语言理由以提高透明度。 我们在基准数据集上评估了我们的模型,包括MovieLens 100k和1M,其始终优于强大的基线。 消融研究证实,基于LLM的嵌入和余氨酸相似性术语显着促进了性能收益。 这项工作展示了集成LLM以提高推荐系统的准确性和可解释性的潜力。
解决冷开始为下一篇文章的建议
这项复制研究将ALMM(为下一首歌曲推荐构建的自适应线性映射模型)修改为MIND数据集上的新闻推荐问题。 ALMM的原始版本计算用户的潜在表示,最后项目和当前项目在张量因子结构中,并学习从内容特征到潜在项目向量的线性映射。 我们的复制旨在通过将这种模式重组为顺序新闻点击行为来提高冷启动场景中的推荐性能,连续阅读文章(最后新闻,下一条新闻)元组。 而不是原始的音频功能,我们将BERT和TF-IDF(Term Frequency-Inverse Document Frequency)应用于新闻标题和摘要,以提取令牌上下文化表示并将其与基于三元组的用户阅读模式保持一致。 我们还提出了一个可重复的彻底预处理管道,结合新闻过滤和功能完整性验证。 我们在TF-IDF中实施ALMM,在冷启动场景中,与福布斯和Oord基线模型相比,推荐准确性和稳健性相对提高。 我们证明,在最小修改状态下的ALMM不适合下一个新闻推荐。
Req-Rec:使用基于协同过滤的推荐系统提高利益相关者满意度的提升要求
项目的成败与识别正确的利益相关者并准确发现和发现他们的要求高度相关。 然而,选择合适的引出技术对于高效需求工程来说始终是一个相当大的挑战。 由于过去十年数字技术的迅速改善,推荐系统已成为与利益相关者进行深度个性化互动沟通的有效渠道。 在这项研究中,提出了一种名为Req-Rec(Requirements Recommender)的新方法。 它是一个基于协同过滤方法和作为核心组件的剧目网格技术的混合推荐系统。 Req-Rec的主要目标是通过协助利益相关者进入需求引出阶段来提高利益相关者的满意度。 根据结果,该方法可以有效地克服常见需求引出技术的弱点,例如时间限制,基于位置的限制和需求引出过程的偏差。 因此,建议相关要求有助于利益相关者更加了解项目的不同方面。
从发电机到嵌入:通过构建零射击判制嵌入模型利用多模态LLM的先天能力
多模态大语言模型(MLLM)已成为通用嵌入任务的有希望的解决方案,但将其生成性用于判别表示学习仍然是一个重大挑战。 大规模对比预训练的主导范式受到严重低效的影响,包括令人望而却步的计算成本过高,以及未能利用MLLM固有的指令遵循能力。 为了克服这些限制,我们提出了一个通用多模态嵌入的有效框架,通过以两个协同组件为中心来弥合这一差距。 首先,我们的分层嵌入提示模板采用两级指令架构,迫使模型产生歧视性表示。 在这个坚实的基础的基础上,我们的第二个组件,自我意识的硬负采样,通过利用模型自己的理解来有效地挖掘具有挑战性的负数,同时积极过滤潜在的假阴性,重新定义微调过程。 我们的综合实验表明,我们的分层提示通过对比训练的基线实现零投表现,并通过在MMEB基准上将简单的分批负基线提升4.8点来增强微调过程。 我们通过自我意识的硬负抽样进一步提高性能,在没有反向预训练的情况下实现最先进的性能。 我们的工作为使MLLM适应通用嵌入任务提供了有效和高效的途径,大大减少了培训时间。
本地生活服务推荐的动态遗忘和空间时间周期兴趣建模
在数字经济蓬勃发展的背景下,推荐系统作为连接用户和众多服务的关键环节,在本地生活服务平台上建模用户行为序列方面面临挑战,包括长序列的短暂性和强烈的时空依赖性。 这些挑战可以通过类比人类记忆中的遗忘过程来解决。 这是因为用户对推荐内容的响应遵循了内存的最近效应和周期性。 通过探索这一点,本文介绍了遗忘曲线,并提出了具有长序列的Spatio-Temporal周期性利息建模(STIM),用于本地生活服务推荐。 STIM集成了三个关键组件:基于遗忘曲线的动态掩蔽模块,用于提取最近的时空特征和周期性时空特征;基于查询的专家(MoE)方法,可以在不同的动态掩码下自适应激活专家网络,实现时间,位置和项目的协作建模;以及分层多兴趣网络单元,通过建模来捕获多兴趣的语义交互。 通过引入STIM方法,我们进行了在线A/B测试,实现了总交易量(GTV)的1.54%的提升。 此外,扩展的离线实验也显示出改进。 STIM已经部署在大规模的本地生活服务推荐系统中,在核心应用场景中为数亿日活跃用户提供服务。
评估对话推荐系统中的用户体验:跨越经典和LLM驱动的方法的系统回顾
会话推荐系统(CRS)正在受到越来越多的跨领域的研究关注,但他们的用户体验(UX)评估仍然有限。 现有的评论在很大程度上忽略了实证UX研究,特别是在基于适应性和大型语言模型(LLM)的CRS中。 为了解决这一差距,我们根据PRISMA指南进行了系统审查,综合了2017年至2025年间发表的23项实证研究。 我们分析了UX是如何被概念化,测量和塑造的,由域,适应性和LLM。 我们的发现揭示了持续的局限性:事后调查占主导地位,回合级情感UX结构很少被评估,适应性行为很少与用户体验结果有关。 基于LLM的CRS引入了进一步的挑战,包括认识论的不透明和冗长,但评估很少解决这些问题。 我们贡献了UX指标的结构化综合,自适应和非适应系统的比较分析,以及LLM感知UX评估的前瞻性议程。 这些发现支持开发更透明、更吸引人和以用户为中心的CRS评估实践。
ChEmbed:通过特定领域文本嵌入增强化学文献搜索
化学中的检索增强生成(RAG)系统在很大程度上取决于化学文献的准确和相关检索。 然而,通用文本嵌入模型往往不能充分代表复杂的化学术语,导致取回质量不理想。 尚未开发针对化学文献检索量身定做的专门嵌入模型,留下了巨大的性能差距。 为了应对这一挑战,我们介绍了ChEmbed,一个域适应的文本嵌入模型家族,这些模型在数据集上进行了微调,包括来自PubChem,Semantic Scholar和ChemRxivcorpora的化学特定文本。 为了创建有效的训练数据,我们使用大型语言模型来合成生成查询,产生了大约170万个高质量的查询通道对。 此外,我们通过在以前未使用的插槽中添加900个化学专用令牌来增加令牌化,这显着减少了化学实体(如IUPAC名称)的碎片化。 ChEmbed还保留了8192个令牌的上下文长度,与许多其他开源嵌入模型相比,能够有效地检索更长的通道,这些模型通常具有512或2048令牌的上下文长度。 根据我们新推出的ChemRxiv检索基准评估,ChEmbed优于最先进的通用嵌入模型,将nDCG@10从0.82提高到0.91(+9页)。 ChEmbed代表了一种实用,轻巧和可重复的嵌入解决方案,可有效改进化学文献检索的检索。
生成式AI时代的代理个性化时尚推荐:挑战、机遇与评价
时尚推荐系统(FaRS)面临着独特的挑战,这是由于快速的趋势变化,细致入微的用户偏好,复杂的物品兼容性以及消费者,品牌和影响者之间的复杂相互作用。 传统的推荐方法,主要是静态和以检索为重点,难以有效地捕捉这些动态元素,导致用户满意度下降和回报率上升。 本文综合了学术和工业观点,以绘制现代FaRS独特的输出空间和利益相关者生态系统,确定用户,品牌,平台和影响者之间的复杂相互作用,并突出显示出现的独特数据和建模挑战。 我们概述了工业FaRS的研究议程,以五个代表性场景为中心,涵盖静态查询,服装组成和多转对话,并认为混合模式的改进 - 将基于图像的参考(锚)与细微的文本约束相结合的能力 - 是现实世界部署的一个特别关键任务。 为此,我们提出了代理混合模式精炼(AMMR)管道,它将多模态编码器与代理LLM规划器和动态检索融合在一起,弥合了表达用户意图和快速变化的时尚库存之间的差距。 我们的工作表明,超越静态检索,转向自适应,生成和利益相关者意识系统,对于满足时尚消费者和品牌不断变化的期望至关重要。
简单的方法来防御RAG系统免受现实世界的攻击
确保检索增强发电(RAG)系统的安全性和域内响应在安全性关键应用中至关重要,但仍然是一个重大挑战。 为了解决这个问题,我们评估了四种方法,用于域外(OOD)查询检测:GPT-4o,基于回归,基于主要组件分析(PCA)和神经崩溃(NC),以确保RAG系统仅响应局限于系统知识库的查询。 具体来说,我们的评估探讨了两种新颖的维度减少和特征分离策略:PCA,其中使用解释方差或OOD可分离性选择顶部组件,以及神经崩溃特征分离的适应。 我们在标准数据集(StackExchange和MSMARCO)和现实世界的应用程序(物质使用和COVID-19)上验证了我们的方法,包括对LLM模拟和实际攻击COVID-19疫苗聊天机器人的测试。 通过基于人类和LLM的响应正确性和相关性评估,我们确认外部OOD检测器对于保持响应相关性至关重要。
为什么要在你能转化的时候生成? 释放动态推荐的生成注意力
顺序推荐(SR)侧重于通过根据历史互动预测未来的偏好来个性化用户体验。 变形金刚模型及其注意力机制已成为SR任务中的主要架构,因为它们能够捕获用户行为序列中的依赖关系。 然而,传统的注意力机制,其中注意力权重是通过查询键变换计算的,本质上是线性和确定性的。 这种固定的方法限制了他们解释用户偏好的动态和非线性性质的能力,导致在捕捉不断变化的兴趣和微妙的行为模式方面面临挑战。 鉴于生成模型擅长捕获非线性和概率可变性,我们认为与传统的注意力机制相比,生成注意力分布提供了一种更灵活和更具表现力的替代方案。 为了支持这种说法,我们提出了一种理论证明,证明生成式注意力机制比传统的确定性方法提供了更大的表现力和随机性。 在这一理论基础上,我们引入了两种用于SR的生成式注意力模型,每个模型分别基于变频自动编码器(VAE)和扩散模型(DM)的原理。 这些模型专门用于生成自适应注意力分布,以更好地与可变用户偏好保持一致。 现实世界数据集的广泛实验表明,我们的模型在准确性和多样性方面都大大优于最先进的模型。
Voronoi 图表 编码 哈希
学习哈希(L2H)的目标是从给定的数据分布中导出数据依赖的哈希函数,以便将数据从输入空间映射到二进制编码空间。 尽管L2H取得了成功,但有两个观察结果对L2H的力量来源产生了怀疑,即学习。 首先,最近的一项研究表明,即使使用局部敏感哈希函数的版本而不学习,也可以实现二进制表示,其准确性与L2H相当,但时间成本较低。 其次,现有的L2H方法被限制为三种类型的哈希函数:阈值,超球和超平面。 在本文中,我们揭示了Voronoi图在哈希中的潜力。 Voronoi图是一个合适的候选者,因为它有三个属性。 这一发现使我们提出了一种简单而高效的无学习二进制哈希方法,称为Voronoi Diagram Encoded Hashing(VDeH),该方法通过数据依赖相似性度量构建一组哈希函数,并通过编码哈希产生独立的二进制位。 我们通过几个基准数据集的实验证明,与相同长度下的现有先进方法相比,VDeH实现了卓越的性能和更低的计算成本。
反事实互惠推荐系统,用于用户对用户匹配
约会,游戏和人才平台的互惠推荐系统(RRS)需要相互接受比赛。 然而,由于过去的曝光策略,记录的数据过度代表流行的配置文件,创造了扭曲学习和公平性的反馈循环。 我们引入了反事实互惠推荐系统(CFRR),这是一个缓解这种偏见的因果框架。 CFRR使用反向倾向得分,自我规范化的目标。 实验显示CFRR将NDCG@10提高了3.5
更好的建议:通过LOC Linked Data Service验证AI生成的主体术语
本文探讨了将AI生成的主题术语集成到图书馆编目中,重点是通过国会图书馆链接数据服务进行验证。 它审查了国会图书馆主题标题系统下传统主题编目的挑战,包括效率低下和编目积压。 虽然生成式AI在加速编目工作流程中显示出希望,但研究表明,AI分配的主题标题的准确性存在重大局限性。 本文提出了一种混合方法,通过LOC Linked Data Service将AI技术与人类验证相结合,旨在提高图书馆编目实践中元数据创建的精度,效率和整体质量。
FinCPRG:分层查询的双向生成管道和金融中文通道检索的丰富相关性
近年来,大型语言模型(LLM)在构建通道检索数据集方面显示出巨大的潜力。 然而,现有方法在表达跨文档查询需求和控制注释质量方面仍然面临限制。 为了解决这些问题,本文提出了双向生成管道,旨在为文档内和跨文档场景生成3级分层查询,并在直接映射注释之上挖掘额外的相关性标签。 该管道引入了两种查询生成方法:从单文档文本自下而上,从多文档标题自上而下。 自下而上的方法使用LLM从文档内段落中同时在句子级别和段落级别上拆卸和生成结构化查询。 自上而下的方法包括三个关键的财务要素 - 行业,主题和时间 - 将报告标题分为集群,并提示LLM从每个集群生成主题级查询。 对于相关性注释,我们的管道不仅依赖于生成关系中的直接映射注释,而且还实现了间接正向挖掘方法,以丰富相关的查询-通道对。 利用这一管道,我们构建了一个金融通道检索生成数据集(FinCPRG),来自近1.3k份中国金融研究报告,其中包括分层查询和丰富的相关性标签。 通过对挖掘的相关性标签、基准测试和培训实验的评估,我们评估了FinCPRG的质量,并验证了其作为训练和基准测试的通道检索数据集的有效性。
Pinterest的跨域网络信息提取
互联网提供了大量的非结构化信息存储库,但将其转换为结构化格式是一项重大挑战。 在Pinterest,从电子商务网站准确提取结构化产品数据的能力对于增强用户体验和改善内容分发至关重要。 在本文中,我们介绍了Pinterest的属性提取系统,该系统以可管理的成本实现了显着的准确性和可扩展性。 我们的方法利用新颖的网页表示,将结构,视觉和文本模式组合成紧凑的形式,优化它用于小模型学习。 此表示以其文本、样式和布局信息捕获每个可见的 HTML 节点。 我们展示了如何允许简单的模型,如eXtreme Gradient Boosting(XGBoost)比更复杂的大型语言模型(LLM)(如生成预训练变压器(GPT))更准确地提取属性。 我们的研究结果展示了一个高度可扩展的系统,每秒处理超过1,000个URL,同时比最便宜的GPT替代品具有1000倍的成本效益。