数据库研究快报
用 AI 跟踪日新月异的数据库领域进展

基于transformer嵌入向量的过滤近似最近邻搜索算法基准测试
文本、图像、音频和视频嵌入模型的进步推动了多个领域的进展,包括检索增强生成、推荐系统、车辆/人员重识别和人脸识别。这些领域的许多应用需要一种高效的方法来检索在嵌入空间中接近给定查询且满足基于项目属性的过滤条件的项目,这一问题被称为过滤近似最近邻搜索(FANNS)。在本工作中,我们对FANNS方法进行了全面的调查和分类,并分析了文献中如何进行基准测试。通过这样做,我们发现了当前FANNS领域的一个关键挑战:缺乏多样化和真实的数据集,特别是来自最新基于transformer的文本嵌入模型的数据集。为了解决这个问题,我们引入了一个新颖的数据集,包含来自arXiv存储库的270多万篇研究论文摘要的嵌入向量,并附带11个真实世界属性,如作者和类别。我们在新数据集上对多种FANNS方法进行了基准测试,发现每种方法都有独特的优势和局限性;没有单一方法在所有场景中表现最佳。例如,ACORN支持各种过滤类型并在不同规模的数据集上表现可靠,但通常被更专业的方法超越。SeRF在有序属性的范围过滤上表现出色,但无法处理分类属性。Filtered-DiskANN和UNG在中等规模数据集上表现优异,但在大规模数据集上失败,这凸显了基于transformer的嵌入带来的挑战,这些嵌入通常比早期嵌入大一个数量级以上。我们得出结论:不存在普遍最优的方法。

多语言维基百科表中的事实不一致
维基百科是一个全球可访问的知识来源,内容超过300种语言。 尽管涵盖了相同的主题,但维基百科的不同版本都是独立编写和更新的。 这导致事实不一致,可能影响百科全书和人工智能系统的中立性和可靠性,这些系统通常依赖维基百科作为主要训练源。 这项研究调查了维基百科结构化内容中的跨语言不一致之处,重点是表格数据。 我们开发了一种方法来收集,对齐和分析维基百科多语言文章的表格,定义不一致的类别。 我们应用各种定量和定性指标,使用样本数据集评估多语言对齐。 这些见解对事实验证,多语言知识交互以及利用维基百科内容的可靠AI系统设计都有影响。

生态友好型人工智能:为绿色联邦学习释放数据力量
人工智能(AI)和机器学习(ML)的广泛采用带来了重大的环境影响,特别是在能源消耗和碳排放方面。 这个紧迫的问题突出表明需要创新的解决方案来减轻人工智能的生态足迹。 影响ML模型训练能耗的关键因素之一是训练数据集的大小。 ML模型通常对分布在多个位置的传感器和设备持续生成的大量数据进行训练。 为了降低数据传输成本并增强隐私,Federated Learning (FL) 无需移动或共享原始数据即可实现模型训练。 虽然FL提供了这些优势,但由于数据源的异质性(与体积和质量有关)、计算节点能力和环境影响,它也带来了挑战。 本文通过提出以数据为中心的绿色联邦学习方法,为绿色人工智能的进步做出了贡献。 具体来说,我们专注于通过最小化训练数据的数量来减少FL对环境的影响。 我们的方法涉及对联合数据集的特征进行分析,根据质量指标选择最佳数据子集,以及选择环境影响最低的联合节点。 我们开发了一个综合方法,研究以数据为中心的因素(如数据质量和体积)对FL训练性能和碳排放的影响。 在这些见解的基础上,我们引入了一个交互式推荐系统,通过减少数据优化FL配置,最大限度地减少训练过程中对环境的影响。 将这种方法应用于时间序列分类在减少FL任务对环境的影响方面显示出有希望的结果。

CleANN:基于图形的近似邻居搜索中的高效全死性
近似最近邻居搜索(ANNS)已成为AI工作负载其他各种基础数据任务的典型算法问题。 基于图形的ANNS索引在索引成本,查询效率和查询近似质量方面具有极好的经验权衡。 大多数现有的基于图形的索引是为静态场景设计的,其中索引构建后数据没有更新。 然而,完全动态(插入、删除和搜索)对于使用向量数据库在应用程序中提供最新的响应至关重要。 索引有效地同时支持更新和搜索查询是可取的。 现有的基于动态图形的索引至少存在以下问题之一:(1)查询质量随着更新的发生而退化;(2)用于在更新时保持索引质量的图形结构更新是全球性的,因此价格昂贵。 为了解决这些问题,我们提出了由三个主要组件组成的CleANN系统:(1)工作负载感知链接不同的搜索树后代以对抗分布转移;(2)查询适应性即时社区整合,以有效地处理已删除的节点;(3)半懒惰的内存清理,以清理数据结构中的陈旧信息并减少前两个组件所花费的工作。 我们在完全动态工作负载的7个不同数据集上评估ClANN,并发现ClANN的查询质量至少与使用相应数据静态构建的索引一样好。 在内存设置中使用 56 个超线程,所有类型的查询同时运行,在同一召回级别,CleANN 在百万级真实世界数据集上实现了 7-1200 倍的吞吐量改进。 据我们所知,ClANN是第一个实现这种效率的并发ANNS指数,同时在充分活力下保持质量。

临时网络中的三位一体第一订单逻辑查询
Motif计数是网络分析的一个基本问题,对于这个问题,有丰富的理论和应用算法文献。 给定一个大的输入网络G,一个主题H是一个小的“模式”图,指示特殊的局部结构。 Motif/pattern 挖掘涉及在输入 G 中查找该模式的所有匹配。 最简单的,但具有挑战性的,主题计数的病例是当H有三个顶点,通常被称为“三叉戟”查询。 最近的工作重点是“时间图挖掘”,其中网络G具有具有时间戳(和方向)的边缘,H具有时间限制。 受逻辑和数据库理论概念的启发,我们介绍了大规模时间网络的“阈值一阶逻辑(FOL)动机分析”的研究。 一个典型的三叉戟主题查询要求存在三个顶点,形成所需的时间模式。 “FOL”主题查询通过具有存在性和阈值通用量词获得。 这允许查询语义,可以从网络中挖掘更丰富的信息。 一个典型的三叉戟查询是“找到所有三倍的顶点 u,v,w ,使它们在一小时内形成一个三角形”。 阈值的FOL查询可以表示“找到所有对u,v,这样在w(u,w)形成边缘的一半,(v,w)也在一小时内形成了边缘”。 我们设计了第一个算法,FOLTY,用于挖掘阈值的FOL三元查询。 FOLTY的理论运行时间与稀疏图中时间三角形计数的已知运行时间相匹配。 我们使用专业的时间数据结构有效地实现了 FOLTY。 FOLTY具有出色的经验行为,可以在商品硬件上回答近7000M边缘的图形上的三角FOL查询。 我们的工作有可能在经典研究良好的主题分析问题中开始新的研究方向。
相关分类
最新研究
Marlin:Autoscaling Cloud DBMS(扩展版本)的高效协调
现代云数据库正在从融合架构转向存储分解,从而实现计算和存储的独立扩展和计费。 然而,云数据库仍然依赖于外部的融合协调服务(例如ZooKeeper)来控制它们。 这些服务实际上是针对低容量元数据优化的轻量级数据库。 随着控制平面在云中扩展,这种方法面临着与存储分解之前收敛的数据库类似的限制:可扩展性瓶颈,低成本效率和增加的操作负担。 我们建议将群集协调进行分类,以实现存储分类给现代云 DBMS 带来的相同好处。 我们介绍了Marlin,一种完全接受存储分类的云原生协调机制。 Marlin通过将协调功能整合到其管理的现有云原生数据库中,消除了对外部协调服务的需求。 为了在没有外部协调服务的情况下实现故障转移,Marlin允许对协调状态进行跨结修改。 为了确保数据的一致性,Marlin使用交易来管理协调和应用程序状态,并引入了MarlinCommit,这是一种优化的提交协议,即使在跨结修改下也能确保强大的事务保证。 我们的评估表明,与融合协调解决方案相比,Marlin 提高了高达 4.4 倍的成本效率,并将重新配置持续时间降低了 4.9 倍。
最短路径搜索的骷髅引导学习
最短路径搜索是基于图形的应用程序的核心操作,但现有方法面临重要限制。 Dijkstra和A*等经典算法变得效率低下,因为图形变得越来越复杂,而基于索引的技术通常需要大量的预处理和存储。 最近基于学习的方法通常侧重于空间图,并依赖于特定于上下文的特征,如地理坐标,限制了它们的普遍适用性。 我们提出了一个基于学习的多功能框架,用于在通用图形上最短路径搜索,而不需要特定域的特征。 我们方法的核心是构建一个骨架图,以紧凑的形式捕获多级距离和跳跃信息。 骷髅图形神经网络(SGNN)在这种结构上运行,以学习节点嵌入并预测节点对之间的距离和跳跃长度。 这些预测支持LSearch,这是一种引导搜索算法,它使用模型驱动的修剪来减少搜索空间,同时保持准确性。 为了处理更大的图形,我们引入了一种分层训练策略,将图形与单独训练的 SGNN 分区到子图中。 这种结构使 HLSearch 成为可能,这是我们跨图形分区高效路径搜索方法的扩展。 对五个不同真实世界图的实验表明,我们的框架在图类型上实现了强大的性能,为基于学习的最短路径搜索提供了灵活有效的解决方案。
OnPair:用于快速随机访问的短字符串压缩
我们介绍了OnPair,一种基于字典的压缩算法,旨在满足内存数据库系统的需求,这些系统需要高压缩和快速随机访问。 现有方法要么以巨大的计算和内存成本(例如BPE)实现强大的压缩比,要么以牺牲压缩质量(例如FSST)为代价来优先考虑速度。 OnPair通过使用缓存友好的字典构建技术弥合了这种差距,该技术在数据样本的单个顺序传递中逐步合并频繁的相邻子字符串。 这可以实现快速,内存效率的训练,而无需跟踪全球对位置,这是传统BPE的要求。 我们还引入了OnPair16,这是一种将字典条目限制为16字节的变体,通过优化的最长前缀匹配实现更快的解析。 两种变体都独立压缩字符串,支持没有块级开销的细粒度随机访问。 真实世界数据集的实验表明,OnPair和OnPair16实现了与BPE相当的压缩比,同时显著提高了压缩速度和内存使用量。
DBAIOps:使用知识图谱进行推理的LLM增强型数据库运行和维护系统
数据库系统的操作和维护(O M)对于确保系统可用性和性能至关重要,通常需要专家经验(例如,确定指标与异常关系)才能有效诊断和恢复。 然而,现有的自动数据库O M方法,包括商业产品,不能有效地利用专家经验。 一方面,基于规则的方法仅支持基本的O M任务(例如,基于度量的异常检测),这些任务大多是数值方程,不能有效地包含字面上的O M经验(例如,手册中的故障排除指导)。 另一方面,基于LLM的方法,检索分散的信息(例如,标准文档+RAG),通常产生不准确或通用的结果。 为了解决这些限制,我们介绍了DBAIOps,这是一个新颖的混合数据库O M系统,它将推理LLM与知识图谱相结合,以实现DBA风格的诊断。 首先,DBAIOps引入了一个用于表示诊断经验的异构图模型,并提出了一个半自动图形构建算法,从数千个文档中构建该图形。 其次,DBAIOps开发了一系列(800+)可重复使用的异常模型,可识别直接警报的指标和隐式相关的经验和指标。 第三,对于每个异常,DBAIOps提出了一种两阶段图进化机制,以探索相关的诊断路径并自动识别缺失关系。 然后,它利用推理LLM(例如,DeepSeek-R1)来推断根本原因,并为DBA和普通用户生成明确的诊断报告。 我们对四个主流数据库系统(Oracle,MySQL,PostgreSQL和DM8)的评估表明,DBAIOps优于最先进的基线,34.85
有效且高效的基于传导的社区搜索,规模达十亿
社区搜索是一个广泛研究的半监督图聚类问题,检索包含用户指定的查询顶点的高质量连接子图。 然而,现有方法主要关注社区内部的凝聚力,但忽略了社区以外的狭隘性,获得了低于标准的结果。 受此启发,我们采用众所周知的电导度量来衡量社区的质量,并引入了基于电导的社区搜索(CCS)的新问题。 CCS 旨在查找包含查询顶点的所有连接子图中具有最小电导的子图。 我们证明CCS问题是NP-hard。 为了有效地查询CCS,提出了基于四阶段子图传导的社区搜索算法SCCS。 具体来说,我们首先使用局部采样技术大大减少了整个图。 然后,采用三阶段的本地优化策略来不断完善社区质量。 也就是说,我们首先利用播种策略来获得初始社区,以提高其内部凝聚力。 然后,我们在扩展阶段迭代添加合格的顶点,以保证社区的内部凝聚力和外部的狭隘性。 最后,我们在验证阶段逐步删除不合格的顶点。 包含十亿级图和合成数据集的真实世界数据集的广泛实验显示了我们解决方案的有效性、效率和可扩展性。
高效的直接访问排名检索
我们研究用于交互式数据工具的Direct-Access 排名检索(DAR)问题,其中不断发展的数据探索实践与大规模和高维数据集相结合,创造了新的挑战。 DAR涉及根据排名函数有效访问任意等级位置的问题,而不列举所有前面的元组。 为了解决这一需求,我们正式化了DAR问题,并根据几何排列提出了理论上有效的算法,实现了对数查询时间。 然而,这种方法在高维度上具有指数空间复杂性。 因此,我们开发第二类基于ε采样的算法,它消耗线性空间。 由于将元组精确定位在特定等级具有挑战性,因为它与范围计数问题有关,我们引入了一种称为Conformal Set Ranked Retrieval(CSR)的轻松变体,它返回一个小子集保证包含目标元组。 为了有效地解决CSR问题,我们定义了一个中间问题,Stripe Range Retrieval(SRR),并设计了一个为窄范围查询量身定做的分层采样数据结构。 我们的方法在数据大小和尺寸上都实现了实际的可扩展性。 我们在算法的效率上证明了近乎最优的界限,并通过对真实和合成数据集进行广泛的实验来验证它们的性能,展示了数百万个元组和数百个维度的可扩展性。
平衡混合:混合搜索中的权衡的实验分析
混合搜索,词汇和语义检索的集成,已成为现代信息检索系统的基石,由检索-增强一代(RAG)等苛刻的应用程序驱动。 这些系统的建筑设计空间是巨大而复杂的,然而,对其核心组成部分之间的权衡的系统性经验理解——检索范式、组合方案和重新排序方法——是严重缺乏的。 为了解决这个问题,并通过我们构建Infinity开源数据库的经验,我们提出了高级混合搜索架构的第一个系统基准。 我们的框架评估了四种检索范式 - 全Text搜索(FTS),稀疏矢量搜索(SVS),密集矢量搜索(DVS)和Tensor搜索(TenS) - 在11个现实世界的数据集中标化了他们的组合和重新排名策略。 我们的研究结果揭示了从业者和研究人员的三个关键发现:(1)一个“最薄弱环节”现象,其中单个表现不佳的检索路径可以不成比例地降低整体准确性,突出表明在融合之前需要路径上的质量评估。 (2)数据驱动的性能权衡图,表明最佳配置在很大程度上取决于资源约束和数据特性,超越了一刀切的方法。 (3)将基于Tensor的Re-ranking Fusion(TRF)识别为主流融合方法的高效替代品,以计算和内存成本的一小部分提供张量搜索的语义能力。 我们的研究结果为设计下一代自适应、可扩展的混合搜索系统提供了具体的指导方针,同时也确定了未来研究的关键方向。
不要坚持所有:高效的持续数据结构
软件开发中使用的数据结构具有内在的冗余,以提高软件的可靠性并加快性能。 示例包括双重链接列表,由于前一个指针的存在,该列表允许更快地删除。 随着Persistent Memory的引入,将冗余数据字段存储到持久内存中增加了显著的写入开销,并降低了性能。 在这项工作中,我们专注于三个数据结构 - 双链接列表,B+Tree和Hashmap,并展示替代部分持久化实现,其中我们只将一组有限的数据字段存储到持久内存。 崩溃/重新启动后,我们使用持久数据字段来重新创建数据结构以及冗余数据字段。 我们将我们的实施与基础实施进行比较,并表明我们在5-20左右实现加速
MCTS-SQL:轻重LLM可以通过蒙特卡洛树搜索掌握文本到SQL
文本到SQL是NLP领域一项基本但具有挑战性的任务,旨在将自然语言问题转化为SQL查询。 虽然大型语言模型的最新进展大大提高了性能,但大多数现有方法依赖于具有数百亿个参数或昂贵API的模型,限制了它们适用于资源受限的环境。 对于现实世界,特别是在边缘设备上,Text-to-SQL确保成本效益至关重要。 因此,启用Text-to-SQL的轻量级模型具有重要的实用性。 然而,较小的LLM经常与复杂的用户指令,冗余模式链接或语法正确性作斗争。 为了应对这些挑战,我们提出了MCTS-SQL,这是一个使用Monte Carlo Tree Search通过多步骤改进来指导SQL生成的新框架。 由于轻量级模型在单次预测方面的微弱性能,我们通过几个具有反馈的试验产生更好的结果。 然而,直接应用基于MCTS的方法不可避免地会导致大量时间和计算开销。 在此问题的推动下,我们提出了一个令牌级前缀缓存机制,该机制在迭代期间存储先前的信息,有效地提高了执行速度。 关于SPIDER和BIRD基准的实验结果表明我们方法的有效性。 使用小型开源Qwen2.5-Coder-1.5B,我们的方法优于ChatGPT-3.5。 当利用更强大的模型Gemini 2.5来探索性能上限时,我们取得了与SOTA竞争的结果。 我们的研究结果表明,即使是小模型也可以有效地部署在实际的文本到SQL系统中,并具有正确的策略。
SSBD本体论:可互操作生物成像元数据的双级方法
先进的生物成像技术使多维数据的大规模获取成为可能,但有效的元数据管理和互操作性仍然是重大挑战。 为了解决这些问题,我们为生物动力学系统科学数据库(SSBD)提出了一个新的本体论驱动的框架,该框架采用双层架构。 核心层提供了一个以类为中心的结构,引用现有的生物医学本体,支持SSBD:repository - 专注于以最小的元数据快速发布数据集 - 和SSBD:数据库,通过生物和成像相关注释进行增强。 同时,实例层表示实际的成像数据集信息为资源描述框架个人,这些个体与核心类明确链接。 这种分层方法将灵活的实例数据与健壮的本体论类对齐,从而实现无缝集成和高级语义查询。 通过将灵活性与严谨性耦合,SSBD本体可促进互操作性,数据重用和发现新的生物机制。 此外,我们的解决方案与《生物图像推荐元数据》指南保持一致,并促进兼容性。 最终,我们的方法有助于在生物成像社区中建立一个可查找、可访问、可互操作和可重复使用的数据生态系统。
解决大型半结构化表的问题
表问题解答(表QA)吸引了强烈的兴趣,因为以半结构化表格形式呈现的网络信息普遍存在。 尽管做出了许多努力,但TableQA在大型桌子上仍然是一个悬而未决的挑战。 这是因为大表可能会压倒试图完全理解它们以找到问题答案的模型。 最近的研究通过生成程序解析表来将表分解成较小的问题相关子表,从而减小了输入表的大小。 然而,此类解决方案受制于程序生成和执行错误,难以确保分解质量。 为了解决这个问题,我们提出了TaDRe,这是一种TableQA模型,它结合了表前和表后分解的改进,以确保表分解质量,从而实现高度精确的TableQA结果。 为了评估 TaDRe,我们通过 LLM 驱动的表扩展和 QA 生成构建了两个新的大表 TableQA 基准测试。 关于新基准和公共基准的广泛实验表明,TaDRe在大型桌面TableQA任务上实现了最先进的性能。
多转自然语言到图形查询语言翻译
近年来,关于将自然语言转化为图形查询语言(NL2GQL)的研究一直在增加。 大多数现有方法侧重于从NL到GQL的单转转换。 在实际应用中,用户与图形数据库的交互通常是多转、动态和上下文依赖的。 虽然单转方法可以处理直接的查询,但更复杂的场景通常需要用户迭代调整查询,调查实体之间的连接,或者在多个对话回合中请求其他详细信息。 专注于单转转换的研究未能有效地解决多转对话和复杂的上下文依赖。 此外,高质量多转 NL2GQL 数据集的稀缺进一步阻碍了该领域的进展。 为了应对这一挑战,我们提出了一种基于大型语言模型(LLM)构建多转NL2GQL数据集的自动化方法,并将该方法应用于开发MTGQL数据集,该数据集由金融市场图数据库构建,并将公开发布以用于未来的研究。 此外,我们提出了三种类型的基线方法来评估多转 NL2GQL 翻译的有效性,从而为未来的研究奠定了坚实的基础。
KG-ER概念原理图语言
我们提出了KG-ER,一种用于知识图谱的概念模式语言,它独立于其表示(关系数据库,属性图,RDF)来描述知识图的结构,同时帮助捕获知识图中存储的信息的语义。
基于物联网区块链声誉的高效拜占庭共识机制
区块链技术近年来发展迅速,现已广泛应用于各种领域。 区块链似乎是管理大规模异构设备的最佳解决方案之一,同时实现先进的数据安全和数据声誉,特别是在大型物联网(Internet of Things)网络领域。 尽管具有众多优势,但由于物联网设备的存储,功率和计算能力有限,在区块链系统上部署物联网应用程序仍然存在挑战,其中一些问题是由共识算法引起的,该算法通过确保整体系统的可靠性和稳健性在区块链系统中发挥重要作用。 尽管如此,大多数现有的共识算法都容易出现节点可靠性差、每秒低交易量(TPS)速率和可扩展性问题。 针对现有共识算法中的一些关键问题,本文提出了基于拜占庭声誉共识(EBRC)的高效拜占庭共识(EBRC)机制,以解决上述问题。 与传统算法相比,我们重新发明了评估节点可靠性和鲁棒性以及管理活动节点的方法。 我们的实验表明,EBRC算法具有较低的共识延迟,更高的吞吐量,更高的安全性以及更低的验证成本。 它为解决物联网+区块链+互联网法院建设问题提供了新的参考思路。
CRINN:针对接近最近邻居搜索的对比强化学习
近似的近邻搜索(ANNS)算法对于最近的AI应用变得越来越重要,特别是在检索增强生成(RAG)和基于代理的LLM应用中。 在本文中,我们介绍了 CRINN,这是 ANNS 算法的新范式。 CRINN将ANNS优化视为强化学习问题,其中执行速度作为奖励信号。 这种方法能够自动生成更快的ANNS实现,同时保持精度限制。 我们的实验评估证明了CRINN在六个广泛使用的NNS基准数据集中的有效性。 与最先进的开源ANNS算法相比,CRINN在其中三个算法(GIST-960-Euclidean,MNIST-784-Euclidean和GloVe-25-angular)上取得了最佳性能,并在其中两个算法(SIFT-128-Euclidean和GloVe-25-angular)上获得第一名。 CRINN成功的影响远远超出了ANNS优化:它验证了通过强化学习增强的LLM可以作为自动化复杂算法优化的有效工具,需要专业知识和劳动密集型的人工改进。 代码可以在https://github.com/deepreinforce-ai/CRINN上找到。
范围(雷尼)熵查询和分区
最大化/最小化香农熵的数据分区,或者更普遍的Rényi熵是数据压缩,列存储和基数估计算法中的关键子程序。 这些分区算法可以加速,如果我们有一个数据结构来计算不同子集的数据熵,当算法需要决定构建哪个块时。 这种数据结构对于数据分析师探索不同数据子集以确定感兴趣的领域也很有用。 虽然人们通常知道如何有效地计算离线或流式设置中离散分布的香农或雷尼熵,但我们专注于查询设置,我们的目标是在满足某些线性谓词的数据子集之间有效地导出熵。 当我们处理真实数据时,我们在典型的设置中解决了这个问题,其中数据项是几何点,每个请求区域都是查询(超)矩形。 更具体地说,我们在 R^d 中考虑一组 n 加权和有色点的 P。 对于范围S-熵(resp. R-entropy)查询问题,目标是构建一个低空间数据结构,这样给定一个查询(hyper)矩形R,它计算Shannon(resp。 Rényi)熵基于P∩R中点的颜色和权重,在亚线性时间。 我们显示条件下界证明我们无法希望具有近线性空间和近恒定查询时间的数据结构,用于范围S-熵和R-熵查询问题。 然后,我们针对 d=1 和 d>1 提出了具有 o(n^2d) 空间的精确数据结构,并为这两个问题提出了 o(n^2d) 查询时间。 最后,我们提出了近线性空间数据结构,用于返回香农的添加剂或乘法近似(resp。 Rényi)在P∩R中的熵。
LLM的表格数据理解:对最新进展和挑战的调查
表因其复杂和灵活的结构而在大型语言模型(LLM)和多模态大语言模型(MLLM)中获得了高度关注。 与线性文本输入不同,表是二维的,包括格式,从结构良好的数据库表到复杂的多层电子表格,每个都有不同的目的。 这种形式和目的的多样性导致了专门方法和任务的发展,而不是普遍的方法,使表格理解任务的导航具有挑战性。 为了应对这些挑战,本文介绍了关键概念,通过表格输入表示的分类和表格理解任务的介绍。 我们强调了该领域的几个关键差距,表明需要进一步的研究:(1)以检索为重点的任务占主导地位,这些任务需要数学和逻辑运算以外的最小推理;(2)模型在处理复杂的表结构,大型表格,长度上下文或多表场景时面临的重大挑战;(3)模型在不同表格表示和格式上的有限泛化。
数据案例:符合数据处理系统的接地数据法规
数据法规,如GDPR,正越来越多地在全球范围内被采用,以防止不安全的数据管理实践。 在定义数据处理系统的预期动态行为时,此类法规通常是模棱两可的(有多种有效的解释)。 本文认为,使用捕获系统行为的(小组)数据处理概念,将GDPR等法规正式表示为不变性。 当这些概念的基础,即它们提供一个单一的明确解释,系统可以通过证明它们实施的系统行动保持不变(代表法规)来实现合规性。 为了说明我们的愿景,我们提出了Data-CASE,一个简单而强大的模型,(a)捕获关键数据处理概念(b)一组不变量,用这些概念来描述法规。 我们进一步说明了以“删除”为例子的接地概念,并强调了最终用户、公司和软件设计师/工程师可以使用 Data-CASE 的几种方式。
文本到SQL任务导向的对话本体构建
大型语言模型(LLM)被广泛用作通用知识来源,但它们依赖于参数化知识,限制了可解释性和可信度。 在面向任务的对话(TOD)系统中,这种分离是明确的,使用由显式本体构建的外部数据库来确保可解释性和可控性。 然而,建立这样的本体需要手动标签或监督培训。 我们介绍了 TeQoDO:一种面向文本到 SQL 任务的对话本体构建方法。 在这里,LLM从零开始自主构建一个TOD本体,而无需使用它固有的SQL编程功能与提示中提供的对话理论相结合。 我们表明,TeQoDO优于迁移学习方法,其构建的本体论在下游对话状态跟踪任务上具有竞争力。 消融研究证明了对话理论的关键作用。 TeQoDO还扩展了更大的本体结构,我们在维基百科和ArXiv数据集上进行调查。 我们认为这是向更广泛地应用本体以提高LLM可解释性迈出的一步。
与您的ERP聊天:食谱
本文介绍了大型语言模型(LLM)代理背后的设计,实施和评估,该代理与工业生产级ERP系统聊天。 该代理能够解释自然语言查询并将其转换为可执行的SQL语句,利用开放权重的LLM。 提出了结合推理和批评阶段的新型双代理架构,以提高查询生成的可靠性。