AI基础研究具身智能 AI金融

本网站上的内容仅供参考，不提供医疗或其他专业建议，不代表活水快报、贡献者或合作伙伴的观点。

© 2024-2025 活水快报 - 42Digest.

|

京ICP备2024044642号-15

数据库研究快报

相关分类

计算机科学

Computer Science

人工智能

Artificial Intelligence

计算与语言

Computation and Language

计算复杂性

Computational Complexity

计算机科学

Computer Science

人工智能

Artificial Intelligence

计算与语言

Computation and Language

计算复杂性

Computational Complexity

最新研究

上下文图形嵌入:异构数据集成中数据特性的核算

随着组织继续访问不同的数据集,对有效数据集成的需求有所增加。在这个过程中的关键任务,如模式匹配和实体分辨率,是必不可少的,但往往需要付出巨大的努力。虽然以前的研究旨在使这些任务自动化,但数据集特征对匹配有效性的影响尚未得到彻底审查,不同方法的组合仍然有限。本研究引入了一种上下文图嵌入技术,该技术集成了表格数据和上下文元素(如列描述和外部知识)的结构细节。对具有不同属性(如域特异性、数据大小、缺失率和重叠率)的数据集进行的测试表明,我们的方法始终超越了现有的基于图形的方法,特别是在困难的情况下,例如数值比例高或显著缺失数据的方法。然而,我们确定了特定的失败案例,例如语义相似但不同的列,这仍然是我们方法的挑战。该研究强调了两个主要见解:(i)上下文嵌入增强了匹配的可靠性,以及(ii)数据集特性显着影响集成结果。这些贡献可以推进可支持实际企业应用的实用数据集成系统的发展。

实现用有限样本合成高维表格数据

基于扩散的表格数据合成模型产生了有希望的结果。然而,当数据维度增加时,现有模型往往会退化,并且可能比更简单的非扩散模型执行得更差。这是因为在高维空间中有限的训练样本往往会阻碍生成模型准确地捕获分布。为了减轻学习信号不足并稳定在这种条件下的训练,我们提出了CtrTab,一种条件控制的扩散模型,在训练过程中注入扰动的地面真相样本作为辅助输入。这种设计引入了模型对控制信号的灵敏度的隐式L2正则化,提高了高维、低数据场景中的鲁棒性和稳定性。多个数据集的实验结果表明,CtrTab优于最先进的模型,平均性能差距超过90%。

机器学习人工智能数据库

DemoTuner:通过LLM辅助演示强化学习进行高效的DBMS旋钮调谐

MySQL和PostgreSQL等现代DBMS的性能很大程度上取决于性能关键旋钮的配置。由于配置空间的复杂和高维性质,手动调谐这些旋钮是费力和低效的。在自动调谐方法中,基于强化学习(RL)的方法最近试图从几个不同的角度改进DBMS旋钮调优过程。然而,他们在离线训练期间仍然遇到收敛速度缓慢的挑战。本文主要重点介绍如何利用DBMS手册和网络论坛等各种文本文档中包含的宝贵调优提示,改进基于RL的方法的离线训练。为此,我们通过新颖的LLM辅助演示强化学习方法,提出了一个名为DemoTuner的高效DBMS旋钮调优框架。具体来说,为了全面准确地挖掘文档中的调优提示,我们设计了一个结构化的思想提示链,以使用LLM进行条件感知的调优提示提取任务。为了有效地将挖掘的调优提示集成到 RL 代理训练中,我们在 DemoTuner 中提出了提示感知演示强化学习算法 HA-DDPGfD。据我们所知,DemoTuner是第一个为DBMS旋钮调优引入演示强化学习算法的工作。在跨各种工作负载对MySQL和PostgreSQL进行的实验评估表明DemoTuner在性能改进和在线调优成本降低方面的优势,超过了DB-BERT,GPTuner和CDBTune三个代表性基线。此外,DemoTuner还具有对未知工作负载的应用场景的卓越适应性。

机器学习数据库

FlashMap:Flash优化密钥价值商店

键值存储是NoSQL数据库的一个基本类,它为数据存储和检索提供了一个简单而强大的模型,将信息表示为唯一密钥和相关值的对。其最小的结构可实现异常快速的访问时间、可扩展性和存储各种数据类型的灵活性,使其成为高性能应用程序(如缓存、会话管理和分布式系统)的理想选择。随着现代计算越来越需要响应性和可扩展性,关键价值存储已成为行业和研究环境中数据基础设施的关键组成部分。在这项工作中,我们介绍了FlashMap,这是一个针对基于Flash的固态硬盘(SSD)优化的高性能键值存储。实验表明,FlashMap实现了出色的吞吐量,平均每秒有1,980万次插入和2380万次随机查找,具有100字节的有效载荷,所有这些都在单个数据中心级服务器上。

TempoQL:电子健康记录数据的可读,精确和便携式查询系统

电子健康记录(EHR)数据是机器学习对健康的重要数据源,但研究人员和临床医生在提取和验证EHR数据进行建模方面面临巨大障碍。现有工具在表达性和可用性之间产生权衡,并且通常专门针对单个数据标准,因此很难编写为现代模型构建管道做好准备并适应新数据集的时间查询。本文介绍了TempoQL,这是一个基于Python的工具包,旨在降低这些障碍。 TempoQL为时间查询提供了一种简单、人类可读的语言;支持多种EHR数据标准,包括OMOP、MEDS等;以及具有可选大语言模型(LLM)创作辅助的交互式基于笔记本的查询界面。通过性能评估和不同数据集上的两个用例,我们证明TempoQL简化了机器学习队列的创建,同时保持了精度,速度和可重复性。

人机交互数据库

通过 GNN-PE 进行高效的分布式精确子图匹配:负载平衡、缓存优化和查询计划排名

由于高计算复杂性和分布式系统限制,在大规模图形上精确匹配子图仍然是一个具有挑战性的问题。现有的基于 GNN 的路径嵌入 (GNN-PE) 框架在单台计算机上实现了高效的精确匹配,但缺乏分布式环境的可扩展性和优化。为了解决这一差距,我们提出了三个核心创新,将GNN-PE扩展到分布式系统:(1)一个轻量级的动态相关性感知负载平衡和热迁移机制,融合了多维指标(CPU,通信,内存)并保证了指数一致性;(2)一种基于在线增量学习的多GPU协作动态缓存策略,具有异构GPU适应和图形结构感知替换;(3)由支配性嵌入修剪潜力驱动的查询计划排名方法。通过METIS分区、并行离线预处理和轻量级元数据管理,我们的方法实现了分布式场景(机器的微量边缘切位+负载平衡+不间断查询),显著提高了分布式子图匹配的效率和稳定性。

适用于行业 5.0 的指定数字双胞胎的服务套件

预测性维护的挑战之一是以敏捷和自信的方式根据数据做出决策。互联传感器和操作数据有利于智能处理技术,以丰富信息并实现决策。数字孪生(DTs)可用于处理信息并支持决策。 DT是物理机器的实时表示,并生成预测性维护可用于做出自信和快速决策的数据。这项工作的主要贡献是指定DT的一套服务规范,称为DT-Create,专注于预测性维护中的决策支持。 DT-Create套件基于智能技术、语义数据处理和自我适应。该套件使用设计科学研究(DSR)方法通过两个开发周期开发,并通过案例研究进行评估。结果表明,考虑到以下几个方面,使用DT-Create指定DT的可行性:(i)收集,存储和智能处理传感器产生的数据,(ii)通过机器学习和本体丰富信息,(iii)使用智能技术来选择坚持可用数据集的预测模型,以及(iv)决策支持和自我适应。

软件工程数据库

迈向多式联运流处理系统

在本文中,我们提出了新一代多模态流系统的愿景,该系统将MLLM作为一流的操作员进行嵌入,实现跨多种模式的实时查询处理。实现这一目标是微不足道的:虽然最近的工作已经将MLLM集成到多模态查询的数据库中,但由于其严格的延迟和吞吐量要求,流媒体系统需要完全不同的方法。我们的方法提出了所有级别的新优化,包括逻辑、物理和语义查询转换,可降低模型负载以提高吞吐量,同时保持准确性。我们用Samsara证明了这一点,Samsara是一个利用这种优化来提高性能的原型。此外,我们讨论了一个研究路线图,概述了构建可扩展和高效的多式联运流处理系统的开放研究挑战。

ACGraph:一个高效的异步外核心图处理框架

图形是一种无处不在的数据结构,存在于不同的领域,如机器学习、社交网络和数据挖掘。随着现实世界的图形继续超越单台机器的内存容量,核心图处理系统已成为一种可行的解决方案。然而,依赖严格同步、逐次迭代执行的现有系统会产生大量的开销。特别是,它们的调度机制导致I/O效率低下,源于读取和工作放大,并诱发代价高昂的同步失速,阻碍了持续的磁盘利用率。为了克服这些限制,我们介绍了ACGraph,这是一种针对内存资源受限的基于SSD的环境优化的新型异步图处理系统。 ACGraph采用动态的、以块为中心的优先级调度器,可根据工作负载实时调整,以及在线异步工作列表,通过在内存中有效地重复使用活动块来最小化冗余磁盘访问。此外,ACGraph将异步I/O与计算统一在管道执行模型中,保持持续的I/O激活,并利用高度优化的混合存储格式来加速访问低度顶点。我们在ACGraph上实现了流行的图形算法,如Breadth-First Search(BFS),弱连接组件(WCC),个性化PageRank(PPR),PageRank(PR)和k-core,并证明ACGraph在运行时和I/O效率方面大大优于最先进的核心外图形处理系统。

数据库分布式、并行与集群计算

CheetahGIS:构建可扩展高效的流式查询处理系统

空间数据分析系统在学术界和工业界都进行了广泛的研究。然而,在处理大量移动物体和实时空间查询时,现有系统是有限的。在这项工作中,我们构建了一个可扩展且高效的系统CheetahGIS,用于处理大型移动对象的流式空间查询。特别是,CheetahGIS建立在Apache Flink Stateful Functions(StateFun)之上,这是一种用于构建具有类似 Actor 模型的分布式流应用程序的 API。 CheetahGIS由于其模块化架构而享有出色的可扩展性,该架构明确分解了不同的组件并允许扩展单个组件。为了提高 CheetahGIS 的效率和可扩展性,我们设计了一套优化,例如轻量级的基于全局网格的索引、元数据同步 tion 策略和负载平衡机制。我们还在 CheetahGIS 中为空间查询处理制定了通用范式,并通过处理三个具有代表性的流查询(即对象查询、范围计数查询和 k 近邻查询)来验证其普遍性。我们在真实和合成数据集上进行广泛的实验,以评估CheetahGIS。

数据库分布式、并行与集群计算

CityVerse:具有大型语言模型的多任务城市计算的统一数据平台

大型语言模型(LLM)在从空间推理到预测分析的城市计算中显示出显着的潜力。然而,评估跨不同城市任务的LLM面临两个关键挑战:缺乏一致的多源数据访问的统一平台和阻碍公平比较的碎片化任务定义。为了应对这些挑战,我们介绍了CityVerse,这是第一个整合多源城市数据,基于能力的任务分类和动态模拟的统一平台,用于城市环境中的系统LLM评估。 CityVerse提供:1)基于坐标的数据API将十类城市数据(包括空间特征,时间动力学,人口统计和多模态图像)与超过3800万条策划记录统一在一起;2)任务API将43个城市计算任务组织成四级认知层次结构:感知,空间理解,推理和预测以及决策和交互,实现跨能力水平的标准化评估;3)支持实时数据检索和多层测试的交互式可视化前端。我们通过跨代表性任务的主流LLM评估验证平台的有效性,证明其支持可重复性和系统评估的能力。 CityVerse为在城市计算领域推进LLM和多任务方法提供了可重复使用的基础。

指南针:跨矢量和结构化数据的一般过滤搜索

混合向量和关系数据的日益普及需要高效、普遍的支持,这些查询将高维矢量搜索与复杂的关系过滤相结合。然而,现有的过滤搜索解决方案从根本上受到专业索引的限制,这些索引限制了任意过滤,阻碍了与通用DBMS的集成。这项工作引入了指南针,这是一个统一的框架,可以实现跨矢量和结构化数据的一般过滤搜索,而无需依赖新的索引设计。 Compass利用已建立的索引结构 - 例如用于向量属性的HNSW和IVF,以及用于关系属性的B +树 - 实施原则性合作查询执行策略,协调跨模式的候选生成和谓词评估。独特的是,Compass通过允许任意连接,分离和范围谓词来保持通用性,同时确保即使使用高度选择性或多属性滤波器的稳健性。全面的实证评估表明,指南针在多种混合查询工作负载中始终优于 NaviX,这是唯一现有的高性能通用框架。它还匹配其最喜欢的设置中专用单属性索引的查询吞吐量,仅涉及单个属性,同时保持完全通用性和DBMS兼容性。总体而言,Compass提供了一个实用且强大的解决方案,用于在矢量数据库系统中实现真正通用的过滤搜索。

数据库信息检索

Cortex AISQL:非结构化数据的生产SQL引擎

Snowflake的Cortex AISQL是一个生产SQL引擎,它将本机语义操作直接集成到SQL中。这种集成允许用户编写声明性查询,将关系操作与语义推理相结合,使他们能够毫不费力地查询结构化和非结构化数据。然而,在生产规模下使语义操作高效带来了根本性的挑战。语义运算比传统的 SQL 操作更昂贵,具有明显的延迟和吞吐量特性,并且在查询编译过程中,它们的成本和选择性是未知的。此外,现有的查询引擎并不是为了优化语义操作而设计的。 ASQL查询执行引擎通过Snowflake客户的生产部署数据提供三种新技术来应对这些挑战。首先,AI感知查询优化将AI推理成本作为一流的优化目标,推理大型语言模型(LLM)成本在查询规划过程中直接实现2-8×的提速。其次,自适应模型级联通过快速代理模型路由大多数行来降低推理成本,同时将不确定的情况升级到强大的神谕模型,实现2-6倍的加速,同时保持90-95%的oracle模型质量。第三,语义连接查询重写将连接操作的二次时间复杂度降低到线性,通过重新计算作为多标签分类任务,实现15-70×加速,通常提高预测质量。 AISQL部署在Snowflake的生产中,为分析,搜索和内容理解的不同客户工作负载提供支持。

数据库人工智能机器学习

Dolphin:一个面向演员的数据库,用于响应式移动对象数据管理

新颖的响应式移动对象应用程序需要支持对象反应行为的解决方案,作为查询和更新动态数据的一种方式。虽然移动对象场景长期以来一直在空间-时间数据管理的背景下进行研究,但反应行为通常留给复杂的最终用户实现。然而,这不仅仅是硬接线反应约束的问题:所需的解决方案需要满足严格的低延迟计算要求并具有可扩展性。本文探讨了一种新颖的方法,以丰富基于分布式的基于行为者的框架,具有反应功能和复杂的空间数据管理以及并发语义。我们的方法依赖于移动演员抽象的建议,这是具有反应性传感,运动和空间查询功能的演员模型的概念增强。这种增强功能有助于响应式移动对象应用程序的开发人员避免实施应用程序级方案以平衡性能和一致性的重大负担。基于移动演员,我们定义了一个反应式移动对象数据管理平台,命名为移动代理导向数据库(M-AODB),并构建了Dolphin——M-AODBs的实现。 Dolphin 体现了一种非侵入性的基于演员的设计,在微软奥尔良分布式虚拟演员框架之上分层。在一组具有逼真反应移动物体场景的实验评估中,Dolphin在多机上表现出可扩展性,并提供近乎实时的反应延迟。

GPC:物业图的模式微积分

图形数据库实用查询语言的开发大大领先于基础理论。负责数据库查询语言的ISO委员会目前正在开发一种名为Graph Query Language(GQL)的新标准,以及SQL标准的扩展,用于查询由关系模式(称为SQL/PGQ)表示的属性图形。两者的主要组成部分是模式匹配设施,由两个标准共享。在许多方面,它远远超出了RPQs,CRPQs和类似的查询,研究界多年来一直关注。我们的主要贡献是将冗长的标准规范提炼成一个简单的图形模式微积分(GPC),它反映了GQL和SQL/PGQ的所有关键模式匹配功能,同时适合严格的理论调查。我们描述了GPC的语法和语义,以及确保其表达式定义良好的类型规则,并说明语言的一些基本属性。通过本文,我们为社区提供了一个工具,可以着手研究将很快被业界广泛采用的查询语言。

OntoTune:使用卷积模型进行查询优化的本体学驱动学习

查询优化已经使用机器学习,强化学习以及最近基于图形的卷积网络进行了研究。本体论作为一种结构化的、信息丰富的知识表示,可以提供背景,特别是在学习问题上。本文介绍了OntoTune,一个基于本体的平台,用于增强查询优化的学习。通过连接SQL查询,数据库元数据和统计,本研究中开发的本体论有望捕获关系和查询性能的重要决定因素。这项研究还开发了一种嵌入本体的方法,同时尽可能多地保留关系和关键信息,然后将其输入学习算法,如基于树和基于图的卷积网络。一项案例研究展示了与数据库系统默认查询执行相比,OntoTune的本体式驱动学习如何提供性能增益。

数据库人工智能机器学习

JumpBackHash:告别Moduco操作,将钥匙统一分配给桶

导言。分布式数据处理和存储系统需要有效的方法来跨存储桶分发密钥。虽然简单快捷,但传统的基于模块的映射在存储桶数量发生变化时不稳定,导致系统资源利用率激增,例如网络或数据库请求。一致的哈希算法可以最大限度地减少重新映射,但要么明显较慢,需要浮点算术,要么基于标准库中很少可用的哈希函数家族。这项工作引入了JumpBackHash,这是一种克服这些缺点的一致哈希算法。方法。 JumpBackHash应用从一致的加权抽样中借用的主动指数的概念,这本身就会导致一致性。它以反向顺序生成活动索引,从而避免浮点运算,使消耗的随机值最小化和使用标准的伪随机生成器,最后导致一个非常高效的算法。成果。理论分析显示,JumpBackHash有一个预期的恒定运行时。预期值和消耗随机值数的方差与实验完全一致。实证测试也证实了一致性。结论。 JumpBackHash 提供了一个快速高效的解决方案,用于在分布式系统中跨存储桶均匀分配密钥。作为Hash4j开源库的一部分,它的简单性,性能和生产就绪的Java实现的可用性使其成为基于模数的方法来改进分配和系统稳定性的可行替代品。

数据结构与算法数据库分布式、并行与集群计算

人工智能模型的未来:模型崩溃的计算视角

人工智能,特别是大型语言模型(LLM),已经改变了软件工程,新闻,创意写作,学术界和媒体等领域。 2025;arXiv:2307.06435)。像Sabledfusion这样的扩散模型从文本中生成高质量的图像和视频。有证据表明,74.2%的新发布网页现在包含AI生成的材料(Ryan Law 2025),30-40%的活跃网络语料库是合成的(Spennemann 2025;arXiv:2504.08755),52%的美国成年人使用LLM进行写作,编码或研究(Staff 2025),审计发现AI参与了18%的财务投诉和24%的新闻稿(Liang等人)。 2025年)。底层神经架构,包括变形金刚(Vaswani等人。 2023;arXiv:1706.03762),RNN,LSTM,GAN和扩散网络,依赖于大型,多样化的,人类撰写的数据集(Shi Iyengar 2019)。随着合成内容的主导地位,递归训练可能会侵蚀语言和语义的多样性,产生模型崩溃(Shumailov等人。 2024;arXiv:2307.15043; Dohmatob等。 2024;arXiv:2402.07712)。这项研究量化和预测崩溃发生通过检查2013年至2025年英语维基百科(过滤的Common Crawl)使用Transformer嵌入和余弦相似度指标的年数语义相似性。结果显示,在公开采用LLM之前,相似性稳步上升,这可能是由早期的RNN / LSTM翻译和文本正常化管道推动的,尽管由于规模较小而不大。观察到的波动反映了不可简化的语言多样性,多年来可变语料库大小,有限的采样误差,以及公开采用LLM模型后相似性的指数级上升。这些发现提供了数据驱动的估计,即递归AI污染何时可能显着威胁数据丰富性和模型推广。

计算与语言数据库信息论

不要忘记删除范围! 通过更兼容的查找和删除增强基于 LSM 的密钥价值商店

LSM-trees的特点是异地更新,其中密钥删除通过插入墓碑来标记其陈腐性而不是将其移除到位来处理。这将实际移除推迟到压实,并大大减少了开销。然而,这种经典策略与另一个基本操作符范围删除作斗争,该删除在指定范围内删除所有密钥,要求系统插入许多墓碑并造成严重的性能问题。为了解决这个问题,现代LSM系统引入了记录开始和结束键的范围墓碑,以避免每个关键墓碑。虽然这实现了令人印象深刻的范围删除效率,但这样的解决方案与查找不兼容。特别是,我们的实验表明,点查找延迟可以增加30%,即使工作负载中仅删除1%的范围。令我们惊讶的是,这个问题以前没有提出过,尽管范围墓碑解决方案已经使用了五年多。为了解决这一关键性能问题,我们提出了GLORAN,这是一种高效的范围删除方法,可以集成到现代基于LSM的系统中,并在不影响点查找效率的情况下提供理想的范围删除性能。它引入了一个全局索引,允许点查找快速定位相关范围,而无需检索许多不相关的元素,将I/O复杂度从O(N/λ)降低到O(log^2 N/(λF)或O(φlogN/F),其中1/λ是范围删除的比例,并且φ是LSM-trees中Bloom过滤器的FPR。此外,我们设计了一个入口有效性估算器,以进一步提高O(εlog^2 N/(λF))的预期I/O成本,用于查找现有密钥。广泛的评估表明,与SOTA方法相比,GLORAN始终优于基线,同时实现高达10.6倍的点查找和2.7倍的整体吞吐量。

RF-Behavior:用于人类行为和情绪分析的多式无线电频率数据集

最近的研究证明了基于相机和惯性数据对模拟人类手势、活动和情绪的互补性。然而,尽管对环境传感以及面向未来WiFi和6G标准的联合通信和传感越来越重要,但将这些模式与射频数据(雷达和RFID)集成的数据集仍然很少。我们引入了RF-Behavior,一个用于全面人类行为和情感分析的多模态射频数据集。我们收集了44名参与者执行21个手势,10个活动和6个情绪表达的数据。使用同步传感器捕获数据,包括13个雷达(8个地面安装和5个天花板安装),6到8个RFID标签(每个手臂上附着)和LoRa。惯性测量单元(IMU)和24个红外相机用于提供精确的运动地面真相。 RF-Behavior提供了一个统一的多模态数据集,涵盖人类行为的全部范围 - 从简短的手势到活动和情绪状态 - 能够跨运动和情绪识别进行多任务学习的研究。基准结果表明,战略传感器的放置是跨模式的互补,具有不同行为类别的独特性能特征。

继续滚动加载更多