42digest首页
上下文图形嵌入:异构数据集成中数据特性的核算

Contextual Graph Embeddings: Accounting for Data Characteristics in Heterogeneous Data Integration

Yuka Haruki, Shigeru Ishikura, Kazuya Demachi and Teruaki Hayashi

arXiv
2025年11月12日

随着组织继续访问不同的数据集,对有效数据集成的需求有所增加。 在这个过程中的关键任务,如模式匹配和实体分辨率,是必不可少的,但往往需要付出巨大的努力。 虽然以前的研究旨在使这些任务自动化,但数据集特征对匹配有效性的影响尚未得到彻底审查,不同方法的组合仍然有限。 本研究引入了一种上下文图嵌入技术,该技术集成了表格数据和上下文元素(如列描述和外部知识)的结构细节。 对具有不同属性(如域特异性、数据大小、缺失率和重叠率)的数据集进行的测试表明,我们的方法始终超越了现有的基于图形的方法,特别是在困难的情况下,例如数值比例高或显著缺失数据的方法。 然而,我们确定了特定的失败案例,例如语义相似但不同的列,这仍然是我们方法的挑战。 该研究强调了两个主要见解:(i)上下文嵌入增强了匹配的可靠性,以及(ii)数据集特性显着影响集成结果。 这些贡献可以推进可支持实际企业应用的实用数据集成系统的发展。

As organizations continue to access diverse datasets, the demand for effective data integration has increased. Key tasks in this process, such as schema matching and entity resolution, are essential but often require significant effort. Although previous studies have aimed to automate these tasks, the influence of dataset characteristics on the matching effectiveness has not been thoroughly examined, and combinations of different methods remain limited. This study introduces a contextual graph e...