HAKES: Scalable Vector Database for Embedding Search Service
Guoyu Hu, Shaofeng Cai, Tien Tuan Anh Dinh, Zhongle Xie, Cong Yue, Gang Chen, Beng Chin Ooi
现代深度学习模型通过将它们转换为高维嵌入向量来捕获复杂数据的语义。 新兴的应用程序,如检索增强生成,使用嵌入矢量空间中的近似近邻(ANN)搜索来查找类似的数据。 现有的向量数据库为高效的ANN搜索提供了索引,由于在实际高维数据集中的低延迟和高召回,基于图形的索引是最受欢迎的。 然而,这些索引的构建成本很高,在并发读写工作负载下遭受重大争议,并且扩展到多台服务器。 我们的目标是建立一个矢量数据库,在并发读写工作负载下实现高吞吐量和高召回。 为此,我们首先提出了一个ANN索引,具有明确的两阶段设计,将快速过滤阶段与高度压缩的向量和精细阶段相结合,以确保召回,我们设计了一种新的轻量级机器学习技术,以微调索引参数。 我们引入了早期终止检查,以动态调整每个查询的搜索过程。 接下来,我们通过解诵学习参数的管理来添加对写入的支持,同时保持搜索性能。 最后,我们设计了一个分布式矢量数据库,在分类架构中为新索引提供服务。 我们使用深度学习模型生成的高维嵌入数据集,根据12个最先进的索引和三个分布式矢量数据库评估我们的索引和系统。 实验结果表明,我们的指数在高召回区域和并发读写工作负载下优于指数基线。 此外,具有可扩展性,并且比基线的吞吐量高出16倍。 HAKES项目在https://www.comp.nus.edu.sg/dbsystem/hakes/上开源。
Modern deep learning models capture the semantics of complex data by transforming them into high-dimensional embedding vectors. Emerging applications, such as retrieval-augmented generation, use approximate nearest neighbor (ANN) search in the embedding vector space to find similar data. Existing vector databases provide indexes for efficient ANN searches, with graph-based indexes being the most popular due to their low latency and high recall in real-world high-dimensional datasets. However, th...