42digest
CRISP:用于去化和修剪的聚类多向量表示

CRISP: Clustering Multi-Vector Representations for Denoising and Pruning

João Veneroso, Rajesh Jayaram, Jinmeng Rao, Gustavo Hernández Ábrego, Majid Hadian, Daniel Cer

arXiv
2025年5月16日

多向量模型,如ColBERT,是神经信息检索(IR)的重大进步,通过多个上下文化的令牌级嵌入表示查询和文档,提供最先进的性能。 然而,这种增加的表示大小引入了大量的存储和计算开销,阻碍了在实践中的广泛采用。 减轻这种开销的一种常见方法是将模型的冻结向量聚类,但这种策略的有效性从根本上受到这些嵌入的内在聚类性的限制。 在这项工作中,我们介绍了CRISP(具有内在结构修剪的集群表示),这是一种新颖的多向量训练方法,可直接在端到端训练过程中学习固有的可聚性表示。 通过将聚类集成到训练阶段,而不是将其强加在临时阶段,CRISP在所有表示大小以及其他令牌修剪方法方面明显优于后集群。 在BEIR检索基准测试中,CRISP实现了矢量数量减少3倍的显著速度,同时优于原始未修剪模型。 这表明,学习聚类通过过滤不相关的信息有效地使模型脱色,从而产生更强大的多向量表示。 通过更具侵略性的聚类,CRISP实现了11倍的向量减少,质量损失仅为3.6%。

Multi-vector models, such as ColBERT, are a significant advancement in neural information retrieval (IR), delivering state-of-the-art performance by representing queries and documents by multiple contextualized token-level embeddings. However, this increased representation size introduces considerable storage and computational overheads which have hindered widespread adoption in practice. A common approach to mitigate this overhead is to cluster the model's frozen vectors, but this strategy's ef...