Harnessing the Universal Geometry of Embeddings
Rishi Jha, Collin Zhang, Vitaly Shmatikov, John X. Morris
我们介绍了第一个将文本嵌入从一个向量空间转换为另一个矢量空间的方法,而无需任何配对数据,编码器或预定义的匹配集。 我们的无监督方法将任何嵌入转化为和从通用的潜在表示(即由柏拉图表示假说推测的通用语义结构)。 我们的翻译在具有不同架构、参数计数和训练数据集的模型对之间实现了高余烃相似性。 将未知嵌入到不同空间中的能力,同时保留其几何形状,对矢量数据库的安全性有严重影响。 只能访问嵌入向量的对手可以提取有关底层文档的敏感信息,足以进行分类和属性推断。
We introduce the first method for translating text embeddings from one vector space to another without any paired data, encoders, or predefined sets of matches. Our unsupervised approach translates any embedding to and from a universal latent representation (i.e., a universal semantic structure conjectured by the Platonic Representation Hypothesis). Our translations achieve high cosine similarity across model pairs with different architectures, parameter counts, and training datasets. The abilit...