Joint Embedding vs Reconstruction: Provable Benefits of Latent Space Prediction for Self Supervised Learning
Hugues Van Assel, Mark Ibrahim, Tommaso Biancalani, Aviv Regev, Randall Balestriero
重建和联合嵌入已成为自我监督学习(SSL)中的两个主要范式。 重建方法侧重于从输入空间的不同视图中恢复原始样本。 另一方面,联合嵌入方法对齐了潜在空间中不同视图的表示。 这两种方法都提供了令人信服的优势,但从业者缺乏明确的选择指南。 在这项工作中,我们揭示了区分每个范式的核心机制。 通过利用两种方法的封闭形式解决方案,我们精确地描述了视图生成过程(例如数据增强)如何影响学习的表示。 然后,我们证明,与监督学习不同,SSL范式都需要在增强和无关特征之间最小对齐,以实现渐近最优,增加样本量。 我们的研究结果表明,在这些不相关的特征具有很大量级的情况下,联合嵌入方法更可取,因为它们与基于重建的方法相比,强加了严格较弱的对齐条件。 这些结果不仅澄清了两种范式之间的权衡,也证实了在现实世界具有挑战性的数据集上联合嵌入方法的经验成功。
Reconstruction and joint embedding have emerged as two leading paradigms in Self Supervised Learning (SSL). Reconstruction methods focus on recovering the original sample from a different view in input space. On the other hand, joint embedding methods align the representations of different views in latent space. Both approaches offer compelling advantages, yet practitioners lack clear guidelines for choosing between them. In this work, we unveil the core mechanisms that distinguish each paradigm...