fruit-SALAD: A Style Aligned Artwork Dataset to reveal similarity perception in image embeddings
Tillmann Ohm, Andres Karjus, Mikhail Tamm, Maximilian Schich
视觉相似性的概念对于计算机视觉以及围绕图像的矢量嵌入的应用程序和研究至关重要。 然而,基准数据集的稀缺性在探索这些模型如何看待相似性方面构成了重大障碍。 在这里,我们介绍了Style Aligned Artwork Datasets(SALADs),以及一个水果-SALAD的例子,有10,000张水果描绘的图像。 这个组合的语义类别和风格基准包括10个易于识别的水果类别中的100个实例,跨越10个易于区分的风格。 利用生成图像合成的系统管道,这个视觉上多样化但平衡的基准展示了各种计算模型中语义类别和风格相似性权重的显着差异,包括机器学习模型,特征提取算法和复杂性度量,以及概念模型以供参考。 这个精心设计的数据集提供了一个控制和平衡的平台,用于比较分析相似性感知。 SALAD框架允许比较这些模型如何执行语义类别和样式识别任务,以超越轶事知识的水平,使其具有可量化和定性可解释性。
The notion of visual similarity is essential for computer vision, and in applications and studies revolving around vector embeddings of images. However, the scarcity of benchmark datasets poses a significant hurdle in exploring how these models perceive similarity. Here we introduce Style Aligned Artwork Datasets (SALADs), and an example of fruit-SALAD with 10,000 images of fruit depictions. This combined semantic category and style benchmark comprises 100 instances each of 10 easy-to-recognize ...