Benchmarking Diversity in Image Generation via Attribute-Conditional Human Evaluation
Isabela Albuquerque, Ira Ktena, Olivia Wiles, Ivana Kajić, Amal Rannen-Triki, Cristina Vasconcelos, Aida Nematzadeh
尽管生成质量有所进步,但目前的文本到图像(T2I)模型通常缺乏多样性,从而产生均匀的输出。 这项工作引入了一个框架,以解决T2I模型中对稳健多样性评估的需求。 我们的框架通过评估单个概念及其相关的变异因素来系统地评估多样性。 主要贡献包括:(1)用于细致入微多样性评估的新型人类评估模板;(2)一个策划的提示集,涵盖不同的概念及其确定的变异因素(例如提示:苹果的图像,变化因子:颜色);(3)通过二项式测试比较人类注释模型的方法。 此外,我们严格比较各种图像嵌入,用于多样性测量。 值得注意的是,我们的原则性方法允许按多样性对T2I模型进行排名,确定它们特别挣扎的类别。 这项研究提供了强大的方法和见解,为改进T2I模型多样性和度量开发铺平了道路。
Despite advances in generation quality, current text-to-image (T2I) models often lack diversity, generating homogeneous outputs. This work introduces a framework to address the need for robust diversity evaluation in T2I models. Our framework systematically assesses diversity by evaluating individual concepts and their relevant factors of variation. Key contributions include: (1) a novel human evaluation template for nuanced diversity assessment; (2) a curated prompt set covering diverse concept...