Mitigating Perception Bias: A Training-Free Approach to Enhance LMM for Image Quality Assessment
Baoliang Chen, Siyi Pan, Dongxu Wu, Liang Xie, Xiangjie Sui, Lingyu Zhu, Hanwei Zhu
尽管大型多模态模型(LMM)在高级视觉任务中的表现令人印象深刻,但它们的图像质量评估(IQA)的能力仍然有限。 其中一个主要原因是LMM主要是为高级任务(例如,图像字幕)训练的,强调不同质量下的统一图像语义提取。 这种语义意识但质量不敏感的感知偏差不可避免地导致当这些LMM被迫获得质量评级时,严重依赖图像语义。 在本文中,我们提出了一个无训练的偏差框架,而不是重新训练或调整LMM成本,其中通过减轻图像语义引起的偏差来纠正图像质量预测。 具体来说,我们首先探索了几种语义保存的失真,这些失真可以在保持可识别语义的同时显著降低图像质量。 通过将这些特定的失真应用于查询或测试图像,我们确保退化的图像被识别为劣质,而它们的语义主要存在。 在质量推断过程中,查询图像及其相应的退化版本都输入到LMM,同时提示表示在退化图像质量被认为质量差的条件下应推断查询图像质量。 此先前条件有效地调整了LMM的质量感知,因为所有退化的图像始终被评为劣质,无论其语义差异如何。 最后,使用条件概率模型汇总了在不同先前条件下(降级版本)推断的查询图像的质量分数。 各种IQA数据集的广泛实验表明,我们的去偏差框架可以持续增强LMM性能。
Despite the impressive performance of large multimodal models (LMMs) in high-level visual tasks, their capacity for image quality assessment (IQA) remains limited. One main reason is that LMMs are primarily trained for high-level tasks (e.g., image captioning), emphasizing unified image semantics extraction under varied quality. Such semantic-aware yet quality-insensitive perception bias inevitably leads to a heavy reliance on image semantics when those LMMs are forced for quality rating. In thi...