Seeing Sound, Hearing Sight: Uncovering Modality Bias and Conflict of AI models in Sound Localization
Yanhao Jia and Ji Xie and S Jivaganesh and Hao Li and Xu Wu and Mengmi Zhang
想象一下,听到狗吠声,转向声音只看到一辆停放的汽车,而真正的,沉默的狗坐在别处。 这种感官冲突测试了感知,但人类通过优先考虑声音而不是误导性的视觉效果来可靠地解决它们。 尽管多模态AI集成了视觉和音频,但对这些系统如何处理跨模态冲突或它们是否偏爱一种模式知之甚少。 在这项研究中,我们系统地研究了AI声音本地化的模式偏见和冲突解决。 我们评估领先的多模态模型,并根据六个视听条件下的心理物理实验中的人类表现进行基准测试,包括一致,冲突,缺席的线索。 人类一直优于人工智能,通过依赖听觉信息,表现出对冲突或缺失视觉效果的卓越弹性。 相比之下,人工智能模型通常默认为视觉输入,将性能降低到接近机会水平。 为了解决这个问题,我们使用通过3D模拟生成的立体声音频图像数据集来微调最先进的模型。 即使训练数据有限,改进模型也超越了现有的基准。 值得注意的是,它还反映了人类般的水平定位偏差,由于立体声音频结构反映了人的耳朵放置,因此可能倾向于左向右精度。 这些发现强调了感官输入质量和系统架构如何塑造多模态表示精度。
Imagine hearing a dog bark and turning toward the sound only to see a parked car, while the real, silent dog sits elsewhere. Such sensory conflicts test perception, yet humans reliably resolve them by prioritizing sound over misleading visuals. Despite advances in multimodal AI integrating vision and audio, little is known about how these systems handle cross-modal conflicts or whether they favor one modality. In this study, we systematically examine modality bias and conflict resolution in AI s...