MCAD: Multimodal Context-Aware Audio Description Generation For Soccer
Lipisha Chaudhary, Trisha Mittal, Subhadra Gopalakrishnan, Ifeoma Nwogu, Jaclyn Pytlarz
音频描述(AD)对于使视力障碍者可以访问视觉内容至关重要。 最近的作品展示了一个有希望的步骤,使AD自动化,但它们仅限于在此过程中使用人类注释的地面真理AD来描述高质量的电影内容。 在这项工作中,我们提出了一个端到端的管道,MCAD,它将AD一代从电影扩展到体育领域,重点是足球比赛,而不依赖于地面真理AD。 为了解决没有特定领域的 AD 数据集的问题,我们在公开可用的电影 AD 数据集上微调视频大语言模型,以便它学习 AD 的叙事结构和约定。 在推理过程中,MCAD包含多模态上下文线索,如球员身份,足球事件和行动以及游戏评论。 这些线索与微调VideoLLM的输入提示相结合,使系统能够为每个视频段生成完整的AD文本。 我们进一步引入了一个新的评估指标ARGE-AD,旨在准确评估生成AD的质量。 ARGE-AD评估生成的AD存在五个特征:(i)使用人的名字,(ii)提及动作和事件,(iii)AD的适当长度,(iv)没有代词,以及(v)从评论或字幕重叠。 我们对电影和足球数据集的方法进行了深入分析。 我们还验证使用此度量来定量评论生成 AD 的质量,使用我们的跨域度量。 此外,我们还为两位AD专家注释的100个足球游戏剪辑提供音频描述。
Audio Descriptions (AD) are essential for making visual content accessible to individuals with visual impairments. Recent works have shown a promising step towards automating AD, but they have been limited to describing high-quality movie content using human-annotated ground truth AD in the process. In this work, we present an end-to-end pipeline, MCAD, that extends AD generation beyond movies to the domain of sports, with a focus on soccer games, without relying on ground truth AD. To address t...