Music Arena: Live Evaluation for Text-to-Music
Yonghyun Kim, Wayne Chi, Anastasios N. Angelopoulos, Wei-Lin Chiang, Koichi Saito, Shinji Watanabe, Yuki Mitsufuji, Chris Donahue
我们推出Music Arena,一个用于文本生成音乐(TTM)模型可扩展人类偏好评估的开放平台。通过听力研究获取人类偏好是TTM领域最权威的评估方法,但这些研究成本高昂且难以比较,因为不同系统的研究协议可能不同。此外,人类偏好可能帮助研究人员对齐其TTM系统或改进自动评估指标,但目前缺乏开放且可更新的偏好数据来源。我们旨在通过提供TTM的*实时*评估来填补这些空白。在Music Arena中,真实用户输入自选的文本提示词,并比较两个TTM系统的输出结果,他们的偏好数据将用于生成排行榜。虽然Music Arena遵循其他AI领域最近的评估趋势,但我们还为其设计了针对音乐特性的关键功能:基于LLM的路由系统以处理TTM系统的异构类型特征,以及收集包括听力数据和自然语言反馈在内的*详细*偏好。我们还提出了带有用户隐私保障的滚动数据发布政策,提供可更新的偏好数据来源并增加平台透明度。通过其标准化评估协议、透明的数据访问政策和针对音乐定制的功能,Music Arena不仅解决了TTM生态系统中的关键挑战,还展示了如何根据特定AI领域的独特特性精心适配实时评估。Music Arena平台访问地址:https://music-arena.org
We present Music Arena, an open platform for scalable human preference evaluation of text-to-music (TTM) models. Soliciting human preferences via listening studies is the gold standard for evaluation in TTM, but these studies are expensive to conduct and difficult to compare, as study protocols may differ across systems. Moreover, human preferences might help researchers align their TTM systems or improve automatic evaluation metrics, but an open and renewable source of preferences does not curr...