MedVoiceBias: A Controlled Study of Audio LLM Behavior in Clinical Decision-Making
Zhi Rui Tam, Yun-Nung Chen
随着大型语言模型从基于文本的界面过渡到临床环境中的音频交互,它们可能会通过音频中的并行语线索引入新的漏洞。 我们在170个临床病例中评估了这些模型,每个病例都合成了来自36个不同语音配置文件的语音,这些语音配置文件跨越了年龄,性别和情感的变化。 我们的发现揭示了一种严重的模式偏差:与基于文本的相同输入相比,音频输入的手术建议差异高达35%,其中一个模型提供的建议减少了80%。 进一步的分析发现,年轻人和老年人的声音之间的年龄差异高达12%,尽管思维链的推动,但大多数模式仍然存在。 虽然明确的推理成功地消除了性别偏见,但由于识别性能不佳,情绪的影响未被检测到。 这些结果表明,音频LLM很容易根据患者的语音特征而不是医学证据做出临床决策,这是一个有可能使医疗保健差异永久化的缺陷。 我们的结论是,在这些模型的临床部署之前,偏见意识架构是必不可少的,也是迫切需要的。
As large language models transition from text-based interfaces to audio interactions in clinical settings, they might introduce new vulnerabilities through paralinguistic cues in audio. We evaluated these models on 170 clinical cases, each synthesized into speech from 36 distinct voice profiles spanning variations in age, gender, and emotion. Our findings reveal a severe modality bias: surgical recommendations for audio inputs varied by as much as 35% compared to identical text-based inputs, wit...