Speech Separation for Hearing-Impaired Children in the Classroom
Feyisayo Olalere, Kiki van der Heijden, H. Christiaan Stronks, Jeroen Briaire, Johan H. M. Frijns, Yagmur Güçlütürk
课堂环境对于有听力障碍的儿童来说尤其具有挑战性,背景噪音,多个说话者和混响会降低言语感知。 这些困难对儿童来说比成人更大,但大多数辅助设备的深度学习语音分离模型是在简化的低混响条件下使用成人声音开发的。 这既忽略了儿童声音的更高光谱相似性,这削弱了分离线索,也忽略了真实教室的声学复杂性。 我们使用MIMO-TasNet解决这一差距,MIMO-TasNet是一种紧凑,低延迟,多通道架构,适合在双边助听器或人工耳蜗植入物中实时部署。 我们模拟了自然主义的课堂场景,在不同的噪音和距离条件下移动儿童 - 儿童 - 成人交谈者配对。 训练策略测试了模型如何通过空间线索适应儿童的演讲。 比较了成人语音、课堂数据和微调变体训练的模型,以评估数据效率的适应。 结果表明,成人训练的模型在干净的场景中表现良好,但课堂特定的培训大大提高了分离质量。 微调只有一半的课堂数据取得了可比的收益,证实了高效的转移学习。 带有漫射喙噪声的训练进一步提高了鲁棒性,模型保留了空间意识,同时推广到看不见的距离。 这些发现表明,空间意识架构与有针对性的适应相结合,可以改善嘈杂教室中儿童的语音可及性,支持未来的设备辅助技术。
Classroom environments are particularly challenging for children with hearing impairments, where background noise, multiple talkers, and reverberation degrade speech perception. These difficulties are greater for children than adults, yet most deep learning speech separation models for assistive devices are developed using adult voices in simplified, low-reverberation conditions. This overlooks both the higher spectral similarity of children's voices, which weakens separation cues, and the acous...