Modèle physique variationnel pour l'estimation de réponses impulsionnelles de salles
Louis Lalay (LTCI, IP Paris, S2A), Mathieu Fontaine (LTCI, IP Paris, S2A), Roland Badeau (S2A, LTCI, IP Paris)
房间脉冲响应估计对于语音反转等任务至关重要,可以提高自动语音识别。 大多数现有方法都依赖于旨在复制信号处理原理的统计信号处理或深度神经网络。 然而,将统计和物理建模结合进行RIR估计在很大程度上仍未探索。 本文提出了一种新的方法,通过理论上接地的模型整合这两个方面。 RIR分解为可解释参数:通过频率依赖的指数衰减(例如建模壁吸收)和自动退步滤波器(例如建模麦克风响应)过滤的白色高斯噪声。 可变自由能源成本功能可实现实用参数估计。 作为概念的证明,我们表明,给定干燥和混响的语音信号,建议的方法优于嘈杂环境中的经典去卷积,正如客观指标所验证的那样。
Room impulse response estimation is essential for tasks like speech dereverberation, which improves automatic speech recognition. Most existing methods rely on either statistical signal processing or deep neural networks designed to replicate signal processing principles. However, combining statistical and physical modeling for RIR estimation remains largely unexplored. This paper proposes a novel approach integrating both aspects through a theoretically grounded model. The RIR is decomposed int...