Robust Multi-modal Task-oriented Communications with Redundancy-aware Representations
Jingwen Fu, Ming Xiao, Zhonghao Lyu, Mikael Skoglund, Celimuge Wu
多模态数据的语义通信可以在嘈杂和带宽有限的通道上有效地传输与任务相关的信息。 然而,一个关键的挑战是同时压缩多模态冗余,并在通道失真下提高语义可靠性。 为了应对这一挑战,我们提出了一个稳健而高效的多模态任务导向的通信框架,该框架将两阶段变化信息瓶颈(VIB)与相互信息(MI)的冗余最小化相结合。 在第一阶段,我们应用 uni-modal VIB 来单独压缩每种模式,即文本、音频和视频,同时保留特定任务的特性。 为了提高效率,使用带有对抗性训练的MI最小化模块来抑制跨模态依赖性并促进互补性而不是冗余。 在第二阶段,多模态VIB进一步用于压缩熔融表示,并增强对通道失真的鲁棒性。 关于多模态情绪识别任务的实验结果表明,拟议的框架在准确性和可靠性方面大大优于现有基线,特别是在低信噪比制度下。 我们的工作提供了一个原则框架,共同优化了特定模式的压缩、多式联运冗余和通信可靠性。
Semantic communications for multi-modal data can transmit task-relevant information efficiently over noisy and bandwidth-limited channels. However, a key challenge is to simultaneously compress inter-modal redundancy and improve semantic reliability under channel distortion. To address the challenge, we propose a robust and efficient multi-modal task-oriented communication framework that integrates a two-stage variational information bottleneck (VIB) with mutual information (MI) redundancy minim...