Spatial Information Bottleneck for Interpretable Visual Recognition
Kaixiang Shu, Kai Meng, Junqin Luo
深度神经网络通常学习空间纠缠的表示,将判别的前景特征与虚假的背景相关性混为一谈,从而破坏了模型的可解释性和鲁棒性。 我们提出了一个从信息理论角度对梯度归因的新理解框架。 我们证明,在温和的条件下,在反向传播期间计算的矢量-雅各子产品(VJP)对类标签的输入特征的最小足够统计。 在这一发现的激励下,我们提出了一个编码解码视角:前向传播将输入编码到类空间,而反向传播中的VJP将这种编码解码回特征空间。 因此,我们提出空间信息瓶颈(S-IB)来空间分离信息流。 通过最大化前景VJP和输入之间的相互信息,同时最小化背景区域中的相互信息,S-IB鼓励网络仅在与类相关的空间区域对信息进行编码。 由于后临时解释方法从根本上来源于VJP计算,因此在训练过程中直接优化VJP的空间结构可以提高不同解释范式的可视化质量。 对五个基准的实验在六种解释方法中展示了普遍改进,在没有方法特定调优的情况下实现了更好的前景集中和背景抑制,以及一致的分类精度增益。
Deep neural networks typically learn spatially entangled representations that conflate discriminative foreground features with spurious background correlations, thereby undermining model interpretability and robustness. We propose a novel understanding framework for gradient-based attribution from an information-theoretic perspective. We prove that, under mild conditions, the Vector-Jacobian Products (VJP) computed during backpropagation form minimal sufficient statistics of input features with ...