Uncertainty Calibration of Multi-Label Bird Sound Classifiers
Raphael Schwinger, Ben McEwen, Vincent S. Kather, René Heinrich, Lukas Rauch and Sven Tomforde
无源声学监测可实现大规模的生物多样性评估,但生物声学声音的可靠分类不仅需要高精度,还需要对地面决策进行校准良好的不确定性估计。 在生物声学中,校准受到重叠发声,长尾物种分布以及训练和部署数据之间的分布变化的挑战。 生物声学领域多标签深度学习分类器的校准尚未评估。 我们系统地对BirdSet基准上四个最先进的多标签鸟类声音分类器的校准进行基准测试,使用无阈值校准指标(ECE,MCS)以及歧视指标(cmAP)评估全局,每个数据集和每类校准。 模型校准在数据集和类之间差异很大。 虽然Perch v2和ConvNeXt_BS显示更好的全局校准,但结果因数据集而异。 这两种型号都表示一致的不信任,而AudioProtoPNet和BirdMAE大多过于自信。 令人惊讶的是,对于不太频繁的课程来说,校准似乎更好。 使用简单的临时校准方法,我们展示了一种直接的方法来改进校准。 小型标记校准集足以显著改善Platt缩放的校准,而全球校准参数则受到数据集可变性的影响。 我们的发现强调了评估和改进生物声学分类器中不确定性校准的重要性。
Passive acoustic monitoring enables large-scale biodiversity assessment, but reliable classification of bioacoustic sounds requires not only high accuracy but also well-calibrated uncertainty estimates to ground decision-making. In bioacoustics, calibration is challenged by overlapping vocalisations, long-tailed species distributions, and distribution shifts between training and deployment data. The calibration of multi-label deep learning classifiers within the domain of bioacoustics has not ye...