活水快报 - 42Digest

PDAC:通过概率密度意识进行持续学习的高效核心集选择

PDAC: Efficient Coreset Selection for Continual Learning via Probability Density Awareness

Junqi Gao, Zhichang Guo, Dazhi Zhang, Yao Li, Yi Ran, Biqing Qi

arXiv

2025年11月12日

基于排练的连续学习(CL)保持有限的内存缓冲区,以存储重播样本以保留知识,使这些方法严重依赖存储样本的质量。当前基于排练的CL方法通常通过选择具有代表性的子集(称为核心集)来构建内存缓冲区,旨在以最小的存储开销近似完整数据集的训练功效。然而,主流的Coreset Selection(CS)方法通常将CS问题制定为双级优化问题,依赖于许多内部和外部迭代来解决,从而导致大量的计算成本,从而限制了其实际效率。在本文中,我们的目标是为核心构建提供更有效的选择逻辑和方案。为此,我们首先通过局部误差分解的视角分析缓冲区训练模型和贝叶斯最优模型之间的均方误差(MSE),以调查来自不同区域的样本对MSE抑制的贡献。进一步的理论和实验分析表明,概率密度高的样品在误差抑制中起主导作用。受此启发,我们提出了Probability Density-Aware Coreset(PDAC)方法。 PDAC 利用投影高斯混合 (PGM) 模型来估计每个样品的联合密度,从而实现高效的密度优先缓冲选择。最后,我们介绍了流式期望最大化(EM)算法,以增强PGM参数对流数据的适应性,为流式传输场景产生流式PDAC(SPDAC)。广泛的比较实验表明,我们的方法在各种CL设置中优于其他基线,同时确保了有利的效率。

Rehearsal-based Continual Learning (CL) maintains a limited memory buffer to store replay samples for knowledge retention, making these approaches heavily reliant on the quality of the stored samples. Current Rehearsal-based CL methods typically construct the memory buffer by selecting a representative subset (referred to as coresets), aiming to approximate the training efficacy of the full dataset with minimal storage overhead. However, mainstream Coreset Selection (CS) methods generally formul...

机器学习

View Source