No Free Lunch From Random Feature Ensembles: Scaling Laws and Near-Optimality Conditions
Benjamin S. Ruben, William L. Tong, Hamza Tahir Chaudhry, Cengiz Pehlevan
鉴于总模型大小的固定预算,必须在训练单个大模型或组合多个较小模型的预测之间做出选择。 我们研究超参数化和参数化不足的随机特征脊回归模型集合的这种权衡。 使用确定性等效风险估计,我们证明,当固定数量的参数分布在 K 独立训练的模型之间时,山脊优化的测试风险会随着 K 的增加而增加。 因此,单个大模型实现了最佳性能。 然后我们询问合奏何时能达到近乎最优的性能。 在超参数化方案中,我们显示,按照领先顺序,测试错误仅取决于集成大小和模型大小,仅通过总特征计数,因此超参数化集成持续实现接近最佳性能。 为了理解参数不足的集成,当每个集成成员的集成大小和参数按照“增长指数” l 联合缩放时,我们将测试风险的缩放法作为总参数计数的函数。 虽然通过增加具有固定集成大小的模型大小始终可以实现最佳错误缩放,但我们的分析确定了内核和任务特征结构上的条件,根据这些条件,可以通过集成大小和模型大小的联合缩放获得接近最佳缩放定律。
Given a fixed budget for total model size, one must choose between training a single large model or combining the predictions of multiple smaller models. We investigate this trade-off for ensembles of random-feature ridge regression models in both the overparameterized and underparameterized regimes. Using deterministic equivalent risk estimates, we prove that when a fixed number of parameters is distributed among K independently trained models, the ridge-optimized test risk increases with K. Co...