42digest首页
隐式模型:具有测试时间计算表达功率尺度

Implicit Models: Expressive Power Scales with Test-Time Compute

Jialin Liu, Lisang Ding, Stanley Osher, Wotao Yin

arXiv
2025年10月4日

隐式模型(一个新兴的模型类)通过将单个参数块迭代到固定点来计算输出。 这种架构实现了一个无限深度、重量连接的网络,它训练有恒定的内存,与显式模型相比,显著降低了相同性能水平的内存需求。 虽然从经验上知道,这些紧凑的模型通常可以通过分配更多的测试时间计算来匹配甚至超过更大的显式网络,但底层机制仍然知之甚少。 我们通过表达力的非参数分析来研究这个差距。 我们提供严格的数学表征,表明一个简单而常规的隐式运算符可以通过迭代逐步表达更复杂的映射。 我们证明,对于广泛的隐式模型,这个过程允许模型的表达功率尺度与测试时间计算,最终匹配一个更丰富的函数类。 该理论在三个领域进行了验证:图像重建,科学计算和运营研究,证明随着测试时间迭代的增加,学习映射的复杂性上升,而解决方案质量同时提高和稳定。

Implicit models, an emerging model class, compute outputs by iterating a single parameter block to a fixed point. This architecture realizes an infinite-depth, weight-tied network that trains with constant memory, significantly reducing memory needs for the same level of performance compared to explicit models. While it is empirically known that these compact models can often match or even exceed larger explicit networks by allocating more test-time compute, the underlying mechanism remains poor...