42digest首页
缺失的奖励:经验时代的Active Inference

The Missing Reward: Active Inference in the Era of Experience

Bo Wen

arXiv
2025年8月7日

本文认为Active Inference(AIF)为开发能够从经验中学习而无需持续人工奖励设计的自主AI智能体提供了关键基础。随着AI系统开始耗尽高质量训练数据并依赖日益庞大的人力资源进行奖励设计,当前范式面临着可能阻碍真正自主智能发展的可扩展性挑战。关于"经验时代"的提议——智能体从自我生成的数据中学习——是向前迈出的重要一步。然而,这一愿景仍然依赖于大量人工设计的奖励函数,实际上将瓶颈从数据管理转移到了奖励管理。这凸显了我们所说的基础行动力缺口:当代AI系统无法自主制定、调整和追求目标以应对变化环境。我们提出AIF可以通过用最小化自由能的内在驱动力替代外部奖励信号来弥合这一缺口,使智能体能够通过统一的贝叶斯目标自然平衡探索与利用。通过将大型语言模型(LLM)作为生成式世界模型与AIF的原则性决策框架相结合,我们可以创建既能高效从经验中学习,又能保持与人类价值观一致的智能体。这种综合为实现能够在遵守计算和物理约束的同时自主发展的AI系统提供了一条引人注目的路径。

This paper argues that Active Inference (AIF) provides a crucial foundation for developing autonomous AI agents capable of learning from experience without continuous human reward engineering. As AI systems begin to exhaust high-quality training data and rely on increasingly large human workforces for reward design, the current paradigm faces significant scalability challenges that could impede progress toward genuinely autonomous intelligence. The proposal for an "Era of Experience," where agen...