Exploring the Stratified Space Structure of an RL Game with the Volume Growth Transform
Justin Curry, Brennan Lagasse, Ngoc B. Lam, Gregory Cox, David Rosenbluth, Alberto Speranzon
在本研究中,我们探索了为玩特定强化学习(RL)游戏而训练的transformer模型的嵌入空间结构。具体而言,我们研究了基于transformer的近端策略优化(PPO)模型在一个简单环境中的视觉输入嵌入方式,该环境中智能体需要收集"硬币"同时避开由"聚光灯"组成的动态障碍物。通过将Robinson等人研究大语言模型(LLM)的体积增长变换的方法适配到RL场景,我们发现这个视觉硬币收集游戏的token嵌入空间也不是流形,更适合建模为分层空间,其中局部维度可以随点而变化。我们通过证明相当一般的体积增长曲线可以由分层空间实现,进一步强化了Robinson的方法。最后,我们的分析表明,当RL智能体行动时,其潜在表征会在遵循固定子策略的低局部维度时期与实现子目标(如收集物体)或环境复杂度增加(如出现更多障碍物)时的高局部维度爆发之间交替变化。因此,我们的工作表明分层潜在空间中的维度分布可能为RL游戏提供一个新的几何复杂度指标。
In this work, we explore the structure of the embedding space of a transformer model trained for playing a particular reinforcement learning (RL) game. Specifically, we investigate how a transformer-based Proximal Policy Optimization (PPO) model embeds visual inputs in a simple environment where an agent must collect "coins" while avoiding dynamic obstacles consisting of "spotlights." By adapting Robinson et al.'s study of the volume growth transform for LLMs to the RL setting, we find that the ...