Plasma Shape Control via Zero-shot Generative Reinforcement Learning
Niannian Wu, Rongpeng Li, Zongyu Yang, Yong Xiao, Ning Wei, Yihang Chen, Bo Li, Zhifeng Zhao, and Wulyu Zhong
传统的PID控制器对等离子体形状控制的适应性有限,任务特定的强化学习(RL)方法受到有限的概括和重复再训练的需要。 为了克服这些挑战,本文提出了一个新的框架,用于从历史PID控制放电的大规模离线数据集中开发多功能的零镜头控制策略。 我们的方法协同将生成对抗性模仿学习(GAIL)与希尔伯特空间表示学习相结合,以实现双重目标:模仿PID数据的稳定操作风格,并构建几何结构的潜在空间,以实现高效,目标导向的控制。 由此产生的基础策略可以以零拍摄的方式部署不同的轨迹跟踪任务,而无需任何特定任务的微调。 对HL-3托卡马克模拟器的评估表明,该策略擅长精确和稳定地跟踪一系列等离子体场景中关键形状参数的参考轨迹。 这项工作为开发未来聚变反应堆的高度灵活和数据高效的智能控制系统提供了一条可行的途径。
Traditional PID controllers have limited adaptability for plasma shape control, and task-specific reinforcement learning (RL) methods suffer from limited generalization and the need for repetitive retraining. To overcome these challenges, this paper proposes a novel framework for developing a versatile, zero-shot control policy from a large-scale offline dataset of historical PID-controlled discharges. Our approach synergistically combines Generative Adversarial Imitation Learning (GAIL) with Hi...