UCO: A Multi-Turn Interactive Reinforcement Learning Method for Adaptive Teaching with Large Language Models
Shouang Wei, Min Zhang, Xin Lin, Bo Jiang, Kun Kuang, Zhongxiang Dai
大型语言模型(LLM)正在从回答提供者转变为教育环境中的智能导师,但目前的监督微调方法仅学习表面教学模式,而没有动态适应能力。 最近的强化学习方法解决了这一限制,但面临两个关键挑战。 首先,他们仅根据学生是否产生正确的产出来评估教学效率,无法区分学生在互动过程中是否真正理解或回应教师提供的答案。 其次,他们无法通过互动对话实时感知学生不断变化的认知状态,从而无法适应教学策略,以动态地匹配学生的认知水平。 我们提出了单向认知优化(UCO)方法来应对这些挑战。 UCO使用多转交互式强化学习范式,其中创新在于两个协同奖励功能:进度奖励捕获学生的认知进步,评估学生是否真正从混乱过渡到理解,而脚手架奖励动态识别每个学生的近端开发区(ZPD),鼓励教师保持该地区内的高效教学。 我们通过将其与BigMath和MathTutorBench基准上的11个基线模型进行比较来评估UCO。 实验结果表明,我们的UCO模型优于所有同等规模的模型,并实现了与高级闭源模型相当的性能。 代码和数据可在https://github.com/Mind-Lab-ECNU/UCO上查阅。
Large language models (LLMs) are shifting from answer providers to intelligent tutors in educational settings, yet current supervised fine-tuning methods only learn surface teaching patterns without dynamic adaptation capabilities. Recent reinforcement learning approaches address this limitation but face two critical challenges. First, they evaluate teaching effectiveness solely based on whether students produce correct outputs, unable to distinguish whether students genuinely understand or echo...