大型语言模型(LLM)现已广泛普及,惠及所有教育水平的学习者。 这一发展引起了人们的担忧,即它们的使用可能会绕过基本的学习过程,损害既定评估格式的完整性。 在物理教育中,问题解决在教学和评估中起着核心作用,因此,了解LLM的物理特异性问题解决能力至关重要。 这种理解是将LLM纳入教学和评估的负责任和教学方法的关键。 因此,本研究将通用LLM(GPT-4o,使用不同的提示技术)和推理优化模型(o1预视)与德国物理奥林匹克竞赛参与者的问题解决性能进行了比较,基于一组定义明确的奥林匹克竞赛问题。 除了评估生成解决方案的正确性外,该研究还分析了LLM生成解决方案的特征优势和局限性。 这项研究的结果表明,经过测试的LLM(GPT-4o和o1预览)都证明了在奥林匹克型物理问题上的先进问题解决能力,平均优于人类参与者。 提示技术对GPT-4o的性能影响不大,而o1预览几乎一直优于GPT-4o和人类基准。 基于这些发现,该研究讨论了物理学教育中总结和形成性评估设计的影响,包括如何维护评估完整性并支持学生批判性地参与LLM。
我们研究大型基于语言模型的人工智能(AI)系统GPT-4o的多语言和多模态性能,使用跨越多种语言和主题类别的多种物理概念清单。 这些清单来自PhysPort网站,涵盖了经典物理学主题,如力学,电磁学,光学和热力学,以及相对论,量子力学,天文学,数学和实验室技能。 与以前的仅文本研究不同,我们将清单作为图像上传,以反映学生在纸上看到的内容,从而评估系统的多模态功能。 我们的结果表明各受试者的表现变化,实验室技能脱颖而出是最弱的。 我们还观察到不同语言的差异,英语和欧洲语言的表现最强劲。 值得注意的是,库存品的相对困难在很大程度上与调查的语言无关。 在将AI结果与现有关于学生表现的文献进行比较时,我们发现AI系统在所有学科类别中的表现都优于平均后指导本科生,但实验室技能除外。 此外,人工智能在需要图像视觉解释的项目上的表现比那些纯粹基于文本的项目更糟糕。 虽然我们的探索性发现显示了GPT-4o在物理教育中的潜在有用性,但它们强调了教师培养学生批判性评估AI输出的能力的迫切需要,根据AI的进步来深思熟虑地调整课程,并解决与AI集成相关的公平问题。
心理模拟在人类物理推理中的作用被广泛承认,但它是否用于具有不同模拟成本的场景及其边界所在的情况。 使用浇注大理石任务,我们的人类研究在预测浇注角度时揭示了两种不同的错误模式,通过模拟时间进行区分。 虽然心理模拟在更简单的场景中准确地捕获了人类的判断,但当模拟时间超过一定边界时,线性启发式模型更好地匹配了人类的预测。 在这些观察的激励下,我们提出了一个双过程框架,模拟-英雄学模型(SHM),其中直观的物理采用模拟进行短时间模拟,但当模拟变得昂贵时切换到英雄主义。 通过将以前被视为独立的计算方法集成到一个统一的模型中,SHM定量地捕获它们的切换机制。 SHM更精确地与人类行为保持一致,并展示了不同场景的一致预测性能,促进了我们对直观物理推理适应性的理解。
No more items to load.