42digest首页
大语言模型并不能模拟人类心理

Large Language Models Do Not Simulate Human Psychology

Sarah Schröder, Thekla Morgenroth, Ulrike Kuhl, Valerie Vaquet, and Benjamin Paaßen

arXiv
2025年8月9日

大语言模型(LLM),如ChatGPT,正越来越多地应用于从简单的写作辅助到复杂的数据标注任务等各种研究中。最近有研究表明,LLM甚至可能模拟人类心理,从而可以在心理学研究中替代人类受试者。我们对此方法提出警示。我们首先提供了反对"LLM能模拟人类心理"这一假设的理论依据,然后通过实证证据说明:即使是针对心理反应特别微调的最新CENTAUR模型,当遇到语义重大变化但措辞细微改变的提问时,LLM的反应与人类反应仍存在显著差异。此外,不同LLM对新项目的反应差异很大,进一步证明了它们的不可靠性。我们的结论是LLM并不能模拟人类心理,建议心理学研究者应将LLM视为有用但本质上不可靠的工具,在每个新应用中都需要以人类反应为基准进行验证。

Large Language Models (LLMs),such as ChatGPT, are increasingly used in research, ranging from simple writing assistance to complex data annotation tasks. Recently, some research has suggested that LLMs may even be able to simulate human psychology and can, hence, replace human participants in psychological studies. We caution against this approach. We provide conceptual arguments against the hypothesis that LLMs simulate human psychology. We then present empiric evidence illustrating our argumen...