Benevolent Dictators? On LLM Agent Behavior in Dictator Games
Andreas Einwiller, Kanishka Ghosh Dastidar, Artur Romazanov, Annette Hautli-Janisz, Michael Granitzer, Florian Lemmerich
在行为科学中,进行诸如最后通牒游戏等实验来评估研究参与者对公平或自我利益的偏好。 在独裁者游戏中,一个简化版本的最后通牒游戏,其中只有两名玩家中的一个做出决定,独裁者单方面决定如何在自己和另一个玩家之间分割固定金额。 尽管最近的研究已经探索了基于大语言模型(LLM)的AI代理的行为模式,指示采用不同的角色,但我们质疑这些结果的稳健性。 特别是,其中许多研究忽略了系统提示的作用——塑造模型行为的基础指令——并没有考虑到提示的轻微变化。 然而,在研究LLM的高度复杂的行为方面时,强大的基线是必不可少的。 为了克服以前的局限性,我们提出了LLM代理行为研究(LLM-ABS)框架,以(i)探索不同的系统如何提示影响模型行为,(ii)通过使用中性的提示变化获得对代理偏好的更可靠的见解,以及(iii)分析LLM代理对开放式指令响应的语言特征,以更好地了解其行为背后的原因。 我们发现,代理人经常表现出对公平的强烈偏好,以及系统对他们的行为的重大影响。 从语言的角度来看,我们确定模型以不同的方式表达他们的反应。 尽管快速敏感性仍然是一个持续的挑战,但我们提出的框架为LLM代理行为研究奠定了坚实的基础。 我们的代码工件可在https://github.com/andreaseinwiller/LLM-ABS上找到。
In behavioral sciences, experiments such as the ultimatum game are conducted to assess preferences for fairness or self-interest of study participants. In the dictator game, a simplified version of the ultimatum game where only one of two players makes a single decision, the dictator unilaterally decides how to split a fixed sum of money between themselves and the other player. Although recent studies have explored behavioral patterns of AI agents based on Large Language Models (LLMs) instructed...