Moral Susceptibility and Robustness under Persona Role-Play in Large Language Models
Davi Bastos Costa, Felippe Alves and Renato Vicente
大型语言模型(LLM)越来越多地在社会背景下运作,激励分析它们如何表达和改变道德判断。 在这项工作中,我们调查了LLM对角色角色角色的道德反应,促使LLM承担特定的角色。 使用道德基础问卷(MFQ),我们引入了一个基准,量化了两个属性:道德易感性和道德稳健性,分别从角色中和角色内MFQ分数的可变性中定义。 我们发现,对于道德稳健性,模型家族占差异的大部分,而模型大小没有显示系统效应。 克劳德家族在很大程度上是最稳健的,其次是双子座和GPT-4型号,其他家族表现出较低的稳健性。 相比之下,道德易感性表现出温和的家庭效应,但家庭规模内明显的影响,较大的变体更容易受到影响。 此外,健壮性和易感性是正相关的,这种关联在家庭层面更为明显。 此外,我们还为没有角色角色的模特和跨模型的角色提供道德基础简介。 这些分析共同提供了一个系统的观点,即角色调节如何在大型语言模型中塑造道德行为。
Large language models (LLMs) increasingly operate in social contexts, motivating analysis of how they express and shift moral judgments. In this work, we investigate the moral response of LLMs to persona role-play, prompting a LLM to assume a specific character. Using the Moral Foundations Questionnaire (MFQ), we introduce a benchmark that quantifies two properties: moral susceptibility and moral robustness, defined from the variability of MFQ scores across and within personas, respectively. We ...