Anchors in the Machine: Behavioral and Attributional Evidence of Anchoring Bias in LLMs
Felipe Valencia-Clavijo
大型语言模型(LLM)越来越多地被检查为行为主体和决策系统,但目前尚不清楚观察到的认知偏差是否反映了表面模仿或更深层次的概率变化。 锚定偏见,经典的人类判断偏见,提供了一个关键的测试案例。 虽然先前的工作表明LLM表现出锚定,但大多数证据依赖于表面的输出,留下了内部机制和归属贡献未开发。 本文通过三个贡献推进了LLM锚定的研究:(1)基于日志概率的行为分析,显示锚转移整个输出分布,并控制训练数据污染;(2)精确到Shapley-value归因超过结构化提示字段,以量化锚对模型日志概率的影响;(3)一个统一的锚定偏差灵敏度得分,将行为和归因证据整合到六个开源模型中。 结果揭示了Gemma-2B,Phi-2和Llama-2-7B的强大锚定效应,其归因表明锚影响重新加权。 较小的模型,如GPT-2,Falcon-RW-1B和GPT-Neo-125M显示可变性,表明比例可以调节灵敏度。 然而,在迅速的设计中,归属效应各不相同,强调了将 LLM 视为人类替代品的脆弱性。 研究结果表明,在LLM中锚定偏见是健壮的,可衡量的,可解释的,同时突出了应用领域的风险。 更广泛地说,该框架将行为科学,LLM安全性和可解释性联系起来,为评估LLM中的其他认知偏差提供了可重复的路径。
Large language models (LLMs) are increasingly examined as both behavioral subjects and decision systems, yet it remains unclear whether observed cognitive biases reflect surface imitation or deeper probability shifts. Anchoring bias, a classic human judgment bias, offers a critical test case. While prior work shows LLMs exhibit anchoring, most evidence relies on surface-level outputs, leaving internal mechanisms and attributional contributions unexplored. This paper advances the study of anchori...