42digest首页
SALT:在思想链中转向无泄漏思维的主动

SALT: Steering Activations towards Leakage-free Thinking in Chain of Thought

Shourya Batra, Pierce Tillman, Samarth Gaggar, Shashank Kesineni, Kevin Zhu, Sunishchal Dev, Ashwinee Panda, Vasu Sharma, Maheep Chaudhary

arXiv
2025年11月11日

随着大型语言模型(LLM)发展成为可以访问敏感用户数据的个人助理,他们面临着一个关键的隐私挑战:虽然之前的工作已经解决了输出级隐私问题,但最近的调查结果显示,LLM经常通过其内部推理过程泄露私人信息,违反了上下文隐私期望。 当模型无意中在其推理痕迹中暴露敏感细节时,即使最终输出看起来安全时,也会发生这些泄漏的想法。 挑战在于防止这种泄漏,而不损害模型的推理能力,需要在隐私和效用之间实现微妙的平衡。 我们引入了转向无泄漏思维(SALT)的转向激活,这是一种轻量级的测试时间干预,通过将有针对性的转向向量注入隐藏状态来缓解模型思维链(CoT)中的隐私泄漏。 我们确定了导致这种行为的高泄漏层。 通过跨多个LLM的实验,我们证明SALT实现了减少,包括QwQ-32B的CPL减少18.2%,Llama-3.1-8B的CPL减少17.9%,Deepseek在上下文隐私泄漏数据集AirGapAgent-R中减少31.2%,同时保持可比的任务性能和实用性。 我们的工作将SALT确立为具有推理能力的语言模型中测试时间隐私保护的实用方法,为更安全地部署基于LLM的个人代理提供了途径。

As Large Language Models (LLMs) evolve into personal assistants with access to sensitive user data, they face a critical privacy challenge: while prior work has addressed output-level privacy, recent findings reveal that LLMs often leak private information through their internal reasoning processes, violating contextual privacy expectations. These leaky thoughts occur when models inadvertently expose sensitive details in their reasoning traces, even when final outputs appear safe. The challenge ...