How Brittle is Agent Safety? Rethinking Agent Risk under Intent Concealment and Task Complexity
Zihan Ma, Dongsheng Zhu, Shudong Liu, Taolin Zhang, Junnan Liu, Qingqiu Li, Minnan Luo, Songyang Zhang, Kai Chen
目前对LLM驱动剂的安全评估主要集中在原子危害上,未能解决在复杂任务中隐藏或稀释恶意意图的复杂威胁。 我们通过对意图隐藏和任务复杂性的正交压力下的代理安全脆度进行二维分析来解决这一差距。 为了实现这一目标,我们引入了OASIS(正交代理安全调查套件),这是一个具有细粒度注释和高保真模拟沙盒的分层基准测试。 我们的发现揭示了两个关键现象:随着意图变得模糊,安全对齐急剧下降和可预测地下降,并且出现了“复杂性悖论”,其中由于能力限制,代理商在更困难的任务上似乎更安全。 通过发布OASIS及其模拟环境,我们为在这些被忽视的尺寸中探索和加强代理安全提供了原则性的基础。
Current safety evaluations for LLM-driven agents primarily focus on atomic harms, failing to address sophisticated threats where malicious intent is concealed or diluted within complex tasks. We address this gap with a two-dimensional analysis of agent safety brittleness under the orthogonal pressures of intent concealment and task complexity. To enable this, we introduce OASIS (Orthogonal Agent Safety Inquiry Suite), a hierarchical benchmark with fine-grained annotations and a high-fidelity sim...