Siren: A Learning-Based Multi-Turn Attack Framework for Simulating Real-World Human Jailbreak Behaviors
Yi Zhao, Youzhi Zhang
大型语言模型(LLM)广泛应用于现实世界的应用,引发了人们对其安全性和可信度的担忧。 虽然与越狱的红色合作暴露了 LLM 的脆弱性,但目前的努力主要集中在单轮攻击上,忽视了现实世界的对手所使用的多轮策略。 现有的多转弯方法依赖于静态模式或预定义的逻辑链,没有考虑到攻击期间的动态策略。 我们建议使用Siren,一个基于学习的多转弯攻击框架,旨在模拟现实世界的人类越狱行为。 Siren包括三个阶段:(1)MiniMax驱动的训练集结构利用回合级LLM反馈,(2)训练后攻击者进行监督微调(SFT)和直接偏好优化(DPO),(3)攻击和目标LLM之间的相互作用。 实验证明,Siren以LLaMA-3-8B为目标模型,以针对Gemini-1.5-Pro的攻击者实现了90%的攻击成功率(ASR),70%的Mistral-7B对GPT-4o的攻击成功率(ASR),明显优于单圈基线。 此外,具有7B级模型的Siren实现了与利用GPT-4o作为攻击者的多回合基线相当的性能,同时需要更少的转弯,并采用与攻击目标更好地语义一致的分解策略。 我们希望 Siren 能激发在现实情况下对先进的多轮越狱袭击进行更有力的防御。 代码可在https://github.com/YyiyiZhao/iren查阅。 警告:本文包含潜在的有害文本。
Large language models (LLMs) are widely used in real-world applications, raising concerns about their safety and trustworthiness. While red-teaming with jailbreak prompts exposes the vulnerabilities of LLMs, current efforts focus primarily on single-turn attacks, overlooking the multi-turn strategies used by real-world adversaries. Existing multi-turn methods rely on static patterns or predefined logical chains, failing to account for the dynamic strategies during attacks. We propose Siren, a le...