SAFENLIDB: A Privacy-Preserving Safety Alignment Framework for LLM-based Natural Language Database Interfaces
Ruiheng Liu, XiaoBing Chen, Jinyu Zhang, Qiongwen Zhang, Yu Zhang, Bailong Yang
大型语言模型(LLM)的快速发展推动了自然语言接口到数据库(NLIDB)的重大进展。 然而,LLM的广泛采用引发了严重的隐私和安全问题。 在交互过程中,LLM可能会无意中暴露机密数据库内容,或者被攻击者操纵,通过看似良性的查询来过滤数据。 虽然目前的努力通常依赖于基于规则的思袭或LLM代理来减轻这种泄漏风险,但这些方法仍然难以应对复杂的基于推理的攻击,遭受高误报率,并且经常损害SQL查询的可靠性。 为了应对这些挑战,我们提出了SafeNlidb,这是基于LLM的NLIDB的新颖的隐私安全协调框架。 该框架具有自动化管道,从头开始生成混合思维链交互数据,将隐式安全推理与SQL生成无缝结合。 此外,我们引入了推理热和交替偏好优化,以克服直接偏好优化(DPO)的多偏好振荡,使LLM能够通过细粒度推理产生安全感知SQL,而无需人类注释的偏好数据。 广泛的实验证明,我们的方法既优于更大规模的LLM,又优于理想设定的基线,实现了显著的安全改进,同时保持了高效用。 警告:本作品可能包含具有攻击性和危害性的内容!
The rapid advancement of Large Language Models (LLMs) has driven significant progress in Natural Language Interface to Database (NLIDB). However, the widespread adoption of LLMs has raised critical privacy and security concerns. During interactions, LLMs may unintentionally expose confidential database contents or be manipulated by attackers to exfiltrate data through seemingly benign queries. While current efforts typically rely on rule-based heuristics or LLM agents to mitigate this leakage ri...