活水快报 - 42Digest

比较重建攻击预训练与全微调大型语言模型嵌入在智人拼接网站基因组数据

Comparing Reconstruction Attacks on Pretrained Versus Full Fine-tuned Large Language Model Embeddings on Homo Sapiens Splice Sites Genomic Data

Reem Al-Saidi, Erman Ayday, Ziad Kobti

arXiv

2025年11月9日

这项研究调查了应用于基因组序列的大型语言模型(LLM)中的嵌入重建攻击,特别关注微调如何影响这些攻击的脆弱性。基于Pan等人的开创性工作,证明预训练语言模型的嵌入可以泄漏敏感信息,我们使用HS3D基因组数据集进行全面分析,以确定任务特异性优化是否加强或削弱隐私保护。我们的研究将Pan等人的工作扩展到了三个重要方面。首先,我们将他们的重建攻击管道应用于预训练和微调模型嵌入,解决了他们方法中未指定嵌入类型的关键差距。其次,我们实施专门为DNA序列量身定制的专用标记机制,增强了模型处理基因组数据的能力,因为这些模型是在自然语言而不是DNA上进行预训练的。第三,我们进行详细的比较分析,检查预训练和微调嵌入之间的位置特异性、核苷酸类型和隐私变化。我们评估不同类型和维度的嵌入漏洞,为任务适应如何改变整个基因组序列的隐私风险提供更深入的见解。我们的研究结果表明,预训练和微调嵌入在重建脆弱性方面有明显区别。值得注意的是,微调增强了对多种架构(XLNet(+19.8%)、GPT-2(+9.8%)和BERT(+7.8%))重建攻击的抵抗力,指出特定任务优化是一种潜在的隐私增强机制。这些结果强调了对处理敏感基因组数据的语言模型的高级保护机制的需求,同时强调了微调作为一种潜在的隐私增强技术值得进一步探索。

This study investigates embedding reconstruction attacks in large language models (LLMs) applied to genomic sequences, with a specific focus on how fine-tuning affects vulnerability to these attacks. Building upon Pan et al.'s seminal work demonstrating that embeddings from pretrained language models can leak sensitive information, we conduct a comprehensive analysis using the HS3D genomic dataset to determine whether task-specific optimization strengthens or weakens privacy protections. Our res...

机器学习

View Source