【大语言模型】ACL2024论文-32 GradSafe: 通过安全关键梯度分析检测大型语言模型的不安全提示
目录
文章
GradSafe: 通过安全关键梯度分析检测大型语言模型的不安全提示
https://arxiv.org/pdf/2402.13494
摘要
大型语言模型(LLMs)面临着来自不安全提示的威胁。现有的检测不安全提示的方法主要是在线内容审核API或微调过的LLMs。然而,这些策略通常需要大量的数据收集和资源密集型的培训过程。在本研究中,我们提出了GradSafe,它通过审查LLMs中安全关键参数的梯度有效地检测不安全提示。我们的方法基于一个关键的观察:不安全提示与遵从响应(如“Sure”)配对时,LLM的损失梯度在某些安全关键参数上表现出相似的模式。相比之下,安全提示导致明显不同的梯度模式。基于这一观察,GradSafe分析提示(与遵从响应配对)的梯度,以准确检测不安全提示。我们展示了GradSafe在无需进一步训练Llama-2的情况下,其检测不安全提示的性能超过了经过大量数据集微调的Llama Guard。这一优越性能在零样本和适应性场景下是一致的,我们的评估基于ToxicChat和XSTest数据集。源代码可在 https://github.com/xyq7/GradSafe 上找到。
研究背景
大型语言模型(LLMs)在各个领域取得了显著进展,并已集成到各种应用中,如搜索引擎和办公应用。然而,不安全的用户提供的提示对LLMs的安全性构成威胁。一方面,不安全的提示可能导致LLMs的滥用,潜在地促进各种非法或不期望的后果。尽管LLMs通常与人类价值观对齐,但它们仍然容易受到各种攻击,以及安全风险的高估。另一方面,对于LLM定制服务,如果训练集中的不安全提示未被检测和过滤,模型可以被微调以表现出不安全的行为并遵从不安全的提示。为了减轻滥用和恶意微调的风险,迫切需要开发精确检测不安全提示的方法。
问题与挑战
现有的不安全提示检测方法主要依赖在线内容审核API或微调过的LLMs,这些方法需要大量的数据收集和资源密集型的培训过程。此外,现有的方法可能无法准确识别不安全提示,导致LLMs被滥用或恶意微调。
如何解决
GradSafe通过分析LLMs中安全关键参数的梯度来检测不安全提示,无需额外的数据收集和LLMs的微调。GradSafe的核心观察是,不安全提示与遵从响应配对时,LLM的损失梯度在某些安全关键参数上表现出相似的模式,而安全提示则导致明显不同的梯度模式。基于这一观察,GradSafe首先分析少量参考安全和不安全提示(每个2个示例,与评估数据集无关)与遵从响应“Sure”配对时的梯度,以识别安全关键参数。然后,GradSafe将给定提示与遵从响应“Sure”配对,计算LLM的损失梯度,并与不安全梯度参考进行比较,以检测不安全提示。
创新点
- 提出了一种新的方法,通过分析LLMs中安全关键参数的梯度来检测不安全提示,无需额外的数据收集和LLMs的微调。
- GradSafe基于关键观察:不安全提示与遵从响应配对时,LLM的损失梯度在某些安全关键参数上表现出相似的模式。
- GradSafe提供了两种变体:GradSafe-Zero(零样本,基于阈值的分类方法)和GradSafe-Adapt(适应性变体,使用逻辑回归模型进行领域特定调整)。
算法模型
GradSafe-Zero
GradSafe-Zero依赖于跨所有安全关键参数的平均余弦相似度来确定提示是否不安全。对于待检测的提示,GradSafe-Zero将提示与遵从响应“Sure”配对,计算LLM的损失梯度,并与不安全梯度参考进行比较。如果得分超过预定义的阈值,则将提示识别为不安全。
GradSafe-Adapt
GradSafe-Adapt通过训练一个简单的逻辑回归模型,并使用余弦相似度作为特征,利用训练集进行领域适应。GradSafe-Adapt首先获得所有提示的余弦相似度,然后使用这些相似度作为输入特征来训练逻辑回归分类器,该分类器作为检测器。
实验效果
重要数据与结论
- 在ToxicChat和XSTest数据集上,GradSafe-Zero在无需进一步训练的情况下,超过了专门微调的Llama Guard以及领先的在线内容审核APIs的检测能力。
- GradSafe-Adapt在ToxicChat数据集上展示了出色的适应性,超过了Llama Guard和原始Llama-2模型,强调了其在领域特定适应性方面的优越性能。
推荐阅读指数:★★★★☆
后记
如果您对我的博客内容感兴趣,欢迎三连击(点赞,关注和评论),我将持续为您带来计算机人工智能前沿技术(尤其是AI相关的大语言模型,深度学习,计算机视觉相关方向)最新学术论文及工程实践方面的内容分享,助力您更快更准更系统地了解 AI前沿技术。