[论文阅读]Homeopathic Poisoning of RAG Systems

发布于:2025-03-27 ⋅ 阅读:(30) ⋅ 点赞:(0)

Homeopathic Poisoning of RAG Systems

Homeopathic Poisoning of RAG Systems | SpringerLink

Computer Safety, Reliability, and Security. SAFECOMP 2024 Workshops

完全没有意义的一篇文章,如果不是为了调研RAG攻防,我是看都不会看一眼的。

一言以蔽之,就是在原始文本后面添加由hotflip方案优化的token来提高或者降低文档对目标问题的相似度。完完全全是一个检索器攻击,和LLM没有一点关系,没有考虑到生成器的作用。

威胁模型

攻击者的目标:在现实世界中的恶意目标可能是传播虚假信息、使 LLM 答案偏向于对产品甚至人的负面或正面看法、传播财务错误信息等。攻击者从数据库 D 中选择一个所需的上下文 C,供 LLM 用来回答给定问题 Q(我们称之为目标问题)。上下文可能由数据库中的几篇文本 (top-k) 组成,但为了简单起见(不失去通用性,因为攻击可能会一个接一个地针对所有文本),我们将假设 C 指的是一个文本。虽然攻击者的目标是支持 LLM 使用的某些上下文,但也可以有一个目标,即不推荐给定的上下文并避免被使用。因此,我们将考虑这两种情况,同时将第一种称为相似性攻击,将第二种称为相异性攻击。

攻击者的能力:对检索器白盒访问权限;可以通过某些手段完成对知识数据库的篡改

HOPRAG

目标是找到后缀S,使得当上下文C在拼接S后,与问题更相关或者更加不相关。

这是一个优化问题,按照PoisonedRAG中的类似方法使用梯度下降来设计提示注入攻击。

实际上就是用的Hotflip

实验

使用了 QUORA 数据集,该数据集由来自同名论坛网站的 400,000 篇文本组成

相似性攻击:从数据集中随机选择了 1000 个样本,每个样本从数据集中寻找最不同的文本。形成了 1000 对语义上非常不同的文本,并试图使它们与攻击相似。

差异性攻击:没有选择相似的文本来形成对,而是从数据集中随机提取了 2000 个文本,并尝试使每个文本与自身的副本不同。

实验中考虑的标准是添加后缀前后所有样本的相似性平均差(偏移)

使用 {1, 3, 5, 10} 标记的不同后缀长度重复实验,以研究该参数对相似性偏移的影响,从而对攻击效果的影响。

另一个重要参数是优化过程的步数 (梯度下降的次数)。相似性的演变随其函数的变化而变化,因为相异性和相似性攻击分别显示在图 4 和图 5 上。

为了证明相似性的变化不是由于在文本中注入了更多的标记而是 HOPRAG 所造成的,考虑了一种添加随机标记的攻击(图 3)。使用名为 all-MiniLML12-v2 的开源嵌入模型进行了所有实验。

结果

 攻击的执行速度非常快。只需不到一秒到几秒钟

- 使用注入随机标记的基线攻击(图 3)在相似性攻击的情况下根本无效,因为即使注入最大标记数量 (L = 10),曲线也保持平坦并接近于零。关于相异性攻击,情况要好得多,但即使 L = 10,偏移仍然小于 0.4。事实上,当将标记注入文本时,我们会对文本标记进行一些稀释,因此在语义上偏离了原来的含义。

-HOPRAG 差异攻击(图 4)是有效的,并且比随机注入的效果要好得多,即使后缀只有 3 个标记,并且只经过 10 次优化迭代,也会导致超过 0.4 的偏移。对于长度为 L = 10 的后缀,偏移大于 0.8.显然,这个高值可能会改变 RAG 的前 k 排名,从而深深影响 LLM 答案。
-HOPRAG 相似性攻击(图 5)也很有效,并导致向只有非常有限长度后缀的目标 (L = 3) 平均偏移 0.4。这证明,对于给定的请求,我们可以将知识数据库中的任何上下文作为目标,即使是语义上非常遥远的上下文,以供 LLM 用来提供答案。这种中毒攻击的后果显然很严重,因为攻击者可以毫无困难地随心所欲地偏向 LLM/RAG 的答案。此外,申请 HOPRAG 所需的时间和硬件手段触手可及。

结论

介绍了 RAG 系统中相似性/不相似性攻击的新概念,提出并实施了 HOPRAG 攻击,它通过向上下文注入简短但非常有效的后缀来有效地修改 RAG 的上下文和给定查询之间的相似性/不相似性。虽然 HOPRAG 目前的工作重点是在上下文中添加后缀以改变 RAG 检索器的前 k 排名,但完全相同的原则可以应用于提示端。这种攻击甚至更容易,因为不需要访问数据库。
作为未来的工作,计划将 HOPRAG 威胁模型扩展到黑盒设置。还希望调查针对 RAG 中毒攻击的防御措施。