发布信息

新研究!来自多校作者提出RAG系统黑盒攻击新方法IKEA

作者:软荐小编      2025-06-04 21:01:46     119

隐蔽隐蔽是什么意思_隐蔽怎样解释_

文章作者分别出自新加坡国立大学、北京大学以及清华大学。其中,第一作者王宇豪和另一位共同第一作者屈文杰均来自新加坡国立大学,他们的研究重点在于探讨大语言模型中的安全及隐私隐患。北京大学翟胜方博士担任了共同通讯作者,而新加坡国立大学的张嘉恒助理教授则是他们的指导教师。

本项研究集中探讨目前普遍使用的RAG(检索增强生成)系统,并创新性地提出了一种新型的黑盒攻击手段,即隐式知识提取攻击(IKEA)。与以往不同,IKEA并未采用依赖提示注入或越狱操作等攻击手段来提取RAG,而是不借助任何异常指令,仅通过自然且常规的查询方式,便能够高效地促使系统揭露其知识库中的保密信息。

在多个真实数据集和防御场景的评估中,IKEA 的提取效率达到了91%以上,攻击成功率更是高达96%,显著超越了现有的攻击基准;同时,通过一系列实验,本文验证了隐式提取的RAG数据的可靠性。研究进一步揭露了RAG系统在看似“正常”的交互中可能存在的严重隐私隐患。

本研究的论文与代码已开源。

隐蔽怎样解释_隐蔽隐蔽是什么意思_

总述

大语言模型(LLMs)近段时间在众多任务上展示出了卓越的效能,然而,它们却遭遇了一个关键性的挑战:无法直接获取最新或特定领域的资讯。针对这一难题,检索增强生成(RAG)系统便应运而生,它为大型模型提供了接入外部知识库的途径,从而使得生成的内容更加精确和时效。

然而,这些知识库常常含有私密或机密数据。若遭恶意使用,极有可能引发严重的数据泄露事件。以往,攻击者多采用明显的恶意输入手段,例如提示注入或越狱攻击。尽管这类攻击手段颇为有效,但它们通常具有输入异常、输出重复等显著特征,因此较容易被防御系统侦测并阻止。

_隐蔽隐蔽是什么意思_隐蔽怎样解释

图1展示了恶意查询在逐字信息提取方面的应用,与良性查询在知识提取领域的运用之间的差异。

为了打破防御系统对现有提取攻击的约束,本研究提出了一种创新的隐式知识提取模型,命名为IKEA(隐式知识提取攻击)。此方法不借助任何越界指令或特定提示,而是通过自然且常规的查询输入,逐步促使RAG系统揭露其内部知识库中的私密或敏感内容。IKEA 的攻击流程具备高度自然性与隐蔽性。

其核心步骤涵盖以下环节:首先,需依据既定的系统主题,构建一组具有语义关联的锚点概念;接着,围绕这些概念,构思出符合自然语言表达习惯的问题,以便激活系统检索相关文档;最后,通过两项重要的机制,对攻击路径进行优化和拓展。

该机制协同运作,确保了攻击行为在保持输入自然性的前提下,能够在多轮对话中高效地获取RAG系统所依赖的外部知识。实验结果表明,IKEA即便在常规的输入检测和输出过滤等防御措施下,也能保持较高的成功率和提取效率,彰显出其卓越的鲁棒性和潜在的实战威胁能力。

方法概览:如何实现「看似正常」的提问?

具体来说,IKEA 首先从与系统主题紧密关联的关键词中挑选出潜在的锚点概念,然后,再依据历史反馈信息对这些概念进行筛选,以剔除那些无关或无效的选项。

锚点概念数据库的初始化如下:

_隐蔽怎样解释_隐蔽隐蔽是什么意思

随后,系统基于这些关键概念自动构建了语义流畅、表述清晰的问题,以此引导RAG提供内容丰富的回应,进而使得在多轮对话中隐私知识的范围得以持续拓展。此策略使得攻击行为更为隐秘,增加了被传统检测方法识别的难度。以下将详细阐述如何生成所谓的“良性”问题。

该方法设计了两项关键机制以确保知识提取效率:

对经验进行反思性采集。

隐蔽隐蔽是什么意思_隐蔽怎样解释_

每个候选锚点概念的采样概率由如下惩罚得分函数定义:

隐蔽怎样解释_隐蔽隐蔽是什么意思_

最终的采样概率为:

隐蔽怎样解释__隐蔽隐蔽是什么意思

可信域指导下的变异过程。

_隐蔽隐蔽是什么意思_隐蔽怎样解释

图 2 展示了:(左图) IKEA 的整体流程图设计;(右图) TRDM 的结构示意图。

隐蔽怎样解释_隐蔽隐蔽是什么意思_

其中:

隐蔽隐蔽是什么意思__隐蔽怎样解释

隐蔽隐蔽是什么意思__隐蔽怎样解释

实验结果:IKEA 的提取效率远超基线方法

研究团队选取了医疗、小说和百科三个领域的三个数据集,分别是HealthCareMagic100k、HarryPotter和Pokémon,对这些数据集进行了IKEA攻击效果的测试。具体来说,他们对比了IKEA与其他攻击方法在「无防御」、「输入检测」以及「输出过滤」这三种不同的防御策略下的表现。

隐蔽怎样解释__隐蔽隐蔽是什么意思

表 1: 在三种数据集上不同防御策略下的攻击效果对比分析

提取知识是否「有用」?

研究团队针对知识有效性进行了两项实验:首先,对提取的知识在相关文档问答任务中的效果进行了评估;其次,对在有限轮次攻击条件下,提取的知识对整个知识库的覆盖和支撑能力进行了测试。实验数据表明,IKEA不仅成功从RAG系统中高效地提取了信息,而且这些提取出的知识在问答任务中表现出优异的实际应用价值,其表现几乎与直接利用原始知识库时的效果相当。

隐蔽怎样解释__隐蔽隐蔽是什么意思

图 3 展示了在三种不同的知识库配置条件下,选择题(MCQ)与问答(QA)任务的执行效果之间的比较。

隐蔽怎样解释__隐蔽隐蔽是什么意思

表 2 展示了基于不同防御策略和不同基准条件下,所提取知识在选择题和问答任务中的表现对比结果。

_隐蔽隐蔽是什么意思_隐蔽怎样解释

表 3 展示了采用不同攻击手段提取数据并构建的 RAG 系统,在全面知识库上的评估成效。

总结

IKEA 研发了一种新颖且极具隐蔽性的 RAG 攻击模式。该系统利用自然语言生成技术以及历史交互经验反馈机制,成功绕过了现有输入输出层面的防护措施,实现了对系统内敏感知识的持续高效提取。本研究揭示了 RAG 系统在知识提取方面的潜在风险,为后续更完善的防御策略设计提供了重要依据。

相关内容 查看全部