BSA团队 投稿
量子位 | 公众号 QbitAI
让推理模型针对风险指令生成了安全输出,表象下藏着认知危机:
即使生成合规答案,超60%的案例中模型并未真正理解风险。
换句话说,主流推理模型的安全性能存在系统性漏洞。
面对这一情况,淘天集团旗下的算法技术未来实验室团队提出了“表面安全对齐”这一概念,用以阐述此类系统性的缺陷。
此外,研究团队还开发了一套基准测试方法,旨在对推理模型中普遍存在的SSA问题进行更深入的探究。
该评测集名为Beyond Safe Answers(BSA),它是全球范围内首个专门针对推理模型在思考阶段对风险认知精确度进行评估的高品质集合。
它主要包含3个特征:
BSA打造了一款公正无私的评估工具,旨在助力深入理解和显著增强推理模型在安全领域的运用效能。
引入“表面安全对齐”概念
众所周知,推理模型不仅显著提高了解决复杂问题的能力,而且为模型内部的决策流程带来了史无前例的清晰度。
思考过程中,推理模型会对指令中蕴含的风险进行分析。
因此,我们可以通过推理模型的思考过程,有效地观察模型是否能够准确识别出指令中的潜在风险要素。这个过程,实际上为评估模型在风险元素识别方面的准确性提供了一个重要的观察窗口。
理想情况下,推理模型应有效管理两个相互交织的安全目标:
尽管研究团队目前采用的主流推理模型能够提供安全的回复,但在思考过程中,它们往往未能对指令中涉及的风险进行全面的、精确的内部推理。
原因很简单——
看似安全的输出结果,实际上并非基于对潜在风险因素的深刻洞察,而是偶然地采纳了表面启发式策略或浅层的安全限制。
淘天集团旗下的算法技术未来实验室团队提出了“表面安全对齐”这一概念,用以阐述此类系统性缺陷,同时明确指出这一概念带来的两大主要影响。
首先,SSA对LRMs中关于安全的推理可靠性造成了损害,因为看似合理的反应实际上可能源自于根本错误的推理流程。在这种情形下,安全回应的稳定性堪忧,特别是在进行多次采样操作时。
其次,SSA引发了一种错觉般的安心感;尽管反馈看似遵循了既定的安全规范,然而实际上对于更为微妙或繁杂的威胁情形却缺乏相应的应对准备。
此外,研究人员指出,SSA现象之所以产生,主要是因为在推理模型的对齐训练阶段,大量采用了与安全相关的数据,而这些数据与开源基准数据集中的样本存在一定程度的相似性。
推理模型对指令特征进行了记忆,并在此基础上掌握了拒绝回答的模式。因此,在以往仅对回复的安全性进行评估时,该模型获得了超高的评分。
推出新Benchmark,包含3大特征
此外,研究团队还开发了一个名为Beyond Safe Answers(BSA)的基准测试,旨在对推理模型中普遍存在的SSA问题进行更深入的探究。
它主要包含3个特征——
第一,挑战性的数据集。
研究人员对Qwen3系列、Deepseek R1系列、GLM、Doubao、Kimi等共计19个开源与闭源的大规模推理模型进行了评估。
评测结果显示,Deepseek-R1-671B这一表现最出色的模型在思维过程准确性方面,其表现并未超过40%。
第二,全面的覆盖范围。
团队识别出“表面安全对齐”的3种普遍场景:
为了应对各类情境,该研究团队对9个不同的安全子领域进行了详尽的样本构建,总计达到了2000条样本。
第三,详细的风险注释。
每个样本都附有清晰的风险提示,详尽阐述了可能的危险,并对模型推理的精确性进行了准确评定。
七步完成数据集生成,仅保留2000个样本
数据集的构建和审核过程融合了人类专业人员的智慧与大型语言模型的辅助,确保了数据精确度及高质量的双重保障。
具体流程概述如下:
第一步,低质量指令去除。
第二步,相关性判定。
通过分析指令及其风险标签之间的关联性,并向人工审核提供相应的解释,以确保审查的准确性。
第三步,冗余样本去重。
运用N-Gram匹配技术以及句子向量相似度筛选机制,高效地剔除那些内容相近的文本。
第四步,风险标注。
研究人员对那些存在风险以及不存在风险的指令进行了细致的人工标记:他们详细记录了有风险指令的风险所在,同时对于看似有风险实则无害的指令,他们也逐一阐述了其无害的真正原因。
这些内容作为数据合成的基础。
第五步,深度合成。
借助头部的大型模型,对所提及的原始种子内容进行了改写、扩展以及整合,涵盖了多样化的应用场景,成功创建了适用于三类SSA情境的测试用例。
第六步,难度过滤。
初步去除了与特定场景需求不符的样本之后,接着将符合标准的样本分送至五种主流的轻量级语言模型进行测试,并从中挑选出难度适中者。
第七步,人类专家双重验证。
对数据实施了严格的人工标注质控,最终形成了BSA基准集。
经过这一系列系统化的筛选过程,Beyond Safe Answer数据集最终仅剩下了2000个样本。
模型推理准确性越高,回答越安全
在进行了k次采样后,对回复的安全性及推理的准确性进行了考量,所采用的评估方法主要包括以下五个标准:
从以下汇总结果,可以分析出一些值得关注的信息。
请注意,子主题过度敏感(OS)、认知捷径(CS)以及风险遗漏(RO)均为特定的概念缩写。
首先,表面安全对齐普遍存在,深层推理能力不足。
该模型在标准安全评估(Safe@1)测试中取得了超过90%的优异成绩,然而,在推理准确率(Think@1)方面却未能达到40%,而在多次采样一致推理正确(Think@k)的表现更是不尽如人意,不足20%。这一结果揭示了安全合规性往往只是表面文章,而模型的底层推理能力依旧存在较大缺陷。
并且模型推理准确性越高,回答越安全;反之则不稳定。
其次,多风险场景下的模型容易选择性忽视一些风险。
实验结果表明,在认知捷径(如CS@1和CS@k)的应用场景中,当遇到涉及多种风险类型的指令时,学习率模型(LRMs)往往仅专注于识别其中的一个显著风险,却未能注意到其他同时存在的风险。
这种有选择性的关注揭示了模型可能存在优先级上的偏差,或者对不同风险类型的敏感性存在差异,进而导致在涉及多种风险因素的复杂场景中,评估结果不够全面。
然而,在将风险性内容与不易引起敏感的无风险内容混合的场景中,研究者观察到推理模型的风险识别标准显著下降,导致误报现象频繁发生。
这表明,在遇到复杂或模糊的情境时,模型在风险识别上的阈值可能会设定得偏低,因此可能导致泛化错误以及不恰当的风险评估。
最终,研究团队观察到,当参数数量增加时,大型模型的性能显著增强,尤其是在处理风险遗漏的情境中。
从Qwen3-0.6B版本升级至14B版本,随着参数规模的增加,各项指标均呈现出更优的表现。
这一进步得益于大型模型在知识储存和搜索方面的优势,原因在于风险遗漏问题常常与模型记忆的不清晰或风险知识的关联不够紧密相关。
更大的参数数量能够更有效地挖掘内部知识库的潜力,同时大幅降低信息缺失的风险,并显著增强安全对齐的稳定性。
这一现象显示出,通过扩大模型规模,继续是增强安全对齐效能(尤其是在涉及复杂知识领域的全面风险识别方面)的一条高效途径。
安全规则让模型成了“多虑先生”
与此同时,研究者们对安全规范、高质量数据微调以及解码参数对模型表面安全特性的作用进行了深入研究。他们揭示了一些引人入胜的发现:,
安全规则让模型成了“多虑先生”
在此之前,OpenAI与Anthropic的研究成果均表明,将清晰的安全准则融入大型模型的输入部分,能够有效增强其生成回复的安全性。
为了更深入地研究这些安全规范是否能够减轻SSA现象,该研究小组在输入提示中直接融入了清晰且简洁的安全指示。
在使用这些安全指导原则时,模型需对输入信息中潜在的风险要素进行系统性的风险评估。
接着,研究人员对选定的五个大型模型进行了详细的对比和评估,这一过程包括在模型中加入安全指令前后的表现指标的衡量。
如图所示,在引入安全指令的情况下,所有被评估的基础模型的安全回复质量以及安全推理的精确度均实现了明显的提高。
特别值得关注的是,经过运用这些指令,QwQ-32B模型的回答安全性能评分竟然达到了99%以上。
研究人员在观察过程中发现,在推理环节,大型模型能够井然有序地执行这些安全准则,对输入的信息进行有序的、遵循规则的分析处理。
该机制助力模型辨别用户提示中不易察觉的潜在风险要素,若非如此,这些风险要素可能会被忽视。
但也发现了一个意外后果:
基于规则的处理方式有时会导致模型对某些实际上并无害处的输入信息表现出过度的谨慎,甚至出现了所谓的“过度敏感”现象。
安全微调的跷跷板效应
研究团队试图通过细致设计的安全推理数据对LRMs进行微调,以期增强其安全性。
他们选择了参数规模介于0.6B至32B之间的Qwen3系列模型,并借助包含指令中风险分析的STAR-1数据集,对其进行了细致的微调过程。
随后,又对比分析了模型在微调前后的安全性表现。
实验数据表明,经过微调处理,各类规模模型在整体回复的安全性方面得到了显著增强,同时,在推理阶段对风险的识别准确率也有所提高。
但随着模型规模的增大,这种提升幅度呈现递减趋势。
具体来说,小型模型,例如0.6B,实现了非常明显的性能飞跃,Safe@k和Think@k两个指标分别实现了314%和1340%的增幅。相比之下,最大规模的模型(32B)在微调前的基线已经很高,因此提升幅度相对较小,Safe@k和Think@k的增幅分别仅为2%和36%。
深入剖析各个子场景后,我们发现,对高质量推理数据的训练不仅显著减轻了模型在认知捷径和风险忽视方面的困扰,然而,这也使得模型对某些细节的敏感度有所增强。
这一现象表明,安全对齐存在权衡:
深入分析推理过程的训练提升了模型在风险识别与预防方面的效能,然而,这也可能引发模型在处理过度敏感问题时显得过于小心,从而显现出一种不容忽视的“安全对齐成本”。
调整采样参数对安全推理准确性几乎没有帮助
在处理非安全相关的问题时,对采样参数的调整,尤其是对温度参数的调整,将会对结果产生显著的影响。
在针对Beyond Safe Answer评测集的研究中,研究人员对解码环节的核心采样参数进行了探究,这些参数包括Temperature(温度参数,其数值范围是{0.4, 0.6, 0.8, 1.0, 1.2})、Top-p(其数值范围是{0.5, 0.75, 0.95})以及Top-k(其数值范围是{1, 20, 40}),以评估模型在风险分析准确性和生成安全回复能力上的表现。
主要评估的指标涵盖了Think@1、Safe@1、Think@k以及Safe@k四个方面。
实验数据表明,在QwQ-32B与Qwen3-32B这两个模型上进行的测试发现,对这些解码参数的调整对安全防护和推理精度的提升作用均十分微弱。
对于这一结果,研究团队指出,模型在安全推理以及推理逻辑方面的准确性,主要是由预训练阶段及对齐阶段所构建的内部知识体系所决定的。
尽管在解码过程中采用的采样方法会对生成的文本的丰富性和随机性产生一定影响,然而,它对确保文本安全性的核心指标以及推理效果的影响却相对较小。
因此,大语言模型在安全推理方面的核心能力主要依赖于所使用的训练数据以及模型自身的参数设置,而非特定的解码方法。
这强调了在提高安全推理水平方面,重点应放在对模型训练方法和对齐策略的改进上,而非仅仅局限于对解码参数的调整。
该研究的核心成员有郑柏会、郑博仁、曹珂瑞、谭映水等人,他们所属的团队隶属于淘天集团旗下的算法技术-未来实验室。
未来生活实验室专注于构建面向未来的生活方式和消费模式,旨在大幅增强用户的使用体验和商家的经营成效。该实验室专注于大模型、多模态等人工智能技术领域,致力于研发大模型所需的基础算法、模型功能以及各种AI原生应用,以引领人工智能在生活消费领域的创新突破。
关于Beyond Safe Answers的实验详细数据和更多结果,可在论文中查阅;同时,研究团队将不断对数据集和评测排行榜进行更新与维护。
论文链接:
该链接指向的论文摘要指出,研究团队对特定领域进行了深入探讨,揭示了关键发现,并提出了创新的理论框架,旨在为相关领域的研究提供新的视角和思路。
项目主页:
该网址指向的是开放星际团队发布的BSA相关内容。
数据集下载:
请勿对上述链接中的数据集进行修改,该数据集由OpenStellarTeam团队创建,名为BeyongSafeAnswer_Benchmark。
代码仓库:
请勿对GitHub上的OpenStellarTeam组织的BSA项目进行修改。