找回密码
 注册

微信登录

微信扫一扫,快速登录

萍聚头条

查看: 235|回复: 0

AI论文分享-安全 | 安全对齐不应该仅仅停留在前几个Tokens

[复制链接]
发表于 2025-7-26 11:51 | 显示全部楼层 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有账号?注册 微信登录

×
作者:微信文章
Safety Alignment Should Be Made More Than Just a Few Tokens Deep

作者:陈宇恒





简介:当前大语言模型的安全对齐大多只覆盖生成文本的前几个token (浅层安全对齐),一旦这些初始部分被攻击者诱导,模型便可能越狱,生成有害内容。作者通过多种攻击实验揭示了这一现象的普遍性,并指出现有方法难以实现真正的深层安全对齐,也就是让模型在整个生成过程中都保持对齐和安全。为此,论文提出两项改进策略:通过构造“有害开头+拒绝”示例进行训练增强,以及在训练目标中引入正则项来约束模型对初始token的响应。这项工作强调,对齐不能只停留在几个token 的表层,而必须深入整个生成过程,实现真正的深层安全对齐。

当前LLM 的对齐

往往是“浅层的”

当前主流的大语言模型(如 ChatGPT、Claude、Gemini 等)通常会使用安全对齐技术来防止生成有害内容。这些对齐方式包括监督微调(SFT)、基于人类反馈的强化学习(RLHF)以及偏好优化(DPO)等。在训练阶段,这些技术通过引导模型对敏感指令进行“拒绝性回应”,使模型看起来具有一定的安全性。

然而,这篇论文指出,目前的安全对齐效果大多局限于模型生成的前几个 token。换句话说,模型只在输出的起始部分表现出“拒绝有害请求”的行为。一旦模型的输出开始时没有触发这些安全行为,后续的生成就有可能恢复成未对齐模型的表现,输出不安全内容。

为了验证这一现象,作者比较了对齐模型和未对齐模型在 token 级别的分布差异。下图显示,对齐行为主要集中在前几个 token 的生成上,而在后续 token 上,两类模型的行为趋于一致。

w3.jpg

攻击方式验证了

“浅层对齐”的脆弱性

作者设计了多种攻击方法来测试对齐模型的鲁棒性,发现即使是被认为“安全”的模型,在实际使用中也很容易被绕过限制,生成有害内容。

一种方法是预填攻击(prefill attack),即人为替换模型回答的前几个 token,比如预设一段危险内容的开头。这样做可以显著提升攻击成功率。这说明,模型的拒绝行为很大程度上依赖于输出开头的几个 token,只要开头被改写,模型很容易恢复原始行为。

w4.jpg

另一种方式是微调攻击(fine-tuning attack)。研究者使用 100 条有害指令对模型进行极少步数的微调,发现模型对原有对齐机制的“记忆”迅速丧失。即便微调数据规模很小,模型生成危险输出的概率也显著上升。通过分析梯度分布可以看出,微调主要改变的是模型前几个 token 的生成行为。

w5.jpg

这些攻击表明,只要绕过模型的前几个拒绝 token,或者通过快速微调修改模型初始响应的生成模式,就可以有效破坏其安全防护。

改进方法:

引入深层对齐机制

针对上述问题,作者提出了两种增强模型鲁棒性的策略,目标是让模型在整个生成过程中都保持一致的安全性,而不是仅仅在开头部分进行拒绝。

第一种策略是加入“安全恢复”训练样本。具体做法是构造一些模型输出已经包含危险内容,但中途改为拒绝的训练例子。这种样本可以让模型学会在已经偏离安全轨道的情况下主动终止危险内容的生成。实验证明,这样训练之后,模型在整个 token 序列中都表现出更强的安全对齐能力。

w6.jpg

第二种策略是在微调过程中引入位置敏感的损失函数。作者为前几个 token 分配更高的 KL 散度约束权重,防止微调过程中模型遗忘原本的安全行为。这种位置加权的目标函数在实测中显著提升了模型在对抗性微调场景下的稳定性,攻击成功率大幅下降。

w7.jpg

实验结果总结

w8.jpg

结果表明,引入安全恢复训练和位置敏感微调后,模型在面对典型攻击时的安全性显著提升,同时也没有造成对正常任务性能的明显损害。

结论与启示

这篇论文系统地分析了当前主流语言模型中普遍存在的“浅层安全对齐”问题。它指出,当前的对齐策略主要改变了模型开头几个 token 的行为,而这远远不够。攻击者只需要绕过初始 token,模型很可能就会恢复原始的、不安全的生成模式。

为了实现更可靠的模型对齐,作者建议在训练过程中加入能够引导模型“主动纠偏”的样本,并在微调过程中对关键 token 的生成分布进行保护。这些方法虽然简单,但在提升模型鲁棒性方面效果显著,具有较高的工程可行性。

这项工作为未来大语言模型的安全机制设计提供了明确方向:对齐不应仅限于模型的开场白,而应贯穿整个输出过程。

论文链接:

https://arxiv.org/abs/2406.05946

代码链接:

https://github.com/Unispac/shallow-vs-deep-alignment

研究者简介

陈宇恒,鹿儿岛大学情报科学专攻在读硕士,主要研究领域为LAMs的安全对齐和红队测试。





如果您有发现任何值得关注的AIGC研究,请随时联系我们或向我们投稿。同时,您也可以加入我们的SciSci AI学习会,与我们一同深入研究最新的AI研究论文。有关社区的详细介绍。请参考以下文章链接:

SciSci国际人工智能学习交流团体介绍

如您有兴趣成为我们团队的核心人员一起学习和讨论,请将您的姓名、学历、毕业院校及研究方向发送至邮箱:scisci.ai.group@gmail.com图文来自网络,图片视频版权归原作者所有,如果有侵权,请联系编辑删除!



Die von den Nutzern eingestellten Information und Meinungen sind nicht eigene Informationen und Meinungen der DOLC GmbH.
您需要登录后才可以回帖 登录 | 注册 微信登录

本版积分规则

Archiver|手机版|AGB|Impressum|Datenschutzerklärung|萍聚社区-德国热线-德国实用信息网

GMT+2, 2025-10-23 18:38 , Processed in 0.123002 second(s), 30 queries .

Powered by Discuz! X3.5 Licensed

© 2001-2025 Discuz! Team.

快速回复 返回顶部 返回列表