
文章插图
图 13:用工具辅助人类对分类器进行对抗攻击的 UI 。人类要做的是编辑或补全 prompt,以降低模型预测输入是暴力内容的概率 。
Xu et al. 2021 的《Bot-Adversarial Dialogue for Safe Conversational Agents》提出了 Bot-Adversarial Dialogue(BAD) , 该框架可以引导人类去诱使模型犯错(比如输出不安全的内容) 。他们收集了 5000 多组模型与众包工作者的对话 。每一组对话都包含 14 轮,然后他们根据不安全对话轮次的数量给模型打分 。他们最终得到了 BAD 数据集,其中包含大约 2500 组带有攻击性标签的对话 。
Anthropic 的红队数据集包含接近 4 万个对抗攻击,它们收集自人类红队者与 LLM 的对话 。他们发现,RLHF 的规模越大,就越难以攻击 。OpenAI 发布的大模型(比如 GPT-4 和 DALL-E 3)普遍使用了人类专家红队来进行安全准备 。
数据集地址:
https://github.com/anthropics/hh-rlhf/tree/master/red-team-attempts
模型红队策略
人类红队策略很强大 , 但是难以大规模实施而且可能需要大量经过培训的专业人士 。现在想象一下:我们可以学习一个红队模型 red 来与目标 LLM 进行对抗,以触发其给出不安全响应 。对于基于模型的红队策略,主要的难题是如何判断一次攻击是否成功;只有知道了这一点,我们才能构建用于训练红队模型的合适学习信号 。
假设我们已经有一个高质量的分类器,能够判断模型的输出是否有害,我们就可以将其用作奖励来训练红队模型,以得到一些能最大化分类器在目标模型输出上的分数的输入 。令 r (, ) 是一个这样的红队分类器,其可以判断在给定测试输入 时,输出 是否有害 。根据 Perez et al. 2022 的论文《Red Teaming Language Models with Language Models》,寻找对抗攻击样本遵循一个简单的三步式过程:
从一个红队 LLM ~p_red (.) 采样测试输入;
使用目标 LLM p ( | ) 为每个测试案例 生成一个输出 ;
根据分类器 r (, ),在测试案例中找到一个会得到有害输出的子集 。
他们实验了几种从红队模型采样或进一步训练红队模型以使其更加有效的方法 , 其中包括零样本生成、随机式少样本生成、监督学习、强化学习 。
Casper et al. (2023) 的论文《Explore, Establish, Exploit: Red Teaming Language Models from Scratch》设计了一种有人类参与的红队过程 。其与 Perez et al. (2022) 的主要不同之处在于其明确地为目标模型设置了一个数据采样阶段,这样就可以收集其上的人类标签来训练针对特定任务的红队分类器 。其包含探索(Explore)、建立(Establish)和利用(Exploit)三个阶段,如下图所示 。

文章插图
图 15:采用「探索 - 建立 - 利用」三步式方法的红队策略流程
Mehrabi et al. 2023 的论文《FLIRT: Feedback Loop In-context Red Teaming》则是依靠红队 LM _red 的上下文学习来攻击图像或文本生成模型 ,使其输出不安全的内容 。
在每一次 FLIRT 迭代中:
红队 LM _red 生成一个对抗 prompt ~_red (. | examples);其中初始的上下文样本由人类设计;
生成模型 根据这个 prompt 生成一个图像或文本输出 ;
使用分类器等机制对生成的内容 进行评估,看其是否安全;
如果 被认为不安全,则使用触发 prompt 来更新 _red 的上下文模板,使其根据策略生成新的对抗 prompt 。
至于如何更新 FLIRT 的上下文模板,有这样几个策略:FIFO、LIFO、Scoring、Scoring-LIFO 。详见原论文 。

文章插图
图 16:在不同的扩散模型上 , 不同攻击策略的攻击有效率(触发了不安全生成结果的生成 prompt 的百分比) 。基准是 SFS(随机少样本) 。括号中的数值是独特 prompt 的百分比 。
如何应对攻击
鞍点问题
Madry et al. 2017 的《Towards Deep Learning Models Resistant to Adversarial Attacks》提出了一个很不错的对抗稳健性(adversarial robustness)框架,即将对抗稳健性建模成一个鞍点问题,这样就变成了一个稳健优化(robust optimization)问题 。该框架是为分类任务的连续输入而提出的,但它用相当简洁的数学公式描述了双层优化过程,因此值得分享 。
让我们考虑一个分类任务,其基于由配对的 (样本,标签) 构成的数据分布,(,)∈,训练一个稳健分类器的目标就是一个鞍点问题:
推荐阅读
- 防火知识顺口溜 防火知识顺口溜6句简短
- 冬季安全生产注意事项及预防措施内容 冬季安全生产注意事项及预防措施
- 生态系统能量流动的作用 生态系统能量流动的含义是什么
- 邮政储蓄可以办贷款吗安全吗 邮政储蓄可以办贷款吗
- 食品安全消费提示内容,食品安全许可酸奶
- 鸿蒙系统耗电快什么原因,鸿蒙系统升级半年后耗电还是快
- 冬季宿舍用电安全注意事项 宿舍用电安全注意事项
- 现代安全帽的发明是受到了什么动物的启发 安全帽的发明是受到了啄木鸟的启发
- 黑苹果系统使用中的问题,黑苹果建议更新系统吗
- caj文件怎么打开一键重装系统
