OpenAI安全系统负责人长文梳理：大模型的对抗攻击与防御( 三 ) _OpenAI

文章插图
图 9：在 HB（有害行为）指令上的平均攻击成功率，这是在 5 次 prompt 上的平均结果。
Jones et al. 2023 等提出的自回归随机坐标上升（ARCA）则考虑了一个更宽泛的优化问题集合来寻找符合特定行为模式的输入 - 输出对 (, ) ，比如以「Barack Obama」开头但会导致毒性输出的非毒性输入。给定一个审核目标： : ×→?，其是将一对 (输入 prompt, 输出完成结果) 映射成一个分数。

文章插图
图 10：诱使 GPT-2 和 GPT-J 生成有毒输出的平均成功率。粗线：CivilComments 的所有输出；点线：CivilComments 的 1,2,3-token 有毒输出。
越狱 prompt 设计
越狱 prompt 是以对抗方式诱使 LLM 输出应当避免的有害内容。越狱是黑盒攻击，因此词汇组合是基于启发式方法和人工探索进行的。Wei et al. (2023) 的论文《Jailbroken: How Does LLM Safety Training Fail?》提出了 LLM 安全的两种失败模式，可用于指导越狱攻击的设计。
1. 互相竞争的目标：这是指模型的能力（比如「应始终遵从命令」）与安全目标相冲突的情况。利用互相竞争的目标的越狱攻击例子包括：
前缀注入：要求模型开始时必须使用肯定性的确认语句。
拒绝抑制：为模型提供详细的指令，让其不要以拒绝的格式进行响应。
风格注入：要求模型不使用长词汇，这样一来模型就无法进行专业性写作从而给出免责声明或解释拒绝的理由。
其它：角色扮演成 DAN（现在可以做任何事）、AIM（总是很聪明且不择手段）等等。
2. 失配的泛化：这是指安全训练无法泛化到其具有能力的领域。当输入位于模型的安全训练数据分布之外（OOD），但又位于其宽泛的预训练语料库范围内时，就会出现这种情况。例子包括：
特殊编码：使用编码来构建对抗性输入。
字符变换：ROT13 密码、火星文或脑残体（用视觉上相似的数字和符号替换字母）、摩尔斯电码
词变换：Pig Latin（用同义词替换敏感词，比如用「窃」替换「偷」）、负载拆分（即所谓的 token smuggling，将敏感词拆分成子字符串）
prompt 层面的混淆：翻译成其它语言、要求模型以其能理解的方式进行混淆
Wei et al. (2023) 实验了大量越狱方法，包括由以上原理构建的组合型策略。
combination_1 组合了前缀注入、拒绝抑制和攻击。
combination_2 加入了风格注入。
combination_3 又添加了生成网站内容和格式化限制条件。

文章插图
图 11：越狱技巧的类型以及它们攻击模型的成功率
Greshake et al. (2023) 的论文《Not what you've signed up for: Compromising Real-World LLM-Integrated Applications with Indirect Prompt Injection》则在较高层面上观察了 prompt 注入攻击。其中指出，即便当攻击无法提供详细的方法而仅仅提供一个目标时，模型也有可能自动去实现它。当模型可以访问外部 API 和工具时，对更多信息（甚至是专有信息）的获取可能导致更大的钓鱼攻击和私密窥探攻击风险。
有人类参与的红队策略
Wallace et al. (2019) 在论文《Trick Me If You Can: Human-in-the-loop Generation of Adversarial Examples for Question Answering》中提出了有人类参与的对抗生成，其目标是构建用于引导人类攻破模型的工具。
他们用 QuizBowl QA 数据集进行了实验，设计了一个对抗书写界面，可让人类写出类似电视问答节目《Jeopardy》风格的问题，并用于诱导模型给出错误预测。依据重要程度的不同，每个词都会有不同颜色的标注（即移除该词后模型预测概率会发生变化）。词重要度是由模型梯度根据词嵌入来近似得到的。

文章插图
图 12：对抗书写界面，其中左上部分是列出的模型前五个预测，右下部分是用户问题，其中用不同颜色标注了词重要度。
在一次实验中，人类训练者要做的是找到安全分类器在分类暴力内容时失败的案例。Ziegler et al. (2022) 在论文《Adversarial Training for High-Stakes Reliability》中创建了一个工具，可用于辅助人类对抗者更快更有效地找到分类器的失败情况并消除它。用工具辅助重写比完全人工重写要更快些，可将每个样本所需的时间从 20 分钟降至 13 分钟。确切地说，他们引入了两个功能来辅助人类写作者：显示每个 token 的显著度分数、token 替换和插入。