文章插图
其中 ⊆?^d 是指允许用于对抗的一组扰动 , 比如我们希望一张图像的对抗版本看起来与原始版本类似 。
其目标由一个内部最大化问题和一个外部最小化问题组成:
内部最大化:寻找能导致高损失的最有效的对抗数据点 + 。所有对抗性攻击方法最终都可归结为如何最大化这个内部过程的损失 。
外部最小化:寻找最佳的模型参数化方案 , 使得由内部最大化过程找到的最有效攻击的损失能被最小化 。要训练出稳健的模型,一个简单方法是将每个数据点替换为其扰动版本,这些版本可以是一个数据点的多个对抗变体 。

文章插图
图 17:他们还发现,面对对抗攻击的稳健性需要更大的模型能力,因为这会让决策边界变得更为复杂 。有趣的是,在没有数据增强的前提下,模型更大会有助于提升模型的稳健性 。
LLM 稳健性方面的一些研究工作
这里简单谈谈一些有关 LLM 稳健性的研究 。
Xie et al. 2023 的论文《Defending ChatGPT against Jailbreak Attack via Self-Reminder》发现了一种简单直观的保护模型免受对抗攻击的方法:明确地指示模型成为负责任的模型 , 不要生成有害内容 。这会极大降低越狱攻击的成功率,但对模型的生成质量会有副作用,这是因为这样的指示会让模型变得保守(比如不利于创意写作),或者会在某些情况下错误地解读指令(比如在安全 - 不安全分类时) 。
为了降低对抗攻击风险,最常用的方法是用这些攻击样本来训练模型,这种方法被称为「对抗训练」 。这也被认为是最强的防御方法,但却需要在稳健性和模型性能之间寻找平衡 。Jain et al. 2023 通过实验测试了两种对抗训练设置,结果报告在论文《Baseline Defenses for Adversarial Attacks Against Aligned Language Models》中:(1) 使用有害 prompt 与带有「I'm sorry. As a ...」的响应构成的数据对来运行梯度下降;(2) 对于每一个训练步骤,在拒绝响应上运行一个下降步骤并在一个红队差响应上运行一个上升步骤 。最终他们发现方法 (2) 毫无用处,因为模型的生成质量下降了很多,而攻击成功率却仅有少量下降 。
白盒攻击往往会导致对抗 prompt 看起来毫无意义,因此可以通过困惑度检测出来 。当然,通过明确地优化而降低困惑度,白盒攻击可以直接绕过这种检测方法,比如 UAT 的一种变体 UAT-LM 。但是 , 这也可能会导致攻击成功率下降 。

文章插图
图 18:困惑度过滤器可以阻止来自 [Zou et al. (2023)] 的攻击 。PPL Passed 和 PPL Window Passed 是指带有对抗性后缀的有害 prompt 绕过过滤器而不被检测到的比率 。通过率越低,过滤器越好 。地址:
https://arxiv.org/abs/2307.15043
Jain et al. 2023 还测试了对文本输入进行预处理的方法,使得能在移除对抗性修改的同时维持语义含义 。
解释含义:使用 LLM 来解释输入文本的含义 , 这可能会对下游任务性能造成较小影响 。
重新 token 化:将 token 拆分开并使用多个更小的 token 来表示它们,比如使用 BPE-dropout(随机丢弃一定比例的 token) 。使用这种方法的假设是对抗性 prompt 很可能会利用特定的对抗性 token 组合 。这也确实有助于降低攻击成功率,但也有限,比如从 90% 以上降至 40% 。
【OpenAI安全系统负责人长文梳理:大模型的对抗攻击与防御】
推荐阅读
- 防火知识顺口溜 防火知识顺口溜6句简短
- 冬季安全生产注意事项及预防措施内容 冬季安全生产注意事项及预防措施
- 生态系统能量流动的作用 生态系统能量流动的含义是什么
- 邮政储蓄可以办贷款吗安全吗 邮政储蓄可以办贷款吗
- 食品安全消费提示内容,食品安全许可酸奶
- 鸿蒙系统耗电快什么原因,鸿蒙系统升级半年后耗电还是快
- 冬季宿舍用电安全注意事项 宿舍用电安全注意事项
- 现代安全帽的发明是受到了什么动物的启发 安全帽的发明是受到了啄木鸟的启发
- 黑苹果系统使用中的问题,黑苹果建议更新系统吗
- caj文件怎么打开一键重装系统
