不过,Gumbel-softmax 技巧难以扩展用于 token 删除或增添,而是受限于 token 替换操作 。
Ebrahimi et al. 2018 在论文《HotFlip: White-Box Adversarial Examples for Text Classification》 中则是将文本操作看作是向量空间中的输入,度量的是损失在这些向量上的导数 。HotFlip 可以扩展用于 token 删除或增添 。
Wallace et al. (2019) 的论文《Universal Adversarial Triggers for Attacking and Analyzing NLP》提出了一种在 token 上进行梯度引导式搜索的方法 , 可以找到诱使模型输出特定预测结果的短序列,这个短序列被称为 Universal Adversarial Triggers (UAT,通用对抗触发器) 。UAT 不受输入的影响,这意味着这些触发器可以作为前缀(或后缀)连接到来自数据集的任意输入上 。
Shin et al., 2020 的《AutoPrompt: Eliciting Knowledge from Language Models with Automatically Generated Prompts》使用了同样的基于梯度的搜索策略来为多样化的任务寻找最有效的 prompt 模板 。
上面的 token 搜索方法可以使用波束搜索增强 。当寻找最优的 token 嵌入时,可以选取 top-k 个候选项,而不是单独一个,在当前数据批上从左到右搜索,并根据 _adv 为每个波束评分 。

文章插图
图 4:UAT 工作方式图示
UAT 的损失 _adv 需要针对具体任务而设计 。分类或阅读理解依赖于交叉熵 。

文章插图
图 5:用于不同类型的语言任务的 UAT 示例
UAT 为何有效?这是一个很有趣的问题 。因为 UAT 是与输入无关的,并且可以在有不同嵌入、token 化方案和架构的模型之间迁移 , 因此它们也许可以有效地利用训练数据中的偏差 , 毕竟这种偏差已经融入到了模型的全局行为中 。
使用 UAT 攻击有一个缺点:很容易检测出来 。原因是所学习到的触发器往往是毫无意义的 。Mehrabi et al. (2022) 在论文《Robust Conversational Agents against Imperceptible Toxicity Triggers》中研究了 UAT 的两种变体 , 它们会促使所学到的触发器在多轮对话语境中难以察觉 。其目标是创建能在给定对话中有效触发有毒响应的攻击性消息 , 同时保证该攻击在对话中是流畅、连贯和一致的 。
这两种变体分别是 UAT-LM(Universal Adversarial Trigger with Language Model Loss)和 UTSC(Unigram Trigger with Selection Criteria) 。

文章插图
图 6:UTSC 工作方式图示
UAT-LM 和 UTSC-1 的表现与 UAT 基准相当,但 UAT 攻击短语的困惑度出奇得高 , 比 UAT-LM 和 UTSC-1 都高得多 。高困惑度让攻击更易被检测出来 , 也更容易缓解 。根据人类评估 , UTSC-1 攻击能比其它攻击方法得到更连贯、流畅和相关的结果 。

文章插图
图 7:基于防御者模型对生成的攻击的响应,根据不同的有毒度分类器衡量的攻击成功率 。
Zou et al. (2023) 的论文《Robust Conversational Agents against Imperceptible Toxicity Triggers》也研究了将通用对抗触发 token 作为后缀连接到输入请求上的情况 。他们具体研究了对 LLM 的恶意请求 —— 对此模型应当拒绝回答 。事实上,拒绝不被允许的内容类别(比如犯罪建议)是 GPT-4 内置的一个重要的安全措施 。这里的对抗目标是诱使 LLM 即便在应当拒接回答时也输出肯定的响应 。这就是说,当收到恶意请求时,模型会这样回答:「当然,你需要这样做……」预期的肯定响应也被配置成重复部分用户 prompt,以避免简单就能改变主题的后缀以优化「当然」式的响应 。其损失函数很简单,就是输出目标响应的 NLL(负对数似然) 。

文章插图
图 8: 引入对抗触发器的位置的图示 。红色感叹号代表要学习的对抗性 token 。
他们在 Vicuna-7b 和 Vicuna-13b 这两个不同的模型上进行了实验 , 使用了基于贪婪坐标梯度(GCG)的搜索来贪婪地寻找候选项 , 使得该候选项可以在所有可能的单 token 替换中最大程度地减少损失 。
尽管他们的攻击序列完全是基于开源模型训练的,但它们却出乎意料地可以移植用于其它商用模型,这表明对开源模型的白盒攻击对私有模型也有效,尤其是当低层的训练数据有所重叠时 。注意 Vicuna 的训练使用了从 GPT-3.5-turbo 收集的数据(通过 shareGPT),这本质上是蒸馏,因此这种攻击更像是白盒攻击 。
推荐阅读
- 防火知识顺口溜 防火知识顺口溜6句简短
- 冬季安全生产注意事项及预防措施内容 冬季安全生产注意事项及预防措施
- 生态系统能量流动的作用 生态系统能量流动的含义是什么
- 邮政储蓄可以办贷款吗安全吗 邮政储蓄可以办贷款吗
- 食品安全消费提示内容,食品安全许可酸奶
- 鸿蒙系统耗电快什么原因,鸿蒙系统升级半年后耗电还是快
- 冬季宿舍用电安全注意事项 宿舍用电安全注意事项
- 现代安全帽的发明是受到了什么动物的启发 安全帽的发明是受到了啄木鸟的启发
- 黑苹果系统使用中的问题,黑苹果建议更新系统吗
- caj文件怎么打开一键重装系统
