首先是模型安全(AI Safety) 。
这里面具体包括对齐(Alignment)、可解释性(Interpreferability)、鲁棒性(Robustness)等问题 。翻译成方便理解的话,就是我们需要AI大模型和人类意图对齐,我们要保证模型输出的内容没有偏见,所有内容都可以找到出处或论据支撑,并且有更大的容错空间 。
这一套问题的解决,依赖于AI训练的过程,就像一个人的三观是在培养和教育中塑造的一样 。
目前,国外已经有企业开始为大模型的训练提供全程的安全监控,比如Calypso AI,他们推出的安全工具VESPR可以对模型从研究到部署的整个生命周期,从数据到训练的每个环节进行监控,最终提供一个关于功能、漏洞、性能、准确性全面报告 。
而在更具体的问题上,比如解决AI胡说八道的问题,OpenAI在GPT-4发布时就同时推出了一项新技术,让AI能够模拟人类的自我反思 。之后,GPT-4模型回应非法内容请求(如自残方法等)的倾向比原来降低了82%,回应敏感请求方面(如医疗咨询等)符合微软官方政策的次数增加了29% 。
除了在大模型的训练过程中要有安全监控,在大模型最后推向市场的时候,也需要一次“质检” 。
在国外,安全公司Cranium正在试图构建“一个端到端的人工智能安全和信任平台”,用来验证人工智能安全性并监测对抗性威胁 。
在国内,清华大学在计算机科学与技术系的CoAI在五月初推出了一套安全评测框架,他们总结设计了一个较为完备的安全分类体系,包括8种典型安全场景和6种指令攻击的安全场景,可以用来评估大模型的安全性 。

文章插图
▲ 图摘自《Safety Assessment of Chinese Large Language Models》
除此之外,一些外部的防护技术也在让AI大模型变得更安全 。
比如英伟达在5月初发布的一项名为“护栏技术”(NeMo Guardrails)的新工具,相当于为大模型安装了一个安全滤网,既控制大模型的输出,也帮助过滤输入的内容 。

文章插图
▲ 图源:英伟达官网
比如,当有用户诱导大模型生成攻击性代码,或者危险、带有偏见的内容时,“护栏技术”就会限制大模型输出相关内容 。
除此之外,护栏技术还能阻挡来自外界的“恶意输入”,保护大模型不受用户攻击,比如我们前面提到威胁大模型的“提示注入”就能被有效控制 。
简单来讲,护栏技术就像是企业家的公关,帮助大模型说该说的话,并回避不该触碰的问题 。
当然,从这个角度而言,“护栏技术”虽然解决的是“胡说八道”的问题,但它并不属于“AI Safety”,而是属于“Security for AI”的范畴 。
在这两者之外,关于AI大模型引发的社会/网络安全问题也已经开始在解决 。
比如AI图像生成的问题,本质上是DeepFake(深度伪造)技术的成熟,具体包括深度视频伪造、深度伪造声音克隆、深度伪造图像和深度伪造生成文本 。
在之前,各类深度伪造内容通常是单一形式存在,但在AI大模型之后,各类深度伪造内容呈现融合趋势,让深度伪造内容的判断更加复杂 。
但无论技术如何变化,对抗深度伪造的关键就是内容识别,即想办法分清楚什么是AI生成的 。
早在今年2月份,OpenAI就曾表示,考虑在ChatGPT生成的内容中添加水印 。
5月份,谷歌也表示将确保公司的每一张AI生成图片都内嵌水印 。
这种水印人无法用肉眼识别,但机器却可以通过特定的方式看到,目前包括Shutterstock、Midjourney等AI应用也将支持这种新的标记方法 。

文章插图
▲ Twitter截图
在国内,小红书从4月份就已经为AI生成的图片打上标记,提醒用户“疑似包含AI创作信息,请注意甄别真实度” 。5月初,抖音也发布了人工智能生成内容平台规范暨行业倡议,提出各生成式人工智能技术的提供者,均应对生成内容进行显著标识,以便公众判断 。

文章插图
▲ 图源:小红书截图
甚至随着AI产业的发展,国内外都开始出现了一些专门的AI安全公司/部门,他们通过用AI对抗AI的方式,来完成深度合成和伪造检测 。
比如今年3月份,日本IT巨头CyberAgent宣布将从4月开始引入“深度伪造技术(Deepfake)”检测系统,以检测由人工智能(AI)生成的伪造面部照片或视频 。
推荐阅读
- SSD硬盘暴跌 你仍然需要一块机械硬盘:存数据更安全
- 为什么合规性不等于网络安全
- AI时代,如何安全使用ChatGPT引发热议
- 同理心|新职业安全风险评估师出炉!为就业提供新方向
- AI换脸风暴:骗局、产业与技术防守
- ChatGPT爆火,网络安全再次被摆上台面
- 网络安全自动化的相对优势是什么?
- 谷歌开源 Rust Crate 审查结果:便于 Rust 开发者验证源码安全
- AI换脸冒充好友诈骗430万,听听网络安全专家们怎么说?
- 警惕加密骗局 盘点六大加密资产安全工具
