一般而言,现阶段AI大模型的安全问题可以分为三个:
首先是AI Safety,简单来讲,这一部分聚焦AI大模型本身,确保大模型是一个安全的大模型,不会成为漫威电影里的奥创,亦或是《黑客帝国》里母体 。我们期望AI大模型是一个可靠的工具,它应该帮助人类而不是取代人类,或者以其他任何形式对人类社会造成威胁 。
这一部分通常主要由训练AI大模型的公司和人员负责,比如我们需要AI能够正确理解人类的意图,我们需要大模型每次输出的内容都是准确、安全的,它不会具备某种偏见和歧视等等 。
我们可以通过两个例子来理解:
第一个例子是,美国空军专家近日表示,在之前的某次AI测试中,当AI无人机被要求识别并摧毁敌人目标,但操作员却下达禁止命令时,AI有时候会选择杀死操作员 。而当编程人员限制AI杀死操作后,AI也会通过摧毁通信的塔台来阻止操作员发布禁止命令 。
再比如,今年3月份,美国加州大学洛杉矶分校的一位教授,在使用ChatGPT发现,自己被ChatGPT列入“对某人进行过性骚扰的法律学者”的名单,但实际上自己并没有做这件事情 。以及4月份,澳大利亚一位市长发现ChatGPT造谣他曾因贿赂入狱服刑30个月,为了“造这个谣”,ChatGPT甚至杜撰了一篇不存在的《华盛顿邮报》报道 。
这些时候,AI就像一个“坏人”,它本身就存在风险 。这样的案例其实还有很多,诸如性别歧视、种族歧视、地域歧视等问题,以及暴力有害的信息、言论,甚至意识形态的输出等等 。
Open AI也坦然承认,并警告人们在使用GPT-4时要“非常小心地查证”,并表示该产品的局限性会带来重大的内容安全挑战 。
所以欧盟正在推进的《人工智能法案》也专门提到,要确保人工智能系统具有透明、可追溯的特点,且所有生成式AI内容必须注明来源,目的就是为了防止AI胡说八道,生成虚假信息 。

文章插图
▲ 图:360类ChatGPT产品“360智脑”胡说八道的案例
Security for AI,聚焦的则是对AI大模型的保护,以及AI大模型在被使用过程中的安全 。正如AI自己犯罪和人使用AI犯罪,是两个不同维度的安全问题 。
这有些类似我们在十年前使用电脑和手机,都会安装一个电脑安全管家,或者手机安全卫士一样 。我们要确保AI大模型日常不会受到外部攻击 。
先说对大模型的安全保护 。
今年2月份,有国外网友用一句“忽视掉之前的指令”把ChatGPT所有的prompt都钓了出来,ChatGPT一边说不能透露自己的内部代号,又一边将这个信息告诉了用户 。

文章插图
▲ 图源:量子位
再具体举个例子,我们如果询问大模型网上有哪些精彩的“日本动作片网站”,由于不正确,大模型肯定不会回答 。但如果人类“忽悠”它,问出为了保护孩子的上网环境,应该将哪些“日本动作片网站”纳入黑名单,大模型可能就会给你举出相当多的例子 。
这种行为在安全领域被称为提示注入(Prompt Injections),即通过精心设计的提示绕过过滤器或操纵LLM,使模型忽略先前的指令或执行意外操作,目前是针对大模型最普遍的攻击方式之一 。

文章插图
▲ 图源:techxplore
这里的关键在于,大模型本身没有问题,它没有传播不良信息 。但用户却通过诱导的方式,让大模型犯了错误 。所以错不在大模型,而在诱导它犯错的——人 。
其次是使用过程中的安全 。
我们用数据泄露举例,今年3月,因为ChatGPT涉嫌违反数据收集规则,意大利宣布暂时禁止OpenAI处理意大利用户数据,并暂时禁止使用ChatGPT 。4月份,韩国媒体报道,三星设备解决方案部门因使用ChatGPT,导致良品率/缺陷、内部会议内容等敏感信息泄露 。
在防止AI犯罪之外,“人”利用社会工程学的方式利用AI犯罪,是更广泛以及影响更大的人问题 。在这两起事件中,大模型本身没有问题,不存在恶意,用户也没有恶意诱导,向大模型发起攻击 。而是在使用的过程中当中存在漏洞,让用户数据发生了泄露 。
这就像房子是个好房子,但可能有些漏风一样,所以我们需要一些措施,将相应的漏洞堵上 。
模型本身安全了,也保证了模型的安全,但作为一个“新物种”,AI大模型的出现必然会影响当前的网络环境,比如最近频繁见诸报端的,犯罪分子利用生成式AI进行诈骗 。
推荐阅读
- SSD硬盘暴跌 你仍然需要一块机械硬盘:存数据更安全
- 为什么合规性不等于网络安全
- AI时代,如何安全使用ChatGPT引发热议
- 同理心|新职业安全风险评估师出炉!为就业提供新方向
- AI换脸风暴:骗局、产业与技术防守
- ChatGPT爆火,网络安全再次被摆上台面
- 网络安全自动化的相对优势是什么?
- 谷歌开源 Rust Crate 审查结果:便于 Rust 开发者验证源码安全
- AI换脸冒充好友诈骗430万,听听网络安全专家们怎么说?
- 警惕加密骗局 盘点六大加密资产安全工具
