谷歌Gemini“抄袭”百度文心一言?AI训练数据陷入大难题( 二 )


而从另一方面来看 , AI生成的内容污染互联网也是一个不得不重视的问题了 。尤其是生成式AI大爆发的今年 。在文字、图像、视频还有音频等领域,AI生成的内容都正在“污染”互联网上数据内容 。
就在上个月,一些网友发现 , 在谷歌搜索上输入已故夏威夷歌手Israel Kamakawiwo’ole的名字是,得到的搜索结果,前几张图片都是有AI生成的,而并非真实照片,并且这是一位以弹奏尤克里里而闻名的音乐家,但图片里的他却在弹吉他 。

谷歌Gemini“抄袭”百度文心一言?AI训练数据陷入大难题

文章插图
在文字方面也是 , 随着百家号等媒体平台上出现的AI帮写等功能,AI生成的文章已经开始在互联网上“蔓延”,这让普通人在互联网上筛选真实且有效的信息的效率反而降低了 。可以说,AI生成内容对互联网语料的“污染”,可能会导致产生一个新的需求 , 那就是帮人们分辨内容是否由AI生成的AI 。
毕竟,目前训练AI所需要的数据还是人类所生产的,在数据清洗过程中 , 需要注意清除一些由其他AI生成的内容 。一旦互联网上AI生成的内容越多,越能以假乱真,那么数据筛选的难度将越大 。并且在大模型出现“幻觉”以及AI如何产生“智能涌现”这两个问题没有得到彻底解决之前,我想我们都无法做到彻底信赖AI生成的内容 。
毕竟一旦AI生成了错误的内容,而另一个AI拿着这个内容去训练,然后再另一个AI拿到新的错误内容......这样“滚雪球”下去,AI最终会生成什么样的逆天垃圾,我们真的无法想象 。

【谷歌Gemini“抄袭”百度文心一言?AI训练数据陷入大难题】


推荐阅读