文章插图
▲图:Gemini演示
就在圈内很多人认为谷歌将要凭借Lumiere和Gemini拿下今年头条的时候 , OpenAI仅仅用Sora就轻松获得了更高的关注度 。
Sora这个词很有意思,它在韩语中表示海螺壳,在日语中表示天空,在芬兰语中表示砂砾 。这就很难不让人想到《海底两万里》的鹦鹉螺号,《沙丘》,以及“我们的目标是星辰大海”的豪情壮志 。
而且Sora是一个比较常见的名字 , 比Lumiere(法语,光)更短、更好读 。
和GPT当年的故事如出一辙,Sora也是踩着竞争对手以碾压式的优势胜出 。相比同类产品,Sora能抓住提示词的精髓 , 巧妙地生成具有多个角色和特定动作的场景 。
有人做过对比,使用同样的提示词,让AI生成一个在花园里、似乎正在追逐什么东西、快乐奔跑的黄白相间的猫,最终结果的差距十分明显 。

文章插图
▲图:不同AI产品的效果对比
上面由Sora生成的视频看起来非常真实,甚至在奔跑时候,猫腮帮子上的毛都会随着脑袋起伏 。而下面通过Pika, Runway, Leonardo, FinalFrame生成的视频,猫不仅看起来不像真的,连动作都很诡异 。
在生成的视频时长上,Sora也碾压友商 。Sora可以生成1分钟的视频,相对的 , Pika是3秒,Runway是4秒,Lumiere是5秒 。
最重要的是,Sora有望解决一个生成式AI的痛点,那就是同样的提示词通常不会生成同样的结果 , 例如“黄白相间的猫”这个提示词,不同的视频里会出现不同模样的黄白相间的猫 。导致的结果,就是无法通过拼接来创作更长的视频 。
尽管Sora一出道就秀出了远超同行的肌肉 , 但Sora并没有选择像Pika、Runway一样,开放给大众使用,而是采取了Google、Meta类似的保守策略 , 先官宣来吊足大家胃口,然后慢慢内测,等待一个合适的时机,再向大众开放 。
因为,有很多关键问题 , 大家都没有找到好的解决方案 。
AI一调皮
人类就头疼
生成式AI天生就有一个“不按物理定律出牌”的老毛?。?幢闶强雌鹄匆丫?浅=咏?媸凳澜绲腟ora也不例外 。这个问题过于明显,以至于OpenAI都懒得去遮掩 , 干脆自己先大方的说了出来 。
从内测用户流出的视频可以发现,Sora无视物理法则随意发挥的意愿十分高涨,而这种意愿在“必须还原物理世界”的规则约束下,很容易生成像人类做梦一样的场景 。有过做梦经历的朋友应该会这样的体会:明明梦是虚幻的,但在梦里你的感受又很“真实” 。
下面就是个很典型的例子 。

文章插图
▲图:Sora的梦境物理
注意看 , 视频中的这个杯子莫名其妙的跳了起来并侧翻在桌面上,杯中的液体在杯子跳起来的一瞬间穿透了杯底铺满桌面,而最终杯子连同里面剩余的液体一起,融进了桌面 。

文章插图
▲图:融进桌面的杯子
这样的视频显然无法应用在正式的场合,大概率只能出现在B站的鬼畜区 , 告诉你一个学了3年动画的人,是如何因为一个毕业作品被老师轰出门外的故事 。

文章插图
此外,Sora对算力有很高的要求 。下面这个视频演示了低算力和高算力之间的差距能有多可怕 。

文章插图
▲图:算力差距
而想要高算力 , 就得花更多的钱 。
以Runway为例,个人版收费模式分3档,标准版为每月15美元 , 可以制作一个125秒的Gen-1视频,或者44秒的Gen-2视频 , 相当于每秒1-2.4元人民币,超出部分需要额外付费 。Pro版每月35美元 , 至尊版每月95美元 。而用户如果希望加快视频的产出效率,也需要额外购买“时间” 。
能力越大
危险越大
生成式AI在社会层面有几个老生常谈的问题 。
首先就是造假问题 。AI生成的视频越真实,造假就越容易 。最直接的解决办法是将AI生成的内容打上一个特殊的标签,以便于平台将其和人工拍摄的视频进行区分 , OpenAI和Google的确也在做这件事 。
但水印的问题在于,它可以在分享的过程中会被人恶意抹除 。例如通过截图、录屏的方式获得视频副本,不会带有任何水印 。
推荐阅读
- 揭秘Sora技术路线:核心成员来自伯克利,基础论文曾被CVPR拒稿
- 人人都能看懂的Sora技术报告
- 强推6部R级末日题材电影,肾上腺炸裂,全程无尿点
- 柳鑫宇自爆猛料,疑账号被盗,大量炸裂图文曝光不堪入目
- Sora为什么是AGI的又一个里程碑时刻?
- 「科技犬」7月份值得买万元游戏本盘点:华硕ROG联想雷蛇 多款可选
- 奥特曼再放大招!OpenAI公布首个文生视频模型Sora,质量如何?
- 新模型Sora可生成高清视频,OpenAI正在毁灭人类
- 四川科技馆如何玩最科学,四川科技馆预约的票如何取消
- 中国反卫星武器技术
