别急着捧杀谷歌Veo2,毕竟曾被吹上天的Sora也翻了车

 AI好好用报道

编辑:杨文
为了考住Veo2,也是难为人类了。

总被 OpenAI 压着打的谷歌,终于扬眉吐气了!

最近,谷歌连上几款大模型,个个备受好评。

先是推出最强 AI 大模型 Gemini 2.0,接着又 官宣了 AI 视频生成模型 Veo2,直接对着 OpenAI 的 Sora 贴脸开大。

据介绍,Veo2 能生成 2 分钟以上时长、4k 分辨率的视频,也能理解提示词中的相机控制指令,还能重建出符合真实世界的物理交互和人脸表情。

同时,在基于人类评估者的对比评估中整体表现远超对手。

图片 (该图也侧面显示,在 AI 视频生成模型方面,中国真的冲到了第一梯队,成为谷歌也不容小觑的对手)

一众大佬也齐刷刷为其站台。

图片

官方给出的演示视频也相当惊艳。

《权力与游戏》中的龙在高楼大厦间穿梭,这效果是不是吊打不少视觉特效师?

图片 (视频来自X博主@shlomifruchter)

一只猫对着镜子中的自己咆哮,但它看到的却是自己像狮子一样在吼叫:

图片
(Prompt:A cat roars while looking at its reflection in the mirror but instead sees itself as a lion roaring.)

谷歌 DeepMind 研究员 @babaeizadeh 还制作了一系列动画风格的土豆小人情景喜剧。

图片 (Prompt:anime style footage of two potatoes having a sword fight. cinematic, fastpaced with a lot of shotcuts.)

不过,与几个月之前的 Sora 类似,Veo2 目前也尚未对公众开放。

这也意味着,社交平台上的 Veo2 生成视频,要么时官方精挑细选出来的,要么是科技博主们一手评测出来的。

此外,这些放出来的视频时长均为 8 秒,分辨率也不超过 720p。

Veo2 的实际效果究竟如何?

我们或许可以从科技博主的测评视频中找到一些端倪。



-1-

Veo2 也逃不过翻车的命运吗?

目前,已经有不少国外科技博主拿到了 Veo2 试用「门票」,并在社交平台上放出来各种测评视频。

从这些测评视频中,我们发现Veo2 确实进步一大截,但也存在不少老生常谈的问题。

并未完全理解物理世界

X 博主 @shlomifruchter 是谷歌 Deepmind Veo 的联合负责人。

他用 Veo2 生成了一系列将水果扔进水里的视频。

比如,把几颗饱满的蓝莓丢进水中,无论是蓝莓入水后的浮沉,还是泛起的水泡、溅起的水花,乍一看都没毛病,但一细究就会发现杯子的水位并没有上升。

图片 (视频来自 X 博主 @shlomifruchter)

再比如铁球垂直砸入装满硬币的盒子,最初的「爆炸性」运动生成得很真实,但在「飞」走很多硬币后,盒子里又冒出了比开始还多的硬币。

图片

(视频来自谷歌 DeepMind 成员.@hhm)

DeepMind 研究科学家 @MattMcGill_评论称,在没有感官反馈的情况下,视频生成模型很难像人类一样准确地模拟和修正物理现象,从而导致生成的视频中出现许多物理错误。

图片

这就像在缺乏感官基础的梦境中,人可以漂浮着下楼梯,物体之间可以随意转换,时间可以变得非线性等。

图片

并未严格遵循提示词

风投公司 a16z 合伙人 Justine Moore 也测试了几个 Prompt。

其中一个Prompt:giraffe librarian in a sweater and jeans putting books back on a shelf.(穿着毛衣和牛仔裤的长颈鹿图书管理员把书放回书架上。)

图片

对于这个长颈鹿图书管理员的穿着,Veo2 领悟得很到位,但它并没有把书放回书架。

Justine Moore 在回复中表示,有 25% 到 50% 的情况下模型能够成功地完成任务或给出正确的结果。它在处理复杂任务、运动量大的场景以及分布外推理方面的能力有了显著提升,但仍有改进空间。

图片

谷歌 DeepMind 成员@hhm 输入 Prompt: Bear writing the solution to 2x-1=0. But only the solution!(熊在写解方程 2x - 1 = 0 的解,但只写解!)

图片

(视频来自 X 博主 @hhm)

黑板上确实呈现出正确的答案,只不过小熊并没有在写字,它只是拿着一块黑板而已。

手部细节生成异常

在某些细节方面,Veo2 也经不起推敲。

比如这个女孩在云端跳舞的视频,眼尖的观众会发现画面惊现三条胳膊。

图片
还有下面这个一群人围坐在一起吃火锅的片段,右侧穿红衣服的女生一度出现 4 根手指,左下角的男生手部则不断扭曲虚化。
图片 (Prompt:zoom out from hotpot to a group of friends eating.)

搞不定复杂的体育动作

对于 AI 来说,生成体操动作仍是一大难题。

这是因为 AI 需要能够捕捉到运动员在空中的旋转、翻转等动作,并且生成的视频要保持流畅和连贯。

同时运动员在翻转时可能出现身体部位的相互遮挡,这增加了模型生成视频时处理遮挡关系的难度。

下面这个 Veo2 生成的体操动作视频就是一个失败的案例:重力失灵、运动员腾空翻转时身体不正常扭曲等。

图片

X 博主 @jerrod_lew 发布了一个 Veo2 生成的体育类视频合集,里面有多处诡异的情形。

网球拍击球的角度不正确,背后的力度看起来不够;跑步者的手突然反向运动,使得生成的动作不自然、不符合人体运动规律等。



(视频来自 X 博主 @jerrod_lew)

还有这个机器人和人类踢足球的视频,人类和机器人的手臂会互相穿过;在无人触碰的情况下,球会自己旋转移动等。

图片

(Prompt:Soccer of the future, mixing people and robots. This is a fragment from a 2024 cinematic movie.)



-2-

国外科技博主横评

不少博主还发布了 Veo 2 和其他视频生成模型对比的视频。

Prompt: A pair of hands skillfully slicing a ripe tomato on a wooden cutting board.

提示词:双手熟练地在木菜板上切成熟的西红柿。

Prompt: An astronaut exploring an underwater alien shipwreck.

提示词:宇航员探索水下外星沉船。

Prompt:A bartender making an old-fashioned cocktail.

提示词:调酒师正在调制老式鸡尾酒。

Prompt: A video of a person sitting in a cafe with a coffee. After a bit, cuts to another viewpoint to reveal that a person nearby table is writing a letter to them.

提示词:一个人坐在咖啡馆喝咖啡的视频。过了一会儿,切到另一个视角,发现旁边桌子上的一个人正在给他们写信。



Prompt: A sloth playing a game of Jenga made of a bunch of donuts.

提示词:一只树懒正在玩由一堆甜甜圈制成的 Jenga 游戏。

Prompt: a tracking shot, follows an ice skater gliding across an ice rink that appears to be floating amidst the clouds.

提示词:跟踪镜头,一名滑冰者滑过溜冰场,溜冰场漂浮在云层中。

Prompt: NYC drone footage. Hyperlapse during the night. Brooklyn bridge.

提示词:纽约无人机镜头,夜间延时摄影,布鲁克林大桥。

X 博主 @blizaine 还用同一套提示词分别测试了 Veo 2、Sora、Runway、Luma、Pika、hailuoAI、可灵 1.5、混元。

尽管在科技博主的一番测评下,Veo2 吊打其他对手,但我们还是想说,先别急着下结论,毕竟曾经的 Sora 也一度被捧上天,最后还是逃不掉翻车的命运。

文中视频链接: https://mp.weixin.qq.com/s/Gzfq7QpMLjvrJCYpQX9vHA

参考链接:
https://x.com/blizaine/status/1868850653759783033
https://x.com/doomie/status/1868735125003157841
https://x.com/emollick/status/1868897308529787248
https://x.com/jerrod_lew/status/1868771525660381410
https://x.com/DaBrusi/status/1869019445550825680
https://x.com/venturetwins/status/1869112033817641161
https://x.com/agrimgupta92/status/1868745017571131582
https://x.com/shlomifruchter/status/1868741814985044257
https://x.com/AngryTomtweets/status/1868954948282503533
产业