官方介绍说,Sora 团队一直专注于训练具有更高级世界模拟能力的模型。这样的系统对于训练深刻理解物理世界的 AI 模型至关重要。也十分谦虚地说明,这些数据还处于起步阶段。
他们表示,随着Sora 2 的推出,已经跳到了视频领域的 GPT-3.5 时刻。
Sora 2 能够做到以前视频生成模型难以做到甚至不可能做到的事情:奥运会的体操表演,冲浪板上的后空翻等复杂动作。
在此,我选取官方展出的素材,使用相同的提示词进行生成素材,来展开对比。
Prompt: a man does a backflip on a paddleboard 提示:一个人在冲浪板上做了个后空翻
Prompt: a gymnast flips on a balance beam. cinematic提示:一名体操运动员在平衡木上翻转。电影化
可以看到,实测结果确实不如官方展示得那么理想。对于复杂的物理运动,抽卡率还是高了一些,但小编觉得整个动作的“势”还是很到位的。但相比于1年多前的Sora 1,已经进步相当明显了。