农历龙年伊始,OpenAI再向世界扔出了一枚炸弹——视频生成模型Sora。

AI生成视频的工具之前就有一些,包括大家可能更为熟悉的Runway、Pika Labs和Stable Video等。为何这次Sora还能称得上是炸弹呢?

除了生成的视频时间更长、清晰度更高等表观优势外,Sora超越了过去所有的AIGC,它生成了看起来与真实物理世界直觉基本相符的视频内容。

如果说生成天马行空的视频内容可以类比为人类孩童时那无穷无尽的想象力,那么生成与真实物理世界规则相符的视频内容,就像是AI睁开双眼、开始通过观察认知世界。

如果我们去看OpenAI官网的技术报告,他们将其称为世界模拟器。

从已经官宣的功能看,只需要输入文字,Sora便可生成一段长达60秒的高清视频。60秒的一镜到底十分连贯,人物、背景都达到了惊人的一致性,各种镜头随意切换,都保持了较高的稳定性,且基本符合人类对于物理世界的直观认知(偶有错误,但个人认为无伤大雅)。

有些评论说,Sora带有世界模型的特质,能够对真实的物理世界进行建模,能让机器像人类那样对世界产生全面而准确的认知。参考技术报告的原文,上述理解有些偏差,Sora构建视频的方式与传统的建模仍有本质差异,甚至某种意义上来说,Sora根本没有建模

翻阅OpenAI公布的技术报告,我个人理解主要介绍了两方面:

一是如何将不同类型的视觉数据转化为统一的格式,以便对生成模型进行大规模训练。

二是介绍了Sora的能力和局限性。据文献介绍,Sora首先是一个扩散模型,这与其他视频生成的模型基本原理相似,它能从看似静态噪声的视频出发,经过多步骤的噪声去除过程,逐渐生成视频。但OpenAI解决了一种数据编码方式,将更加广泛的通用视频数据进行转换,把视频和图像分解为较小的数据单元——「patches」,每个「patches」相当于GPT中的一个「token」,相当于把视频数据翻译成了大模型可以“读懂”的数据流,用以训练模型产生合乎逻辑视频的能力。同时Sora还基于DALL·E和GPT模型的研究成果,采用了DALL·E 3的重标注技术,通过为视觉训练数据生成详细描述的标题,使模型更加准确地遵循用户的文本指令来生成视频。

所以从原理上来说,Sora生产视频的方式并非通过建立基于物理模型的数字孪生世界、然后进行渲染,而是用类似人类观察世界的方式来学习生产内容。就像是人类画师通过记忆中看到的世界来创造出用户所需的画面。这其中的物理世界关系,更多来自于它之前看过的视频资料所蕴含的经验。

大家可以这样想象,一个小朋友在看过足够多次的苹果落地后,就能够猜出一个苹果在扔出之后会怎么落地的,但这一切并不基于对于牛顿力学的理解,而仅仅是观察世界的经验而已。所以我在文章的开头说,Sora根本就没建模,而是用另外一种方式,产出了极度逼真的视频,效率上的碾压也就是这样产生的。

其实Sora之所以有吸引力,是因为它让AI睁开了双眼,要知道如果AI可以通过视觉资料认识世界,其可使用的训练数据就变得近乎无穷,而不再局限于相对贫乏的文字数据。在神经网络模型这样一个黑箱模式下,更加丰富的视觉数据会给大模型带来什么变化,就像一个孩子的未来一样充满无限可能。

$中泰开阳价值优选混合A(OTCFUND|007549)$

$中泰星宇价值成长混合A(OTCFUND|012001)$

$中泰兴诚价值一年持有混合A(OTCFUND|010728)$

以上观点仅代表当下观点,且不构成投资建议。

追加内容

本文作者可以追加内容哦 !