全网刷屏的Sora，究竟厉害在哪？_财富号

最近，相信大家的朋友圈都被一个词刷屏了：Sora。

2024年2月，在没有任何预兆和消息透露的情况下，OpenAI突然发布了自己的首个文生视频模型Sora，大幅刷新行业多个指标，将视频生成的时长一次性提升了15倍，实现了AIGC领域的里程碑式进展。

Sora到底“牛”在哪？对于创作者和行业来讲，它会产生哪些影响？本期好奇心营地就让我们一起来聊一聊Sora引发的商业浪潮。

Sora是什么？

Sora是一种基于AI算法下的文生视频模型，简单来说，就是你输入一段文字，Sora可以根据你的文字内容生成一段长达60秒的连贯视频，同时保证视觉质量。

可以看到，不管是流畅度和稳定性，还是对光影反射、运动方式等细节的处理方面，特别是对物理世界的学习能力，Sora都表现出极高的水准，具体体现在：

语言理解能力

Sora不仅保持了视觉品质，而且完整准确还原了用户的提示语。

复杂场景与角色生成能力

Sora能够生成包含多个角色、背景细节复杂的场景，生成的视频具有高度的逼真性和叙事效果。

多角度镜头能力

Sora可以在单个生成的视频内实现多角度镜头，同时保持角色和视觉风格的一致性。

物理世界模拟能力

Sora对于光影反射运动方式等细节处理得十分优秀，如物体的移动、三维一致性和交互，极大提升了真实感。

静图生成视频能力

除了文生视频，Sora还能够从现有的静态图像开始，准确地动画化图像内容，或者扩展现有视频，填补视频中的缺失帧。

那Sora到底是怎样根据一段文字生成视频的呢？

这里就要提到Sora涉及到的两个关键技术，一个是Diffusion（扩散）模型，另一个是Transformer模型。

我们知道视频是由一帧一帧的图片连接而成的，在了解“文字生成视频”之前，我们应该先了解“文字生成图片”。这背后是一项称为Diffusion（扩散）模型的关键技术，通过正向扩散和逆向扩散两个过程，它能够将一张马赛克一样的图片，不断结合提示词提供的信息多次还原，最后形成一张完整、清晰的图片。

那如何让图片动起来成为一个视频呢？这就要用到机器学习的经典模型——Transformer模型了。

实际运用过程中，Sora把视频分解为了更小的数据单元3D Patch（时空碎片），提高了视频训练和推理的效率，而这也是Sora最大的创新之处。这种3D patch的做法，首先让视频效果更好了，因为生成视频的时候不再是粗暴地“补帧”，所以一致性、连贯性都更好；其次，这种切割方法很省算力，训练和推理算力的效率变得更高了，单位算力能训练出更好的模型、也能生成更长的视频时长。

Sora对行业的影响

尽管Sora在模拟能力方面已经取得了显著的进展，但它目前仍然存在许多局限性。例如，它不能准确地模拟许多基本相互作用的物理过程，比如吃东西时，Sora并不能总是产生正确的对象状态变化。

不过即使如此，Sora对于AI应用的商业化还是意义重大的，最直接的应用场景就是视频、3D内容的制作，预计未来将对短视频/短剧、游戏、广告、影视等行业有很大的帮助，长期看可能会极大降低视频内容生成的中间成本、提高视频创作效率，重构内容行业的生产模式。而视频内容制作成本和门槛大幅降低的同时，也会一定程度上加剧行业的竞争，所以，未来更多比拼的将是创作者的prompt能力，即创意、想法的能力。

我相信，随着技术的不断进步和创新，Sora所展现出的能力预示着生成式AI持续扩展的巨大潜力。随着大模型认识和学习物理世界能力的进一步深化，人工智能在未来或将迎来跨越式发展，或极大拉近我们与更具通用性的未来智能世界的距离。

*风险提示：基金有风险，投资需谨慎。投资人应当认真阅读《基金合同》、《招募说明书》、《产品资料概要》等基金法律文件，了解基金的风险收益特征及其特有风险，并根据自身的投资目的、投资期限、投资经验、资产状况等判断基金是否和投资人的风险承受能力相适应。基金管理人不保证基金一定盈利，也不保证最低收益或本金不受损失。基金过往业绩及其净值高低并不预示其未来业绩表现，基金管理人管理的其他基金的业绩并不构成本基金业绩表现的保证。

追加内容

本文作者可以追加内容哦 !

总收益	20日收益	日收益
--	--	--

代码	名称	最新价	涨跌幅
查看更多

最新操作
-	-	-