AI大模型陆续发布，Genie与Sora有何异同？_财富号

海外AI大模型加速迭代，巨头布局步伐提速。两周前OpenAI的文生视频Sora刚火爆全球，竞争对手谷歌Deep Mind团队就在2月26日发布了110亿参数的全新AI基础世界模型Genie，表示其开启了“图/文生成交互世界”的时代，还将成为实现通用AI Agent的催化剂，AI发展趋势已愈发明确。

什么是Genie？

Genie是一个11B参数的交互式环境生成模型，以超过20万小时的公开在线游戏视频数据集为训练素材，是第一个在无监督学习下从互联网视频中训练出来的可以生成交互环境的模型。通过Genie，仅需提供一张图片甚至草图，便可以生成一个可玩的交互式世界，它能让用户像在游戏里那样操作，每一帧画面都能根据用户的动作改变，也就是说，这项技术本身都可以成为一个很火的游戏。

Genie与Sora有何异同？

Genie与Sora都是物理世界模拟器，能够在虚拟世界中做物理世界的实验。目前除了Genie与Sora之外，微软的Azure Kinect DK、英伟达的Omniverse、苹果的ARKit这些都是物理世界模拟器，模拟不同特点和应用场景。

从训练方式和互动性来看，Sora是通过在大规模视频和图像数据集上进行训练，获得了处理各种视觉任务的能力，通过模拟物理世界中的人物及环境在同一个视频张设计出多镜头且角色和视觉保持一致性的视频。Genie的特点在于是在无监督训练生成式交互环境，在没有任何动作标签的情况下进行，且能够从训练素材中自行识别不同动作的特征和模式，并把视频的每一帧和这些潜在动作结合起来，通过模型自动生成下一帧的画面。与Sora不同，Genie实际上是一个由行动驱动的世界模型，具有推断行动的能力。总结来看，Genie具备交互性，在提供图的基础上，Genie能生成的不仅限于视频，而是可交互的2D虚拟世界，且虚拟世界自主可控。

从实现方式及呈现效果来看，Genie大部分情况下是需要先用文生图模型来生成起始帧图片，再用Genie生成视频，且视频在一两秒左右，更偏向于动图，而Sora可以实现文字直接生成视频。且暂时Genie生成的视频比较卡通化，画质相较于Sora比较模糊、时长相对较短。但谷歌官网表示，目前模型专注于 2D平台游戏和机器人技术的视频，但方法通用，未来有望扩展到更大的互联网数据集，进一步扩大应用场景。

从对空间和物理之间的理解来看，Genie模型能够在一定程度上理解空间和物体之间的互动关系。例如，在提供带有人物的静止图像时，Genie生成的动图中能看到图像里的人物与周围环境产生交互，人物在遇到障碍时能够做出一系列弹跳、躲避障碍的动作，且动作符合物理规律。而对于Sora能否理解真实物理世界规律仍具争议。例如，人物在道路上行走，仔细观察，会发现双腿出现了两次诡异互换；巨浪消失后，一个冲浪者还高高跃起；杯子摔碎的过程，液体先出现在桌面上，杯子才摔碎。

为何要关注大模型进展？

不难看出，人工智能尤其AI大模型已经成为全球关注的焦点。2月23日，中国首部文生视频AI系列动画片《千秋诗颂》启播暨中央广播电视总台人工智能工作室揭牌仪式举行，依托“央视听媒体大模型”，聚焦国家统编语文教材200多首诗词，运用AI人工智能技术将国家统编语文教材中的诗词转化制作为唯美的国风动画，如《咏鹅》等诗词动画。

类似于Genie与Sora这些生成式模型不但具有可以生产娱乐内容或者辅助人类创造多媒体资产这些初级价值，它的最终价值将是帮助人们以更小的代价去模拟这个世界，从而允许AI算法在模拟世界中学习，最终走向AGI（通用人工智能）。最终提升劳动、资本、技术等各类要素的匹配度，让原有产业实现大幅提质增效，促使经济增长从要素驱动型转向创新驱动型，从而推动新一轮生产力革命并带来广泛而深入的经济社会影响。

总收益	20日收益	日收益
--	--	--

代码	名称	最新价	涨跌幅
查看更多

最新操作
-	-	-