万兴科技 世界模型龙头AI领域的下一个关键突破:世界模型

什么是AI“世界模型”?为什么它们很重要?

具体来看,世界模型是指通过大量图像、音频、视频和文本数据训练,创建对世界运作方式的内部表征,并能推理行为的后果。这使它们能更好地理解和模拟现实世界的规律。

世界模型的概念源自人类大脑形成的心智模型,我们的大脑能够将感官获取的抽象信息整合成对周围世界的具体理解,从而形成"模型",这些模型帮助我们预测和感知世界。

世界模型的特点是试图超越数据,模拟人类的潜意识推理,例如,棒球击球手能在毫秒内决定如何挥棒,是因为他们能本能地预测球的轨迹。这种潜意识推理能力被认为是实现人类级智能的先决条件之一。

“世界模型”的意义在于可以实现复杂推理和规划,还是生成式视频技术的突破:

1. 生成式视频技术的突破:世界模型在生成式视频领域展现出巨大潜力。与传统的生成模型相比,具备基本物理规律理解的世界模型能更准确地模拟物体的运动。例如,它不仅能预测篮球会弹跳,还能理解为什么会弹跳。Snap前AI负责人、Higgsfield公司CEO Alex Mashrabov表示,有了强大的世界模型,创作者就不需要为每个物体定义预期的运动方式,模型本身就能理解这些。

2. 复杂预测和规划:Meta首席AI科学家Yann LeCun认为,世界模型未来可能用于数字和物理领域的复杂预测和规划。例如,给定一个脏乱的房间(初始状态)和一个整洁的房间(目标状态),世界模型可以推理出一系列清洁行动,而不仅仅是根据观察到的模式进行操作。

拥有这些能力后,“世界模型”可广泛赋能影视、游戏,自动驾驶以及机器人等行业。

World Labs联合创始人Justin Johnson预测,未来的世界模型可能能够按需生成用于游戏、虚拟摄影等用途的3D世界,大大降低开发成本和时间。世界模型将不仅能获得图像或视频片段,还能得到一个完全模拟的、生动的、可交互的3D世界。

代表好莱坞动画师和漫画家的工会动画协会 (Animation Guild) 一项2024年研究估计,人工智能有可能在未来两年内颠覆美国10多万个电影、电视和动画工作岗位。

世界模型还有望推动机器人技术进步,通过增强机器人对周围环境和自身的感知能力,帮助它们更好地理解所处情境并推理可能的解决方案。

追加内容

本文作者可以追加内容哦 !