$深水规院(SZ301038)$    李飞飞:「空间智能」的背后需要三维GIS

李飞飞在TED上的一个题为《With spatial intelligence, AI will understand the real world》的演讲,在演讲中李飞飞着重讲了她对Spatial Intelligence的理解,以及Spatial Intelligence对具身智能(Embodied AI)发展过程中的重要作用。


他想让我解读一下,大部分做GIS的人其实对于「空间」这个词有着天生的敏感,因为我们就是做GeoSpatial的,今年各大行业会议上「空间智能」也都成为了热门的话题。

地理信息软件技术大会升级成为了空间智能软件技术大会。


没想到2024年,GIS和大热的人工智能领域竟然以这样的方式产生了交集了,但是这二者是一回事么?

为了弄明白这个问题,其实首先要弄明白什么是Spatial Intelligence,以及Spatial Intelligence为什么会成为热门单独被提出来。

第一、人工智能的下一个浪潮是具身智能(Embodied AI),在去年的ITF World 2023半导体大会上,英伟达创始人兼CEO黄仁勋就表示,人工智能下一个浪潮将是“具身智能”(Embodied Intelligence),是能理解、推理、并与物理世界互动的智能系统,AI与机器人的融合,具有很好的想象空间。


过去通用大语言模型以及通用视觉模型的成功,让大家看到通用机器人成功的可能性,所以大家现在都在卷机器人,这也就是所谓的具身智能(Embodied AI),「具身智能」按照字面的理解其实就是具备身体的智能体,所以具身智能包含两个东西:本体和智能体,本体可以是各种形态的机器人,智能体则是这个机器人的大脑,其实背后就是大语言模型、视觉模型以及机器人控制技术的整合。

查阅李飞飞团队的一些研究成果,可以发现一个题为《VoxPoser: Composable 3D Value Maps for Robotic Manipulation with Language Models》的论文,在该论文中提到了如何使用LLM(大语言模型)+VLM(视觉语言模型)在3D空间中驱动机器人完成成指定的指令。



在VoxPoser方法中,通过给定环境的RGB-D与动作指令,LLM将指令拆解为一系列的动作并生成相应的Python代码,然后调用VLM获得相关物体或部件在机器人观察空间中的空间几何信息,然后用体素生成允许和限制区域的3D地图,供机器人进行轨迹和动作规划的使用。

LLM大家已经听的比较多了,这里的VLM(视觉语言模型)本质上就是将语言和图像进行关联的一种模型,它通过从互联网上大量的图像-文本对中学习到丰富的视觉-语言关联,这也是「通用」这个词的意义,通用的大语言模型和通用视觉语言模型就可以保证不用自己在费劲做大量的样本和标注,这些通用的能力可以让具身智能实现的边际成本降低。

所以从这个过程中可以看到LLM和VLM对3D空间的理解就很重要,因为整个逻辑以及体素空间的生成都是依赖LLM和VLM。

第二、现在的视觉模型对3D空间理解还是存在一定的问题,李飞飞在Walt(早于OpenAI的Sora)项目的实践中也发现了现在的视频生成方法在3D物理规律的理解方面还有很大的提升空间,核心在于2D的模型并没有理解3D的世界的物理规律,所以才会出现类似小猫潜入水中,但是外观却没有变湿的问题,而这些问题都需要通过在3D空间下去解决。


这也是李飞飞在演讲中提到Spatial Intelligence对机器人学习很重,因为机器人需要理解3D世界并在3D的世界中发生交互。


第三、训练数据集是关键,训练能够理解3D空间的视觉模型,就需要在3D空间下的数据集,其实也是复制过去ImageNet的成功模式,这就需要提到李飞飞的另外一个工作《BEHAVIOR-1K: A Human-Centered, Embodied AI Benchmark with 1,000 Everyday Activities and Realistic Simulation》,BEHAVIOR-1K包含两部分内容:


第一个是 1,000 种日常活动的定义,基于 50 个场景(房屋、花园、餐馆、办公室等),有 9,000 多个带有丰富物理和语义属性注释的对象;

第二个是OmniGibson,这是一种新颖的模拟环境,通过逼真的物理模拟和刚体、可变形体和液体的渲染来支持这些活动;

看到这两个东西做GIS或者数字孪生的的人立马就熟悉起来了,我们现在大量的工作不就是做场景、实体化以及可视化模拟么,只不过我们现在的很多工作其实做的是真实场景的建模,而机器人的训练需要更加丰富的组合场景。

同时在项目页的介绍部分,也明确了OmniGibson就是基于英伟达的数字孪生平台Omniverse。

在ITF World 2023的演讲中,老黄就提出机器人需要在Omniverse这样可以模拟物理环境的平台中进行模拟训练,并推出了英伟达的多模态具身智能系统Nvidia-VIMA,能在视觉文本提示的指导下,执行复杂任务、获取概念、理解边界、甚至模拟物理学,同时还提到了他们的Earth 2计划,用人工智能替代物理数值模型取得了更快的速度。


到此可能基本的逻辑就清楚了,过去GIS和数字孪生将很多的工作放在了如何让「人看得懂3D空间」,其实伴随着下一波人工智能技术浪潮的革命,数字孪生和GIS也应该将一部分研究方向调整为如何让「机器或者模型看懂3D空间」,从而主动融入到这个更有生命力的赛道上来,虽然这个并不容易,但是人工智能也不是横空出世的东西,它也是需要在现在的技术基础上来累计发展得到的,所以现在的数字孪生对于下一个人工智能的浪潮具备非常关键的作用,所以你准好了么


GIS和数字孪生[怒]

追加内容

本文作者可以追加内容哦 !