提起人形机器人,总是绕不开人工智能这个核心话题。

人形机器人被视为研究人工智能技术的最佳载体,而人工智能则为人形机器人提供了强大的核心驱动力。当前,人形机器人与人工智能的融合已成为行业研究热点。

Mentee Robotics开发的人形机器人MenteeBot,集成了代码、人工智能、运动和工程技术的端到端平台,并嵌入了人工智能大脑(LLM),实现了与世界的动态交互。它不仅能够完成从口头命令到复杂任务的完整端到端循环,包括导航、运动、场景理解、对象检测和定位、抓取以及自然语言理解,同时还具有出色的智能和自主性,堪称人工智能与人形机器人结合的典范。

那么,MenteeBot是如何实现人工智能与人形机器人完美融合的呢?近日,Mentee Robotics的首席执行官,曾任Facebook AI Research领导人物的Lior Wolf教授,对外发表了一场公开演讲,就人形机器人搭载AI的重大挑战、MenteeBot如何克服模拟与现实之间的差距、Mentee Robotics采用的学习修正策略、导航策略、感知策略以及构建实用人形机器人所需的关键要素等内容进行了详细介绍。接下来,一起来深入了解吧!

以下内容根据Lior Wolf教授演讲实录整理:

人形机器人搭载AI的重大挑战:缩小模拟与现实差距

回顾过去20至24年间的人工智能发展历程,其进展之迅猛,远超预期。如今,Transformer模型已成为行业共识,广泛应用于各领域。尤其在计算机视觉、自然语言处理和语音识别等核心挑战上,人工智能近几年都取得了显著突破。

然而,在这股AI技术洪流中,通用机器人,尤其是人形机器人的发展,仍面临重重挑战。


这主要因为,尽管人工智能擅长从数据中学习,但机器人的成功还需依赖经验学习。遗憾的是,为机器人积累经验既缓慢又不安全。模拟器训练虽为一解,但模拟环境与现实环境的差异仍是实现机器人实用化的重大障碍。为此,Mentee Robotics两年前应运而生,致力于攻克这一难题。

Lior Wolf教授指出,当前AI领域正处于多次革命性变革的交汇点。


其中,大型语言模型的出现尤为引人注目。这些模型不仅赋予机器人与人类自然交流的能力,还让它们具备自我反思的机能,从而更高效地执行任务。例如,当机器人尝试抓取物体失败时,它能意识到需要尝试其他方法。鉴于无法为所有边缘情况编写程序,大型语言模型成为编写实际运行机器人脚本的优选方式。

第二场革命是在模拟器中进行训练,这使得收集无限量数据并针对任何任务进行精准训练成为可能。然而,将模拟训练成果应用于现实世界仍需跨越模拟与现实的鸿沟。据悉,已有诸多机器人技术成功跨越了这一挑战。

第三场革命发生在计算机视觉领域,尤其是基础模型的突破。以Monti为例,其利用最新模型执行开放词汇查询和物体检测,不再受限于固定物体列表,极大拓展了计算机视觉的应用范围。

同时,语义3D模型的崛起也是不容忽视的革命。像Nerf和Gaussian Splatting等模型,通过结合语义信息,使我们能够以前所未有的精确度建模3D世界,并支持平方和搜索,为机器人感知和理解环境提供了强大工具。

最后,计算革命也对机器人技术产生了深远影响。多板计算机、NVIDIA Jetson和Orange GPU等计算平台的进步,使得机器人能够运行各种复杂的人工智能模型,从而以更加自然的方式与世界互动。这一系列革命性进展正共同推动着机器人技术迈向新的高度。


演讲中,Lior Wolf教授特别强调了Mentee Robotics在人形机器人技术方面的独特优势。作为一家以AI为核心的公司,Mentee Robotics自主研发了所有AI模型,并将这些模型集成在一起,以创建能在现实世界中执行任务的机器人。这包括推理、导航、运动灵巧性等多种能力的集成。同时,Mentee Robotics的业务范围不仅局限于“人工智能”,还涵盖机械设计、执行器制造和电子工程等,全程参与,确保每一个环节都达到最高标准。

MenteeBot如何克服模拟与现实之间的差距?

为了更直观地展示技术成果,Lior Wolf教授播放了一段现场演示视频,对比了自家研发的MenteeBot与特斯拉的Optimus机器人。尽管MenteeBot在外观设计上不如Optimus精致,但其在行走、转弯、蹲下等动作上表现得更加自然流畅。这得益于MenteeBot在模拟器中的训练以及他们对模拟与现实之间差距的有效克服。


MenteeBot展现出自然步态的底层原因,是其在模拟器环境中进行了深入训练。MenteeBot所掌握的每一项技能,都是通过模拟器中的不断学习而获得的。随后,通过克服从模拟到现实转换过程中的简单差距,MenteeBot成功地将这些能力应用到了现实世界中。这标志着其在最低层次的阶梯——即运动能力方面,实现了有效的跨越与应用。

在更高层次上,Mentee Robotics引入了具备认知能力的模型,这一模型能够将复杂任务细分为一系列子任务。如演示所示,任务被巧妙地分解为API调用的直观展示。这意味着,MenteeBot在接收到任务后,能够充分理解其要求,并利用先进的大型语言模型,将任务进一步拆解为一系列有序的API调用。值得注意的是,这些API调用实际上是以Python代码的形式实现的,而演示中的英文文本仅是为了便于可视化而呈现的。

以一个具体的例子来说,当MenteeBot接收到一个如“定位厨房桌子”的命令时,它会立即调用3D语义模型,这个模型精确地代表了厨房桌子的实际形态。演示中的红点正是MenteeBot成功定位到厨房桌子的位置。同时,机器人还会在3D模型中确定自己的当前位置,以蓝色的点表示,随后它便能够准确地导航至厨房桌子的所在。


为了圆满完成一项任务,机器人需要将推理、运动控制、灵活性以及导航等多种能力紧密地集成在一起,并确保它们能够协同工作,发挥出最佳的性能。演示视频全面展示了机器人从接收任务到执行完毕的全过程。

Lior Wolf教授就如何让机器人能够一次性、连续地完成整个任务这一核心问题进行了深入探讨。他强调,演示视频中包括了20到30个不同区域模型的集成。其中,尽管有些功能是现成的,如文本转语音,但这只是例外。其他所有功能,包括大型语言模型的微调、用于检测的开放词汇查询、带有语义层的世界三维建模,以及之前提及的运动能力等,都是由Mentee Robotics内部自主研发完成的。

每一个模型都是一个独特的AI实体,这些模拟器被巧妙地集成在一起,共同构建了端到端的任务执行能力。Mentee Robotics强调的是整体任务的连贯性,而非零散的片段或单一功能的展示。他们期望所有功能能够协同工作,而集成技术正是实现这一愿景的关键。

在执行端到端任务时,Mentee Robotics面临诸多挑战。以双足机器人的导航为例,同步双腿以精确到达指定位置是一项极具挑战性的任务。同时,协调也是至关重要的环节。当机器人伸手拿取物品时,其整个身体需要保持平衡与稳定,就像人类在搬运重物时一样。因此,集成不仅是一个技术挑战,更是一个需要Mentee Robotics不断攻克的难关。然而,得益于Mentee Robotics稳定的平台和先进的软硬件支持,他们有信心开发更多创新功能。

最后,Lior Wolf教授展示了一段视频,记录了机器人在新环境的第21天。Cement正在利用三维语义地图进行导航,并结合动态地图实时检测潜在碰撞。这一功能是通过立体视觉技术实现的,而MenteeBot则能够将这两张地图完美融合,进行精准导航。当进入一个新的工作环境时,地图绘制变得尤为重要。最直观的方法是让MenteeBot跟随人类工作,通过观察和学习人类的行动轨迹来绘制地图。视频中展示了Antibody如何紧密跟随人类,即使人类在移动中,它也能以平滑的方式完成任务。


AI在人形机器人中的应用及挑战

在探讨AI领域的多元方法论时,Mentee Robotics所秉持的核心理念无疑是一个重要的议题。为了深入理解这一点,我们首先要明确复合AI系统与端到端AI系统之间的根本区别。

端到端系统,顾名思义,直接处理原始数据,从感知层面的信息(例如像素)直至执行具体动作,无需中间步骤。早期的自然语言处理系统及语言模型便是端到端理念的典范。事实上,不少人认为像GPT这样的模型仍属于端到端范畴,它们接收输入标记,输出相应标记,并在海量数据上进行半监督式训练。然而,这种观点并不完全准确。当前的趋势正悄然发生变化,即从传统的端到端AI模型向更为复杂的复合AI系统转型。

复合AI系统与端到端AI系统在设计和应用上存在显著差异。复合AI系统通过结合多个组件来支持所需性能,例如在执行乘法运算时,它不会仅依赖文本预测,而是会编写并执行Python脚本来得出结果。在自动驾驶汽车领域,复合AI系统通过检测物体并基于这些检测做出决策,通常比端到端方法需要更少的数据,尤其是边缘案例数据。


为了更深入地理解这两种系统的差异,我们需要探讨统计学中的偏差与方差之间的权衡。偏差代表训练误差,而方差则反映从训练集转移到测试数据时误差的增加。在只考虑偏差的情况下,端到端系统可能更具优势,因为它能通过增加神经网络的容量来拟合任何数据。然而,当考虑到方差和边缘案例时,复合AI系统可能更为优越,因为它将数据分解成组件,并在这些可识别的组件上做出决策,从而更好地泛化到新的例子。


对于端到端系统的支持者来说,减少方差是一个关键问题。而解决这一问题的关键在于收集更多的数据。

然而,在机器人技术领域,这一挑战尤为艰巨。人形机器人的动作空间极为广阔,即便不考虑手部,人体本身就拥有29个自由度。为了充分覆盖所需的各种运动空间,机器人需要处理海量的数据。此外,执行任务、所处环境等因素都展现出极大的多样性。人形机器人作为一种通用型机器人,需能够执行人类所能完成的所有任务,并适应任何工作环境。因此,面对如此巨大的变异性,想要收集足够的数据来全面覆盖似乎是一项不可能完成的任务。

相比之下,汽车行业虽然也有数百万辆汽车在行驶并不断记录数据,但其动作空间却相对有限。仅需几个自由度便能在现实世界中自由导航。因此,机器人技术的发展现状呼唤一个复合型的AI系统。这正是Mentee Robotics采用多个组件,并以高度实用的方式将它们整合在一起,从而创造出具备真正AI能力的机器人的原因所在。


在探讨学习机器人技术的最佳途径时,动作学习方式的差异也是一个值得考量的重要因素。对于某些非传统或特定类型的机器人技术,业界倾向于在模拟器内部运用强化学习的方法。在这种模式下,大部分的训练过程是在离线状态下进行的,借助集群来进行模拟操作,收集并一次性重新训练控制机器人的AI策略。这一过程与学习滑雪或任何其他复杂技能相似,需要时间和经验的积累才能掌握。一旦学会,这些技能便能实现自动化操作。值得一提的是,这些网络在运行时展现出极高的效率,能够在实时CPU上顺畅运行,同时确保高水平的安全性。

与此同时,模型预测控制也是备受一些公司青睐的方法。在这种模式下,当机器人运行时,会同时运行一个世界模型或模拟器,以预测采取特定行动后可能产生的结果。这种方法虽然有效,但涉及更多的计算量,并且需要一个更为精确的世界模型,这无疑增加了机器人的成本。同时,它还需要操作者了解所拾取物体的重量以及环境的物理属性。

除此之外,还有第三种方法,即控制理论。这种方法主要依赖于数学家对任务进行建模,并将这些模型编程到机器人中。然而,这种方法存在一定的局限性,因为数学家在创造新类型动作方面的能力是有限的。这需要对世界进行建模或做出一些近似处理。例如,当机器人弯曲膝盖时,其行为就更像是一个摆,这时可以使用摆的方程来描述其行为。然而,这种方法限制了机器人可以执行的动作类型,并且难以添加新的动作。因此,在机器人技术的发展中,选择适合的学习方法和技术路径是至关重要的。

Mentee Robotics采用的学习修正策略

在探讨如何克服人形机器人从模拟环境到现实世界的适应难题时,Lior Wolf教授首先提出了一个富有启发性的思想实验。

他假设存在一种策略,能让机器人在现实世界中有效工作。若让机器人在现实世界中执行一系列动作,并记录每一个动作,然后将其放回初始位置,重复执行相同的动作序列,结果会如何呢?遗憾的是,机器人在几步之后就摔倒了。这是因为物理系统中存在诸多噪声,没有两个状态是完全相同的。因此,机器人需要具备适应环境的能力,固定的控制策略无法应对复杂多变的现实世界。

接着,Wolf教授进行了另一个思想实验。假设我们能够让机器人在模拟器中自由行走,并记录下它所采取的一系列动作。随后,我们尝试在现实世界中复制这一动作序列,当机器人在相同的位置启动时,会发生何种情况呢?显然,机器人会像之前在模拟器中一样摔倒,这表明它并未能适应现实世界的环境。但更值得注意的是,机器人在现实世界中摔倒的速度会比在模拟器中更快。这一现象的原因在于,无论模拟器的质量如何,其内部的物理机制都无法与现实世界完美匹配,这就是所谓的“模拟与现实之间的差距”。


深入思考模拟器的工作模式,它基于当前物理世界的状态和预设的动作来预测下一个状态,这是一个将当前状态和动作映射到未来状态的过程。而现实世界,同样如此运作:我们拥有当前的状态,执行动作,时间推移,从而获得现实世界中的下一个状态。

问题的核心在于,这种“现实差距”实际上是指模拟器内部预测的下一个状态与现实世界中实际发生的状态之间的差异。

那么,如何缩小这种差距呢?Wolf教授提出,可以通过学习这种差距并进行补偿来克服它。这种差距实际上是状态和动作的函数,因此可以通过学习来进行修正。

然而,这种方法在模拟器内部学习并不自然,因为需要暴露出一些模拟器无法提供的信息,而且也无法做到完美。


Mentee Robotics提出了一种创新方法:通过操控动作空间,以提升模拟与现实的匹配度。他们设想,在准备执行某个动作时,可以通过一个网络进行微调,从而缩小模拟与现实之间的差距。这样,问题就从“最小化模拟与现实差距”转化为“学习动作策略”。

在此基础上,Mentee Robotics运用强化学习来学习行走。他们定义了状态空间、动作空间和奖励机制,并通过向模拟器中添加噪声来降低对模拟与现实差异的敏感度。然后,他们将学习到的策略应用于现实世界中的机器人,收集数据,并利用这些数据来优化模拟器。

为了最小化“模拟与现实差距”,许多人采用领域随机化方法,通过向模拟器中添加噪声来降低对模拟与现实差异的敏感度。Mentee Robotics也采用了这种方法,然而,他们发现,仅仅通过调整模拟器的参数来更好地匹配现实并不足够。于是,他们采用了一种学习修正策略的方法,它能够调整要执行的动作,从而最小化“模拟与现实的差距”。这种方法像其他策略一样,可以在模拟器中使用强化学习来训练。


接下来,Lior Wolf教授就“如何收集现实世界中的数据并利用这些数据来优化模拟器”进行了深入探讨。他假设,我们已经在模拟器中学习了一些初始策略,并通过领域随机化等技术对这些策略进行了训练。随后,我们可以将这些策略应用于现实世界中的机器人,让它们运行,并从现实世界中收集数据。这些数据具体是什么呢?它们是从特定状态开始的一系列过程记录:我们应用某个动作,然后观察现实世界中机器人进入的下一个状态,再应用下一个动作。这一系列动作正是我们在模拟器中学习的策略。在现实世界中,我们记录了状态-动作-下一个状态-再下一个动作的连续序列。

收集到这些数据后,我们该如何利用它们呢?文献中提供了一些解决方案,如“从模拟到现实,再回到模拟”的循环迭代方法。这些方法大多试图通过调整模拟器的参数来使其更好地匹配现实世界。这些系统在某些领域(如机械臂控制)中已经得到了有效应用,但在足部行走方面尚未证明其有效性。Mentee Robotics也尝试过这些技术,但遗憾的是,它们并没有在最小化“模拟与现实差距”上取得显著成果。

因此,Mentee Robotics采用了一种新的学习修正策略的方法,该方法能够调整要执行的动作,从而有效最小化“模拟与现实的差距”。给定特定的状态和动作输入,它会输出一个称为“C”的修正项。MenteeBot不再直接采取原始动作,而是将修正项添加到原始动作中,得到一个新的动作。然后,在模拟器中应用这个新动作,并通过一个能最小化模拟与现实差距的奖励函数来学习优化。

一旦MenteeBot学习到这个修正策略,就可以在模拟器中重新训练策略。当MenteeBot应用修正项时,它会确保“模拟与现实的差距”变得更小,使得策略在现实世界中的应用更加有效。


而在现实世界中应用这种新策略时,将不再需要修正项,因为现实世界本身不需要任何补偿。Mentee Robotics的测试证明,通过这种方式训练出的行走策略确实提高了人形机器人的行走效果。

这项工作的具体贡献在于,它提供了一种有效的“从模拟到现实,再回到模拟”的方法论,尤其适用于足部行走机器人的研发。它通过修正动作空间来改进模拟器,这种修正策略像其他策略一样,可以在模拟器中使用强化学习来训练。实际上,我们可以衡量它对人形机器人步态的显著改善效果。

视频中展示的是一个实验场景,Mentee Robotics将现实世界中学到的内容应用在模拟器中,结果机器人几乎立刻就摔倒了,这凸显了模拟与现实之间的差距。


随后,Mentee Robotics尝试使用监督学习来弥合模拟与现实之间的差距,虽然带来了一些改善,但效果并不理想,机器人仍然很快就会摔倒。


然而,当Mentee Robotics应用修正策略并在模拟器中播放现实世界中的数据时,机器人能够持续稳定地行走,因为这个学习到的策略成功地最小化了模拟与现实之间的差距。


观察得到的运动数据,可以发现Mentee Robotics最初的版本一号机器人的步态比以前更加对称和自然。如果仔细观察步态细节,会发现踩踏的方式比不应用修正项时更加自然流畅。


Mentee Robotics有一系列的评估指标可以证明,这种工作方式远远优于不使用修正项或试图通过监督方法来弥合模拟与现实之间差距的做法。无论是运动的流畅性、方向的控制,还是其他方面的性能,都得到了显著提升。

Lior Wolf教授强调指出,机器人是依赖软件运行的,而软件的重要性不亚于AI算法本身。MenteeBot的系统设计精心配备了一个运动控制器,该控制器是一个实时运行的CPU,专门用于执行我们在模拟器中学习到的动作策略,并确保在这个实时CPU上运行着至关重要的安全功能和安全层。除此之外,MenteeBot还特别配备了两个Jetson处理器,其中一个专注于处理核心感知任务,如摄像头信息的处理、机器人位置的状态估计等;而另一个则负责处理其他任务,包括运行大型语言模型、语音处理、神经计算等,以确保系统的全面高效运行。

对于机器人的开发而言,一个完美的数字孪生体至关重要。Mentee Robotics为机器人建立了全面的模型,包括从嵌入式软件到物理层和核心层的所有层次,并与物理模拟器一同实现。这对于拥有一个完美的模型并克服模拟与现实之间的差距至关重要,也对调试工作非常重要。Mentee Robotics所做的每一项更改都需要在实际运行到物理机器人之前进行严格的调试和验证。


Mentee Robotics采用的“导航”策略

尽管导航听起来可能像使用谷歌地图或其他应用程序一样简单,只需知道路径并按照它前进,甚至现实世界中的汽车也能实现自动泊车,但这种看似轻松的任务对于人形机器人来说却是一项远为复杂的挑战。这不仅要求同步腿部动作与位置,还需要确保精确的方位以指引正确的行进方向。

实际上,导航涵盖了三个不同的层次。最高层次类似于谷歌地图的应用,需要明确自身位置与目标地点,这涉及图搜索问题,旨在寻找最佳路径。最低层次则聚焦于控制层面,如前进、后退、侧移、转弯等基本动作的执行。而中间层次,即路径跟随,扮演着桥梁的角色,它需要将目的地转化为机器人可理解的指令,并确保这些指令的合理性,避免突然转向等不切实际的操作。同时,还需要考虑机器人的动量与运动状态,以确保步伐的平稳同步,从而精确抵达目标。


在导航层,Mentee Robotics利用基于NERF的世界地图,该地图融合了静态障碍物信息、动态地图以及立体视觉获取的遮挡数据。通过改良的AI算法,MenteeBot能够规划出从当前位置至目标点的路径。

这条路径随后被作为一系列下一步位置的指令输入到路径跟随策略中,进而转化为机器人可执行的具体指令。路径跟随策略分为两种:一种适用于近距离(1米以内)的精确导航,另一种则适用于更远距离的高效导航。前者虽然方向精确性高,但效率略低;后者则能在保持较高方向精确性的同时显著提升效率。前者在机器人需要紧密跟随移动目标(如演示中的跟随行人)时尤为重要,而后者则适用于快速、大范围的移动。最终阶段的精确导航要求机器人以高度精准的方式抵达目标,同步步伐,规避障碍,实现高效且稳定的导航。

Mentee Robotics采用的“感知”策略

感知是一个复杂且多维度的过程,它涵盖了多个关键组成部分。

首先,是对现实世界进行神经映射,构建出一个语义化的三维模型。在这个模型中,机器人具备搜索能力,并能精确定位自身位置。随着机器人的移动,我们通过视觉或其他传感器的数据追踪,来精确估算其位置,这一过程被称为状态估计。状态估计是导航的重要输入,在机器人试图到达准确位置并规划行走路径及控制策略时,它发挥着至关重要的作用。

此外,感知还涉及图像中的物体识别。当机器人看到图像时,它不仅能识别出图像中的物体,还能将这些信息提升至三维空间中,以便在抓取物体时能够避开障碍物。无论是在行走还是在进行手部操作时,都有一个地形图来指示机器人哪些区域可以进入,哪些区域需要避开。

Mentee Robotics所采用的某些组件,源自对其他基础模型的精炼与提炼。然而,这些组件需要在GPU上以极高的帧率实时运行,同时保持高效性能。为实现这一目标,Mentee Robotics采纳了模型蒸馏技术,即从大型基础模型中提炼出一个更为精简的网络结构,旨在提升运行效率的同时,尽可能减少精度的损失。

在Mentee Robotics的应用中,部分模型融合了多样化的功能。例如,在将二维物体转换为三维物体的过程中,Mentee Robotics巧妙地将三维点云技术与名为NanoSIM的分割模型相结合。对于某些特定物体,Mentee Robotics采用神经辐射场(NeRFs)进行建模,并通过视觉嵌入技术进一步增强其性能,同时在系统的其他环节充分利用这些信息。

此外,Mentee Robotics还研发了一些独具特色的组件,如其用于状态估计的方法。该方法创新地将神经辐射场定位与视觉传感器数据相融合,以满足Mentee Robotics特定的应用需求。


正如之前所说,MenteeBot依赖一个基于立体视觉的地形图来指示行走时需避开的区域。同样,在执行精细操作时,MenteeBot也有一个指定的行走区域,需要明确从哪个位置出发到达目标物体并进行抓取,同时规避各种障碍物。这些地形图提供的信息直接融入了MenteeBot决定行动的各种强化学习策略中。


Mentee Robotics采用神经辐射场(NeRFs)和高斯分布来构建三维世界的模型。NeRF是一个神经网络,给定三维空间中的一个点和一个视角,它能够输出该点的颜色和透明度,为MenteeBot提供了丰富的视觉信息。


Mentee Robotics通过神经辐射场进行映射和定位的方法是这样的:首先从收集到的视频数据中构建一个环境的NeRF模型。


然后,应用一种名为Super的技术来寻找并追踪NeRF模型中我们感兴趣的点。接着,学习如何将摄像头所看到的内容与三维NeRF中的Super点进行精确定位匹配。

这使得MenteeBot能够运行一个称为One Shot的算法,该算法可以将NeRF模型中的Super点与实际图像中的点进行精确匹配。MenteeBot每隔几帧就会运行一次这个算法,同时它也能够持续追踪机器人的位置。通过这种方式,MenteeBot能够将机器人精确地定位在这个三维语义模型的坐标系统中。


模型中的每个点不仅包含了RGB信息,还蕴含了丰富的语义信息。这些信息使得MenteeBot能够进行各种灵活的查询,例如搜索烤箱、冰箱等所有物体,这一切都基于开放词汇搜索。无需预先定义物体列表,只需将信息嵌入到三维模型中,便可以进行各种便捷的查询。


Mentee Robotics的做法与一种称为LOVE的方法有着相似之处。LOVE就像是一个结合了语义特征的NeRF。在原始的LOVE模型中,他们使用了DINO特征进行极化,并使用CLIP特征进行查询。而在MenteeBot的系统中,我们不使用多个尺度,而是通过分割实际物体来嵌入对象信息。


Mentee Robotics采用的是基于OWL version 2模型的嵌入方式,用于模型蒸馏和创建查询。因此,MenteeBot能够在二维图像、三维真实图像和三维世界模型之间以统一的方式嵌入视觉信息,从而在性能上显著超越基准模型。

构建实用人形机器人所需的关键要素

Mentee Robotics已经成功集成了多个组件,创造出能够执行多样化任务的机器人,但仍面临一些尚待完善的挑战。Lior Wolf教授一一列举这些缺失的部分,并就Mentee Robotics计划如何克服这些挑战,以及已经采取的积极步骤进行了阐述。


Mentee Robotics为机器人规划了一套全面的任务地图,称之为功能设计架构。它涵盖了机器人实现实用性所需的所有能力,包括之前探讨过的一些核心组件。想象机器人初入办公室的场景,这便是其“入职”过程。机器人进入新环境,需通过跟随人类来熟悉环境。人类会指向不同的地点或物体,机器人则需记住这些信息以备后用。除了直接请求的任务,还涉及代理行为。何为代理行为?即赋予AI宽泛的任务定义,无需过于具体,AI需自行决策如何完成任务。尽管MenteeBot已具备众多所需能力,但仍有一些关键能力亟待提升。例如,Mentee Robotics需要增强机器人对事件的响应能力;在物体操作方面,如开门、呼叫电梯等,Mentee Robotics也在持续优化。

在人机交互方面,Mentee Robotics的机器人已能检测并跟踪同一人,即使在视角转换时也能保持稳定跟踪。但偶尔会出现跟踪丢失的情况,这时需要重新识别该人在多个人中的身份,这称为重新识别,目前尚未实现。重新识别通过面部识别和识别人的穿着颜色来完成。机器人还需具备靠近人的能力,即前往指定人的位置,这通过Mentee Robotics之前探讨的路径跟随RL策略来实现。当机器人距离人1米时,它会停下,这是一个信号,表明机器人需在此位置停止。“面向我”功能之前已提及,它是指保持人在视野中心,以便人可以向机器人展示新事物。


当机器人跟随人时,它会收集视觉数据,并构建3D模型。目前,这项任务并未在机器人本身的Jetson模块上完成,Mentee Robotics计划将其添加到Jetson模块中,这样机器人就能在休息状态时,在不依赖外部计算的情况下执行此操作。

在指向界面方面,人类可能会指向某个位置并给出相应指令,如“这是主电梯”或“这是我们使用的最大箱子”。在所有情况下,都会有一个指向动作和伴随的人类指令,但这些指令在不同情况下具有不同的语义含义。


这涉及到特定位置的识别,有时也涉及到特定物体的识别。机器人需理解这些情况,并做出区分。这并非难事,可通过大语言模型来实现,模型可帮助区分这些不同的情况。然后是指向界面,机器人需识别人类的姿态,跟踪手指末端,判断人在3D空间中指向的物体。这一功能已实现,它涉及跟踪人的姿态,并将这些信息提升到3D空间中。如果人在指向某个物体,机器人需记住这个物体的外观,这涉及视觉嵌入,目前Mentee Robotics已在系统的多个部分实现了这一功能。另一种学习方式是记住地图中的某个特定位置或概念,这可通过学习上下文信息来完成,然后将这些信息输入到大语言模型的提示中。


Mentee Robotics还探讨了一些代理行为的功能,使机器人能够进行自我反思。目前MenteeBot已具备这一能力,但范围有限。如果机器人在尝试某项任务时失败,它会意识到这一点,并尝试另一种方式。但Mentee Robotics还需增加对事件的触发能力,例如前往某个特定地点并等待某件事发生。这需要增强机器人对未来事件的触发响应能力,这是Mentee Robotics需在系统中添加的功能。

物体操作至关重要,涉及多种类型的操作。例如,按按钮。这需检测按钮,确定所需的方向和力度,并执行这一动作。这需将视觉模型与语言模型结合,以控制强化学习策略,从而实现这一功能。其他操作能力,如开门,由于门把手类型多样,机器人需通过模仿人类的动作来学习。这可通过将像素映射到动作空间并使用模仿学习技术来完成。

在谈谈机器人处理摔倒的能力方面,Mentee Robotics的策略非常健全,机器人能以非常自然的方式行走,不会无故摔倒,它能以稳定的方式站立并执行所需的操作,甚至能负重行走。然而,有时地面上存在一些障碍物,尽管我们看到了这些障碍物并试图绕开它们,但有时不可避免地会踩到障碍物。Mentee Robotics在机器人上运行了一个名为S4的模型,用于检测机器人何时即将摔倒。如果机器人即将摔倒,并且可以通过站稳脚步来纠正,这是最佳方式。如果摔倒不可避免,机器人会尽量让自己变得柔软,以一种对自身和环境都安全的方式摔倒。


安全性是一个重要的考量因素。虽然机器人负责自己的行动,但在对抗性情况下,例如有人试图使机器人摔倒或欺骗机器人,机器人仍需保持高度的安全性。


追加内容

本文作者可以追加内容哦 !