炒股第一步,先开个股票账户

$利亚德(SZ300296)$   

李飞飞ReKep论文解读:大模型直接驱动机器人操作,无需数据集

原创FuturePulseFuturePulse2025年03月18日 10:00上海4人

Why it matters: 该研究提出了一种基于语义关键点时空约束的机器人操作框架——在不需要依赖特定任务数据或环境模型的前提下,实现了多步骤、开放环境下的灵活任务执行。这标志着具身智能在动态环境适应性和任务泛化能力上的重要进展。


境中物体的复杂交互,这些交互通常可以在空间和时间域中被表征为“约束条件”。以“向杯子里倒茶”这一任务为例:机器人必须先抓住手柄,而后进行移动,并在移动过程中保持杯子直立,直到将壶嘴与目标容器对齐,然后以正确的角度倾斜杯子来完成倒茶。


虚拟动点应该努力往这个方向拓展自己的能力边界

2025-03-20 07:49:33 作者更新了以下内容

在具身智能领域,通过端到端的学习训练,构建一个通用机器人基础模型,正逐渐成为一种主流范式,典型代表是 PI 的 0 模型、Figure 的 Helix 模型,国内的具身智能创业公司也在纷纷发布自己的端到端VLA(语言-视觉-动作模型)模型。在这个范式下,首要的命题是,使用什么数据和训练方法来训练这个模型。可以说,数据means everything,最终机器人能做什么、是否真的能在开放的现实世界中成为人类的好帮手,很大程度上取决于模型能够获得和处理怎样的数据输入。


目前用于机器人学习主要有三类数据来源:机器人本体在实际环境中采集的真实数据、虚拟仿真模拟环境中生成的合成数据、互联网数据(例如人类作为本体进行操作行为的视频数据)。每类数据都有其优势和局限性。


真实数据:数据质量高,但难以大规模获取,且欠缺面向开放世界的多样性;


合成数据:可批量生成,但永远无法完全模拟开放的真实世界,且始终面临现实与仿真的偏差问题;


互联网数据:海量,但缺乏精确度。


学术界和产业界围绕如何构建大规模的机器人数据集、以及如何更好地利用不同数据类型用于机器人学习,开展了大量工作,也在不断获得突破。但时至今日,数据依然是具身大模型的核心瓶颈。那么,在上述围绕数据为核心的端到端训练框架以外,是否有其他方法来训练和赋予机器人操作的能力,从而一定程度上缓解机器人训练的数据瓶颈?


ReKep 代表了一种新思路:不依赖任何机器人数据集,直接利用大模型的常识知识和推理能力来指导机器人操作。


机器人的操作涉及与环境中物体的复杂交互,这些交互通常可以在空间和时间域中被表征为“约束条件”。以“向杯子里倒茶”这一任务为例:机器人必须先抓住手柄,而后进行移动,并在移动过程中保持杯子直立,直到将壶嘴与目标容器对齐,然后以正确的角度倾斜杯子来完成倒茶。

2025-03-20 08:00:19 作者更新了以下内容

泛化能力:在“折叠衣物”任务中,测试了 ReKep在8 类不同衣物(不同类型的衣服匹配不同的折叠方法)上的策略生成成功率和执行成功率,体现了其根据物体特性生成多样化操作策略的能力。


如果具身智能大模型有这样的泛化能力,理论上就不需要每个动作都得针对性的训练。像上海的智元机器人那样,同时部署100台机器人在那里训练100个不同的场景,不断的模仿训练,不断的积累数据。


虚拟动点应该往这个方向拓展。你不拓展,很快就会有别的公司在这方面取得突破。


不过这对机器人本身零部件提出更高要求,因为动作算法是和各部位零部件的能力紧密相关的,有时算法可以实现,但零部件的物理能力受限。


所以虚拟动点必须和类似松延动力这类机器人企业紧密合作,有时算法公司提出零部件的改进要求,有时机器人公司提出算法上进行优化。只有这样双方分工协作,互相迭代,共同努力,摸索出最优算法与零部件的组合体。

追加内容

本文作者可以追加内容哦 !