迪士尼研究部和EHT提出RoboM机器人运动扩散模型_财富号

在计算机图形学和机器人学中，自动生成逼真的运动一直是一个重要但充满挑战的任务。传统方法多基于运动捕捉数据和手动编程，这种方式虽然能够生成高质量的运动数据，但耗时费力且难以应对复杂多变的场景。随着生成模型和深度学习技术的兴起，研究人员开始探索利用数据驱动的方法来自动生成运动。

然而，现有的基于运动学（kinematic）的生成方法虽然能够生成视觉上吸引人的运动，但往往无法严格遵守物理约束，导致在实际部署中出现诸如地面穿透、物体交互不合理等问题。为此，研究人员提出将物理仿真与运动生成相结合，以提高生成运动的真实性和可行性。近日由迪士尼研究部和苏黎世联邦理工学院提出的“Robot Motion Diffusion Model（RoboM）”技术方案获得广泛关注。

研究人员将运动学生成模型与基于物理的角色控制相结合。首先训练一个奖励代理来预测下游不可微分控制任务的性能，提供一个高效且可微分的损失函数。然后，该奖励模型用于微调基线生成模型，确保生成的动作不仅多样化，而且在物理上也适用于现实世界场景。研究人员处理的结果是机器人运动扩散模型 (RoboM)，这是一个文本条件运动学扩散模型，可与基于强化学习的跟踪控制器交互。研究人员在具有挑战性的人形机器人上展示了该方法的有效性，证实了它在动态环境中的实际效用和稳健性。

Robot Motion Diffusion Model技术方案的优势

研究人员表示，RoboM是一种结合了文本条件扩散模型和强化学习跟踪控制器的运动生成技术。该技术通过训练一个奖励模型来预测下游控制任务的性能，并利用该奖励模型对基础生成模型进行微调，确保生成的运动不仅多样且物理上可行。

机器人运动扩散模型（RoboM）生成具有物理感知并尊重角色限制的运动

在奖励模型的训练方面，该方法采用了强化学习策略来锤炼一个控制策略，并利用此策略的实际表现作为反馈，进一步训练和优化奖励模型。该模型具备预测能力，能够根据给定的运动输入，精准预估其潜在性能表现，进而为运动生成模型提供了一个可微分的损失函数，促进模型的优化与调整过程。

此外在物理对齐生成模型上，通过奖励模型对生成模型进行微调，使生成的运动在物理上更加可行，同时保持运动的多样性和文本条件的一致性。

奖励模型训练的核心是通过强化学习来训练一个能够控制物理角色的策略。研究人员首先在一个物理仿真环境中初始化一个角色，并随机选择一段运动及其起始帧。策略根据当前状态和参考运动输入计算动作，环境则根据动作更新状态并给出奖励。

训练过程中，通过策略梯度优化（如PPO算法）来更新策略参数，直到策略能够准确跟踪参考运动。随后，利用收集到的轨迹数据训练一个奖励模型，该模型能够预测给定运动输入的预期性能（即累积折扣奖励）。

在生成模型（如文本条件扩散模型MDM）的基础上，利用奖励模型对其进行微调。微调过程中，生成模型首先生成一段运动，然后利用奖励模型评估该运动的预期性能，并根据该性能更新生成模型的参数。通过这种方式，生成模型能够学习到如何生成在物理上更加可行的运动，同时保持对文本描述的敏感性。

RoboM在人形机器人上实验综合性能表现卓越

通过对比基线方法（如纯运动学模型MDM和物理投影方法PhysDiff），研究人员发现RoboM在保持生成运动多样性和对文本描述敏感性的同时，显著提高了运动的物理可行性。例如，在模拟跑步和跳跃等复杂动作时，RoboM生成的运动不仅更加流畅自然，还避免了地面穿透和肢体穿透等物理不合理现象。

RoboM在两阶段过程中利用预训练的模仿策略（Actor）和预训练的运动扩散模型（MDM）

为了进一步验证RoboM的实际效果，研究人员在一个真实的人形机器人上进行实验。他们选择了一系列具有代表性的运动指令，如行走、跑步、拳击等，并让机器人根据RoboM生成的运动轨迹进行执行。实验结果显示，与基线方法相比，RoboM生成的运动轨迹更容易被机器人准确跟踪，且在执行过程中表现出了更高的稳定性和鲁棒性。

真实运动生成

在量化评估方面，研究人员采用了多种评价指标来全面衡量生成运动的质量。其中，Frchet Inception Distance（FID）用于评估生成运动与真实运动数据分布之间的距离；R-Precision则用于衡量生成运动与文本描述之间的一致性；MultiModal Dist和Diversity指标则分别用于评估生成运动的多样性和模式覆盖能力。实验结果表明，RoboM在所有这些指标上都表现出了优异的性能，尤其是在Realism得分上取得了显著提升，这直接反映了其生成运动在物理上的可行性和真实性。

RoboM技术下机器人会避免碰撞

此外，研究人员还探讨了RoboM技术的可扩展性和泛化能力。通过引入更多种类的文本描述和运动指令，研究人员测试了RoboM在不同上下文和场景下的表现。实验结果显示，RoboM能够灵活地适应不同的输入条件，并生成与之匹配的高质量运动。

RoboM技术在三大领域拥有较大应用潜力

在娱乐产业中，RoboM技术可以极大地提升虚拟角色的真实感和互动性。例如，在游戏和动画制作中，开发者可以利用该技术根据剧本描述自动生成高度逼真的角色动作，不仅提高了制作效率，还使得角色行为更加自然流畅，提高了玩家的沉浸感和体验质量。此外，该技术还可用于虚拟试衣、虚拟化妆等领域，通过生成符合用户指令和个性化需求的动作，提供更加精准和个性化的服务体验。

在机器人服务领域，无论是家庭服务机器人、医疗辅助机器人还是工业自动化机器人，都可以通过集成RoboM技术来实现更加智能化的运动控制。机器人可以根据用户指令或环境变化自主生成并执行符合物理规律的动作，如搬运物品、辅助行走、手术操作等，从而提高了机器人的自主性和实用性。此外，该技术还可以与其他传感器和算法相结合，进一步提升机器人在复杂环境中的适应性和鲁棒性。

RoboM技术在教育科研领域有广泛的应用价值，通过该技术，学生可以直观地观察到机器人根据指令生成和执行动作的过程，深入理解机器人运动控制的基本原理和方法。同时，该技术还可以作为科研平台，支持研究者开展更深入的算法研究和模型优化工作，推动机器人学和计算机图形学领域的持续发展。

结语与未来：

RoboM技术是一项创新的运动生成方法，它通过结合文本条件扩散模型和强化学习奖励模型，实现了生成运动在物理上的可行性、多样性和文本条件的一致性。该技术在实际应用落地方面表现出巨大的商业潜力，随着生成模型和强化学习技术的不断发展，RoboM技术有望进一步提升生成运动的质量和效率。未来该技术还能够与深度学习、自然语言处理等技术深度融合，开拓更加泛化性的应用场景。

追加内容

本文作者可以追加内容哦 !

总收益	20日收益	日收益
--	--	--

代码	名称	最新价	涨跌幅
查看更多

最新操作
-	-	-