$商汤-W(HK|00020)$  $商汤-W(00020)$ Story-to-Motion:根据文本故事内容生成连续的角色的动画

GitHubStore GitHubStore 2023-11-27 06:57 发表于湖南

项目简介

该项目商汤科技研究院开发,能够处理复杂的文本描述,并将这些描述转换成具体的动作和位置信息。

它不仅能生成单一动作,还能连续地生成一系列动作,创造出连贯的动画效果。

Story-to-Motion一个关键特点是它能够生成无限长的角色动画。

这意味着,理论上,只要提供的文本故事足够长且内容连续,这个系统就能不断地根据文本内容生成相应的角色动作和行为,从而创造出持续不断的动画序列。

主要原理:

1、文本解析与动作调度:首先,系统使用大型语言模型来解析输入的长文本故事。这个过程涉及从文本中提取关键信息,如角色的动作、位置和情境。这些信息被转换成一系列的(文本,位置)对,用于后续的动作生成。

2、文本驱动的动作检索:系统接着根据提取的信息检索合适的动作。这一步骤结合了动作匹配技术、动作语义理解和轨迹约束,以确保生成的动作不仅与文本内容相符,而且在空间上也是合理的。

3、动作合成与过渡处理:系统设计了一个特殊的渐进式掩码变换器,用于处理动作之间的过渡。这个变换器解决了动作合成中常见的问题,如不自然的姿势和脚部滑动,确保动作的自然流畅。

4、无限动画生成:由于系统能够连续处理文本中的动作描述,它可以生成无限长的动画序列。这意味着只要文本故事持续,动画也会相应地持续生成。

论文摘要

从故事中生成自然的人体动作有可能改变动画、游戏和电影行业的格局。当角色需要移动到不同的位置并根据长文本描述执行特定的动作时,就会出现一项新的、具有挑战性的任务,即故事到动作。该任务需要低级控制(轨迹)和高级控制(运动语义)的融合。先前在字符控制和文本到运动方面的工作已经解决了相关方面的问题,但全面的解决方案仍然难以捉摸:字符控制方法不处理文本描述,而文本到运动方法缺乏位置约束并且经常产生不稳定的运动。鉴于这些限制,我们提出了一种新颖的系统,可以生成与输入文本对齐的可控、无限长的运动和轨迹。

1)我们利用当代大型语言模型作为文本驱动的运动调度程序,从长文本中提取一系列(文本,位置)对。

2)我们开发了一种文本驱动的运动检索方案,该方案将经典运动匹配与运动语义和轨迹约束相结合。

3)我们设计了一个渐进式掩模转换器,可以解决过渡运动中的常见伪影,例如不自然的姿势和脚部滑动。

除了作为第一个故事到动作综合解决方案的先驱作用之外,我们的系统还对三个不同的子任务进行了评估:轨迹跟踪、时间动作合成和动作混合,其性能优于以前的最先进技术( SOTA)全面的运动合成方法。

追加内容

本文作者可以追加内容哦 !