今天分享的是虚拟人系列深度研究报告:《虚拟人专题报告:虚拟人深度产业分析报告》。
(报告出品方:Q量子位)
报告共计:18页
技术背景
虚拟数字人指存在于非物理世界中,由计算机图形学、图形渲染、动作捕捉、深度学习、语音合成等计算机手段创造及使用,并具有多重人类特征(外貌特征、人类表演能力、人类交互能力等)的综合产物。市面上也多将其称为为虚拟形象、虚拟人、数字人等,代表性的细分应用包括虚拟助手、虚拟客服、虚拟偶像/主播等。
其具体特征可拆分为“虚拟”、“数字”及“人”三个部分。在试用了相关产品后,我们认为,“人”是其中的核心的因素。高度拟人 化为用户带来的亲切感、关怀感与沉浸感是多数消费者的核心使用动力。能否提供足够自然逼真的相处体验,将成为虚拟数字人在各个 场景中取代真人,完成语音交互方式升级的重要标准。
虚拟—存在于非物理世界中,不同场景实现难度不同
目前,虚拟数字人主要以图片、视频、实时直播、实时动画等方式存在于电子屏中,如APP、小程序、软硬一体显示设备。在未来,VR设备 与全息投影也将成为其重要存在方式。 需注意的是,尽管其存在方式均在非物理世界中,由于各场景所需的时延(如直播等实时场景要求低时延,但内容生成场景无该要求)、驱动方式(计算驱动对模型的深度学习能力有极高要求)等不同,对技术、运营等要求差异较大。
数字—依托多项技术存在,相关技术成熟成为其发展重要推动力
虚拟数字人是典型的多技术综合产物。除CG建模+真人驱动的类别外,多模态技术与深度学习成为其核心点。该部分将在技术中详细展开。 多位从业人员认为,虚拟数字人近年的发展来源于CG(Computer Graphics,利用计算机进行视觉设计和生产)、语音识别、图像识别、动 捕等相关技术的共同成熟。
人 — 在外表、行为、交互行为等方面高度拟人化,外在表现和交互效果已成为核心发展路线
外表: 虚拟数字人的面部长相和整体形象。会受到虚拟数字人类别(如直接借用真人形象、高保真建模、风格化)、制作细节(对汗毛、皮肤、头发 等细节的建模)、渲染水平、设计审美等影响。
行为: 虚拟数字人的面部表情、形体表达、语音表述等。会受到驱动方式(真人驱动、计算驱动、预制调节等)、驱动模型类别(精细面部肌肉驱动、 语音合成模型中对语气词、韵律的处理等)、训练数据、驱动模型精度等影响。
交互: 虚拟数字人与现实世界的交互水平,包括回答内容、肢体反应等,会受到语音识别能力、自然语言理解及处理水平、知识图谱、预先设置知识 库等影响。
从技术层面来看,虚拟数字人可以分为真人驱动型和计算驱动型。后者是近年来多模态技术和深度学习发展的技术集大成者。
在真人驱动中,在完成原画建模和关键点绑定后,动捕设备或摄像头将基于真人的动作/表情等驱动虚拟数字人。
由于背后有真人操作,真人驱动型在动作灵活度、互动效果等方面有明显优势,一方面能够在影视内容的创作中减低生产成本,为影视行业降低门槛,推动影视级内容向消费级转化。另一方面则多用于虚拟偶像、重要直播中,帮助虚拟数字人完成大型直播、现场路演等互动性、碎片化活动。
事实上,这种技术思路可以看作是传统影视制作中,CG技术的进一步延续。近年来主要的技术突破在于动作捕捉环节。随着图像识别技术,姿势、表情等识别算法的进步,昂贵的惯性或光学动捕设备不再是驱动的必备工具。普通摄像头结合理想的识别算法通用能实现较为精准的驱动(如iPhone 12摄像头已可支持简单的动作捕捉),显著降低了精细虚拟内容生成的门槛。
真人驱动型技术流程
1.形象设计及建模:基于IP设计或真人偶像绘制原画,进行面部及身体3D建模,选择关键点
2.建模绑定:将识别关键点映射至模型上,进行绑定。关键点绑定的数量及位置影响最终效果。
3.表演捕捉:利用动作捕捉设备或特定摄像头+图像识别,捕捉在形体、表情、眼神、手势等方面的关键点变化。
4.驱动及渲染:真人演员(在虚拟偶像中称为中之人)根据制作需要进行相应表演,实时驱动虚拟数字人表演。在较为精细的制作中,会需要根据真人演员和建模的区别进行重定向,并对动作、眼神、手指等采用不同的驱动方式。需要时需进行语音合成,形成特定设置语音。
5.生成内容,进行互动:进行直播,或录制其动作生成内容。
在计算驱动型中,虚拟数字人的语音表达、面部表情、具体动作将主要通过深度学习模型的运算结果实时或离线驱动,在渲染后实现最终效果。
计算驱动的虚拟数字人最终效果受到语音合成(语音表述在韵律、情感、流畅度等方面是否符合真人发声习惯)NLP技术(与使用者的语言交互是否顺畅、是否能够理解使用者需求)、语音识别(能否准确识别使用者需求)等技术的共同影响。尽管在特定方向上,各感知类技术已有的商业化能力已足以支撑,然而,但要达成理想的综合效果,需要该公司在三个方面同时具有较强的综合能力。这也间接导致国内开展计算驱动型虚拟数字人业务的公司,大多是在感知技术方面有较强的综合实力,相对成熟的AI技术公司。
当判定技术中的核心要素时,我们需要回归到虚拟数字人的核心价值,也即前面所提及的“拟人化”,这需要虚拟数字人在形象或交互上具有技术优势。在技术层面主要体现为以下三点。
报告共计:18页
本文作者可以追加内容哦 !