今天,我们在2024年度中国游戏产业年会上发布“千影 QianYing”有声游戏生成大模型,包含游戏视频生成大模型YingGame、视频配音大模型YingSound。
下面,让我们介绍“千影 QianYing”成员。
YingGame
首次实现游戏角色多样动作与个性化、强物理模拟特性
YingGame是一个面向开放世界游戏的视频生成大模型,由巨人网络AI Lab与清华大学SATLab联合研发,首次实现角色多样动作的交互控制,可自定义游戏角色,同时具备更好的游戏物理仿真特性。结合自研视频配音大模型YingSound,能够根据画面生成与之匹配的复杂音效,实现有声游戏视频生成。
我们通过一系列的技术层面创新,融合跨模态特征、细粒度角色表征、运动增强与多阶段训练策略,以及构建了高效、高质量的游戏视频训练数据生产管线,使得生成的游戏内容具备可交互能力,能够理解用户的输入交互(如鼠标、键盘按键等),控制角色的多种动作,自定义角色外观与精细的主体控制,实现复杂运动与动作连续性等特性。
YingSound
能"看懂"画面,为无声视频添加逼真音效
YingSound是由巨人网络AI Lab、西北工业大学ASLP Lab和浙江大学联合研发的视频配音大模型(Video-to-Audio Model,V2A),拥有超强的时间对齐、视频语义理解能力,端到端为各类视频生成多种类型的高精细度音效,涵盖真实场景视频、动漫视频与游戏视频等,具备多样化应用场景泛化能力。
YingSound支持从视频或视频文本结合的方式生成高保真音效,我们设计了多个创新的技术架构并结合强化学习,有效提升少样本场景下的生成质量,实现精确的跨模态对齐效果。在生成效果、时间对齐及视频语义理解等主客观测评上,YingSound均达到业界领先水平。
今年以来,大模型技术在视频领域取得了突破性进展。对于游戏行业,未来视频生成能力能够替代传统游戏生产方式,将会极大提高游戏发行内容的创作效率;长期来看,其涌现出对3D模型的理解以及强大的物理世界仿真能力和泛化能力,将对游戏生产管线、交互方式、游戏玩法产生深远影响。
随着“千影 QianYing”有声游戏生成大模型发布,巨人网络实现了自研语义大模型、语音大模型及视频大模型的多模态全矩阵布局,加速布局“游戏+AI”从降本增效向颠覆式创新快速转化。我们基于视频生成技术,展示了通过文字描述实现游戏创造的一种可行性。可以预见的是,我们即将进入一个游戏创作平权的时代,未来游戏创作的唯一限制只会是创作者们的想象力。
巨人网络AI实验室将持续探索这个方向,推进模型能力的升级迭代。同时,公司基于大模型底座技术启动“千影共创计划”,对外开放模型技术、模型应用、原创游戏项目等方面的合作共创、应用落地、人才招募。
今年初,巨人网络董事长史玉柱提出,公司在探索打造一个AI游戏孵化平台,旨在降低游戏开发的门槛,让没有编程、开发背景的游戏爱好者实现自己的创意,让普通人也能开发游戏。
今天,我们距离这个愿景,又近了一步。
本文作者可以追加内容哦 !