Sora劲敌!Meta最强沉浸式AI媒体模型来了,300亿参数模型支持Movie Gen视频

点赞 0
评论 0
收藏
摘要:Meta称,Movie Gen是“最先进、沉浸式效果最佳的故事讲述模型套件”,基于授权和公开可用数据训练,以每秒16帧的速度文生视频最长16秒;130亿参数模型支持音频生成;人工评测时,Movie Gen的视频生成能力对Sora净胜率8.2。Meta未明确何时发布,扎克伯格称明年上线Instagram。

本文作者:李丹

来源:硬AI

OpenAI的Sora迎来劲敌,Meta推出号称最先进的媒体基础模型Movie Gen。

Meta称,Movie Gen是公司“针对媒体的突破性生成式AI研究”,它囊括了图像、视频和音频等模态,用户只需输入文本,就可以制作自定义的视频和声音、编辑现有视频,以及将个人图像转换为独特的视频。Movie Gen执行这些任务的表现在人类评估中由于业内类似模型。

Meta介绍,Movie Gen是“最先进、沉浸式效果最佳的故事讲述模型套件”,综合了公司第一波生成式AI媒体研究的Make-A-Scene 系列模型,即可创建图像、音频、视频和 3D 动画的模型,以及随着扩散模型出现而针对Llama Image 基础模型进行的第二波研究模型,即可实现更高质量图像和视频生成以及图像编辑的模型。

文生视频最长16秒 130亿参数音频生成模型 人工评测视频生成对Sora净胜率8.2

Meta概括,Movie Gen 具有四种功能:视频生成、个性化视频生成、精确视频编辑、音频生成。

对于视频生成,Meta介绍,用户只要提供一个文本的提示词,Movie Gen就可以利用针对文本转图像和文本转视频进行了优化的联合模型,创建高清的高质量图像和视频。Movie Gen的视频模型有300亿参数,这个转换模型能以每秒16帧的速度生成最长16秒的视频。

Meta称,发现这些模型可以推理物体的运动、拍摄主体与物体之间的相互作用,以及相机的运动,并且可以学习各种概念了解有哪些合理的运动,因此,它们成为同类中最先进的模型。在介绍该功能时,Meta展示了多个10秒长度的视频短片,包括一只像萌翻网络的弹跳猪“Moo Deng”那样的小河马游来游去。

华尔街见闻注意到,单从生成视频的最大长度看,Movie Gen还不敌今年2月OpenAI发布的Sora。Sora令业界震撼的一点是,可以创建长达60秒的文生视频,。不过,相比Meta去年11月官宣的视频模型Emu Video,Movie Gen确实进步不小。Emu Video只能以每秒16帧的速度生成最长4秒的视频。

除了直接文生视频,Movie Gen还有出色的个性化视频制作能力。Meta介绍,其扩展了前述基础模型,支持生成个性化视频。用户可以提供某个人的图像,配合文本的提示词,让Move Gen生成的视频包含参考图像中的人物,以及符合文本提示的视觉细节。Meta称,在创建保留人类身份和动作的个性化视频方面,其模型取得了最先进的成果。

Meta展示的一个视频显示,用户可以提供一个女孩的照片,输入文字“一名身穿粉色马甲的女DJ播放唱片,她身旁有一只猎豹”,然后就生成了以照片中女孩形象的DJ打碟,以及一只猎豹陪伴。

在精确视频编辑方面,Meta称,Movie Gen采用了同一基础模型的编辑变体模型,在用户输入视频和文本提示词后,精确执行任务,生成所需的输出。它将视频生成与高级图像编辑相结合,执行局部编辑,例如添加、删除或替换元素,以及诸如背景或样式修改的全局更改。与需要专业技能或缺乏生成精确度的传统工具不同,Movie Gen 保留了原始内容,仅针对相关像素编辑。

Meta提供的示例之一是,用户输入,让企鹅穿上有英国女王维多利亚在位时期服饰风格的服装,Movie Gen生成的企鹅穿上了带蕾丝的红色女裙。

对于音频生成,Meta称,训练了一个130亿参数的音频生成模型,该模型可以接受视频和可选的文本提示词,生成长达 45 秒的高质量高保真音频,包括环境音、拟声音效(Foley)和乐器背景音乐,所有这些都与视频内容同步。此外,Meta引入了一种音频扩展技术,可以为任意长度的视频生成连贯的音频,在音频质量、视频到音频对齐和文本到音频对齐方面总体上实现了最先进的性能。

Meta提供的一个例子是,生成在吉他音乐的伴奏下,全地形车(ATV)引擎轰鸣加速的声音,还有一个例子是,管弦乐声中有树叶沙沙作响和树枝折断的声音。

Meta还展示了针对以上四种能力进行的A/B对比测试人工评估结果,下图显示的净正值胜率代表,相比Sora等竞品模型,人类评估者更青睐Movie Gen模型生成的结果。在直接生成视频这个功能方面,Movie Gen相比Sora的净胜率达到8.2。

基于授权和公开可用数据训练 未明确何时发布 扎克伯格称明年上线Instagram

Movie Gen 是基于哪些信息进行训练的?Meta 的声明没有说明具体细节,只是说:“我们基于授权和公开可用的数据集对这些模型进行了训练。”

有评论指出,对生成式 AI 工具而言,训练数据的来源以及从网上抓取哪些数据合理仍然是有争议的问题,而且公众很少知道使用哪些文本、视频或音频片段创建了任何大模型。

还有评论称,Meta说训练用的数据集是“专有/商业敏感”的,未提供细节,那么只能猜测,数据包括很多Instagram 和 Facebook 平台的视频,加上一些Meta合作伙伴的内容,以及其他很多未得到充分保护的内容、也就是所谓的“公开可用”内容。

对于发布时间,Meta本周五并未明确Movie Gen何时面向大众推出,只是含糊地说“可能未来发布”。今年2月OpenAI官宣Sora后迄今还未真正向公众开放使用,也并未透露任何计划将要发布的日期。

不过,Meta CEO扎克伯格称,Movie Gen明年会上线Meta旗下的社交媒体Instagram。他在个人Instagram账号发布了一段Movie Gen生成的视频,显示他在用腿部推举机,随着他开始锻炼,背景发生了变化。先是显示,他在一家霓虹灯照耀的未来风格健身房锻炼,然后变为,他穿着角斗士盔甲锻炼,接着变为他推动一台燃烧的纯金机器,最后变为,他用腿部推举一盒鸡块,周围是一片薯条。

扎克伯格配上文字称,Meta新的 MovieGen AI 模型可以制作和编辑视频,每天都是炼腿的日子。该模型将于明年登陆 Instagram。

在社交媒体X,Meta官宣并演示Movie Gen的帖子下面,一些点赞高的评论显示,网友已经在催促Meta正式发布该模型,有网友问,不知道大家有没有机会来试试它。

本文来自微信公众号“硬AI”,关注更多AI前沿资讯请移步这里

风险提示及免责条款
市场有风险,投资需谨慎。本文不构成个人投资建议,也未考虑到个别用户特殊的投资目标、财务状况或需要。用户应考虑本文中的任何意见、观点或结论是否符合其特定状况。据此投资,责任自负。
追加内容

本文作者可以追加内容哦 !

郑重声明:用户在社区发表的所有信息将由本网站记录保存,仅代表作者个人观点,与本网站立场无关,不对您构成任何投资建议,据此操作风险自担。请勿相信代客理财、免费荐股和炒股培训等宣传内容,远离非法证券活动。请勿添加发言用户的手机号码、公众号、微博、微信及QQ等信息,谨防上当受骗!
    --
    总收益 20日收益 日收益
    -- -- --
    最新操作
    - - -
    历史收益率走势(%)
    Chart
    代码 名称 最新价 涨跌幅
    查看更多
    浪客视频
    -
    郑重声明:东方财富网发布此信息的目的在于传播更多信息,与本站立场无关。东方财富网不保证该信息(包括但不限于文字、视频、音频、数据及图表)全部或者部分内容的准确性、真实性、完整性、有效性、及时性、原创性等。相关信息并未经过本网站证实,不对您构成任何投资建议,据此操作,风险自担。
    信息网络传播视听节目许可证:0908328号 经营证券期货业务许可证编号:913101046312860336 违法和不良信息举报:021-61278686 举报邮箱:jubao@eastmoney.com
    沪ICP证:沪B2-20070217 网站备案号:沪ICP备05006054号-11 沪公网安备 31010402000120号 版权所有:东方财富网 意见与建议:4000300059/952500