华泰证券传媒动态点评:豆包新发AI视频模型,性能提升显著
字节新发布两款视频AI大模型,性能显著提升
9月24日,字节跳动旗下火山引擎在深圳举办AI创新巡展,发布了豆包两款视频大模型PixelDance V1.4与Seaweed,并同时面向企业市场开启邀测,公司预计在国庆节后上线火山方舟平台。根据火山引擎巡展发布的内容,我们看到豆包视频生成模型的技术创新体现在:1)通过高效的DiT融合计算单元,可更充分地压缩编码视频与文本;2)使用了深度优化的Transformer结构,大幅提升了视频生成的泛化能力。我们认为,豆包新模型的发布意味着国产视频生成模型能力再进一步,同时能够在多个内容相关领域实现商业化,建议关注影视及IP相关受益逻辑,及AI应用投资机会。
问题#1:两款模型能力有何差别,分别用于什么场景?
1)PixelDance V1.4基于DiT结构,主要特点在于“叙事连贯性”,支持复杂的多主体互动和时序性动作,能生成高动态、炫酷运镜的视频,并且具备一致性多镜头生成能力,支持多种风格和比例,可生成10秒的故事短片。我们预计或将更侧重于需要叙事的短剧及微电影等行业的创作;2)Seaweed大模型基于Transformer架构,主要特点在于“高质量视频效果”,能根据用户输入的高清图像分辨率进行适配和保真,Seaweed可生成5秒视频,并延长至20-30秒。我们预计将提升营销、电商等场景制作素材的效率。
问题#2:这次的视频大模型有何不同?
对比Sora及其他国产视频生成大模型,我们认为本次发布的视频生成模型最大的亮点在于:1)攻克多镜头切换的一致性难题,镜头切换时能保持主体、风格、氛围的一致,具备一键生成故事性多镜头短片能力;2)解锁了时序性多拍动作指令与多个主体间的交互能力,能在同一个视频画面中指定不同动作的主体,且主体间动作较为连贯。我们认为,此次发布的新模型实现了较大的技术突破,解决了此前视频生成模型中画面效果类似动态PPT,且人物间交互画面无法实现的痛点,实现了真正的视频生成。
问题#3:豆包大模型生态进程如何?
豆包音乐模型、豆包同声传译模型也在巡展中同时发布,此外豆包通用模型 pro 和文生图模型、语音合成模型等垂类模型也迎来升级。我们看到随着大模型矩阵的持续完善,C端应用也在快速落地,如豆包相关的模型技术已经首先应用到了旗下剪映、即梦AI和醒图工具中。而据火山引擎巡展的数据,截至9月,豆包语言模型的日均tokens使用量超过1.3万亿,多模态方面,日均生成图片5000万张,日均处理语音85万小时,相关数据表明C端落地及渗透速度在持续加速。
问题#4:新视频模型的发布给传媒行业带来哪些机遇?
一方面,我们预计字节视频新模型将应用到内容创作相关领域,包括电商营销、动画教育、城市文旅、微电影和短剧等,提升内容生产效率与质量。可大幅降低制作门槛的同时拥有较高质量。
风险提示:投资人应当认真阅读《基金合同》、《招募说明书》等基金法律文件,了解基金的风险收益特征,并根据自身的投资目的、投资期限、投资经验、资产状况等判断基金是否和投资人的风险承受能力相适应。基金的过往业绩并不预示其未来表现,基金管理人管理的其他基金的业绩并不构成基金业绩表现的保证。基金有风险,投资需谨慎。
免责声明:转载内容来自机构研报摘要、公开权威媒体报道,仅供读者参考,版权归原作者所有,内容为作者个人观点,版权归原作者(机构研究员、媒体记者)所有,内容仅代表作者个人观点,与建信基金管理有限公司无关;不作为对上述所涉行业及相关股票、基金的推荐,也不构成投资建议。对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本公司不作任何保证或承诺,请读者仅作参考。如需购买相关基金产品,请关注投资者适当性管理相关规定,做好风险评测,选择与之相匹配风险等级的产品。本文只提供参考并不构成任何投资及应用建议。如您认为本文对您的知识产权造成了侵害,请立即告知,我们将在第一时间处理。
#游戏传媒大涨,能否布局?#$建信互联网+产业升级股票(OTCFUND|001396)$
本文作者可以追加内容哦 !