申港证券计算机行业研究周报:从技术路线谈AI视频的未来发展

本周我们从技术路线来对近期爆火的AI视频进行展望。

自Pika爆火出圈后,越来越多的AI视频软件接踵而至,Pika的测评也出现了明显的口碑分化,市场主流观点认为视频生成领域也迎来了GPT时刻。

从AI视频的技术迭代的路线看,我们认为:

从参与玩家的类型来看,整体是科技大厂居多,并没有出现如文生图模型一样的的现象,背后的原因在于文生视频的门槛较高。

从训练数据层来看,AI视频训练数据集的呈现跨模态的形式,以Runway的视频生成模型Gen-2为例,训练数据包括2.4亿张图片、640万个视频剪辑片段以及数亿个学习示例。

从形式来看,目前大多数模型厂商在文生视频上以闭源路线居多,其原因在于文生视频对算力及模型的工程化能力都很高。

文生视频模型背后其实有两条技术路线:一条是从文本或图像生成中得到广泛的应用,基于Transformer架构的技术路线,而另一条则是基于我们在之前的周报中有所提及的扩散模型,两条技术交替,目前扩散模型占据主流。

Google发布的Transformer架构已经在许多不同领域取得了较大的成功,但实际上包括最近的Pika在内,视频生成的主导范式依然是扩散模型。其原因在于 Transformer中的注意力机制的内存需求会随输入序列长度而二次方增长,在处理视频这样的高维信号时,这样的增长模式会让计算成本成倍增加。

我们认为两种技术路线的融合可能会推动视频生成技术的发展,并对AI行业的争格局产生影响。斯坦福大学AI科学家李飞飞团队与谷歌合作,推出了视频生成模型W.A.L.T,该模型成功地将 Transformer 架构整合到了隐视频扩散模型中,隐扩散模型(LDM)可在源自自动编码器的更低维隐空间中运行,从而降低计算需求。

尽管通用大模型正以飞快的速度发展和迭代,但我们认为在文生视频领域距离GPT时刻的来临仍需一定的时间,预计明年二季度会出现下一个出圈的AI视频应用。

目前AI视频有两个较大的门槛,一是算力的掣肘,视频领域对算力需求更高;另一方面是竞争环境的激烈,当前头部科技巨头基本都已入局,只是产品尚未全面公测。

从W.A.L.T模型的例子来看,我们不能忽视算法的演进对AI视频领域的影响,同时也需注意轻量化的视频制作产品最终面向的是非专业人群,这也意味着能否以差异化优势吸引用户也是成功的关键。

风险提示:投资人应当认真阅读《基金合同》、《招募说明书》等基金法律文件,了解基金的风险收益特征,并根据自身的投资目的、投资期限、投资经验、资产状况等判断基金是否和投资人的风险承受能力相适应。基金的过往业绩并不预示其未来表现,基金管理人管理的其他基金的业绩并不构成基金业绩表现的保证。基金有风险,投资需谨慎。

免责声明:转载内容来自机构研报摘要、公开权威媒体报道,仅供读者参考,版权归原作者所有,内容为作者个人观点,版权归原作者(机构研究员、媒体记者)所有,内容仅代表作者个人观点,与建信基金管理有限公司无关;不作为对上述所涉行业及相关股票、基金的推荐,也不构成投资建议。对本文以及其中全部或者部分内容、文字的真实性、完整性、及时性本公司不作任何保证或承诺,请读者仅作参考。如需购买相关基金产品,请关注投资者适当性管理相关规定,做好风险评测,选择与之相匹配风险等级的产品。本文只提供参考并不构成任何投资及应用建议。如您认为本文对您的知识产权造成了侵害,请立即告知,我们将在第一时间处理。

#计算机八白马入围MSCI##人工智能掀涨停潮 AI又行了?#$建信科技创新混合A(OTCFUND|008962)$$建信创新中国混合(OTCFUND|000308)$$建信创新驱动混合(OTCFUND|011790)$

追加内容

本文作者可以追加内容哦 !