快手可灵,只是抖音即梦的下一个目标罢了。
撰文|蓝洞商业 赵卫卫
年初从抖音 CEO 位置上辞职的张楠,应该度过了一个充实的 2024 年。
在中央美术学院设计学院四层阶梯空间里,张楠这位曾经的艺术生坐在 C 位,微笑着与一群大学生合影留念,她是评委之一。这是一场 AI 交互创新大赛的分享交流会,主办方就是张楠如今负责的业务重点:剪映旗下的 AI 产品即梦,这被视作一款可能再造抖音的产品。
几天之后,张楠公开把即梦定义为「想象力世界」的相机,而抖音是一个「真实世界」的相机。
要打造想象力的世界,创新的来源更多是年轻的头脑。抖音的成功离不开年轻的高校学生,他们曾是抖音早期运营团队关注的重点人群,各种经典的挑战类活动,都是靠着这些年轻的创作者们踊跃参与而不断传播开来,但与早年间抖音运营没什么钱、靠打感情牌不同,如今,即梦 AI 交互创新大赛一等奖是 10 万元的奖金。
得奖人赵纯想并不是学生,而是一个年轻的独立开发者,此前凭借一款饮食记录的产品「胃之书」崭露头角。而这次获奖的作品,是一个 AI 视频生成镜头精细控制 UIUX 方案,在展示的 2 分钟 Demo 中,导入一张《天堂电影院》的经典场景图,用户就可以生成一段视频,实现推拉镜头、特写、窗外鲜花盛开等 AI 创作。
而在即梦面世前三个月,快手可灵已经在国内率先上线了视频生成大模型,它们同样没有忽视高校里的年轻人,快手可灵与中国美术学院等高校联合举办了 AI 创作大赛,获得一等奖的三个作品,聚焦生活、广告和自由发挥主题,分别拿到了奖金 36666 元。
Sora 打开了为真实世界建模的 AI 大门,即梦和可灵则顺着抖音和快手走过的路,用更饱和式投入,以大力出奇迹。
更大的竞争就在不远的 2025 年,网传一份对字节跳动 AI 视频生成产品的调研纪要显示,「字节希望在其生态内使用 AI 能力,认为明年各生态将形成竞争闭环。明年五一之前,扣子智能体平台、豆包、抖音和 B 端的能力会形成关联的生态网,文生视频将会有更多的体现和使用场景。」
2025 年,在电商广告、短剧等多个市场,抖音即梦或许将与快手可灵正面交锋。
高开难高走
「高开低走」与「低开高走」,是现在抖音即梦与快手可灵最大的差别。
QuestMobile 最新数据显示,即梦上线当天即在抖音平台引发了高涨的讨论热度,可灵 AI 通过热度的持续积累也在快手站内出现热度峰值。但一个明显的不同是,即梦的内容互动量在一个月高开低走,而可灵的内容互动量在一个月内低开高走。
这是推广策略、用户体验、市场竞争等多种因素共同作用的结果,但一个最直接的原因,可能就是即梦的产品发布较晚,体验不如预期,用户深入使用之后,很容易区分与同类产品在生成内容上的质量和稳定性,即便初始阶段获得了大量预热,目前即梦在热度上仍不及可灵。
这并非意味着即梦的绝对落后,有 AI 产品深度使用的用户认为,当下国产 AI 产品想要用好,就不能单用一个,尤其是在文生视频创作中,用户选择的做法往往是用即梦来做前期的文生图,然后再用可灵来制作图生视频,因为「即梦的 AI 生图比较优秀」。
字节调研纪要同样显示即梦和可灵之间差距很大,即梦日活用户在 20 万-22 万之间,其中 70% 为个人或小型 MCN 工作室,大型企业较少,付费用户 2.5 万人左右,月订阅付费均价在 50 元左右;而同期可灵服务用户超 500 万,累计付费用户超 200 万,付费金额累计约千万级别。
这种调研纪要难辨虚实,因为二级市场爆火的「豆包概念股」,字节跳动官方曾对投资者们做出风险提示,以免遭受不必要的投资损失。
而快手可灵之所以「低开高走」,一方面是视频生成大模型本身的能力更稳定,占据了先发优势,另外一面则是营销策略的成功。「蓝洞商业」在《快手可灵,把压力给到了抖音剪映》中已经提到,当时快手通过海外科技大 V 测试可灵生成的案例,成功营造出其在海外市场火爆的氛围,进而「出口转内销」。
半年过去,目前可灵在海外市场的关注度仍远高于即梦,社交媒体 X 的关注人数是即梦的 67 倍。
就在张楠出现在火山引擎大会上,发布即梦最新消息的当天,快手又升级了可灵大模型,宣称在内部评测中比此前 1.5 模型整体效果提升 195% 。而此前一个月的三季度财报会上,创始人程一笑也提到对可灵的憧憬:可灵 AI 的商业化单月流水超千万人民币,有信心在明年实现收入规模的快速增长。
「高开低走」的即梦希望成为一种新的创造和体验方式,根据调研纪要,明年即梦没有明确的商业回报目标,但要有商业模式,「盈利要往后放」,明年即梦的重点将是与媒体、影视制作合作等产品形态的落地。
快手又将陷入包围战
抖音不是第一个做短视频的,却在 2018 年开始超越快手,后来居上成为短视频赛道的第一。张楠曾总结过崛起的四个关键因素:全屏高清、音乐、特效滤镜、个性化算法推荐技术。
如今,即梦对阵可灵,能否重演抖音对阵快手的故事?
即梦目前只是字节跳动在多模态大模型应用层的一款产品,隶属于抖音旗下的剪映团队,背后支撑服务的是字节跳动云服务的火山引擎。在火山引擎官网的模型广场上,字节跳动提供 20 个大模型产品,遍布文本、语音和视觉多个类型,此外火山方舟还提供月之暗面和智谱 AI 的产品。
AI 可能成为字节跳动下一个核心业务支柱,相比之下,快手磁力引擎的官方网站上,很难找到相关大模型商业应用的展示位。
字节跳动在大模型领域的激进姿态,今年早已经通过 C 端的产品豆包展现出来。今年 9 月,移动数据调研机构 Sensor Tower 曾发布全球 AI 应用报告,其显示了 ChatGPT 是 1-8 月全球下载量最多的 AI 应用,谷歌的 Gemini 排在第四,字节跳动的豆包排名第五,而且是榜单上唯一的中国产品。
这离不开抖音丰沛的流量广告和投放支持,豆包和 Kimi 在今年的广告市场上投放竞争激烈,根据广告情报分析平台 AppGrowing 统计,豆包智能助手 4 月、5 月的投放金额接近 1800 万元,等到 6 月上旬,投放金额飙升至 1.24 亿元,而且在抖音站内限制了 Kimi 在内的大模型广告投放。
「营销预算方面,即梦在 12 月预算开始提升,明年第一季度,尤其是春节前后将提到亿级别的投入。」字节调研纪要提到。而除了营销,字节跳动在芯片底层储备上也不可小觑。英国《金融时报》报道称,字节跳动采购了约 23 万片英伟达芯片,已成为英伟达人工智能芯片的最大中国买家;The Information 也在 9 月份报道称,字节跳动今年订购了超过20 万台 Nvidia H20。
所以基于豆包在国内大模型市场取得的领先地位,未来的看点是,抖音和豆包如何联动即梦,这也意味着,快手一枝独秀的可灵,将陷入字节跳动大模型的包围战。
今年 9 月,对标 OpenAI 的 Sora,字节跳动发布了两款对标文生视频工具 PixelDance 和 Seaweed,即梦 AI 已经接入了豆包,其中支撑即梦的就包括能力更优秀的 PixelDance,官方介绍称,能够生成高质量的长达两分钟的 1080p 分辨率视频,擅长描绘复杂的运动和物体之间的互动。
目前看,不论是抖音还是快手,AI 生成视频最主要的落地场景都是趋同的,除了 C 端用户收费之外,B 端场景一个是服务于短剧等影视制作和后期市场,另外一个则是服务于广告和电商内容营销,比如商品素材展示上生成不同的图片。
在火山引擎大会上,张楠曾展示过两个即梦创作者的 AI 短片,其中一个就是今年 7 月份上线的科幻短剧《觉醒》,当时在抖音单日点赞破 40 万;而同一时期,快手的可灵也打造过一部《山海奇镜之噼波斩浪》,同样都属于试水制作。
但实际上,AI 生成视频对影视制作只是辅助性的,目前阶段仍然是小规模制作,要完成大批量的影视后期制作,即梦和可灵都是顺着 Sora 类似的 Dit 架构(一种结合了 Transformer 架构的扩散模型,用于图像和视频生成任务)在前进,都有很长一段路要走,商业化也尚为时过早。
当谷歌击败 Sora
OpenAI 的 Sora 开放使用之后,一系列生成视频的表现并不符合外界的期待,而谷歌在近期发布的视频生成器 Veo2,通过一系列测试表明,其有超过 Sora 的更惊艳表现。
尤其是一个最著名的切西红柿的镜头,谷歌的 Veo2 刀子干净利落地切开西红柿,避开了手指,而 Sora 视频中的刀子却切开了手,这让 Sora 再次成为群嘲的对象,也让行业人士认为,Sora 更偏向于运动,而 Veo2 则更注重物理的准确性。
有 AI 行业人士认为,谷歌之所以能超越 Sora,不光是发现了 Sora 物理准确性的弱点,更在于其利用 YouTube 来训练其人工智能模型。
字节跳动的技术团队并非没有发现 Sora 在物理准确性上的弱点。11 月,豆包大模型团队曾发布过一篇论文,名为《从世界模型的角度来看,视频生成与之相距多远:基于物理定律的视角》(《How Far is Video Generation from World Model: A Physical Law Perspective》),探究了视频生成模型能否观察事物间的相互关系,并从中提炼出一套稳定的物理规律。
「视觉模糊性会导致在细粒度物理建模方面出现显著的误差,单纯依赖视频表示不足以进行精确的物理建模。」该论文认为,视频生成模型要成为准确的世界模型还面临挑战。
而研究这个方向的两位作者都非常年轻,一位是 95 后,一位是 00 后。如同即梦和可灵,都需要年轻的艺术学院的学生参与打造想象力的世界一样,为这个 AI 想象力世界奠定技术基础的,同样来自年轻的头脑。两位作者耗费 8 个月时间,就是为了找到通往世界模型的一扇大门。
找到瓶颈需要 8 个月,而打破瓶颈可能需要耗费更长的时间。
抖音何时真正即梦?在那份调研纪要中,字节跳动明年的 AI 发展有三条主要路径,一是豆包大家族生态;二是抖音等产品的全面 AI 化;三是包括即梦在内的多模态模型和世界大模型,而且多模态这一条是重点,「无限支持和投入,因为这是转型的重要节点,可以接受较大亏损」。
当谷歌击败 Sora,预示着 OpenAI 创造的模型神话将被打破;而快手可灵,只是抖音即梦的下一个目标罢了。
本文作者可以追加内容哦 !