聚焦。
我与Demi(郭文景)认识小十年,深度接触有三次:第一次在北京主持开复老师的会议,她是创新工场实习生;第二次在波士顿主持哈佛中国论坛,她是主办者和邀请人;第三次在硅谷参与GTC,她是Pika创始人。
今年3月见到她时,B轮融资还在进行中。Demi的时间线一直很快,这在她创业一年经历中可见一斑:
2023年11月底,Pika 1.0带着一段马斯克穿着太空服飞上天的视频demo大火出圈,那时团队仅有四人,公司成立不到半年时间就完成3轮融资,共计5500万美元,估值升至2.5亿美元;
2024年2月,Sora将AI视频推向今年AI第一个舆论高点,这让Demi很兴奋,她对我说“之前我们和Runway竞争,现在是和OpenAI竞争,不是更加exciting?”;
2024年6月5日,Pika宣布已完成总额8000万美元的B轮融资,本轮由Spark Capital领投,Greycroft、Lightspeed Venture Partners以及Jared Leto参投,公司估值超过4.7亿美元,比上一轮翻了一倍。
最初,国内流量偏爱的是Demi的背景,“95后”“Pika Lab创始人”“A股上市公司实控人之女”“女儿概念股”“哈佛天才少女”。
“我当然不是很喜欢被这样关注,但这些不会影响到我的正常生活。对我来讲,把事情做成最重要。”Demi告诉我,“如果今天我做的是一家研究机构,我会非常固执地选择一个研究方向;但我做的是一家公司,我们一定是很开放的,什么能达到下一个milestone,我就做什么。”
Demi告诉我,某种程度上,她对视频的热爱远大于AI本身。她想做的,就是用AI颠覆整个视频行业,打造一家伟大的公司。
今年3月,在硅谷Pika的办公室里,和Demi聊了聊这背后更多的故事。
1.近况:“我们每天都在跟OpenAI和Elon Musk抢人”
甲小姐:你们的融资过程顺利吗?
郭文景:还挺顺利的,我们和投资谈融资都不是非常正式的场合,可能会随便喝杯咖啡。
甲小姐:你喜欢什么样的投资人?
郭文景:三观、认知比较match的。
甲小姐:你们的投资人都是美国人,中国人的标签会让他们对你有特殊看法吗?
郭文景:没感觉有。我们公司三个创始人是中国人,其他员工还是美国人居多。
甲小姐:没想过搭建一个更多样化的创始团队?
郭文景:做成这件事最重要,没想diversity(多样性)。
甲小姐:如果有大公司想收购Pika,你会同意吗?
郭文景:我们短期内不会考虑被收购。
甲小姐:Sora发布时你感受如何?
郭文景:整体还是超出预期。之前大家知道OpenAI在做这件事,但不知道他们做到了什么程度。Sora对AI视频行业的影响肯定挺大的,我们很相信AI颠覆视频行业这件事,但很多人之前都没有真正believe in。
甲小姐:你如何对比Pika和Sora?
郭文景:Sora的效果确实比较好,但有一个致命的问题是它的推理特别贵,不能被真正使用。我们的模型可能效果差一点,但能被使用,会努力在一定时间内赶超Sora。
甲小姐:很多人认为Sora会让AI视频赛道重新洗牌,对创业公司形成降维打击,你怎么看?
郭文景:所有事都有消极和积极的两面,每次挑战背后都是一次机遇。
Sora出现后,一方面会让做技术的人看到AI生成视频模型可以scale up,之前很多创业公司不敢大幅度砸机器,因为我们不确定scaling law在视频领域是否可行。Diffusion是一个非常小的领域,真正有经验的人挺少的,但我们作为为数不多的有经验的创业公司,追赶Sora在技术上没有那么难,Sora会给我们在技术上有一定指导。
另一方面,做产品的人会看到新的产品机会。我们做产品,Sora完全是模型,用户都是两拨人——AGI和AI视频是完全不同的两个赛道,本身就没有直接竞争。
OpenAI如果真的要做AGI,它不会这么vertical on(垂直在)一个产品。再退一步,即使是LLM,除了Google、Meta还有Anthropic、Mistral,也不是只有一家,但现在视频只有OpenAI一家。之前我们和Runway竞争,现在是和OpenAI竞争,不是更加exciting?
甲小姐:在AI视频领域你们有一定先发优势,Sora出现后,这个赛道会更拥挤吗?先发优势会被稀释掉吗?
郭文景:我觉得现在没有很拥挤,至少在美国,这个市场很大,但没有什么创业公司。
甲小姐:为什么会没有什么创业公司?
郭文景:现在最有名的就是Runway、我们和Videogram,Midjourney现在只做图片,其他还有很多很小的公司,不是特别大的competitor。
Sora出现后,对AI视频领域的公司也进行了一波清理,有些公司可能会往前走一步,有些会往后退一步,但可能很难出现新的公司。对我们来说会更加有利,我们算是行业里稍微有点名气的公司,反而变成一种优势,会获得更多资源,现在可能是个招人的好时期。
甲小姐:你们团队现在有多少人?招人难吗?
郭文景:去年底是4个人,现在15个左右。招人倒是不难,我们主要考虑招什么样的人,我们希望团队有更多新的资源进来,但不太希望团队拓展得太快,如果招一个不好的人有时也挺麻烦。
甲小姐:如果你看中的一位技术大牛说他想加入OpenAI,你会怎么说服他?
郭文景:我们每天都在跟OpenAI和Elon Musk抢人。每个人在乎的东西不一样,很多技术大牛往往都希望自己成为核心人物,而我们想做下一个Sora,甚至超过Sora,可以让大佬充分发挥。
2.目标:“我不追求AGI,我们想做一家伟大的公司”如果视频模型能生成我们的对话,是不是意味着它理解了语言?
甲小姐:AI视频已经成为一场明牌游戏,你创业时预想过这一切吗?
郭文景:最开始肯定不会想这么多,只是很热爱这件事。我们希望用AI颠覆整个视频行业,这是我们的初心。
我们公司超过50%的人都是做产品的,超过1/3的人是做创意的。同时,我们也想做最强的视频生成模型。我们认为产品和技术要融为一体,既需要模型来支撑产品,也需要产品来inspire模型,最终还是要把模型变成产品才有意义。
甲小姐:和AI视频相比,你想过拓展边界,去追求AGI吗?
郭文景:不会,focus(聚焦)还是挺重要。虽然我们同时做产品和模型,但我们主要的资源都focus on视频。
甲小姐:保持专注难吗?
郭文景:不难,因为我们很热爱这件事情。
甲小姐:感觉你对视频的热爱超过对AI本身?
郭文景:我真的想把“AI颠覆视频行业”这件事做成。未来我们可能会在各个领域开放合作,比如做教育领域视频相关的业务,但整体专注于视频。
甲小姐:你会看其他人关于AGI的辩论吗?比如OpenAI说Sora可能是通往世界模拟器的有效路径,但Yann LeCun认为Sora不是世界模型。
郭文景:我认为世界模型只是一个概念,像AGI一样,你不知道它到底是什么。而视频模型是一个技术概念,视频是一种模态。视频模型也可能是世界模型。如果视频模型越来越好,能生成1个小时甚至更长时间的视频,就相当于它能预测、模拟世界。
甲小姐:王小川认为语言才是通往AGI的主轴,视频是一场集体跑偏。你怎么看?
郭文景:视频肯定是通往AGI很重要的一部分,甚至有可能跟语言一样重要。视频模型不断发展肯定会有一些语音或Audio的成分,如果视频模型能生成我们的对话,是不是意味着它理解了语言?
很多人都会对AGI有自己的理解,想象也更宏伟,但我认为没必要这么早下结论。我们公司的创始团队都很有ambition(野心),但我们的策略是一步一步走。每一步都很清晰,也更加achievel(可实现),最终抵达宏伟的目标。
甲小姐:你的野心是什么?
郭文景:我们想做一家伟大的公司,比如Apple。
3.技术:“达到60s不是难事”
不需要定义技术路线,而且我也不需要强调我们有多少technology thesis(技术论文)。AI要做consumer level interface(消费级借口), professional output(专业级输出)。
甲小姐:现在Pika生成一个3秒的视频成本是多少?
郭文景:不太能透露,但远远低于Sora。现在如果刨除GPU成本,我们公司整体收入是profitable(有盈利)的。当然,训练大模型动不动就是几千万、上亿美元的投入,如果加上模型训练的成本就没法算了。
甲小姐:你们的产品从1月开始付费,现在付费率有多高?
郭文景:这个不方便透露。
甲小姐:你们下一代模型什么时候出来?
郭文景:今年,会在1.0的基础上有很大迭代。
甲小姐:AI视频领域,技术路线会收敛到DiT(Diffusion with Transformer)上吗?
郭文景:我们持比较开放的态度。如果今天我做的是一家研究机构,那我会非常固执地选择一个研究方向;但我做的是一家公司,我们一定是很开放的,什么能达到下一个milestone(里程碑),我就做什么。
甲小姐:现在AI视频领域有明确的技术路径划分吗?
郭文景:可能有一些,我个人认为这是非常research的question,实际上现在这些视频模型并没有差非常大。
甲小姐:你不会定义Pika一定要走哪种技术路线?
郭文景:不需要定义,而且我也不需要强调我们有多少technology thesis(技术论文)。短期内肯定会有我们自己的technology thesis,但长期来看我们还是比较open。
甲小姐:你是scaling law的拥趸吗?
郭文景:虽然我之前一直在做技术,也读了PhD,但我并不会特别执着于这些research的方法。
甲小姐:Sora发布之后,你有哪些战略调整?
郭文景:唯一做调整的是资源分配,原来更focus产品,research team可能还要需要做点产品,但我们现在愿意给research team更多资源,让他们更加专注这件事情。
甲小姐:视频的数据标注对艺术审美有很高要求,在数据标注这件事上,艺术家在指导工程师吗?
郭文景:我们在非洲一些发展中国家有个人外包的数据标注团队。我们有一个专门的团队负责把关艺术审美。数据标注有很多种,不全跟艺术有关,艺术只是把关这个视频好不好看,同时也会有一些合成数据。
甲小姐:Sora承认他们用了很多合成数据,同时OpenAI也正在经历一系列版权纷争,你们会遇到相似的问题吗?
郭文景:这是所有公司都要面对的一个问题,我们一定非常serious(严肃),但现在还好,没有遇到这些问题。
甲小姐:算力是挑战吗?
郭文景:我们几乎认识所有美国运营商,很多都是创业前认识的,所以还是能拿到卡。卡的问题虽然不算容易,但还可以解决。
甲小姐:Sora发布后,你们的视频可以加声音了,这件事从技术上难吗?你们内部如何决策产品的下一个功能做什么,不做什么?
郭文景:有一些技术难点。我们的大方向是面向creators(创作者)做出一个更加controllable(可控的)的video making creator(视频创作器)。这个方向下,我们会设置长期feature(特征)和短期feature。
甲小姐:Sora团队似乎很擅长做一些抓人眼球的demo。
郭文景:他们有一个专门做demo的团队,里面有些艺术家。
甲小姐:Pika 1.0版本跟马斯克坐火箭的demo创意是你想的吗?
郭文景:是的。我招了一个做视频的人,我们两个人一起做。我们公司的确比较在乎审美,至少我个人对产品和市场还是挺感兴趣,长期还是会focus on这件事。我认为marketing是种taste,有点像艺术品一样,我们最初做demo video的时候没太想过用户需求,更多是先过我们自己这关。当然,也需要在我们的taste和用户需求间做些平衡,其实很难说,这是一个玄学。
甲小姐:你们的视频时长有最新突破吗?
郭文景:内部有突破,达到60s不是难事。
甲小姐:你们未来会to C还是to B?
郭文景:我们希望更to C,但可能也会尝试做API。尤其像我们这样的工具,之前有professional consumer(专业消费者)的区别,但AI要做consumer level interface(消费级接口), professional output(专业级输出),打通这件事情。
甲小姐:你们想代替Adobe After Effects(AE)吗?
郭文景:肯定不是,我们想做更基于AI底层的东西。
4.壁垒:“自信不来自一定要打造一个多么牢固的护城河,我们会用行动说话”如果有10万个对视频很狂热的用户愿意给我们每月付100美元,我们就有1亿美元收入了。
甲小姐:你的目标是尽快盈利?
郭文景:我们要做产品,每天都想盈利,现在之所以要搞更大模型,是因为盈利唯一的壁垒是技术。
甲小姐:你坚信能盈利的原因是什么?
郭文景:通过C端盈利在国内是挺难,但美国可以做,当然后面也可能有变化,因为我现在发现很多人对API很感兴趣,尤其是一些美国大公司。但我认为to C在美国还是有机会,Midjourney已经把订阅价格抬得挺高,如果有10万个对视频很狂热的用户愿意给我们每月付100美元,我们就有1亿美元收入了。但国内订阅价格不可能这么高,而且国内太卷了,价格都压得非常低。
甲小姐:你们的用户增长有下降的趋势吗?
郭文景:后面下降了,但这个很难预测。
我认为AI时代给视频行业带来最大的不同是,之前公司完全拼产品和市场,但现在要拼技术。其实现在最大的瓶颈是技术,也就是输入文字后模型的生成水平不够好。只要技术能做好,产品和市场的问题都能通过不断迭代去解决,我们长期还有其他plan(计划)。
我相信“视频制作”这个需求是存在的,这件事真的很难,是true problem(真正的问题)。把这个问题解决了,用户甚至可以用我们的产品去做广告,做什么都可以。
甲小姐:投资人会问你AI生成视频的市场规模到底有多大吗?
郭文景:肯定会问,我会画一个愿景(笑)。
所谓AI native(AI原生)的视频生产,包括视频平台和视频制作,哪怕产品设计、用户交互都需要AI技术支撑的,纯产品公司可能做不了,因为你的技术无法实现产品设计,而纯技术公司也很难做好产品。但我们不仅有模型,还有产品,哪怕没有产品,只有最好的视频生成模型,你都会成为一家非常valuable(有价值)的公司。
甲小姐:当视频制作这个true problem解决后,AI native时代的Tiktok可能长什么样?
郭文景:都有可能,拥抱不确定性。不管它怎么样,“视频制作”这一步都必须先做好。
甲小姐:你的护城河是什么?
郭文景:我们希望我们永远是甲方——没有任何护城河,但我们每天要非常adaptive(有适应能力),把握新的机会,更好地执行新的策略。很多时候自信并不来自于一定要打造一个多么牢固的护城河,把事情做成最重要,我们会用行动说话。
甲小姐:你认为AI视频的终局,各家比拼的是什么?
郭文景:创业公司到最后比的都是执行力和心态吧,不知道,我随便说说,我真的不算是一个有经验的创业者。至少对我们来说,心态和策略层面的执行力很重要。因为创业期间任何情况都可能发生,我不可能预测未来,但可以做的是对一切变动都能快速响应,公司的竞争优势可能会随着时间变动。
甲小姐:现在和Pika刚发布时相比,你的工作状态有什么区别?
郭文景:去年12月底基本所有事都是我自己干,现在我们已经有一个团队,我主要跟别人写RPC(远程过程调用)。
甲小姐:你最enjoy哪一部分?
郭文景:不同阶段需要做不同的事,最初几个月不只做模型,还学习做engineering,甚至还学习怎么做community,我们在Discord上最早的100个用户是我直接手动DM(私信)的,包括后来运营这些社交账号、做marketing video、UI设计、PR等等。
我希望团队能自己运转起来,但我每阶段都会focus on公司当下最重要的事。比如最近我想在人才、数据、资本各方面资源获取上加把劲。
甲小姐:你现在social(社交)多吗?
郭文景:创业以后心态会不一样,不会为了social而social。我整个人都会围绕公司,可能更多时候,我见一个人不只是崇拜这个人,可能更多是希望达成一些partnership(合作关系)。
甲小姐:如果没法达成合作关系,Elon Musk也不见吗?
郭文景 :我会考虑一下这个见面对公司会有什么影响。
甲小姐:你每天的作息是什么样?
郭文景:正常12点左右睡,早上8点起。
甲小姐:听起来你的工作强度不大?
郭文景:我们刚开始创业的时候强度很大,当时我就发现体力和心态很重要,很多创业者心态并没有很好,我还是比较积极的,一定要保证规律的作息和生活方式,才能让你内心非常平静,你会更强大。
甲小姐:你对自己目前的生活状态满意吗?
郭文景:我挺喜欢硅谷的,特别是我在南湾。创业之后我的生活非常简单,每天工作结束就回家,我希望自己生活的key比较简单,比较千篇一律。
甲小姐:这不太像是一个20多岁女生的生活状态。
郭文景:可能工作太有意思了,创业已经很不千篇一律了(笑)。
甲小姐:前段时间媒体扒了很多关于你家庭背景的信息,你介意吗?
郭文景:我们在国内真的零PR。我当然不是很喜欢被这样关注,但这些也不会影响到我的正常生活。其实我高三的时候经历过一次这样的讨论,所以不太会被影响。对我来讲,把事情做成最重要。
甲小姐:你的父亲是企业家,他会给你提些建议吗?
郭文景:比较少。我父母不是很同意我创业,我自己创了、融完钱才跟他们讲的。但常跟他们交流也是很紧密的,只是工作上我会更独立。
甲小姐:创业可能意味着你今后会长期定居硅谷,他们会希望你回国吗?
郭文景:父母总是很支持孩子的,创业肯定很难,但选择了创业就选择了这些难题。
甲小姐:之前有媒体报道你们创业初期看到技术飞速发展,所以急着创业,现在还和当初一样急吗?
郭文景:我们有些时候还是会比较急,但心态上一直都比较平静。创业一定要保持平静的心态,但是也要把握机会。
| 甲小姐对话系列回顾 |甲小姐对话特伦斯:进化比你聪明
甲小姐对话田渊栋:Scaling law代表一个非常悲观的未来
甲小姐对话火山引擎总裁谭待:大模型后发也可以制胜
甲小姐对话傅盛:搞AI真的不能再这么烧钱了
甲小姐对话周鸿祎:不发展AI才是最大的不安全
甲小姐对话王小川:我们已经进入通用人工智能时代
甲小姐对话黄铁军:作为个体的永生没有意义
本文作者可以追加内容哦 !