从商汤用AI复原汤晓鸥教授的演讲,到随处可见的各类数字人主播,“数字脸”正充斥在如今几乎每一块终端屏幕。
但数字人的发展前景,却始终不太明朗。在应用端,去年5月,抖音率先发布《关于人工智能生成内容的平台规范暨行业倡议》,并下架一批数字人作品;在产品端,不仅大厂与创业公司竞争激烈,包括3D虚拟人在内的新解决方案,也正对数字人产生冲击。
“早在半年前,我们针对数字人进行充分评估时便认为,这只是一个过渡方案。目前看来,2D数字人也即将成为过去式,部分数字人产品的销售已近‘白菜价’,开始触及增长的天花板。”
近日,「明亮公司」前往魔珐科技,与创始人兼CEO柴金祥教授就3D虚拟人的技术路径、产品应用以及数字人的前景等问题进行深度交流。他认为,AIGC的终极是三维虚拟人,而3D虚拟人本身就是一个单独的赛道,“今天大家看到大模型的AIGC是文生文,文生图片,但人的能力远远不只这些”。
早在去年8月,魔珐科技曾发布过三款超写实3D虚拟人产品——虚拟人直播AIGC平台“魔珐有光、虚拟人视频AIGC平台“魔珐有言”和虚拟人服务AIGC平台“魔珐有灵”,分别满足企业视频化沟通、直播带货及1对1专业服务的高效转化需求。
据悉,“有言”致力于在视频化时代,通过多模态的方式为企业高效传递信息,高质量、高效率、低门槛、低成本地赋能企业的生成各类视频内容,包括品牌宣传,市场营销,产品介绍,培训和招聘等;“有光”则支持AI驱动和语音实时驱动的3D超写实虚拟人直播,能够为品牌/达人/MCN代播机构提供低门槛、低成本、高质量、规模化的虚拟电商直播服务。
基于“打造虚拟世界基础设施”这一愿景,以及5年的3D虚拟人多模态高质量训练数据累积,魔珐科技还打造了全球首个端对端的超写实3D虚拟人工业化产线。该产线包括三维形象产线、三维动画产线、声音产线和垂类专业能力产线。
而今,魔珐的产品已广泛应用于包括汽车、金融、文旅、美妆、快消、传媒等在内的诸多行业,通过AIGC实现自身降本的同时,也为客户实现了使用成本的大幅降低。
“几乎所有企业都面临着视频生成和直播的巨大产缺口。未来,大家会在市场看到更多3D虚拟人的使用案例,我们相信3D虚拟人+AIGC的组合是未来市场的刚需。”柴金祥表示。
以下为明亮公司与柴金祥的对话(有删节)
Q:明亮公司
A:柴金祥教授 魔珐科技创始人兼CEO
找到与市场契合并具备规模化前景的产品
Q:目前我们的产品在应用场景的覆盖上大致情况怎样?
A:如今,包括汽车、金融、快消、传媒、文旅、美妆等在内的行业以及部分政府机构,均在使用有言的产品。
比如,上海徐汇组织部、红梅派出所,北京市场监督局等,通过使用有言制作相关宣传视频,解决了政府机构无法做视频的痛点。在金融领域,东吾证券、中金财富、申万宏源都是我们的客户,东吴还定制了自己的虚拟人。
另外文旅行业中,南京文旅集团、白云机场也已开始采用我们的产品;传媒领域,中国军号、央视网、苏州卫视、苏州广电均与我们有合作。中国军号定制了虚拟人穆兰,官网上也有我们很多应用场景。
Q:假如未来场景和剪辑都会AIGC化,公司对自身产品在企业服务领域的前景有何预测?
A:目前我们仍旧以人为核心进行信息传播,未来将陆续实现场景的AIGC化,即数字孪生,包括种草视频、产品介绍视频等。比如海尔的冰箱和洗衣机拥有400多个SKU,他们也希望通过物品的3D AIGC化实现全场景、人、物品的3D呈现,未来用户戴上VR眼镜便能沉浸式体验其产品。但其中会有个过程,我们也在不断精进技术并与客户深度共创。
Q:在应用端,客户使用我们的产品后在多大程度上实现了降本增效?
A:我们的产品正式上线之前,曾有个测试版本。我们在服务过程中发现,用户在实际使用场景中呈现出这样几个特点。
一是企业使用‘有言’后,一定会定制一个虚拟人。原因很简单,视频是企业连接内外部的方式,而虚拟人几乎等同于企业的logo。通过采用虚拟人承载品牌形象,企业等于实现了一次logo升级。
第二,一旦采用我们的产品后,企业本身会主动去思考如何将视频应用到更广泛的场景中。比如自然堂,一开始他们想到的是把所有线下美妆护肤产品上加一个二维码,用户扫码之后立刻可以观看讲解视频,后来又增加了视频号投流,还进一步应用到年会上。不仅如此,每个月的业绩表彰会中,董事长演讲部分如今也用有言生成。
在部分企业中,有言已经在担任‘数字中台’的角色。比如海尔的一个项目购买了100个有言账号,每天可以生成20个视频,且每一个账号可以四个人轮流用,大大提升了内部生产效率。此外,很多企业也在用我们的视频产品进行各类培训。使用有言后,苏州广电如今每天可以推送3条视频,未来计划逐步增加体量。
未来,应用场景一定会更加多元,使用频次也会更高,因为视频是比图文更高效的表达方式。我们希望将有言在企业中的角色‘中台化’,从而赋能各个部门,全方位提高生产力。
Q:目前的盈利状况如何?再延展开来,你觉得虚拟人行业企业盈利大约还需要多久?
A:对于所有科技企业而言,最重要的还是PMF(Product Market Fit),即产品市场匹配度。科技行业壁垒相对较高,也具备更强的爆发力,但不幸的是,过去10年间,AI公司即便能够上市大多数也在亏损,Open AI的营收更是如此。其中根本原因是没有出现一款爆发型的产品。
我的建议是,用半年或一年时间验证产品,找到一款与市场契合的产品,并且具备规模化的前景,仅仅做项目会非常痛苦。
前几年我们也一直在做项目,但两年前开始决定必须要做产品。如今已经推出的有言、有光等产品,基本已经达到PMF的目标,无论B端还是C端,后面只要做用户增长即可,因为产品本身已经具备规模化的前景,我们也已具备相应的规模化能力。
AIGC令两端成本实现大幅降低
Q:Sora出现后,业内对AIGC的关注从语言转向视频。我们如何看待未来的竞争格局?
A:ChatGPT出现后我便认为,所有在它延长线上的产品可能都会被干掉。Sora的出现也是一样,所以同类公司要避免被它的衍生能力所覆盖。
就视频的AIGC而言,包括文生图、文生视频、文生3D在内,目前常见的有两条路径。一条是Sora,拥有海量视频资源,并基于此进行训练。这也是目前美国视频AIGC的主流方式,除Sora外还有pika、runway等。另一条路径是3D内容的AIGC,即通过引擎方式渲染出视频。但这条路上目前全球仍未出现一个好产品,而我们正在这个方向上努力。
值得一体的是,Sora截至目前只是个demo,而我们的有言已经是一个成型的并投入商业化的产品。
Q:现在市面上充斥着大量的数字人,你们采用的3D虚拟人较其有何不同?
A:简单来讲,我们的产品和数字人本质上是3D和2D的区别。在终端,我们生成的视频可以直接应用在VR设备中,比如用户可以直接用Vison Pro进行观看,这是2D产品无法比拟的。
在技术端,3D和2D的生成路径也不一样。如今数字人市场的主要生产方式是提前拍摄,比如先给一个人拍半小时视频,以此为基础,针对不同场景为演讲人匹配不同的录音。怎么解决口型不对的问题呢?用AIGC改变数字人的唇形。
但其中的问题是,最后交付的数字人产品既不能更换场景,也不能产生新的动作和角度,‘用一个形象通用’的结果就是观感被破坏。而3D视频通常使用PGC来完成,且能够通过物理引擎进行渲染,其中不仅包括技术手段,更有包括美术设计、动画制作能各项能力的结合。最终呈现在作品上,不仅可以随时切换场景,甚至虚拟人的发型、妆容、服装声音,以及环境的镜头、灯光等,全都可以AIGC化,随时改变。
数字人并非一个终极解决方案,半年前我们便在讨论这个问题,它仅仅是视频AIGC过程中的一个过渡产品,本身的产品力并不强,目前看来基本要成为过去式。不要说大厂下场,行业内的竞争如今已是非常激烈,很多公司的数字人产品都跌到了‘白菜价’,市场前景却依旧堪忧。前述提及的抖音下架数字人这一举动,部分也是由于这一品类本身制作水平不高,充斥着大量粗制滥造的作品。
Q:目前来看,一旦大厂下场,数字人链条上的企业可能会受到不小冲击。3D虚拟人这一赛道是否也会面临这样的挑战?
A:所有科技创业公司都面临这样几个问题。能否找到一款产品,它会伴随技术发展变得越来越好?这款产品是否具备规模化的能力?你面对的市场是否足够大?你的壁垒是否足够高?
在中国的市场环境下,你的壁垒一定要高。否则只要这件事是赚钱的,大厂一定会下场去做。
但回到3D虚拟人赛道看,截至目前国内几乎所有大厂都曾尝试过,但仍未有一家能实现规模化的产品能力,因为门槛很高。
自创立之初,我们便一直深耕这一领域,在美术能力、底层整套捕捉技术、3D动画制作等方面具有相当高的壁垒,且一直在精进。国内最早超写实虚拟人“翎__LING”是我们做的,直播领域,抖音平台的首个超写实虚拟人“令颜欢”也是我们做的,另外我们也已经服务了许多客户。
基于这些积累,AIGC技术成熟后,我们瞬间开启了产品化进程,并实现了规模化的制作、生成和销售。
Q:AIGC爆发后,你们的产品在成本和规模化方面发生了哪些变化?
A:从结果上看,AIGC的涌入令我们在制作端和客户使用端均实现了费用的大幅降低。
最早做超写实虚拟人时,我们曾于项目期间服务了至少几百家B端客户,那时一个虚拟人的价格约为几十万,一条视频也要几十万,且视频需要制作1-2个月时间。3D虚拟人直播场景中,我们做过最贵的一个项目是130万/小时,最便宜的也要十几万。但其实我们的成本也很高,一个收费60万元左右的虚拟人,我们的成本也要高达几十万。
而AIGC以及3D技术的进步,令这种状况彻底发生了改变。在自身产品成本大幅降低的基础上,如今我们只要交付给客户一个账号,登陆后,他们可以通过我们的产品任意制作自己需要的虚拟人,不仅使用成本大幅降低,使用的自由度也大大增加,且产品质量也变得越来越好。
直面直播生态,「数字人被干掉本质还是因为效果差」
Q:前段时间抖音有下架数字人的举动。在直播业务方面公司如何平衡和处理与平台的关系?
A:此前确实有类似事件,我们认为数字人被干掉的本质还是因为其效果比较差,目前抖音对于3D虚拟人并没有相关禁令。且就魔珐自身而言,我们已经推出令颜欢等3D虚拟人产品,正符合平台在娱乐领域的发展需求。
我们认为,与平台实现良好合作需要具备两个条件,证明自己是个赚钱工具,并进行官方级对接。
归根结底,本身产品一定要符合商业规律,才能真正具备生命力。对我们而言,考核标准就是在脱离投流的情况下,让客户实现ROI为正,这既是硬核要求,也是产品规模化的基础条件,否则就是在‘割韭菜’。这一点我们已经在平台中获得验证,从淘宝和京东的反馈看,除衣服等非标品外,客户采用我们的虚拟人产品直播时的收益和数据,均优于真人主播。
同时,直播产品一定要与平台进行官方对接。目前我们已经与淘宝、京东等大型平台完成对接,并已获得对方开放接口,后续将继续推进与快手等平台方的合作。抖音本身比较特殊,其审核部外由第三方外包完成,但我们认为不会对我们的直播业务造成影响。而且一旦客户在其他平台均采用虚拟人直播,反过来也会推动这种模式进入抖音。这段时间我们有足够的耐心。
另外我们也比较看好海外市场,虚拟人直播这种生态特别适合独立站模式,所以我们计划上线美国版本,后续将进驻电商领域。
Q:出海方面有哪些进展?未来有何计划和布局?
A:出海方面,我们正在积极地准备有言的海外版本,相信不久就会跟大家见面。在现有有言的版本中,大家可以看到有言的3D虚拟人库中已经包含了各种肤色的人物形象,也可以选择多种语言版本进行表达。
回顾过去十年,不难发现有些新趋势是先在中国市场发生,比如电商、短视频。据我们了解,当前海外市场尚没有成熟的3D虚拟人技术公司,更没有已落地、可实际使用的产品。目前,有言是全球唯一一款落地得AIGC 3D内容产品,已经具备高质量、高效率、低成本、低门槛、规模化这几个特点。基于此,我们对海外市场充满信心。
Q:目前你们在直播领域的最新进展如何?
A:如今,第一波用3D虚拟人直播的美妆品牌已经尝到了红利。
直播间的转化率一定程度上取决于虚拟主播的表现力,包括形象、表达、沟通和服务能力。主播表现越生动灵活,互动问答能力越强,引导转化效果越显著。我们作为阿里妈妈、淘宝直播生态官方指定的3D超写实虚拟直播服务商,旗下3D虚拟人直播AIGC产品‘有光’目前的转化率高于2D数字人直播6倍以上,且已在美妆行业得到了广泛试用。
近期数据显示,多个知名头部美妆品牌在使用‘有光’后,午夜6小时的直播时段内累计年GMV增量高达数千万。3D虚拟直播午夜超级直播广告投放高于行业均值2倍以上,ROI大于5倍。
过去一年,虚拟人带货爆红。无论是淘宝、京东还是抖音、快手直播间,都能看到虚拟人在直播。相比于需要大量培训成本、人才流动高的真人主播,虚拟人主播拥有稳定性高、培训成本低,还能以流畅、接近真人表达的方式介绍产品,提供1对1咨询服务,24小时全天候在线等优势。随着虚拟人的规模化发展,直播行业或许会迎来新一轮技术变革。
「3D虚拟人+AIGC」组合将成未来刚需
Q:就你们观察,当前应用端的需求更多出于企业的刚需还是溢出型需求?
A:如今,几乎所有企业都面临视频生成和直播的巨大产缺口。几年前,魔珐是以项目制的方式为客户提供3D虚拟人制作服务,随着市场需求量增加、魔珐3D虚拟人、AIGC技术的成熟,这两年我们开始做产品化。
彼时,我们便曾收到过许多客户反馈,希望推出一款产品,客户自己就能用,每天想生产多少3D虚拟人内容就生产多少3D虚拟人内容。这表面,虚伪是真实的、一直存在的。未来,大家会在市场看到更多3D虚拟人的使用案例,我们相信3D虚拟人+AIGC的组合是未来市场的刚需。
Q:3D虚拟人这一品类为何会在国内市场爆发,而国外市场却比较少见?
A:中国的电商、短视频和直播场景领先于全球,因而催生了相应的需求。而国外比如美国,这些领域不如中国繁荣,企业的应用需求自然也会少很多。
在AI这条路径上,每个国家的国情不一样,没有必要一味去跟随,我们也可以走出一条自己的路。比如3D视频生成,如今已经被我们验证是一条新路径,未来将继续被应用到直播、互动等场景中,甚至对于个人都会产生非常不一样的影响。
我们预计,半年之内我们的直播和互动产品也会实现如视频一样的交付方式,用户只需登陆网页,即可进行自主操作。我们预计这将是一个潜力巨大的市场。
Q:未来一段时间内,虚拟人产品的应用是否仍旧以B端为主?我们如何看待C端的进展趋势?
A:有言是一款同时面向B端和C端的产品。在B端市场,我们已经拥有四五十家客户,涉及多个行业。我们希望在规模化过程中,用3D虚拟人和AIGC帮助千行百业的客户实现提升企业运营效率、找到新的市场增长机会。
C端市场,今年3月有言已正式面向公众开放。今年6或7月份,有言还将上线一个新功能:用户上传自己的照片就能生成自己的超写实3D虚拟人,可以给数字人捏脸、换妆、换衣服、换发型、戴眼镜。用户也可以上传自己的声音,让3D虚拟人的声音变成自己。每位普通用户都能轻松拥有一个自己的3D虚拟人分身。
未来,个人在汇报工作时或许可以丢掉PPT,让自己的3D虚拟人分身汇报工作,或者用3D数字人制作一场精彩的Tedtalk。在这种情况下,3D虚拟人就成了最高级的内容形态,而魔珐的愿景则是成为未来虚拟世界的基础设施,同时为B端和C端市场提供3D虚拟人+AIGC的技术服务。我们深信这样的未来一定会到来。
作者:苏打
出品:明亮公司
本文作者可以追加内容哦 !