$声网(NASDAQ|API)$

01. 

佛偈里有「竖三世佛」说法,过去佛、现在佛、未来佛,三佛并在,表示佛法永存。

自1915年,广义相对论打破绝对时空观,时空显性流形或连续结构,整体形成一个四维向量空间。

麻省理工学院哲学教授Bradford Skow提出“块宇宙”理论,认为过去、现在和未来同时存在。

02. 

时间这条一维线,无论单独存在or整体存在,人类的具象理解,总是代入Movie的进度条,可以前后拖拽。

每个人都有自己的剧情分支,对于声网创始人赵斌来说,大概率有两个停留锚点:

一个是2014年,突然顿悟Google WebRTC的价值树,毅然决定躬身入局;一个是2020年,在纳斯达克现场,抓紧一个周期的尾巴,成功敲钟上市。

历历在目,酸甜辣苦。

03. 

当拖拽到2023-2024年,时间轴突然自己加速起来。

因为生成式AI,他来了!

今年5月,GPT-4o发布会上,平均320毫秒的反应时间,让AI与人类的对话,第一次接近人类真实对话的反应速率。

这开创了AI实时语音交互的先河,让实时成为生产力的一部分。

GPT-4o实时互动背后,一条明线是端到端实时多模态的崛起,一条暗线则是 RTC(Real-Time Communications)实时音视频技术的进步。

04. 

RTE是生成式AI的标配,生成式AI是RTE的延拓。

对于RTE产业来说,生成式AI是一个无法拒绝的诱惑,即使最顶尖的战略规划,也无法提前设计一个如此Match的超级增量模型。

这就是势,而命在势中。

05. 

10月初,声网的兄弟公司Agora作为语音API合作者,出现在了OpenAI发布的Realtime API 公开测试版中。

就在上周,声网也官宣,与MiniMax正在打磨中国第一个Realtime API,真正的人工智能体已经快来了。

06. 

声网CEO赵斌称,生成式AI会向多模态清晰深度进化。

多模态对话体验存在两个关键:(1)声音体验包括延迟、语气、情感、情绪、口音,这些都是人与大模型进行人机对话时体验的关键角度。(2)人与大模型支持的Agent对话时的互动体验中,最核心的就是「打断行为」,如果在对话中打断不自然,出现抢话、不知道如何顺利开展下一段讨论等行为,也会对人机交互的效果产生影响。

未来RTE基础设施,将会成为多模态大模型AI Infra的关键部分。

07. 

从云时代的边缘龙套,到AI时代的重要配角,短短两三年时间,已然算是逆天改命。

其实市场没得选,这是声网该得的。

扎根在音视频行业整整十年,作为孤独的拓荒者,独自面对一波又一波大厂的商业竞争,如果不是实打实的技术壁垒,声网根本撑不到今天这个新剧本。

所幸,二级市场有一小部分人,开始懂了。

08. 

时间轴拖到此处,突然开始混沌起来。

人眼成像的基本原理是,自动对焦你盯着的地方,模糊更远处的空间背景。

在中国,文科生极度擅长纲目化,理科生极度擅长图谱化,二者并无本质区别,(RTE+生成式AI)x千行百业,变成了无穷尽的业务推理,以及沉重的商业想象力。

声网终究没忍住,发布了RTE+AI能力全景图,从实时 AI 基础设施、RTE+AI 生态能力、声网 AI Agent、实时多模态对话式AI解决方案、RTE+AI应用场景五个维度,清晰呈现了解决方案的全面组合。

再结合当前主营行业,在线教育、出海、社交泛娱乐、企业服务、IoT、Voice AI、空间计算等,横纵交错,琳琅满目,即使专业人士也难分主次。

虽能理解,但略贪心了。减法不易,知道不做什么才更难能可贵。

09. 

当下的原点有两个,一个在梦开始的Timing,一个在梦醒来的Timing。

在电影《2046》中,王家卫对数字和时间的偏执,几乎达到了极致。

2046年,AI、硅基、智能体会是什么样子?2046年,需要什么样的RTE能力?2046年,生产关系会是什么形态?2046年,落在声网这家公司的使命是什么?

或许答案简洁地令人惊叹,亦或许答案就隐藏在声网的纳斯达克代码中。

10. 

唯硅基代码跳跃,实时互动;

唯碳基创业精神,实时进化。

等2046年穿越,才发现:“隐藏在现在的过去,早已决定未来。”


追加内容

本文作者可以追加内容哦 !