作者:鹤翔

新技术登场前的喧嚣

7月底,由董事长刘庆峰带队,科大讯飞一众高管从合肥抵达深圳,拜访华为科技有限公司副董事长、轮值董事长徐直军,拜访目的不曾透露。许直军曾在2023年科大讯飞全球1024开发者节上友情站台,他表示:“华为公司在全球所有使用的智能终端的语音技术,都是来自于科大讯飞,而且不仅仅是中文。”由此可见他对科大讯飞的高度认可。一周后,华为常务董事、终端BG董事长、智能汽车解决方案BU董事长余承东带队从深圳抵达合肥,回访科大讯飞,以“余大嘴”闻名中国企业圈的余承东同样没有透露此次到访的目的。

不到一周之后,科大讯飞的投资者论坛里开始出现一则传言:听说华为与讯飞将终止合作。A股经不起一点风吹草动,科大讯飞股票应声下跌。8月13日,科大讯飞在投资者互动平台回复称与华为在昇腾算力、智能终端、鸿蒙生态、运动健康等多方面一直保持着良好的合作关系,传言的影响才逐渐平息。

8月19日,科大讯飞公众号上推送了一则名为“极速超拟人交互”的新技术演示,很简单的四条“人机对话”的视频,普通人看不出太多名堂却迅速引发业内关注。知情人透露,科大讯飞与华为之间高管互访的原因正是这项新技术,双方已重签了战略深化合作协议。

智能语音技术的新旧之别

以ChatGPT为代表的大模型浪潮到来之前,人工智能领域落地最为成功的产品毫无疑问是小爱同学、天猫精灵、Siri……这些名字遍布在手机电脑、汽车座舱、家居家电等各种智能终端之上,成为消费者打开智能体验的魔法咒语。

“咒语”在科技时代的同义词,正是智能语音。传统智能语音技术分为语音识别和语音合成两个模块,声音信号经过语音识别转换为代码,经后台处理后再由语音合成技术输出位文字或声音,各种语音助手、智能音箱采用的正是这项技术。传统语音技术国外代表企业是Nuance,苹果的Siri、三星的语音助手S-Voice背后都是Nuance的技术,国内的代表则是科大讯飞,从普通话考试、语音输入法到带有各种语音互动功能的智能终端,科大讯飞在中文语音技术领域一枝独秀。大模型浪潮到来后技术路径变成了语音转文字、大模型生成回复文本、语音合成三步走,大模型替代了原有的技术后台,包括OpenAI旗下的语音大模型Whisper在内,整体技术路径未有太大变化。

而科大讯飞本次“极速超拟人交互”的推送中提到,该技术“采用统一神经网络直接实现语音到语音端到端建模”,随并未提及具体技术路径的细节,但“端到端”已经说明一切。从特斯拉采用端到端技术方案的FSD捷报频传,到OpenAI 跨文本、视觉和音频端到端地训练了一个新模型GPT-4o,“端到端”已经成为目前人工智能前沿被证实能力更强的技术方案。

“端到端”是将输入直接映射到输出,省略了传统技术中的手工特征提取和复杂的中间处理步骤,应用于智能语音带来的效果就是“超拟人交互技术”呈现的那样:

更快,更流畅,更准确。

量变引起质变,交互体验面临迭代

从目前科大讯飞发布的视频来看,极速超拟人交互技术第一个直观感受就是更快了。据专业人士分析,市面上主流语音交互技术的应用中,从用户提出问题到智能终端响应并回答问题,大多处于2秒-2.5秒区间,而极速超拟人交互技术让响应时间缩短到了0.9秒,且可以随时打断、插话。值得一提的是,据统计,著名相声演员于谦作为郭德纲捧哏,他在舞台上的响应时间大多在0.5-1秒之间。这也就意味着,在超拟人交互技术应用之后,人机对话的交互体验已经无限逼近人人对话,量变引起质变。

不只是速度,端到端方案带来的另一个重要变化是声音感知表达上的准确和丰富性,简而言之——更像人,也许这正是科大讯飞没有称之为超高速语音技术,而是命名为超拟人交互技术的原因。比如传统指令型语音技术只能通过对某些特定发音的识别给出响应,而超拟人交互技术不仅可以从用户声音中获取指令信息,还能够通过语速、语调、口音以及咳嗽、哭声、宠物叫声等独特的声音信息,综合感知用户的喜、怒、哀、乐、害怕、困惑等各种情绪状态。而在表达方面,不仅可以准确响应指令,而且可以反馈富有情感的回应,还可以不需要调试的情况下直接由用户提出需求让声音变换表达方式,或激昂、或低沉、或幽默、或以方言或悄悄话的方式,甚至可以“角色扮演”变化为孙悟空、蜡笔小新等知名人物形象的声音。从响应指令到回应表达,超拟人交互技术将带来智能语音领域用户体验迭代式发展的无限想象力。

智能语音市场被重塑的可能性

据2023全球数字经济大会统计,截至2023年5月底,我国移动物联网终端用户超过20.5亿。另据《2024年数字经济报告》显示,到2029年,全球物联网设备数量将增至390亿部。国际数据公司IDC分析,预计到2030年,全球智能语音服务市场规模将达约731.6 亿美元,复合增长率27%。多项数据表明,无论国内还是全球,传统机器向联网智能终端转型将迎来井喷式增长,而大模型赋能下的智能语音技术的进步正是带来增长的核心动力之一。

在具体的场景中,语音领域的所有应用几乎都可以用新技术重塑一遍。例如智能汽车行业,能够多轮交互、语义理解的超拟人交互技术可以让座舱里的语音助手不仅仅是车主下达指令的执行者,还可以是旅途中的陪伴者和旅行安全的守护者。在养老和育儿领域,具备逻辑推理和情绪感知能力,能够灵活表达、风格百变的智能语音可以给老人和孩子带来具有趣味和温度的关怀与陪伴。对于手机和电脑等智能终端,高速响应的超拟人交互技术将带来远超Siri的体验,语音将和手动成为并驾齐驱的交互方式。

除存量市场外,更快速、更真实、更拟人的交互技术也将激发新的交互产品可能性。极速超拟人交互技术推出后,有长期关注人工智能领域的投资者在社交媒体表示,这项技术相当于人工智能语音的“ChatGPT时刻”。在全面落地并正式开放前,新技术的真实能力还有待观察,但从华为代表的合作伙伴,以及投资者的反馈来看,外界对于超拟人交互技术的关注和赞誉也许已经超越了科大讯飞自身的重视程度。作为大模型浪潮之前智能语音市场国内唯一的巨头,以及大模型浪潮以来国产大模型头号玩家之一,科大讯飞对于新技术的演示能力往往落后于落地能力。这次也不例外,超拟人交互技术在演示视频推送之前,也许已经在包括华为的多个合作伙伴那里,悄然落地。

追加内容

本文作者可以追加内容哦 !