语音识别是一门交叉学科,语音识别技术与语音合成技术结合使人们能够甩掉键盘,通过语音命令进行操作,语音技术的应用已经成为一个具有竞争性的人工智能应用产业。

2011年苹果手机推出siri开始,语音识别的运用开始正式面向大众化。随后被广泛的应用于输入法及记录。

2016年老罗在其产品发布会上,现场展示了科大讯飞97%正确率的语音输入。在他碎碎叨叨的说完一串话后,手机几乎是实时同步地把语音转化成了文字。速度之快、准确率之高,着实是让人惊艳了一把。一下子就通过他的“单口相声”把语音识别技术再次领到了人们的眼前。

图片来自网络

一、语音识别应用

会议记录

在目前科技及电脑工业发达的时代中,对于会议中报告及记录的方式,早已摆脱了早期那种利用专人将会议过程记录于纸张中的人工操作及人工记录时代,而迈入了利用将会议成员的电脑与投影机连接以播放报告资料,及利用摄影机、麦克风等影音采集设备来直接拍摄、收集会议过程的电子会议时代。然而对于开会后的会议记录的整理及备份,则仍需浪费大量人力及时间。通过AI加持录音实时转文字,5分钟即可高效完成会议记录,大幅缩减重复、繁琐的会议记录工作时间,实现会议记录工作的便捷与智能。

图片来自网络

智能家居


随着语音识别的成熟,越来越多智能家居开始出现,通过语音识别来实现人机交互。比如小米智能衣架可以通过语音支持米家App智能控制,通过手机即可实现升、降、暂停、照明操作。一键智能触发,支持远程语音控制,简单操作。

图片来自网络

天猫精灵除了简单的音乐播放外,还可以通过语音指令来实现定闹钟/点播歌曲/语音对话这些常规的智能音箱功能,甚至还可以控制冰箱、电饭锅、洗衣机等智能家居、语音购物、手机充值等功能。

图片来自网络

语音客服

在人工智能技术支持下,作为企业核心工作之一的客户服务也在悄悄产生着巨大的技术变革。交通、电力、金融、公共事业等业务范围有着向广大群众和企业用户,传统人工的服务模式早已不堪重负。智能客服的出现使得用户只需要一个通信终端,对着话筒说出所需信息,系统将用户的语音转化为文本,并自动理解用户的自然语言中包含的准确业务需求,从而将语音菜单导航到客户所需功能节点,实现“菜单扁平化”。

另一方面例如大部分银行的贷款催缴、保险公司的核保、房地产公司的营销推广以及客户回访等,也逐渐被自动语音外呼取代。机器人可以使用标准话术,不会受情绪影响,能够准确理解用户的回答及意图,像人与人交流一样对话,针对分配而来的不同场景进行批量合规化语音外呼操作,成功解决了语音外呼中的质量保证及效率提升的问题。

图片来自网络

语音识别应用于工业、家电、通信、汽车电子、医疗、家庭服务、消费电子产品等各个领域,甚至可以作为人物识别进入安防领域。

二、语音识别的原理


语音识别的原理其实并不难理解:设备收集目标语音,然后对收集到的语音进行一系列处理,得到目标语音的特征信息,然后让特征信息与数据库中已存数据进行相似度搜索比对,评分高者即为识别结果。然后通过其他系统的接入来完成设备的语音识别功能。

1、声学信号预处理特征

作为语音识别的前提与基础,语音信号的预处理过程至关重要。在最终进行模板匹配的时候,是将输入语音信号的特征参数同模板库中的特征参数进行对比。

声音的本质是震动,它可以由波形表示。对声音的识别则需要对波进行分帧,也就是把声音切开成一小段一小段,每小段称为一帧。

图片来自网络

在分帧的过程还需要包含语音信号采样、反混叠带通滤波、去除个体发音差异和设备、环境引起的噪声影响等等。

2、声学特征提取

完成信号的预处理之后,随后进行的就是整个过程中极为关键的特征提取的操作。也就是把每一帧波形变成一个多维向量,可以简单地理解为这个向量包含了这帧语音的内容信息。

目前主流研究机构最常用到的特征参数有:线性预测倒谱系数(LPCC)和 Mel 倒谱系数(MFCC)。两种特征参数在倒谱域上对语音信号进行操作,前者以发声模型作为出发点,利用 LPC 技术求倒谱系数。后者则模拟听觉模型,把语音经过滤波器组模型的输出做为声学特征,然后利用离散傅里叶变换(DFT)进行变换。

声音就成了一个12行(假设声学特征是12维)、N列的一个矩阵,称之为观察序列,这里N为总帧数。观察序列如下图所示,图中,每一帧都用一个12维的向量表示,色块的颜色深浅表示向量值的大小。

图片来自网络

3、数据库模型

语音数据库分为两种,一是可与提取出的信息进行匹配的声学模型数据库,二是可与之匹配的文本语言数据库。

这两个数据库需要提前对大量数据机型训练分析,也就是所说的自学习系统,从而提取出有用的数据模型构成数据库;另外,在识别过程中,自学习系统会归纳用户的使用习惯和识别方式,然后将数据归纳到数据库,从而让识别系统对该用户来说更智能。

最终数据库中,声音和语言按照音素和状态进行保存。其中音素构成单词的发音。对英语,一种常用的音素集是卡内基梅隆大学的一套由39个音素构成的音素集。汉语一般直接用全部声母和韵母作为音素集。状态是比音素更细致的语音单位,通常把一个音素划分成3个状态。

4、对比匹配

将声音分拆出的帧识别成状态,把状态组合成因素,最后把因素合成单词。那每帧音素对应哪个状态呢?有个容易想到的办法,看某帧对应哪个状态的概率最大,那这帧就属于哪个状态。比如下面的示意图,这帧在状态S3上的条件概率最大,因此就猜这帧属于状态S3。

图片来自网络

在这个过程中,需要先构建一个状态网络,并从状态网络中寻找与声音最匹配的路径。也就是说你说的内容本来已经被包含在数据库中,那么识别的结果就会更好。但如果数据库中的内容有限,那么识别结果有就有限。比如设定的网络里只包含了“今天晴天”和“今天下雨”两个句子的状态路径,那么不管说些什么,识别出的结果必然是这两个句子中的一句。

由于语音的复杂性,庞大的语言数据库难以放置于移动端,这也是几乎所有手机语音助手使用时需要联网的原因。语音识别发展到现在也不是没有离线版,但我们不难发现,离线版的准确率是要远远低于在线版的。

三、人工智能成分股介绍——科大讯飞002230.SZ(权重9.9%)

科大讯飞股份有限公司成立于1999年,是亚太地区知名的智能语音和人工智能上市企业。公司成立至今一直致力于语音语义领域的研究,并向其他人工智能领域拓展。

公司探索了多条AI应用落地的赛道,包括教育、医疗、政法、智慧城市、汽车、消费者产品等,将AI技术与实际生活结合,用人工智能帮助企业和个人提质增效,从而使得AI技术真正创造价值。目前,公司已经形成横跨2G、2B、2C多个领域的完整产品矩阵。

2015年开始,公司进入人工智能战略1.0时代,一方面积极探索人工智能应用落地的多种场景,因此实现了收入的快速增长,2017年收入增速更是高达64%。进入2019年,随着公司在优势赛道上实现了AI技术的规模商用,公司进入战略2.0时代,进行业务聚焦,对于一些盈利模式尚不清晰的赛道减少投入,将人员和精力集中在优势赛道。当前公司已经逐渐进入人工智能的红利兑现阶段,未来利润增速有望持续超过收入增速。

科大讯飞作为国内首家上市的人工智能龙头企业,不仅在核心的语音识别和语音合成领域具备全球领先的技术实力,同时在图像识别、语义理解方面也屡次在国际大赛中取得领先。安徽省政府大力投入人工智能建设,科大讯飞是核心,每年配套的地方专项资金达到8亿元。公司近年来承接多项重点实验室项目,成为国家级人工智能平台。

图片来自公司公告

公司在优势赛道上逐步形成了“数据-算法-产品”的闭环,构建了“刚需+代差”的竞争优势,产生了标杆案例、应用成效、标准化产品,促使公司核心技术的规模商用。

当前公司积累了数个百亿规模的优势赛道:

1)智慧课堂:短期受益于“停课不停学”,长期受益于教育信息化2.0,屡获亿元订单,从安徽走向全国。预估市场规模415亿元;

2)个性化学习手册:定位教辅市场,每年贡献持续收入,尚无太多竞争对手,具备明显先发优势。预估每年市场规模203亿元;

3:)智医助理:疫情催生基层医疗信息化投入,顺应分级诊疗理念,定位常见病辅助诊断,与湖北签署战略协议,从安徽走向全国。预估市场规模114亿元;

4)智能庭审:试点模式获最高法院认可,已实现全国推广,预估市场规模60亿元;

5)辅助办案系统:打通公检法底层数据,以区域形式推广,尚处培育期,长期市场规模125亿元;

6)消费者业务:聚焦沟通和办公场景,以翻译机切入,形成办公全系列产品,获得用户认可,实现翻倍增长,未来空间广阔。

公司在AI战略2.0的驱动下,有望在教育、政法、消费者、医疗等核心赛道大幅兑现营收红利;同时产品化率提升、赛道控盘、AI技术深度融入,推动毛利率上行;公司未来将逐渐摆脱以项目制、定制化为主的商业模式,转向2B和2C双轮驱动。2B业务坚守智慧课堂、智能庭审、辅助办案、智医助理等优势赛道,2C业务积极拓展有持续付费能力的个性化学习手册和消费者产品,从而形成数个百亿规模的市场,为公司长期的增长打开空间。

华富人工智能产业ETF(515980),以及相应联接基金——华富中证人工智能产业ETF联接基金A/C(008020/008021) ,旨在跟踪A股先进、纯正的AI投资标的。

风险提示:本文作者为华富基金指数投资部基金经理。本材料 不构成任何投资建议,基金有风险,投资需谨慎,请全面了解产品及标的情况后谨慎、自主决策。

追加内容

本文作者可以追加内容哦 !