提起智能语音技术,首先跃入脑海的很可能是大家所熟知的语音识别、语音合成与翻译,这些都与人声紧密关联;而在现实中,声音包含的类别更加广泛丰富——自然界声音、音乐、交通工具的声音、工厂机器的声音……随着对这些声音的深入探索与实际场景的应用挖掘,我们看到了更多的价值与可能。


不久前,计算机多媒体领域最重要和权威的两大国际旗舰会议之一——第25届IEEE国际多媒体与博览大会(IEEE ICME 2024)在加拿大正式举行。领域偏移下的半监督声音场景分类国际挑战赛(IEEE ICME 2024 Grand Challenge: Semi-supervised Acoustic Scene Classification under Domain Shift)是此次会议的重要活动之一,科大讯飞研究院与中科大语音及语言信息处理国家工程研究中心(简称NERCSLIP)、国家智能语音创新中心联合团队首次参加这一全新的挑战赛,获得第一名。

这也是近期在声音事件定位与检测国际权威赛事DCASE 2024获得三项任务第一之后,讯飞研究院联合团队在智能音频技术领域收获的又一次肯定。

IEEE国际多媒体与博览大会 (ICME) 由IEEE 四大协会Computer Society、Circuits and System Society、 Signal Processing Society以及Communication Society共同主办,至今已连续举办20多届,涵盖文本分析、图形图像、视频处理、语音和音频信号处理等主题,每届大会上举办的挑战赛内容都有所不同。此次讯飞联合团队参与的挑战赛首次举办,也吸引了来自国内外的众多高校、机构和企业参与角逐。

一套系统分辨N个场景?“听声”考验难度高

声音场景分类(ASC)是计算听觉场景分析中的热点任务,也是此次挑战赛的核心目标。赛事需要通过分析和识别由移动设备录制好的音频,确定音频属于哪个声音场景类别,例如巴士、机场、地铁、餐厅和商场等。

想要精准识别声音场景,实现“听觉敏锐”并不容易。赛事中,每一个场景的声音片段只有几秒长,还有些场景的声音很容易混淆,例如广场和公园、餐厅和超市。

此外,此次挑战赛考验的是领域偏移下的半监督声音场景分类,这些限定条件也提升了比赛难度:

领域偏移,代表声音来自不同录音设备或者不同地域环境,这时声音特征的差异会导致模型识别效果的下降,比赛测试集中有5个城市的录音在训练集中未曾出现,极大考验模型泛化能力和适应新环境的能力;标签数据的缺乏,比赛中80%的数据都没有声音场景的标签,利用大量无标签数据提升模型性能也尤为重要。

值得一提的是,比赛要求在得分相同的情况下,较小的模型将获得优先排名。因此,参赛团队不仅要考虑如何提升模型准确率,还要尽可能做到让模型“变小”,实现“小而美”的效果。

收获冠军背后的技术创新:多轮半监督ASC方案

此次讯飞研究院联合团队提出了预训练+多轮半监督伪标签预测+微调的方案应对以上挑战,主要采用了以下策略:

多轮半监督伪标签预测:针对无标签数据的问题,团队在城市声学场景开源数据集上进行模型预训练,采用比赛数据集微调后对无标签数据打伪标签。并通过多轮迭代及多模型融合的方式更新伪标签,大大提升了伪标签的可信度。

多维度数据增强:除常规数据增强手段外,针对比赛数据中的口音和地域差异性,团队提出了多维度数据增强方法:随机选择模型隐层输出进行混叠,充分利用浅层的口音信息和深层的语义信息;使用开源数据进行风格迁移,增加了地域丰富性。

多中心模型微调:为了提高“超市”和“餐厅”这种容易混淆场景的识别准确率,团队使用子集群加性角度间隔损失作为微调阶段的优化目标。该损失函数增加了角度间隔来增大不同类别之间的区分程度,同时每个类别都设有16个子集群中心,有效增加了模型拟合的灵活性。

多颗粒度模型融合:团队根据场景类别设置了粗颗粒度和细颗粒度两种分类目标。粗分类模型用于区分室内、室外和交通3个大类场景,具有“泛而准”的特点;细分类模型用于区分10个具体场景,特点是“专而细”。最后将两个分类模型进行后验融合,显著提升了场景分类的准确性。

最终,联合团队以75.8%的总成绩取得第一名,地铁、工地和酒吧场景识别正确率超过92%,其中工地场景的识别正确率领先第二名23个百分点,展现不俗实力。

以声助力,开启万物互联时代全新可能

目前,讯飞已经将声音定位和检测技术应用在电力、矿山、制造业等领域,研发了工业听诊器、声学成像仪等产品,而此次挑战赛中所考察的声音场景分类技术也已经有了实际应用。

对架空输电线路来说,鸟害和雷击都是不小的威胁。鸟类在输电杆塔附近筑巢、排泄会导致线路短路跳闸,而杆塔遭受雷击会导致电压不稳,甚至引发电力设备故障。目前,讯飞潮汐力工业传声器产品搭载了声音场景分类技术,能够感知鸟鸣或雷声,及时联动声波驱鸟装置或放电避雷装置,提升50%的驱鸟效率、减少雷击造成的危害,提高电网的安全性。

城市管网、噪声治理,声音场景分类技术也能派上大用场。对于输送流体(水、石油、燃气等)的管网系统,声音场景分类技术可以有效检测管网附近的异常声音,如大型施工机械的运行声、流体泄漏声等,降低管网被挖断或泄漏,保障管网系统安全平稳运行;同时,还能实时监测城市里多种多样的噪声,精准分类噪声源,为噪声治理提供有力支持。

人类社会已进入万物互联的全新时代,人机交互方式也在不断革新。想要实现更加自然、智能的人机对话,除了对人类语音的识别、分析、理解等,场景中不同声音元素的识别与理解也同样重要。“讯飞超脑2030”计划中立志让机器人走进每个家庭,家庭场景中有婴儿的哭声、宠物的叫声、燃气报警声、水龙头流水声……机器人如果能识别并判断家中情况,在人机交流时也能给出更精准的信息和提示,真正实现听清、听懂每位家庭成员的需求,做到情感陪伴和日常生活的照顾。

未来,科大讯飞仍会在智能音频技术上持续探索,挖掘“听”的更大潜力,为万物互联的智能世界构建带来更多可能。

追加内容

本文作者可以追加内容哦 !