探索更远的声音边界！科大讯飞获IEEE ICME 2024声音场景分类国际挑战赛第一名_财富号

提起智能语音技术，首先跃入脑海的很可能是大家所熟知的语音识别、语音合成与翻译，这些都与人声紧密关联；而在现实中，声音包含的类别更加广泛丰富——自然界声音、音乐、交通工具的声音、工厂机器的声音……随着对这些声音的深入探索与实际场景的应用挖掘，我们看到了更多的价值与可能。

不久前，计算机多媒体领域最重要和权威的两大国际旗舰会议之一——第25届IEEE国际多媒体与博览大会（IEEE ICME 2024）在加拿大正式举行。领域偏移下的半监督声音场景分类国际挑战赛（IEEE ICME 2024 Grand Challenge: Semi-supervised Acoustic Scene Classification under Domain Shift）是此次会议的重要活动之一，科大讯飞研究院与中科大语音及语言信息处理国家工程研究中心（简称NERCSLIP）、国家智能语音创新中心联合团队首次参加这一全新的挑战赛，获得第一名。

这也是近期在声音事件定位与检测国际权威赛事DCASE 2024获得三项任务第一之后，讯飞研究院联合团队在智能音频技术领域收获的又一次肯定。

IEEE国际多媒体与博览大会 (ICME) 由IEEE 四大协会Computer Society、Circuits and System Society、 Signal Processing Society以及Communication Society共同主办，至今已连续举办20多届，涵盖文本分析、图形图像、视频处理、语音和音频信号处理等主题，每届大会上举办的挑战赛内容都有所不同。此次讯飞联合团队参与的挑战赛首次举办，也吸引了来自国内外的众多高校、机构和企业参与角逐。

一套系统分辨N个场景？“听声”考验难度高

声音场景分类(ASC)是计算听觉场景分析中的热点任务，也是此次挑战赛的核心目标。赛事需要通过分析和识别由移动设备录制好的音频，确定音频属于哪个声音场景类别，例如巴士、机场、地铁、餐厅和商场等。

想要精准识别声音场景，实现“听觉敏锐”并不容易。赛事中，每一个场景的声音片段只有几秒长，还有些场景的声音很容易混淆，例如广场和公园、餐厅和超市。

此外，此次挑战赛考验的是领域偏移下的半监督声音场景分类，这些限定条件也提升了比赛难度：

领域偏移，代表声音来自不同录音设备或者不同地域环境，这时声音特征的差异会导致模型识别效果的下降，比赛测试集中有5个城市的录音在训练集中未曾出现，极大考验模型泛化能力和适应新环境的能力；标签数据的缺乏，比赛中80%的数据都没有声音场景的标签，利用大量无标签数据提升模型性能也尤为重要。

值得一提的是，比赛要求在得分相同的情况下，较小的模型将获得优先排名。因此，参赛团队不仅要考虑如何提升模型准确率，还要尽可能做到让模型“变小”，实现“小而美”的效果。

收获冠军背后的技术创新：多轮半监督ASC方案

此次讯飞研究院联合团队提出了预训练+多轮半监督伪标签预测+微调的方案应对以上挑战，主要采用了以下策略：

多轮半监督伪标签预测：针对无标签数据的问题，团队在城市声学场景开源数据集上进行模型预训练，采用比赛数据集微调后对无标签数据打伪标签。并通过多轮迭代及多模型融合的方式更新伪标签，大大提升了伪标签的可信度。

多维度数据增强：除常规数据增强手段外，针对比赛数据中的口音和地域差异性，团队提出了多维度数据增强方法：随机选择模型隐层输出进行混叠，充分利用浅层的口音信息和深层的语义信息；使用开源数据进行风格迁移，增加了地域丰富性。

多中心模型微调：为了提高“超市”和“餐厅”这种容易混淆场景的识别准确率，团队使用子集群加性角度间隔损失作为微调阶段的优化目标。该损失函数增加了角度间隔来增大不同类别之间的区分程度，同时每个类别都设有16个子集群中心，有效增加了模型拟合的灵活性。

多颗粒度模型融合：团队根据场景类别设置了粗颗粒度和细颗粒度两种分类目标。粗分类模型用于区分室内、室外和交通3个大类场景，具有“泛而准”的特点；细分类模型用于区分10个具体场景，特点是“专而细”。最后将两个分类模型进行后验融合，显著提升了场景分类的准确性。

最终，联合团队以75.8%的总成绩取得第一名，地铁、工地和酒吧场景识别正确率超过92%，其中工地场景的识别正确率领先第二名23个百分点，展现不俗实力。

以声助力，开启万物互联时代全新可能

目前，讯飞已经将声音定位和检测技术应用在电力、矿山、制造业等领域，研发了工业听诊器、声学成像仪等产品，而此次挑战赛中所考察的声音场景分类技术也已经有了实际应用。

对架空输电线路来说，鸟害和雷击都是不小的威胁。鸟类在输电杆塔附近筑巢、排泄会导致线路短路跳闸，而杆塔遭受雷击会导致电压不稳，甚至引发电力设备故障。目前，讯飞潮汐力工业传声器产品搭载了声音场景分类技术，能够感知鸟鸣或雷声，及时联动声波驱鸟装置或放电避雷装置，提升50%的驱鸟效率、减少雷击造成的危害，提高电网的安全性。

城市管网、噪声治理，声音场景分类技术也能派上大用场。对于输送流体（水、石油、燃气等）的管网系统，声音场景分类技术可以有效检测管网附近的异常声音，如大型施工机械的运行声、流体泄漏声等，降低管网被挖断或泄漏，保障管网系统安全平稳运行；同时，还能实时监测城市里多种多样的噪声，精准分类噪声源，为噪声治理提供有力支持。

人类社会已进入万物互联的全新时代，人机交互方式也在不断革新。想要实现更加自然、智能的人机对话，除了对人类语音的识别、分析、理解等，场景中不同声音元素的识别与理解也同样重要。“讯飞超脑2030”计划中立志让机器人走进每个家庭，家庭场景中有婴儿的哭声、宠物的叫声、燃气报警声、水龙头流水声……机器人如果能识别并判断家中情况，在人机交流时也能给出更精准的信息和提示，真正实现听清、听懂每位家庭成员的需求，做到情感陪伴和日常生活的照顾。

未来，科大讯飞仍会在智能音频技术上持续探索，挖掘“听”的更大潜力，为万物互联的智能世界构建带来更多可能。

追加内容

本文作者可以追加内容哦 !

总收益	20日收益	日收益
--	--	--

代码	名称	最新价	涨跌幅
查看更多

最新操作
-	-	-