想象一下这个令人窒息的画面:
8个人围在一张桌子前,正在激烈地头脑风暴。
A和B在因为方案激情“对线”;
C和D在小声八卦昨天的热搜;
E和F、G和H在有一搭没一搭地四处插嘴;
声音互相掩盖,乱成一锅粥,桌子中间还只有一个离人较远的麦克风。
图片由AI生成
建议用手机端点击播放
是不是像极了我们日常聚餐或头脑风暴时的混乱场景?
如果让你把这8个人的话一字不落记下来,还得搞清楚到底“谁在回谁的话”……你是不是想直接掀桌子走人?
人类听了都想报警的“地狱级社交局”,最近,被中国AI彻底拿捏了。
这正是业界公认的“最难语音识别任务”——第9届国际多通道语音分离与识别大赛(CHiME-9)出的难题。作为全球最权威的赛事, 本次挑战从单纯的语音识别迈向了多模态理解:在多人重叠交谈的情况下,结合音频和视频实现既能“听清每个人说了什么”,又能“理解谁和谁在交流”。
近日,官方组委会在巴塞罗那正式公布结果:科大讯飞联合团队在全新高难度任务“多模态上下文感知识别”中获得第一!
科大讯飞联合团队由科大讯飞研究院与中科大语音及语言信息处理国家工程研究中心(NERCSLIP)、国家智能语音创新中心、陕西师范大学、安徽大学、莫斯科国立大学共同组成。
这不仅是我们在该项赛事中拿下的连续第六个冠军,更意味着:在语音识别人类最复杂、最混乱的真实场景上,中国AI依然是当之无愧的“天花板”。
CHiME 2026 Workshop公布比赛成绩现场
从听清“你说啥”
到听懂“你们在聊啥”
过去十几年来,CHiME比赛一直在组织全世界的AI努力解决一个经典的“鸡尾酒会问题”:如何在嘈杂的人群中,准确听清某个人的声音?
今年的CHiME-9比赛,让AI挑战全方位的“拟真社交局”中,听清每个人说了什么,搞懂“谁和谁在聊”:
场面复杂:
最多8个人、4组对话同时进行,声音重叠度极高,伴随背景噪声。
条件受限:
全场只有桌子中间的一个360全景相机和一个单声道麦克风,难以辨别参与者的身份、彼此之间的互动关系。
谈话随机:
大家随便瞎聊,工作、八卦、兴趣天马行空,增加了语义理解的难度。
CHiME-9官方给出的录制画面示意
面对这种人类听了都头疼的场景,科大讯飞联合团队是怎么拿下冠军的?给大家简单解说下团队的技术创新:
学会“看口型”,眼耳并用
团队设计了一套“跨模态蒸馏的音视频无监督预训练”方法,让AI把“干净的声音”提取出来作为学习目标;同时,为了看得更清,团队还独创了“人脸+唇形”双分支网络——不仅盯住说话人的口型,还要整体观察头部姿态和表情,多管齐下,AI在极端噪音下的抗干扰能力直线上升。
装上大模型大脑,听懂“潜台词”
随性聊天最怕突然冒出专业词汇和断章取义。联合团队引入“音视频编码器 + 大语言模型”语音识别方案,让AI拥有了理解上下文的能力。它不仅是“速记员”,更是个“懂哥”,能根据语境精准识别各种专有名词。
听音辨意,一眼看穿“谁和谁是一伙的”
在多人交流场景中,两个人坐在一起,不一定在聊天,两个人没对视,可能在隔空搭话。怎么判断谁和谁在聊一件事?团队引入大语言模型开展语义级对话聚类,AI不再死板地看座位或视线,而是通过分析大家“说话的内容、逻辑和主题”,精准扒出对话关系,拒绝张冠李戴。
依靠这套“组合拳”,科大讯飞联合团队在综合指标“联合识别-聚类错误率”上,相比基线实现了 57.18% 的相对提升,语音识别错误率从51.99%降至30.18%(相对基线下降41.95%),对话聚类F1分数从83.43%提升至98.71%,以绝对优势碾压夺冠。
CHiME-9 Task1(MCoRec)榜单
整体方案流程图
冠军技术
已经在为我们“打工”
搞定世界上最难的语音识别比赛,不是为了捧回奖杯,而是为了让万物互联时代的智能产品真正好用。这些在比赛中杀出重围的多模态语音技术,早就化身“最强打工人”,钻进了你的口袋和工位里。
在嘈杂的街头与国外客户交流:
讯飞AI眼镜融合AI视觉及语音能力,首创唇动识别多模态降噪方案,精准锁定人声、屏蔽杂音,让跨语言沟通毫无障碍;讯飞AI翻译耳机搭载讯飞端到端同传大模型,使用骨导+气导双拾音降噪技术,保证你在喧闹的展会也能享受同传级翻译。
第139届广交会现场,海内外客商深度体验讯飞AI眼镜
在唇枪舌剑的多人会议室:
讯飞听见会议系统、讯飞智能办公本、讯飞AI录音笔早就成了“开会三件套”,面对乱局各有绝招:讯飞听见会议系统,凭借多语言系统稳稳拿捏跨国局;讯飞智能办公本MAX2/X5系列硬核搭载8麦克风阵列,不仅精准区分多人发言,还能无缝搞定200+方言“免切换”;讯飞AI录音笔转写准确率98.6%,更一口气包揽11种外语、12种方言及2种少数民族语。
在出行时:
新一代多模态智能座舱做到了“能听会看”,哪怕后排孩子吵闹、窗外噪音极大,车机依然能在三人同时说话的情况下,准确听懂主驾的导航指令。
冠军绝非一日之功。早在2022年,讯飞就已率先在业界实现了“能听会看”的多模态语音识别,在讯飞星火语音大模型的加持下,不仅支持100种语言的语音识别,更首发了非自回归架构,效果相对提升16%、推理成本下降84%,真正实现了将顶尖技术“普惠”大众。
每一次比赛难度的加码,都是真实物理世界向AI发出的挑战书。
从“听清”到“看懂”,从安静的书房到喧嚣的人海,六连冠不是终点,让机器像人一样完成在复杂环境中的沟通,为万物互联时代打造更多新的可能,是我们不断探索的星辰大海!
本文作者可以追加内容哦 !