酷应用

国际多通道语音分离和识别大赛讯飞再夺冠，不知不觉已「三连冠」！

百家作者：新智元 2020-05-07 16:40:32

??新智元原创??

编辑：白峰、鹏飞

【新智元导读】刚刚，科大讯飞联合中科大又夺得权威赛事——国际多通道语音分离和识别大赛CHiME-6两个任务的冠军，并将语音识别错误率从46.1%降低到了30.5%，在「最嘈杂」的语音识别任务中取得三连冠。「新智元急聘主笔、高级主任编辑，添加HR微信（Dr-wly）或扫描文末二维码了解详情。」

三连冠！科大讯飞又双叒夺「史上最嘈杂」语音识别任务CHiME-6冠军

5月4日，有着最难语音识别任务之称的CHiME-6成绩揭晓：科大讯飞联合中科大语音及语言信息处理国家工程实验室（USTC-NELSLIP）在给定说话人边界的多通道语音识别两个参赛任务上夺冠。

自参赛以来，科大讯飞连续获得了2016年CHiME-4、2018年CHiME-5、以及2020年CHiME-6三届比赛冠军。

最厉害的是，本次CHiME-6比赛中，讯飞将语音识别错误率从CHiME-5的46.1%降低到了30.5%，成为所有参赛队伍中唯一将错误率做到接近30%的机构！

? ? ? ? ?

? ? ??

?科大讯飞夺得CHiME-6冠军（Track1:Ranking A）

? ? ? ?科大讯飞夺得CHiME-6冠军（Track1:Ranking B）

比赛过程中，主办者之一、JHU教授Shinji Watanabe还录制了一段介绍视频：

被称为「史上最嘈杂」，英法美三国联合推出的CHiME什么来头？
?

国际多通道语音分离和识别大赛CHiME（Computational Hearing in Multisource Environments），由法国计算机科学与自动化研究所、英国谢菲尔德大学、美国三菱电子研究实验室等知名研究机构所于2011年发起，至今已举办6届。

? ? ? ?

? ? ?

比赛的目的是希望学术界和工业界针对高噪声、高混响、自由讨论场景提出全新的语音识别解决方案，从而进一步提升语音识别的实用性和普适性，属于国际语音识别评测中的高难度比赛。

因其比赛极具挑战，参赛团队也大牛如云，已成为业界影响力最大、参赛队伍最多、水平最高的多通道噪声鲁棒性语音识别比赛。

历届CHiME比赛的参赛队伍包括英国剑桥大学、美国卡内基梅隆大学、约翰霍普金斯大学、日本NTT、日立中央研究院、德国RWTH亚琛大学、帕德博恩大学、捷克布尔诺理工大学等国际一流高校和研究机构，以及清华大学、中国科学院大学、中科院声学所、中科院自动化所、西北工业大学等国内顶尖院校和研究所。

而在CHiME-6中，美国的约翰霍普金斯大学(JHU)、俄罗斯STC公司、德国帕德博恩大学(Pardeborn University)、捷克布尔诺理工大学(Brno University of Technology)等知名学术机构及企业均有参赛。

CHiME-6被被称为「史上最嘈杂的语音识别任务」，其中有四大难点：

大量的语音交叠（Speech Overlap）
远场混响和噪声干扰对录音的影响
对话风格非常自由、近乎随意
训练数据有限

?? ? ? ?

? ? ?CHiME-6音频样本采集于厨房、起居室、客厅等场景的多人对话

怎样拿到CHiME三连冠？讯飞语音识别技术的精进之路

2016年9月13日，在Google位于旧金山的总部，国际多通道语音分离和识别大赛（CHiME）组委会宣布：科大讯飞的团队在六麦克风、双麦克风和单麦克风场景下都取得了最好的成绩。

你可能会问，为啥要设置这么多麦克风赛道，麦克风越多语音识别效果越好吗？

首先，采用多麦克风阵列可以增强环境中的特定声音信号，双麦克声源只能定位180°内的范围，而环形麦克风阵列（不管是4Mic、6Mic还是8Mic）都可以做到360°无死角声源定位，不同阵列的麦克风拾音效果不同，所以不能用同一标准衡量不同阵列的语音分离和识别效果。

? ? ? ?

? ? ?

六麦克风阵列声音采集

科大讯飞在CHiME-4中的六麦克风场景下达到了2.24%的词错误率，这样的效果不能说完美，但是已经可以满足很多复杂场景下的语音识别需求了。

? ? ? ?

? ? ?

2016年六麦克风场景各参赛机构词错误率对比

时间来到两年后的2018年9月7日，微软海得拉巴研发中心，新一届CHiME-5的比赛结果揭晓，科大讯飞团队再次包圆全部四个项目的第一，并大幅刷新了各项目的最好成绩，「我要，我全都要」。

?? ? ? ?

? ? ? ?

刚刚过去的五一假期，讯飞又将2020年CHiME-6两项任务的冠军收入囊中，年年都是你，别人还怎么玩？

得益于多年在真实场景下的技术积累，这次讯飞联合团队针对比赛任务进行了一系列技术创新，在前端信号处理和后端声学建模上都有了质的提升。

在前端信号处理方面，联合团队提出了基于空间-说话人同步感知的迭代掩码估计算法(Spatial-and-Speaker-Aware Iterative Mask Estimation, SSA-IME)，该算法结合传统信号处理和深度学习的优点，利用空时多维信息进行建模，迭代地从多个说话人场景中精确捕捉目标说话人的信息。该算法不仅有效降低了环境干扰噪声，而且可以有效消除干扰说话人的语音，从而大大降低了后端识别的难度。

在后端声学模型上，联合团队提出了基于空间-说话人同步感知的声学模型(Spatial-and-Speaker-Aware Acoustic Model, SSA-AM)，通过在声学模型输入端拼接多维度的空间信息和不同说话人信息，使其能自适应地区分目标说话人和干扰说话人。因此，声学模型不仅依赖前端算法的处理结果，也能够自适应地完成对目标说话人语音特征的提取，大大提升了多人对话场景下语音识别声学模型的容错率和鲁棒性。

冠军只是证明技术实力，但综合实力拼的是技术转化为产品落地的能力！

科大讯飞长期致力于智能语音技术的源头创新及产业化，并不断挑战语音识别实际应用中的技术难题。此次CHiME-6的研究成果，无疑将进一步拓展科大讯飞语音识别的应用空间。

比如在远距离会议场景下，交流的随意性、声音叠加的现象明显减少，而训练数据却大幅增加了，因此操作难度要比CHiME-6的比赛任务低得多，错误率势必会大幅下降。

仅在2019年，科大讯飞的技术就服务了国内外2000多场高规格大会！科大讯飞也成功的成为北京2022年冬奥会和冬残奥会官方自动语音转换与翻译独家供应商，为奥运会提供自动语音转换与翻译技术和服务。

? ? ? ?