中科院刘斌:基于联合对抗增强训练的鲁棒性端到端语音识别

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。

 

 

人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术作为合作自媒体。本次承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。“AI未来说·青年学术论坛”第四期“语音技术”专场已于2019年4月27日下午在中科院举行。中科院刘斌为大家带来报告《基于联合对抗增强训练的鲁棒性端到端语音识别》。

 

刘斌,中科院自动化研究所模式识别国家重点实验室博士生,导师是刘文举研究员。主要研究兴趣为鲁棒性语音识别、声纹识别、语音唤醒、对抗学习。把对抗学习应用到鲁棒性语音识别中,获得了ICASSP 2018 最佳学生论文奖,先后参与华为、腾讯、滴滴、学而思等合作项目。

 

报告内容:近年来,端到端系统在语音识别领域取得了重大突破。然而,端到端的结构对于噪声和混响的干扰不是特别鲁棒,在现实应用中性能显著降低。为了减轻这个问题,主流的方法是使用语音增强作为语音系统的前端模块。然而,增强模块会导致语音失真,与训练不匹配,有时会降低识别性能。在本文中,我们提出了联合对抗增强训练用来提高端到端系统的鲁棒性。具体地,我们使用基于掩蔽的增强网络、基于注意力的识别网络以及判别网络的联合训练方案。判别网络用于区分增强语音特征和纯净语音特征,可以指导增强网络输出更加接近真实分布。对于训练中的识别、增强和对抗性损失进行联合优化,使得语音识别系统的鲁棒性更强。AISELL-1的系统实验表明提出的方案提高了端到端系统的鲁棒性,相对于多条件训练相对误差率降低4.6%。

 

基于联合对抗增强训练的鲁棒性端到端语音识别

 

 

刘博士首先介绍了语音交互技术,语音交互是人机交互的新范式,语音交互时代即将到来,是人工智能技术的基础和国家战略发展的需要。然后又讲到了声学建模技术,并详细介绍了DNN-HMM模型和端到端(End-to-End)模型的基本框架。

 

近年来,端到端系统在语音识别领域取得了重大突破。在端到端模型中,CTC 模型、注意力模型及二者的混合模型是常见做法。但是在真实的语音环境中,噪声(由目声源之外的声源发出的声信号)、回声(智能终端接收目标信号的同时,也发出声音所造成的干扰)、混响(目标语音信号经过墙壁等再次或者多次发射信号)等严重干扰了语音信号,损害了语音的可懂度,降低了语音交互的性能。端到端的结构更易受到噪声干扰,在现实应用中性能显著降低。

 

在模型空间里,可以通过调整声学模型的参数来降低噪声的影响,通过多条件训练即基于多类带噪音频训练声学模型,这需要更多的数据。

 

在特征空间里,可以从语音特征的角度出发,对语音信号进行增强(降低噪音或噪音消减,即语音增强),这个过程可能产生语音畸变,甚至降低了识别的性能。

 

 

刘博士的报告提出了使用联合对抗增强训练用来提高端到端系统的鲁棒性,讲述了使用基于掩蔽的增强网络、基于注意力的识别网络以及判别网络的联合训练方案,并通过实验验证了噪声对端到端语音识别性能的影响和语音增强后的实验结果。传统做法上,语音增强和语音识别两个模块是分开训练的,刘博士提出将两者进行联合训练,再通过生成式对抗网络提升模型和鲁棒性。判别网络用于区分增强语音特征和纯净语音特征,可以指导增强网络输出更加接近真实分布。对于训练中的识别、增强和对抗性损失进行联合优化,使得语音识别系统的鲁棒性更强。

 

AISELL-1的系统实验表明提出的方案提高了端到端系统的鲁棒性,相对于多条件训练的相对误差率降低了 4.6%。

 

刘博士表示,未来将在更大的数据集上进行实验,以及探索基于麦克风阵列的前后端融合在鲁棒性端到端声学建模上的应用。