logo

清华大学吴及:音频信号的深度学习处理方法

作者:HelloDeveloper2019.09.25 03:10浏览量:1981

简介:嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频—

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。

 

 

人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术作为合作自媒体。本次承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。“AI未来说·青年学术论坛”第四期“语音技术”专场已于2019年4月27日下午在中科院举行。清华大学吴及老师为大家带来报告《音频信号的深度学习处理方法》。

 

吴及,清华大学电子工程系副系主任,长聘教授,博士生导师。清华-讯飞联合实验室主任。IEEE 高级会员,中国语音产业联盟技术工作组组长,认知智能国家重点实验室学术委员会委员,口腔数字化医疗技术和材料国家工程实验室第二届技术委员会委员,中国计算机学会语音对话与听觉专业组委员。2018-2022 教育部电信类专业教学指导委员会副秘书长,承担国家重点研发计划、863、国家自然科学基金、工信部电子发展基金等多项国家科研项目。

 

报告内容:深度学习方法的引入显著推动了语音技术的进步。语音识别语音合成和说话人识别的实际应用都在不断增长,语音技术已经成为人工智能的重要组成部分和应用落地的主要方向之一。音频信号要比语音信号范围更大,也有很多重要而有趣的研究方向,比如音频场景分析。对于音频信号,传统上的处理方法都可以分为音频特征抽取和音频序列建模两个主要部分。这个报告讨论了将深度学习方法引入音频信号处理中的一些尝试和初步结果。

 

音频信号的深度学习处理方法

 

报告主要包括音频信号领域的研究方向介绍和将深度学习方法引入音频信号处理中的尝试和初步结果。

 

报告首先给出了传统的音频信号处理的基本框架,包括音频特征提取和特征序列建模两个主要部分。即从音频帧入手进行时频分析得到特征,再将多个帧得到的特征序列进行建模处理。传统方法通过短时傅里叶变换得到线性时频谱,再经由梅尔滤波器组得到梅尔能量谱,通过对数处理得到对数谱,还可以进一步处理得到MFCC等音频特征。

 

在特征提取上,引入深度学习方法,一是在梅尔滤波器组上构造频域滤波器组的神经网络。如果引入形状约束,此时滤波器增益、中心频点和带宽是三个可学习参数,对于三角窗滤波器可以使用 sigmoid 曲线和直线拟合三角窗,以保证全局可微性,也可以采用高斯窗滤波器或者采用无形状约束的滤波器。在频谱重建任务上,无约束的滤波器组表现得更好,而在音频场景分类任务上,有形状约束的滤波器组表现更好。进一步分析学习得到的滤波器,可以发现可学习滤波器组倾向于使用更多的低频信息。二是改进端到端的音频特征提取方法。TCNN (Google, 2015) 提出可以使用时域卷积+时域池化+非线性变换的时域信号处理单元。WaveNet (Google, 2016) 提出可以使用逐层邻域卷积+时域池化非线性变换。报告提出了使用神经网络进行傅里叶变换的模块,通过挑选特定频点的方式,提高了该模块的时间效率,通过向可学习频点中添加相应的初始化条件,优化傅里叶变换模块中的频点挑选,并通过为学习基函数添加正弦和余弦约束条件,来提高该模块的特征提取能力。相比于TCNN和WaveNet,该模块的性能和效率都有了显著提升。

 

在特征序列建模部分也开展了一系列的工作。在复杂音频场景信号中,某些音频事件的发生是随机的,因此类似的音频帧可以出现在不同位置,称之为音频时移形变;针对这个问题,提出了基于傅里叶变换的时间转移模块,时频谱通过序列傅里叶变换和取能量得到特征谱,再经过特征降维得到音频特征。该模块可以叠加到 DNN、CNN、LSTM 等不同的神经网络结构,并在音频场景分类任务中取得了一致的性能提升。对于由于数据量不足可能导致神经网络模型过拟合的问题,考虑通过随机分段乱序和随机跳帧的思想进行数据增广,提出了基于规则的音频序列扩充方法和使用随机跳帧的循环神经网络模型。基于规则的序列扩充即把数据分段并乱序重组,随机分割增加了序列的多样性,增大了数据规模,带来了明显的性能提升。随机跳帧策略可以分层实现,各层之间的跳帧策略可以相同,也可以不同,这一策略对 LSTM 和 GRU 均有效果,并且跳帧概率 p 取值越小,序列多样性越好,性能越好。对于神经网络序列建模能力不足的问题,通过给LSTM 每帧的输出一个权重和重构 LSTM 的记忆单元,提出了基于时间注意力和记忆注意力的 LSTM 模型。两种注意力机制存在互补性,在音频场景分类任务上实现了更好的性能。

 

将上述各种策略加以融合,经过端到端的优化,能够在计算效率提升约两个数量级的情况下,在音频场景分类任务上实现显著的性能提升。

 

最后,吴教授总结:深度学习为音频信号处理提供了新的视角和处理手段;传统方法可基于联合优化重新考虑和设计;基于深度神经网络的音频序列模型,能够利用音频信号的特性加以优化;端到端的音频信号处理在效果和效率方面都有很大的潜力。

相关文章推荐

发表评论