logo

百度康永国:AI 时代的百度语音技术

作者:HelloDeveloper2020.07.07 20:42浏览量:2545

简介:嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频—

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。

 

 

人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术作为合作自媒体。本次承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。“AI未来说·青年学术论坛”第四期“语音技术”专场已于2019年4月27日下午在中科院举行。百度康永国为大家带来报告《AI 时代的百度语音技术》。

 

康永国博士,百度主任架构师,CCF语音对话与听觉专业组常委。2006年博士毕业于中科院自动化研究所,2013年加入百度,负责组建语音合成团队及语音合成技术开发。在两年的时间内先后开发上线了基于拼接的在线合成和基于统计的离线合成,合成效果超越竞品科大讯飞,分别应用在了手百、地图等数十条产品线,曾经带领团队荣获TG体系2015年最佳进攻团队。2016年,在推进产品落地的同时大力推进合成团队技术创新,将深度学习技术和语音合成中的声学建模、韵律建模以及文本处理结合在一起,并将其应用在了大数据情感合成中,大幅提升了大数据情感合成的合成效果,带领团队获得2016年百度最高奖。在技术攻坚之外还提倡有温度的技术,将语音合成技术应用在了怀念张国荣活动和北京电视台时光缘节目的原音重现中,在使用技术传递正能量的同时大大提升了百度的品牌形象。

 

报告内容:在深度学习为主流的AI时代语音技术获得了突破性的进展,而百度作为最早进行语音技术研发的互联网企业,其语音技术一直处于业界的领先地位。百度语音技术部是百度内部唯一进行语音技术研发的部门,为百度搜索、地图、度秘、百度云等产品部门提供语音识别、合成、唤醒等语音技术,并且通过百度语音开放平台服务于万千开发者。本次报告将介绍百度语音技术部最近在各项语音技术上的最新进展,揭秘小度音箱背后的黑科技。

 

AI 时代的百度语音技术

 

 

康永国博士首先介绍了百度语音的进展,以及在产品上的一些应用。百度是在2010年左右开始做语音技术的,在2012年左右深度学习应用于百度的语音技术,相关的语音技术发展迅速。包含百度语音技术的产品有百度搜索,百度输入法,百度地图,度秘和小度音箱之类的产品。百度语音技术除了自己内部使用外,还会对外开放,为语音技术的开发者们提供了技术开发的平台,现在的活跃开发者已经超过5000,日调用总次数超过50亿次。

 

百度的语音技术分为三个模块,语音唤醒,语音识别和语音合成。这三个模块都围绕着语音交互,语音唤醒是指知道人类在对TA说话,语音识别包括极致识别、意图理解、说话人区分,语音合成包括机器说话和音色预测等。

 

然后讲到了百度语音部门提出的流式多级的截断注意力模型(SMLTA),创新点是流式、截断、多级和注意力。该模型使相对准确率提升15%,是国际上首次超越整句的注意力建模,是国际上首次实现在线语音大规模使用注意力模型。

 

对于多语言的问题,康永国博士讲到了百度的输入法,可以解决中英混合识别的问题,并取得了高、精、准的识别效果。对于远场语音-端到端的问题,康永国博士提到了低成本的硬件方案、极低的误报唤醒、高精准的识别、高度拟人的语音合成、多品类的音频内容服务等解决方案。百度的远场语音场景的产品,已经相对比较成熟,现在已经有110多款产品落地。然后向我们介绍了百度语音技术和产品的发展脉络。

 

接着又讲到了语音合成的技术,语音合成包含四个层,即语音层、声学层、文本层和数据层。语音合成和语音识别一样依赖于数据,甚至可能比识别更依赖于数据。数据层主要包含数据录制和数据标注,文本层主要包括文本正则、分词、多音节注音和韵律预测,声学层包含时长预测、基频预测、频谱预测和端到端,语音层包括单元选择、波形拼接、声码器、神经网络声码器和后处理。现在做语音合成,不仅仅是做一个算法,而是要有全链条的音库制作能力,包括自建高质量录音棚、稳定发音的人选择渠道、精干的数据标注团队和高精度自动数据处理。

 

康永国博士对比了传统的语音合成技术和基于神经网络的语音合成技术,声学模型是传统的思路,对于数据的要求比较低,而且带来的badcase很少,和端到端的模型又非常相似。提到了EMPHASIS声学建模,它是一个非端到端的方法,但是它的建模能力和端到端的方法相差无几,它的优势在于可以解决端到端模型不能修补badcase的问题。然后对比了参数合成技术和拼接合成技术。

 

最后,康永国博士总结了语音技术在产品上的应用。主要包括四个方面的应用,一是语音交互,包括智能音箱和智能客服,二是信息传播,包括地图导航和咨询播报,三是内容产生,包括AI主播和虚拟人物,四是有声阅读,包括小说播报和儿童讲故事。更多精彩的内容请关注视频分享。

相关文章推荐

发表评论