小米王育军:小爱背后的小米语音技术
2019.09.25 05:17浏览量:1954简介:嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频—
嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。
人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术作为合作自媒体。本次承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。“AI未来说·青年学术论坛”第四期“语音技术”专场已于2019年4月27日下午在中科院举行。小米王育军老师为大家带来报告《小爱背后的小米语音技术》。
王育军博士,小米人工智能部门人工智能实验室语音技术总监,2000年毕业于清华大学自动化系,随后赴英国伯明翰大学电子系学习人机交互。2002至2004年就职于NEC电子,从事嵌入式语音识别与语音合成。随后加入中软国际从事声学模型训练技术。2007年到2012年在比利时鲁汶大学电子系从事抗噪语音识别。回国后加入百度语音技术部。2015年就职于乐视,负责语音识别与自然语言理解技术。2017年加入小米,负责语音识别与语音合成技术。
报告内容:语音技术,包括语音识别与合成等,经历了几十年的发展,随着算力,数据,开源,人才的爆发,结合用户场景的重新定义,而再次活跃于用户的视野。小米的语音快速地借助“弯道”达到了80分的成绩,但也无法避免进入到了语音锅碗瓢盆的“平凡生活”,我们必须要面对失配和不当的模型假设。在这些方面我们和前辈的时间差距,就是2017减前辈团队成立的时间。我们体会到“热”启动项目带来的浮华,也被那些“冷”启动项目深深的伤害着。但我们不能无脑地、不停地接着大大小小的项目,因为那样连僵尸都不会喜欢。我们要创新,产品创新和技术创新是寒冬里的强心剂。本次我们将分享小爱背后的语音技术之路,以及路上的风景和经验。
小爱背后的小米语音技术
王育军博士首先由文艺复兴的标志讲到了人工智能的复兴,在他看来,语音技术行业是被人工智能了,所以也被复兴了。当提及语音技术为什么能快速发展时,他提到了人工智能的四个重要因素。一是算力,使用GPU的显卡加速了模型的训练过程。二是大数据的支持,也就是多样、丰富的用户场景提供了模型训练所需要的数据。三是开源的算法,现有的人工智能学习的框架和开源的算法,为研究者们提供了很多有借鉴性的方法,促进了人工智能领域的交流与合作,加速了算法的研究进程。四是人才,大量的优秀人才加入到了人工智能的领域中,为人工智能的发展提供了有力的人才支撑。
然后讲到了小米人工智能语音实验室所用到的方法论,简单概括就是“把握方向盘,当好老司机”。方向盘的核心是测试集,围绕在周围的是数据、训练集群、模型迭代和算法融合等因素。测试集作为方向盘的核心,一定要反应真实的语音应用的场景,反应真实用户的数据分布。并围绕方法论的核心,收集和制造训练数据,使用稳定的训练集群进行模型迭代,并使用算法融合的策略使性能达到预期的标准,然后就可以上线了,上线的周期通常需要6个月左右。关于数据重要还是模型重要这个问题,王育军博士指出数据和模型同样重要,数据中蕴含大量的信息,模型中蕴含我们的优化目标,两者缺一不可。
接着分享了小米语音识别发展的历程。小米做语音的入口是电视,电视是语音识别的一个钥匙,把语音识别拆开两部分,分别为声学模型和语言模型,电视节目是一个语言场景,在声学上可以做语音遥控器。然后就开始做手机,结合小米AI的一些信息,如小米搜索框和小米浏览器中的用户数据,可以在短期内得到一个比较稳定的模型。接着又做小型手表语音助手,在语音识别中儿童语音的识别是一个难点,但小米认为要打开语音识别的大门,儿童语音识别是不可缺少的,并加大了对儿童的语音的研究,并取得了相对较好的成果。
讲完电视、手机和手表等近场场景的应用之后,又分享了远场场景的小米音箱,由于没有足够的训练语料,所以使用数据仿真等手段做数据增广,使用垂直策略反应产品的稳定性,并结合交叉验证来改善模型的性能。并通过距离音箱远近和加不加噪声等四个应用场景对小米音箱进行了验证。
另外与大家分享了如何获得训练语料的经验,大量语料的人工标注是很贵的,使用已有的比较成熟的识别器,从不同的角度对语料信息进行预测,并把预测信息作为语料的标注信息。这个由识别器获得的训练语料的标注准确度是比较好的,有时比人工标准的结果还要好。但对于儿童的语料最好还是进行人工的标注。
最后,与大家分享了自己的一些感悟。第一点,电视是语音技术重要的应用场景,是语音世界的钥匙。第二点,使用现有的方法解决大量数据标注的问题,尽量减少人工标注的成本。第三点,把握方向盘,做好老司机。第四点,选择合适的问题和框架,进行大量的调试,坚持理论自信,相信自己。更多精彩的内容请关注视频分享。
发表评论
登录后可评论,请前往 登录 或 注册