中科院张家俊:面向自然语言生成的同步双向推断模型

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。

 

 

人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。由中国科学院大学主办,百度公司提供支持,读芯术作为指定合作自媒体的“AI未来说·青年学术论坛”第二期“自然语言处理”专场已于2019年2月23日下午在中科院举行。张家俊老师为大家带来报告《面向自然语言生成的同步双向推断模型》。

 

张家俊老师是中国科学院自动化研究所模式识别国家重点实验室副研究员,中国中文信息学会机器翻译专委会副主任,青年工作委员会执行委员,中国计算机学会中文信息技术专委会委员;人工智能学会青年工作委员会常务委员。

 

研究方向为自然语言处理、机器翻译、跨语言跨模态信息处理等。在国际著名期刊IEEE/ACM TASLP、IEEE Intelligent Systems、TACL与国际顶级会议AAAI、IJCAI、ACL、EMNLP、COLING等发表学术论文60余篇。曾四次获得自然语言处理学术会议最佳论文奖。被ACL-IJCNLP-2015、NAACL-2018和IJCAI-2018评为杰出审稿人/高级程序委员会委员(Outstanding Reviewer/SPC)。2014年和2018年分别获中国中文信息学会“钱伟长中文信息处理科学技术奖”一等奖(排名第三)和汉王青年创新奖。2015年入选首届中国科协“青年人才托举工程”计划。担任国际自然语言处理大会COLING-2018的领域主席和国际人工智能大会IJCAI (2017-2019)和AAAI-2019的高级程序委员会委员等。

 

面向自然语言生成的同步双向推断模型

 

 

张老师的分享聚焦在团队在自然语言生成(Natural Language Generation, NLG)领域中的一点最新进展,面向自然语言生成的同步双向推断模型。

 

张老师将自然语言处理(Natural Language Processing, NLP) 的任务形式地化划分为四类:输入和输出等长的序列标注任务;输入序列输出类别的分类任务;输入两个序列输出相似度的语义相似判别任务;输入和输出不等长的序列生成任务。

 

张老师首先介绍了在自然语言理解(Natural Language Understanding,NLU)领域取得重大突破的 BERT (Bidirectional Encoder Representations formTransformers) 模型,分析了 BERT 模型的成功因素,进而提出了应用在 NLG 领域的 BIFT (Bidirectional Inference ForTransformer) 模型。BIFT 模型取得了可观的性能提升。

 

张老师认为,BERT 成功主要有四个因素:一是架构允许 Pre-training 和在同一个模型上fine-tuning;二是采用了 Deep bidirectional TransformerEncoder;三是采用了 Masked LM 和 NextSentence Prediction作为优化目标函数;四是训练采用庞大的语料库。

 

通过对比 BERT 模型与 GPT 模型的表现,说明双向编码器起到了关键作用。但是 BERT 模型建模的是分类问题和序列标注问题,并不适合做自然语言生成任务,因为一般的自然语言生成是从前向后单向的,后面的词尚未产生,无法使用双向模型。

 

张老师所在团队尝试在机器翻译工作中改进Transfomer 模型,提出了 BIFT 模型。BIFT 模型使用同步双向解码算法,双向输出,即从前到后与从后向前每一个方向的输出都依赖于双向的生成结果。此外,BIFT 模型应用到自动摘要上的效果也很好。

 

张老师认为,BERT 模型擅长处理自然语言理解任务,是因为能够对输入进行双向理解和编码,而 BIFT模型解决了单向解码模型的一些问题,同步双向的方式可能能够成为解码推断的一种新范式。