中科院庄福振:基于知识共享的机器学习算法研究及应用

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。

 

 

人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。“AI未来说·青年学术论坛”系列讲座由中国科学院大学主办,百度全力支持,读芯术作为合作自媒体。承办单位为中国科学院大学学生会,协办单位为中国科学院计算所研究生会、网络中心研究生会、人工智能学院学生会、化学工程学院学生会、公共政策与管理学院学生会、微电子学院学生会。“AI未来说·青年学术论坛”第六期“机器学习”专场已于2019年6月23日下午在中科院举行。中科院庄福振副研究员为大家带来报告《基于知识共享的机器学习算法研究及应用》。

 

庄福振,副研究员、硕士生导师,中国人工智能学会机器学习专委会委员,中国计算机学会模式识别与人工智能专委会委员。2011年7月在中国科学院计算技术研究所获得博士学位,2013年9月被聘为副研究员。主要从事机器学习和数据挖掘领域的相关研究工作,包括迁移学习、多任务学习、推荐系统等,相关研究成果已经在本领域顶级、重要国际期刊和国际会议上发表录用论文80余篇,其中SCI(或SCI源)30篇,CCF B类以上60多篇,获SDM2010和CIKM2010最佳论文提名。Google Scholar总引用1600多次,h-index 20。申请专利10项,其中授权5项,另获软件著作权10项。承担和参与多项国家自然科学基金项目以及企业横向项目,入选2015年微软亚洲研究院青年教师“铸星计划”,获得2016、2019年度百度松果计划支持。2013年获得中国人工智能学会优秀博士学位论文奖,入选2017年中国科学院青年创新促进会。

 

报告内容:在大数据时代,数据量呈现爆炸性增长,而且数据呈现出多源、异构、多模态、高维等特点,这给传统机器学习算法带来了非常大的挑战。为了保证训练得到的分类模型具有高准确性和可靠性,传统机器学习假设用于学习的训练样本与新的测试样本满足独立同分布条件,且必须有足够可利用的训练样本才能学习得到一个好的分类模型。而在大数据环境下,标记足够多的训练样本不仅费时耗力而且变得不可能,另外测试数据往往来自其他领域且具有不同的数据分布,这给传统机器学习算法研究带来了巨大的挑战。本次报告致力于解决机器学习算法处理数据分布不一致、标注数据稀少的分类问题,对基于知识共享的机器学习和数据挖掘算法展开研究,旨在提高目标任务上的分类准确率。报告的主要内容包括基于知识共享的模型介绍、团队在基于知识共享的机器学习和数据挖掘算法方面所做的研究工作及其未来方向三个部分。

 

基于知识共享的机器学习算法研究及应用

 

庄福振副研究员首先介绍了大数据的应用场景,并以大数据分类为例讲到了数据标注这一应用难点,引出了基于知识共享的四种模型,进而探讨了基于知识共享模型的区别与联系。大数据的应用非常广泛,如:金融服务业的欺诈检测、用户画像,能源与公共事业的智能电表分析,智慧医疗的病例分析,数字媒体的实时广告定位,以及运输业、快递、通讯行业、司法执法、零售业等行业。在上述应用过程中,往往存在着数据标注的难点。以大数据分类为例,需要对大量数据进行人工标记,往往费时费力,由此想到可以通过有标记的训练样本来共享知识,从而训练得到一个好的模型,即基于知识共享的模型。

 

基于知识共享的模型可以分为四种基本类型:迁移学习、多任务学习、多视图学习和模型融合。其区别是:迁移学习就是迁移知识的过程,旨在通过共享知识提升目标领域上的性能;多任务学习旨在通过共享知识提升所有任务上的总体性能;多视图学习旨在充分利用数据多个视图信息,在有限标记数据情况下,提升目标数据上的性能;模型融合是通过共享多个来自单个或多个领域的模型的知识,提升目标数据上的性能。其联系是:迁移学习、多任务学习可用于多视图学习;且模型融合技术可以用于迁移学习、多任务学习、多视图学习。

 

接着,分别对迁移学习、多任务学习、多视图学习的实现过程、应用场景以及他们团队所做的工作进行了详细介绍。

 

对于迁移学习,其产生的原因是由于源领域和目标领域数据的分布不一致性。传统监督机器学习的两大假设是数据同源、独立同分布和有足够多的带标注的训练样本,比如利用苹果和香蕉的大量图片数据进行训练,对苹果和香蕉的图片进行测试,可能得到很高的准确率。但上述假设在实际应用场景中通常不能得到满足,不同领域数据之间通常是不同源、分布不一致,且人工标记训练样本费时耗力。因此,需要一种运用已有的知识对不同但相关领域问题进行求解的一种新的机器学习方法,比如迁移学习,它放宽了传统监督机器学习中两个基本假设,只需相关但不必同分布,且不需要很多的带标注训练样本。

 

迁移学习场景无处不在,比如:异构特征空间的迁移学习,假设只有苹果和香蕉的文本描述信息,如何对苹果和香蕉图片数据进行分类的问题;产品评论信息的预测,用与电子产品不用领域的DVD产品评论信息来预测电子产品评论信息时,准确率大大降低的问题等。标注所有领域样本是不切实际的,因此需要迁移学习。由此,庄福振副研究员引出了他们团队所做的三大方面的工作:基于概念学习的迁移学习算法,对网页进行分类;基于多模型融合的迁移学习算法,包括一致性监督损失、锚点适配器集成、概率嵌入模型和基于局部嵌入模型;基于深度学习的迁移学习算法,包括一致性正则化自动编码机、双层(表示层+标记层)自动编码机。

 

多任务学习是通过对多个单任务共同学习,不同的任务互相共享知识,来提高学习效果。通常多任务学习是单视图的,在多任务基础上结合多视图学习,则可产生多任务多视图学习,更进一步有不同类别空间的多任务多视图学习。其学习场景有很多,比如:网页分类,多任务可代表对Yahoo网站的网页和对DMOZ网站的网页进行同时分类,多视图有网页的内容和网页之间的链接信息;音乐分类,多任务可代表对中文歌曲进行分类和对英文歌曲进行分类,多视图有特定视图中文歌曲歌词和英文歌曲歌词以及共同视图音频特征等。然后介绍了他们团队所做的一些工作:多任务学习算法方面,包括自动编码机+共享参数、语义学习+异构特征空间、基于层次结构的知识图谱嵌入和标签敏感的多任务学习;多视图学习算法方面,包括语义多视图学习、共享结构多视图学习和在线贝叶斯大间隔子空间多视图学习等。

 

在实例方面,介绍了两个例子:一个是IJCAI 2015数据挖掘竞赛任务,另一个是他们团队与微软合作,利用跨领域推荐算法对用户行为序列进行预测。

 

最后,庄福振副研究员探讨了基于知识共享的机器学习算法研究的未来方向,包括理论分析支持、应用场景、隐私等。