清华鲁继文:深度强化学习与视觉内容理解

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。

 

 

人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。由中国科学院大学主办,中国科学院大学学生会承办,读芯术作为指定合作自媒体的“AI未来说·青年学术论坛”第三期“计算机视觉”专场已于2019年3月24日下午在中科院举行。清华鲁继文老师为大家带来报告《深度强化学习与视觉内容理解》。

 

 

鲁继文,清华大学自动化系副教授、博士生导师,主要研究方向为计算机视觉、机器学习和智能机器人。以第一/通讯作者发表IEEE汇刊论文50余篇(其中PAMI论文12篇),CVPR/ICCV/ECCV会议论文50余篇,论文被Google学术引用7000余次(H指数为44),2篇论文获IEEE 国际会议最佳论文奖。主持国家自然基金联合重点基金1项,国家重点研发计划课题1项。担任国际期刊PRL主编,IEEET-IP、IEEE T-CSVT、IEEE T-BIOM和PR编委,IEEE信号处理学会多媒体信号处理技术委员会委员、信息取证与安全技术委员会委员、IEEE电路与系统学会多媒体系统与应用技术委员会委员、电路与系统学会视觉信号处理与通讯技术委员会委员,中国计算机学会计算机视觉专委会常务委员,中国图象图形学学会视觉大数据专委会常务委员。担任AVSS和DICTA等国际会议程序委员会主席4次,ICIP、ICME和ICPR等国际会议领域主席20余次。2015年入选中组部青年千人计划,2018年获国家优秀青年基金。

 

报告内容:深度强化学习是人工智能领域的研究热点,被认为是人类迈向通用人工智能的重要技术。深度强化学习通过将深度学习的感知能力与强化学习的决策能力相结合,以端对端的方式实现从原始输入到语义输出的感知与决策,在许多视觉内容理解任务中取得了重要突破。报告将介绍清华大学自动化系智能视觉实验室近年来提出的面向视觉内容理解的多个深度强化学习方法,主要包括多智能体深度强化学习、渐进式深度强化学习、上下文感知深度强化学习、图模型深度强化学习等,以及它们在人脸检测与识别、物体检测与跟踪、图像识别与检索、行为预测与识别等多个视觉内容理解任务中的应用。

 

深度强化学习与视觉内容理解

 

鲁教授带来了题为《深度强化学习与视觉内容理解》的分享。

 

视觉内容理解的本质是对图像或视频进行语义理解。计算机视觉本身要解决两个问题:“看得清”,“看得懂”。鲁教授的团队主要关注于“看得懂”这一问题,即理解图像和视频的内容。

 

视觉内容理解的研究目标有:

● 图片描述的场景

● 图片中有什么物体

● 图片中物体的位置

● 物体之间的关系

● 图片与场景关系

● 图片未来会发生什么

 

视觉内容理解要解决的问题有:

● 场景理解,场景识别

● 物体识别,物体检测,物体跟踪

● 物体之间的关系,物体与场景的关系,即关系推理

● 行为识别,行为预测

● 视频分析

 

视觉内容理解有很多挑战。在识别任务中,同样一个对象,不同的光照、不同的姿态、不同的视角、不同的尺度,数据差别很大。同时,深度学习需要大量的数据,但很多场景的训练样本很小,比如稀有的动物和医学图像,即小样本学习的问题。视觉推理任务则需要找到外部关系,通过场景和物体来推理发生的事件,视觉推理的问题是一个比较难的问题。视觉定位和导航(视觉交互问题)则需要多种传感器采集信息,进行跨模态的数据关联和匹配(多模态分析问题)。

 

鲁教授还介绍了强化学习的模型与应用,使用马尔科夫决策过程对视频进行建模,使用强化学习来选取和度量视频的有用帧,多智能体交互的过程就是马尔科夫决策过程。

 

鲁教授指出,近几年深度学习在大多数视觉理解任务上相比于非深度学习有着很好的性能提升,未来的趋势是通过引入自主学习,以搭积木的方式搭建模型。通过在深度学习中引入强化学习,把强化学习的决策能力和深度学习的表示能力结合起来,是一种更好的建模策略,从而提升相应视觉任务的性能。如何把深度强化学习方法与认知计算结合,提出更加符合人类认知的深度强化学习计算模型,进一步提升视觉内容任务的性能是未来视觉内容理解的重要研究方向。