港中文李弘扬 :物体检测最新进展

嗨,大家好。这里是学术报告专栏,读芯术小编不定期挑选并亲自跑会,为大家奉献科技领域最优秀的学术报告,为同学们记录报告干货,并想方设法搞到一手的PPT和现场视频——足够干货,足够新鲜!话不多说,快快看过来,希望这些优秀的青年学者、专家杰青的学术报告 ,能让您在业余时间的知识阅读更有价值。

 

 

人工智能论坛如今浩如烟海,有硬货、有干货的讲座却百里挑一。由中国科学院大学主办,中国科学院大学学生会承办,读芯术作为指定合作自媒体的“AI未来说·青年学术论坛”第三期“计算机视觉”专场已于2019年3月24日下午在中科院举行。港中文李弘扬博士为大家带来报告《物体检测最新进展》。

 

李弘扬,香港中文大学多媒体实验室(MMLab)博士生,微软亚洲研究院实习生。博士期间导师为王晓刚教授。主攻计算机视觉和深度学习方向,尤其对物体检测、人体姿态估计、CNN网络结构设计、少样本学习(few-shot learning)、胶囊网络(capsule networks)等热点问题做了一些初步探索。在机器学习和计算机视觉六大顶级会议和两大顶级期刊中,共发表文章9篇,其中一作6篇(包含1篇口头报告)。多次担任顶级会议审稿人、AI教育公司兼职顾问。

 

报告内容:物体检测(object detection)作为计算机视觉中最基础、最核心的任务,多年来备受学术界、工业界关注。一方面检测任务涉及机器学习中最根本的分类、回归问题,另一方面,随着深度学习、大规模数据集的兴起,很多视觉任务(语义分割、图像描述、图像问答等等)的基石都是由物体检测框架构建起来的。本次报告首先会简要回顾以R-CNN为框架的一系列经典方法;然后重点介绍我们发表在ICLR2019 上的最新工作--利用相同类别中大物体的特征帮助小物体的学习,从而解决RoI-pooling操作中小物体上采样时特征不准的瓶颈;同时最优运输(optimaltransport)理论也被用来选择最合适的大物体特征图。我们的方法在COCO和Pascal数据集上都取得了显著的提升。最后,本次报告会和观众们探讨物体检测领域下一阶段的发展方向。

 

物体检测最新进展

 

香港中文大学多媒体实验室博士生、微软亚洲研究院实习生李弘扬博士报告的主要内容包括物体检测的介绍、Feature Intertwiner Module 和关于物体检测的未来发展趋势的展望。

 

李弘扬博士首先介绍了物体检测的背景和研究意义。物体检测中存在诸多的挑战,比如形状(shape)、外貌(appearance)、大小(size)的变化,以及混乱场景中的模糊现象。有两种可能的解决方案,一种是在图像上铺尽可能多的锚点框(anchor),另一种是使网络的层数尽可能地深。

 

并介绍了为什么有固定的 ROI 输出和大小anchor 的放置的问题。ROI 之后要求 size都是固定大小,是因为后面要经过 Global Pooling,并且把 Global Pooling 的特征都映射到同一特征空间中,所以 Pooling 必须是预先设计好的,即 ROI 之后的 size 必须是一致大小的这是 ROI 设置的最本质的问题。关于大小 anchor 的放置问题,要把小的 anchor 放在网络的前端,而把大的 anchor 放在网络的后端。这是由于在网络中如果卷积的 stride 大于1,或者有pooling 的操作,会把 anchor 变得越来越小,使小物体检测变得越来越难。由于卷积的前几层 stride 比较小,小物体的 feature 信息不容易丢失。对于大的 anchor,要变化到 ROI Pooling 要求的 size 的大小通常是一个 downsample 的下采样过程,在经过 downsample 的下采样的过程后特征会变得更加准确,这是一个优中选优的过程,而小的 anchor 变化到 ROI Pooling 要求的大小通常时一个 upsample 的采样过程,一个直观的印象是在编造的过程,经过 ROI Pooling之后的特征可能会不准。所以要把小的 anchor 放在网络的前面,而把大的anchor 放在网络的后面。

 

然后讲了二步法存在的一些问题,并介绍了 FeatureInterwiner 的模块,由于大物体的 feature 比较准确,而小物体的 feature 不太准确,可以把大物体的 feature 作为一个 soft target 来指导小物体特征的学习,在小物体特征提取时加一个 Makeup Layer来学习丢失的 local details,通常使用 L2 loss 来用大物体的特征来弥补小物体的特征。并使用 buffer 来记录训练时比较准确的特征,其中buffer不需要进行梯度的更新。介绍了 Feature Interwiner 的模块之后又介绍了使用该模块的实验结果。

 

最后对物体检测的未来进行了展望,当前物体检测的方法(一步法检测器和二步法检测器)都是基于 anchor 的,bounding box 在检测物体时有时不是很准确,是否可以使用 bottom-up 的方法来检测物体,如像素级别的分割,使用pose的方法来预测bounding box 的左上角点(top-left corner)和右下角点(bottom-right corner)。还有是否可以不仅使用上下文信息,而且可以使用真实世界的 3D 结构来解决检测的问题。更多精彩的内容请关注视频的分享。