PaddleVideo v2.2重磅发布!
2022.01.13 14:04浏览量:2816简介:新增产业级应用案例10个, PP系列特色、前沿算法8个,首次开源冠军、顶会算法5个,保姆级教程一应俱
导读
智能打标签、智能教练、智能剪辑、智能安防这些前沿技术正逐渐走近我们的生活。剪辑人员希望从比赛录像中便捷地提取比赛集锦,上网课的老师希望随时了解电脑摄像头前的学生是否在安心听讲,短视频网站希望能迅速给每个新作品打上标签并推送给合适的用户,监管部门也希望能精准地进行内容审核。但是面对千千万万的视频数据,每个任务都分配给人去做显然是不现实的,所以我们需要人工智能的帮助!
视频理解是通过AI技术让机器理解视频内容,如今在短视频、推荐、搜索、广告,安防等领域有着广泛的应用和研究价值,像动作识别、视频打标签、视频内容分析之类的任务都可以通过视频理解技术搞定!
PaddleVideo是飞桨视频模型套件,涵盖众多行为识别模型、优化实用PP系列模型以及产业级案例。本次PaddleVideo重磅升级,主要升级点如下:
- 发布10个产业级应用案例,涵盖体育、互联网、医疗、媒体和安防等行业。
- 首次开源5个冠军、顶会算法,包含视频-文本学习、视频分割、深度估计、视频-文本检索等前沿方向。
- 新增产业级、前沿算法8个,包含视频分类与动作识别、时空检测、镜头切分等技术方向。
- 提供保姆级视频模型教程,包括行为识别经典模型、前沿模型和PP特色产业级优化模型。
联合百度云深度打磨的产业级应用案例
1. 足球/篮球/乒乓球/花样滑冰动作识别方案
随着全民健身兴起,“AI+体育”已经成为了民众日益关注的话题,AI技术在体育场景中起着越来越大的作用。在健身房,智能教练可以为用户制定健身计划,矫正健身动作。在剪辑室,使用视频算法可以自动定位出精彩片段,实现智能剪辑。针对体育场景,我们提供了一套通用的体育类动作检测框架,该框架不仅能准确识别出动作的类型,而且能精确定位出该动作发生的起止时间。这套框架已经在线上业务中得到了充分验证,。PaddleVideo现阶段开源其中的足球案例FootballAction、篮球案例BasketballAction、乒乓球动作识别、花样滑冰动作识别方案。将动作识别出来后,可以方便的实现下游任务,如:智能剪辑、视频拆条、动作分析、智能评分、赛事解析等。
对于足球案例FootballAction,是基于欧洲杯2016比赛视频构建数据集。每一条视频时长约40分钟,共包含8个动作类别,分别为:背景、进球、角球、任意球、黄牌、红牌、换人、界外球。
对于篮球案例BasketballAction,共包含7个动作类别,分别为:背景、进球-三分球、进球-两分球、进球-扣篮、罚球、跳球。
对于乒乓球运动,近日,在百度百度开发者大会上,前中国乒乓球队领队姚振绪表示:以往为了向运动员提供针对性的技战术分析数据,技术团队需要耗费极大的人力与时间,反复查看历史视频、统计分析每个球得失分的原因,统计每一板使用了什么技术,成功率又是多少,这是一项费时费力、非常辛苦的繁重工作。为此,我们基于超过500G的比赛视频构建了标准的训练数据集,标签涵盖发球、拉、摆短等8个大类动作。PaddleVideo开源了基于SwinTransorfmer模型的乒乓球动作进行识别模型,目前动作识别准确率达到了82%以上。
花样滑冰因其优雅的舞姿、高颜值的参赛选手,备受年轻人喜爱。但由于舞蹈动作的专业性,非专业选手很难判断运动员们具体的舞蹈动作类型。为此,我们使用基于关节点的行为识别对动作进行识别。数据集均来源于2017-2018 年的花样滑冰锦标赛,由专业人员对动作进行标注。对输入视频,首先将其帧率统一,然后使用姿态估计算法提取关节点数据,最后将关节点数据输入时空图卷积网络ST-GCN模型中进行动作分类。使用基于关节点的行为识别方法可以去除环境的干扰,让模型重点关注选手的动作,进而提升识别准确率。
2. 知识增强的视频大规模/多模态分类打标签
在视频内容分析方向,主要目标是给视频打上语义相关的标签用于视频检索和推荐,本次发布,我们开源了其中最具代表性的几个视频分类模型,包括基础的VideoTag和多模态的MultimodalVideoTag。飞桨大规模视频分类模型VideoTag基于百度短视频业务千万级数据,支持3000个源于产业实践的实用标签,具有良好的泛化能力,非常适用于国内大规模短视频分类场景的应用。MultimodalVideoTag模型基于真实短视频业务数据,融合文本、视频图像、音频三种模态进行视频多模标签分类,相比纯视频图像特征,能显著提升高层语义标签效果。
3. 视频内容智能生成
在视频智能生产方向,主要目标是辅助内容创作者对视频进行二次编辑。我们开源了基于PP-TSM的视频质量分析模型,效果与性能明显优于基于均值和方差的GSTVQA模型。基于此模型,我们可以实现新闻视频拆条和视频智能封面两大生产应用解决方案,其中新闻拆条是广电媒体行业的编辑们的重要素材来源;智能封面在直播、互娱等泛互联网行业的点击率和推荐效果方面发挥重要作用。
4. 视频交互式标注工具开源
视频目标分割任务的目的是在视频序列中分割特定的目标。人工标注成本高昂,例如,标注DAVIS数据集每个视频帧中的一个物体就需要100秒。半监督视频分割需要提供视频第一帧的目标分割,而完整的目标分割获取是很困难的,需要耗费大量人力;无监督视频分割没有提供需要分割的目标信息,在多目标分割任务中会存在困难。 因此, 交互式视频分割(interactive VOS)应运而生,提供少量的人工监督信号来实现较好的分割结果,具体而言,给定一个视频序列,用户首先选取能够最好表达待分割目标的其中一帧视频图像,并以涂鸦的方式标注该目标,随后,分割算法基于用户提供的初始涂鸦标注给出视频每帧的分割结果,用户可以在某一视频帧上多次修改涂鸦来标记出算法分割错误的区域来提升算法的分割结果。此交互式标注工具的后端模型是交互式视频分割模型 MA-Net,我们仅靠标注简单几帧,即可完成全视频标注,之后可通过多次和视频交互而不断提升视频分割质量,直至对分割质量满意。
5. 基于时空动作检测单模型实现87类通用行为识别
视频中动作的识别有着广泛的应用场景,如:智能安防利用识别监控画面中是否存在异常行为;课堂上理解分析每个同学的学习状况。利用视频中的单帧做检测会忽略掉时序信息,可能会存在误检或者漏检的情况。如摔倒检测,正常视频中的摔倒是一个过程,而不是一个人躺下了就是摔倒,躺着的人可能会被误检成睡觉。为此,我们开源了基于SlowFast_FasterRCNN的时空动作检测模型,利用视频多帧时序信息解决传统检测单帧效果差的问题,从数据处理、模型训练、模型测试到模型推理,详细介绍了如何实现AVA数据集中80个动作和自研的7个异常行为(挥棍、打架、踢东西、追逐、争吵、快速奔跑、摔倒)的识别。
6. 无人机检测
在安防领域,我们新增无人机追踪功能。在日常生活中,我们习惯于使用无人机进行拍照,运输,表演等,但在诸如机场等场所无人机是被禁止飞入的,在这些禁飞场所无人机检测追踪就显得尤为重要。无人机追踪有如下挑战:(1)无人机目标微小,观测困难,(2)无人机移动速度多变,(3)无人机飞行环境复杂,可能被建筑、树木遮挡。针对以上挑战,我们开源了无人机检测模型,以实现在众多复杂环境中对无人机进行检测。
7. 医疗影像的分类鉴别
众所周知,帕金森作为一种影响神经退行性疾病,被称为“不死的癌症”,目前中国患者近300万,约占全球患者的1/3。3D-MRI影像鉴别帕金森异常困难,即使是经验丰富的影像科医师也几乎无法使用单一模态的脑部MRI鉴别帕金森患者和正常人。深度学习有望提供,因此,基于公开的3D-MRI脑影像数据库,我们开源了帕金森3D-MRI脑影像的分类鉴别项目,数据集包括neurocon, taowu, PPMI和OASIS-1等公开数据集,囊括帕金森患者(PD)与正常(Con)共378个case。提供2D及3D基线模型和4种分类模型以及3D-MRI 脑影像的预训练模型。其中PP-TSN和PP-TSM取得了超过91%的准确度和超过97.5%的AUC,训练时长不到传统2D方案的1/10,模型大小不超过传统3D方案的25.5%。而TimeSformer实现了最高准确度超过92.3%,PP-TSM实现最高AUC超过98%,
本次PaddleVideo发版干货满满,star点赞一下防走丢!
https://github.com/PaddlePaddle/PaddleVideo
百度研究院3大实验室首次开源自研冠军、顶会算法
CVPR 2020 顶会论文:多模态预训练模型ActBERT首次开源
ActBERT是融合了视频、图像和文本的多模态预训练模型,它使用一种全新的纠缠编码模块从三个来源进行多模态特征学习,以增强两个视觉输入和语言之间的互动功能。该纠缠编码模块,在全局动作信息的指导下,对语言模型注入了视觉信息,并将语言信息整合到视觉模型中。纠缠编码器动态选择合适的上下文以促进目标预测。简单来说,纠缠编码器利用动作信息催化局部区域与文字的相互关联。在文本视频检索、视频描述、视频问答等5个下游任务上,ActBERT均明显优于其他方法。下表展示了未经finetune的ActBERT模型在文本视频检索数据集MSR-VTT上的性能表现。CVPR 2021 顶会论文:文本视频检索模型T2VLAD首次开源
随着各种互联网视频尤其是短视频的火热,文本视频检索在近段时间获得了学术界和工业界的广泛关注。特别是在引入多模态视频信息后,如何精细化地配准局部视频特征和自然语言特征成为一大难点。T2VLAD采用一种高效的全局-局部的对齐方法,自动学习文本和视频信息共享的语义中心,并对聚类后的局部特征做对应匹配,避免了复杂的计算,同时赋予了模型精细化理解语言和视频局部信息的能力。此外,T2VLAD直接将多模态的视频信息(声音、动作、场景、speech、OCR、人脸等)映射到同一空间,利用同一组语义中心来做聚类融合,计算同一中心的视频和文本特征的局部相似度,这在一定程度上解决了多模态信息难以综合利用的问题。T2VLAD在三个标准的Text-Video Retrieval Dataset上均取得了最好的性能。CVPR2020 视频分割模型MA-Net首次开源
视频目标分割(VOS)是计算机视觉领域的一个基础任务,有很多重要的应用场景,如视频编辑、场景理解及自动驾驶等。交互式视频目标分割由用户在视频的某一帧中给目标物体简单的标注(比如在目标物体上画几条简单的线),就能够通过算法获得整个视频中该目标物体的分割结果,用户可以通过多次和视频交互而不断提升视频分割质量,直到用户对分割质量满意。由于交互式视频分割需要用户多次和视频交互,因此,需要兼顾算法的时效性和准确性。MA-Net 使用一个统一的框架进行交互和传播来生成分割结果,保证了算法的时效性。 另外, MA-Net 通过记忆存储的方式,将用户多轮交互的信息存储并更新,提升了视频分割的准确性。
下表展示了模型在DAVIS2017数据集上性能表现。ECCV 2020 Spotlight视频分割模型CFBI、CVPR2021视频目标分割国际竞赛中,基于 CFBI设计的解决方案在两项任务上夺得了冠军
在视频目标分割领域中,半监督领域在今年来备受关注。给定视频中第一帧或多个参考帧中的目标标定,半监督方法需要精确跟踪并分割出目标物体在整个视频中的掩模。以往的视频目标分割方法都专注于提取给定的前景目标的鲁棒特征,但这在遮挡、尺度变化以及背景中存在相似物体的等等复杂场景下是十分困难的。基于此,我们重新思考了背景特征的重要性,并提出了前背景整合式的视频目标分割方法(CFBI)。CFBI以对偶的形式同时提取目标的前景与背景特征,并通过隐式学习的方法提升前背景特征之间的对比度,以提高分割精度。基于CFBI,我们进一步将多尺度匹配和空洞匹配的策略引入视频目标中,并设计了更为鲁棒且高效的框架,CFBI+。CFBI系列方法在视频目标分割领域上保持着单模型最高精度的记录。特别地,我们的单模型性能优于旷视清华团队在CVPR2020视频目标分割国际竞赛上融合三个强力模型的结果。在今年刚刚结束的CVPR2021视频目标分割国际竞赛中,基于 CFBI设计的解决方案在两项任务上夺得了冠军。下表展示了CFBI模型在DAVIS-2017数据集上的表现。ICCV 2021无监督单目深度估计模型ADDS首次开源
ADDS是基于白天和夜晚图像的自监督单目深度估计模型,其利用了白天和夜晚的图像数据互补性质,减缓了昼夜图像较大的域偏移以及照明变化对深度估计的精度带来的影响,在具有挑战性的牛津RobotCar数据集上实现了全天图像的最先进的深度估计结果。下表展示了ADDS模型在白天和夜间数据集上的测试性能表现。
产业级模型升级
1、PP系列模型PP-TSM、PP-TSN升级、新增PP-TimeSformer模型
依托丰富的视频模型优化经验,飞桨PaddleVideo团队总结并完善了一套通用的视频模型优化策略,在提出PP-TSM与PP-TSN模型后,研发团队将这套策略应用于TimeSformer模型并取得显著收益,研发出PP-TimeSformer模型。在基本不增加计算量的前提下,PP-TimeSformer使用Kinetics-400数据集训练的精度可以提升到79.49%,较原论文实现提升2.2个点。同时PP-TSN和PP-TSM功能升级,添加c++推理功能。PP-TSM使用ResNet50 Backbone,精度由76.16%提升至77.15%。
2、新增多个前沿模型
PaddleVideo涵盖了视频分类和视频动作定位方向众多模型,2.2版本新增多个基础模型,包括:行为识别方向SOTA模型Video Swin Transorfmer、经典基于关节点的行为识别模型ST-GCN和AGCN模型,视频切分模型TransNetV2、时空动作检测SlowFast+FastRCNN模型。基础模型的研发,旨在帮助开发者更好的进行视频领域的学术研究和产业实践。
一站式的保姆级教程
对于想进入行为识别领域的新手玩家们,PadlleVideo还提供了系列行为理解模型教程,包括产业界常用的基于RGB图像的行为识别模型TSN、TSM,PP系列调优模型PP-TSN、PP-TSM,以及基于骨骼点的行为识别模型ST-GCN。从模型原理讲解,到代码实践以及调优技巧,手把手教你玩转行为识别。
心动不如行动,大家可以直接前往Github地址获得完整开源项目代码,记得Star收藏支持一下哦:https://github.com/PaddlePaddle/PaddleVideo
参考文献:
- ActBERT: Learning Global-Local Video-Text Representations , Linchao Zhu, Yi Yang
- T2VLAD: Global-Local Sequence Alignment for Text-Video Retrieval, Xiaohan Wang, Linchao Zhu, Yi Yang
- Memory Aggregation Networks for Efficient Interactive Video Object Segmentation, Jiaxu Miao, Yunchao Wei, Yi Yang
- Collaborative Video Object Segmentation by Foreground-Background Integration, Zongxin Yang, Yunchao Wei, Yi Yang
- Self-supervised Monocular Depth Estimation for All Day Images using Domain Separation, Liu, Lina and Song, Xibin and Wang, Mengmeng and Liu, Yong and Zhang, Liangjun
发表评论
登录后可评论,请前往 登录 或 注册