点击→https://mp.weixin.qq.com/s/CSSN0K_9CYm5MnplUqU5xg关注微信公众号:人工智能前沿讲习,对话框回复:“乔宇”,获取完整版PDF
讲者简介
乔宇,博士,研究员,IEEE高级会员。中国科学院深圳先进技术研究集成所副所长,多媒体集成技术研究中心主任,广东省机器视觉与虚拟现实重点实验室常务副主任。2006年获得日本电气通信大学博士学位。入选中国科学院“百人计划”,获中国科学院卢嘉锡青年人才奖,入选广东省科技创新领军人才。主要研究领域包括计算机视觉、深度学习和智能机器人。已在包括IEEE Trans.PAMI, IEEE Trans.IP,IEEETrans.SP,CVPR,ICCV,ECCV,ACM-MM,ICASSP等会议和期刊上发表学术论文150余篇。在ActivityNet16大规模行为识别竞赛取得第一名,在ImageNet15竞赛的场景分类任务中取得第二名。主持国家自然科学基金联合基金重点项目、科技部重大研究计划课题、中科院国际合作重点、等国家地方科研项目十余项。
导语
基于视频的行为识别和分析是计算机视觉的一个基本问题,在监控、人机交互、视频检索等领域有重要的应用。与图像相比,行为视频包含有丰富的运动信息且数据维度更高。由于视频中包含行为人、视角、背景、运动、遮挡等复杂的变化,非受控条件下行为识别一直是极具挑战的问题。本次报告将介绍视频行为分析与理解的最新进展以及乔宇老师课题组近年来开展的一些工作。内容包括视频特征表示、多视角特征编码、轨迹卷积特征池化、运动向量CNN、时空注意模型等。课题组工作在公开多类别数据库UCF101, HMDB51上取得了领先的识别率,在ActivityNet, ChLearn等国际竞赛中取得第一。
人类行为划分的四个层次
根据研究对象的不同,通常将人类行为划分为如下四个层次:
- 姿态行为(Gesture):人体身体某个部位的姿态或运动,如手势等。
- 个体行为(Action):研究对象关注整体人的行为活动。
- 交互行为(Interaction):多个人与人或物体之间的交互行为。
- 群体行为(Group activity):人类群体所表现出来的集体行为。
本次报告主要集中在个体行为(Action)的相关研究工作上。
行为理解的目的及应用
行为理解是计算机视觉的基本任务之一,其目的是自动的对视频中人的行为进行检测和分类。人类自身在行为的理解和预测方面有高效的处理机制,但由于视频和行为的复杂性导致计算机在此方面尚有较大进步空间。即使如此,行为理解仍在现实中得到了广泛应用。
安防监控
安防监控是计算机行为理解应用较早且非常广泛的领域。在现代社会,安防摄像头遍布公共环境。据统计,在伦敦平均每人每天会被安防摄像头记录三百条视频。在中国,有超过6千万的安防摄像头。如此庞大的数据量对于人为工作是很大的挑战,智能监控系统有其研究的现实意义。
在线视频标记
随着互联网发展,视频量呈现出指数增长的趋势。但由于互联网的自由,多数视频在上传时没有人工标记。行为理解在视频的标记中广泛使用。
除了在安防和视频标记中的应用,行为理解在手语识别、运动捕捉等许多领域得到了广泛应用。
行为理解的挑战
虽然人类自身有高效的行为理解系统,但计算机在行为理解中仍存在很大挑战。
数据是其中之一。虽然数据是深度学习的燃料,但伴随着大量数据而来的高维,复杂性对现有的硬件和算法提出了很大挑战。另一个重要挑战是视频标注的复杂性,1s的视频有30帧左右的图像,加上行为理解图像标注本身的复杂性,给标注带来了很大困难。
行为理解的数据集
行为理解视频库经历了从“实验室视频”到“网络视频”的变迁。由于条件限制,早期的数据集多背景单一且单人。互联网的发展给数据库带来了巨大的多样性。下图列出了常用的数据库。
行为视频的表征
特征表示是所有计算机视觉任务的关键。
局部特征如关键点,运动轨迹等给行为视频提供了有效的表征手段。其中HOG(梯度直方图),HOF(光流直方图),MBH(运动边界直方图)是常用的特征。
特征融合是效果提升的重要手段。直接将不同的特征通过向量拼接起来不但在数据维度上给硬件增加了压力,效果提升也相当有限。为解决这个问题,乔宇老师团队2014年提出了针对HOG和HOF特征融合的M-PCCA。算法通过CCA(典型相关分析)将HOG和HOF特征不同的部分和共有的部分分离编码,进而通过EM(期望最大化)算法进行训练,在数据集上取得了很好的效果。
深度学习与行为理解
时空建模
从2012年的AlexNet开始,深度学习在各个领域开花结果。Karpathy(李飞飞高徒)在2014年提出针对行为理解的Spatio-Temporal ConvNets对视频的时空关系建模。2015年C3D对视频时空关系的建模取得了更好的效果。
C3D基于VGG完成,其结构非常清晰。相对于原始的VGG,C3D将二维卷积扩展到三维,增加时间维度。本文末给出C3D的算法Keras实现链接。
Two Stream CNN
Two Stream CNN是指CNN的输入不仅提供RGB图像,还提供光流等手工特征。这种方法将深度学习和前期效果良好的手工特征作了有效结合。事实上,早在2012年,最早提出3D卷积架构的论文3D Convolutional Neural Networks for Human Action Recognition在实验时也用了光流等信息作为融入。
虽然Two Stream架构的网络在数据集上取得了不错的效果,但由于光流等计算耗时较长,在实时性上有着巨大瓶颈。未解决这个问题,乔宇老师团队做了一系列工作。下文简要介绍其中的两篇论文。
TDD
在视频理解中,运动轨迹是良好的行为估计特征。TDD研究如何将CNN得到的空域局部特征与运动轨迹结合。
论文算法先进行多尺度图像特征抽取和轨迹关键点检测。然后将CNN得到的特征图谱在轨迹关键点附近池化得到新的描述子。算法结构如下图所示。
Motion Vector CNN
Motion Vector CNN是针对速度瓶颈的一个设计。在视频解码时,首先便会解码MotionVector,所以其基本不需要额外的计算,而且包含了局部区域的运动信息。但Motion Vector也存在不够精细,包含大量噪声的问题。
为解决上述问题,乔宇老师团队提出的Enhanced Motion Vector CNN在训练时先利用光流训练得到一个强网络,然后利用MotionVector在此网络上进行fine-tune。测试时只用Motion Vector,不用光流,速度可以达到400fps/GPU。
RNN与行为理解
视频是带有时序结构的行为,而RNN是处理时间序列强有力的工具,所以将RNN与视频理解结合起来是必然趋势。现行的主要做法是前端利用CNN在每帧提取特征,将提取到的特征送入RNN/LSTM单元。
乔宇老师团队的相关工作对之前的RNN行为理解方法做出了改进。其动机在于之前的RNN行为理解算法是以CNN的高层特征作为输入,但高层语义特征缺少细节和时空信息。如果直接将高层全局特征与其他时序特征拼接起来送入RNN中,会带来RNN前期计算量过大且难以训练的问题。因为RNN单元首先会进行类似于全连接的矩阵相乘操作,如果输入特征维度过大,输入权值矩阵会非常大难以训练。乔宇老师团队利用注意力机制改进了这个问题,将高层全局特征与时序特征利用注意力机制进行压缩,得到紧致的表达,然后送入RNN单元。
人脸识别与理解
人脸识别是今年来研究活跃的领域,得益于人脸数据集规模不断增大。同时数据的增多也带来新的挑战,如遮挡,姿态变化,光照变化等影响因素增加了任务难度。ChaLearn2016比赛中要求在人脸图像中识别出性别,微笑表情,配饰等内容。在此次比赛中,乔宇老师团队提出了Multi-task and general-to-specific fine-tuning的模型。性别的分类与人脸识别密切相关,人脸不同部位对于性别和表情的表达重要性不同。在这个发现的基础上,乔宇老师团队提出的算法先利用VGG16作为基础网络进行人脸识别,然后将人脸剪切出来,在针对具体任务的不同网络中进行fine-tune。
团队赛果
乔宇老师团队在多项行为理解世界比赛中取得了丰硕战果。2014年ChaLearn比赛,Track1和Track2项目取得第一名,Track3取得第四名。2015年ChaLearn比赛夺得行为理解和Culture Event Recognition两个项目双冠。
2016年CVPR2016的ActivityNetChallenge比赛,获得第一名。
总结
行为理解作为计算机视觉的一个基本任务仍有较大的进步空间。如何取得更有效的视频特征表征,获得更快的速度以及与近期的深度学习工作进行结合,仍需进一步研究。
参考资源
1. 乔宇老师团队的工作均已开源且提供原生态代码,下载页面:
http://mmlab.siat.ac.cn/yuqiao/Codes.html
2. C3D算法的Keras实现
https://github.com/axon-research/c3d-keras
评论留言