基于多特征融合的动作识别方法
石祥滨1,2,李 菲1,刘翠微1 (1.沈阳航空航天大学 计算机学院,沈阳 110136;2.辽宁大学 信息学院,沈阳 110036)
【摘 要】摘要:提出一种基于多特征融合的动作识别方法,利用随机森林学习框架融合RGB-D图像序列中的深度特征和时空特征。从深度图像序列中获取人的关节点位置信息,利用关节点坐标提取两种新的深度特征——位移特征和部件中心特征,共同描述人体三维结构信息。从RGB 图像序列中提取稠密轨迹,保留前景内的轨迹排除背景干扰,利用词袋模型构建时空特征。最后,采用鲁棒高效的随机森林学习框架融合两种互补的特征。在MSR Daily Activity3D数据集上的实验结果表明,所提出的方法和特征能够有效地识别RGB-D图像序列中人的动作。
【期刊名称】沈阳航空航天大学学报 【年(卷),期】2017(034)002 【总页数】11
【关键词】人的动作识别;特征融合;随机森林 信息与科学工程
人的动作识别是计算机视觉领域中一个富有挑战性的研究课题,涉及到模式识别、机器学习和认知科学等多个学科领域,具有广泛的应用价值,如:智能视频监控、高级人机交互、虚拟现实等。在真实场景下采集的图像序列往往存在复杂的背景、剧烈的光照变化和摄像机运动,这些不确定因素对人的动作识别造成了很大的困难。同时,由于人的运动习惯和个体表观的不同,同一类动作的不同示例也存在较大的类内差异。因此,目前基于计算机视觉的人体动作识
别依然是一个研究热点问题。
传统的动作识别方法[1-3]是基于RGB图像序列的,这类方法对光照和背景变化较为敏感。近年来,随着低成本深度相机(如Kinect)的问世,基于深度图像序列的动作识别方法[4-5]逐渐成为研究热点。Kinect获取的RGB-D图像序列由RGB三通道彩色图像序列和Depth深度图像序列共同组成。从RGB图像序列中可以提取时空特征,从深度图像序列中可以提取深度特征,两种特征分别从两个不同角度对图像序列中人的动作进行描述,前者描述了视觉表观信息和运动信息,后者描述了人的三维结构信息。
本文提出一种基于多特征融合的动作识别方法,利用随机森林学习框架融合RGB-D图像序列中的两种互补特征。基于从深度图像序列中获取的关节点位置信息,本文提出一种新的深度特征——位移特征,对关节点的运动信息进行描述。基于多特征融合的动作识别方法首先从深度图像序列中获取人的关节点位置坐标,从经过筛选的15个关节点中任意选择两个关节点组成位移向量,将位移特征作为深度特征。然后从RGB 图像序列中提取稠密轨迹(dense trajectory)[6],利用前景对稠密轨迹进行筛选,保留前景内的轨迹,排除无关背景的干扰,再利用词袋模型(bag of words)[7]构建RGB图像序列的时空特征。最后,采用随机森林学习框架融合两种互补的特征,识别图像序列中的动作类别。算法的基本框架如图1所示。
1 相关工作
传统的动作识别方法大多是基于RGB图像序列的,从RGB图像序列中提取的时空特征描述了人的表观信息和二维空间运动信息。时空特征将图像序列作为一个三维空间中的时空体进行分析和理解,并且从中提取三维数据:时空兴趣
点、时空立方体、时空形状等用于描述图像序列中目标的动作。时空特征具有很多优点:可以获取较长时间序列的动态特征;综合考虑时间和空间的连续性,对于降低特征匹配的复杂度、处理有遮挡等干扰因素的序列时更加鲁棒有效。Laptev等人[1]最早提出了时空兴趣点概念,利用Harris角点算子[9]对时间和空间上亮度有显著变化的局部区域进行检测,称其为时空兴趣点(spatio-temporal interest point)。Wu等人[2]用高斯混合模型对时空兴趣点之间的相对时空位置进行建模,并生成兴趣点的时空分布特征,描述在不同时空尺度下,兴趣点在图像序列中的时空分布信息。Wang[3]跟踪图像序列中的稠密图像块,提取稠密的光流轨迹,多个公共数据集上的实验表明,使用稠密轨迹的实验结果明显优于使用通过KLT[10]跟踪特征点得到稀疏轨迹的实验结果。稠密光流轨迹对不规则的运动较为鲁棒,可以更加准确地捕捉复杂的运动模式。Wang等人[11]通过对人体姿态时空结构的建模,将人体的关节点分为5个部分,应用数据挖掘技术获得人体时空结构的表示方式。
随着低成本深度相机Kinect的问世,人们开始研究基于深度图像的动作识别方法。深度图像是反映物体到镜头平面距离的一个图像通道,克服了自然图像单目识别的缺点,可以有效避免由于光照、遮挡等环境因素的影响,图像序列中目标的三维结构信息可以通过深度特征进行准确地描述。Shotton等人[4-5]提出一种对象识别方法,设计一种中间部位的表示方式,将复杂的姿态估计问题映射到简单的逐个像素分类问题,该方法可以从一张深度图像中快速并准确地估计出人体骨架关节点的三维位置。Raptis等人[12]提出一种新的模型,将一个动作模式化为一个局部稀疏序列,序列中的关键帧是图像序列中人物部分关键姿态的集合,用该稀疏序列对动作序列中的关键状态进行描述。Rahmani等