1- 基于信息融合的视频对象分割方法综述 1 蔡晓惠 1 ,郑慧诚 1 ,陆哲明 2 1 中山大学信息科学与技术学院,广州(510275) 2 浙江大学航空航天学院航天电子工程研究所,杭州(310027) Email: zhenghch@mail.sysu.edu.cn
摘 要: 视频对象分割是视频检索、视频存储与传输以及视频压缩编码的基础部分之一。由 于视频对象分割中的各种复杂因素,现有方法往往是针对特定应用场合或约束条件提出的。 基于信息融合的分割方法通过将各方面的信息结合起来,实现优势互补的视频对象分割。本 文从空域信息、时域信息及变换域信息融合的角度出发,在介绍和分析一些相关代表性工作 的基础上综述基于信息融合的视频对象分割方法的研究现状,最后进一步展望基于信息融合 的视频对象分割的研究趋势。
关键词: 视频对象分割;信息融合;多摄像机融合 中图分类号: TP391.41 1 引言
视频对象分割是将视频分割为一些不同语义的对象区域,如运动前景与背景,是视频分 析和处理的基础之一。随着日常工作和生活中视频内容的极大丰富以及 MPEG-4 和 MPEG-7 等视频编码标准的推广和应用,视频对象分割算法已经成为多媒体领域的研究热点。在视频 监控中也有极其广泛应用,包括人特征检测与识别、人群流量统计与拥塞分析、异常检测与 报警、多摄像机的交互监控等 [1] 。人们对视频对象的提取问题越来越感兴趣,许多研究者针 对不同的场景提出了各种有效的视频对象分割算法。视频对象分割的困难性在于视频对象及 场景的复杂性与多样性,很难找到一个通用的有效方法,往往需要针对具体问题设计或选择 特定算法。近年一种逐渐受到关注的方法是通过融合多种不同类型的信息实现鲁棒高效的视 频分析。
信息融合 [2] 是对处理对象进行多方面的、多角度的全面分析,得到代表不同特征的有效 信息。在分割的过程中有效地融合视频对象的时间信息、颜色信息、纹理信息和空间信息, 局部信息和全局信息,选取优势互补的多种分割算法,最终有效地提取视频对象。欧洲著名 的 COST 电信联盟组织中的 COST 211 小组正集中构造一个视频分割框架,称 Analysis Model (AM) [3] 。AM 的基本特征是对不同的分割方法进行测试、比较和优化,最后通过融合不同分 割方法得到最好的分割效果。在第 41 届国际运动图像专家组(MPEG)会议上 [4] ,一个时空联 合分割方案被采纳为 MPEG-4 的自动视频对象平面(Video Object Plane,VOP)产生工具。 基于信息融合的视频对象分割方法一般框架如图 1 所示。本文将分别从时域与空域信息 融合,空域内多种信息融合,空域与变换域信息融合的角度介绍和分析现有的基于信息融合 的视频对象分割方法。基于信息融合的视频对象分割有两个关键:第一,选取能优势互补的不同信息源和相应分割算法;第二,设计不同信息的有效融合准则,最终在此基础上有效提 取视频对象。本文的结构安排如下:第 2 节介绍传统的视频对象分割算法;第 3、4、5 节分 别介绍了基于时空信息融合、基于空域内不同类型信息融合、空域与变换域信息融合的视频 对象分割算法;第 6 节介绍基于多摄像机的信息融合方法;第 7 节总结全文。
1 本课题得到教育部留学回国人员科研启动基金、高等学校博士学科点专项科研新教师基金 (200805581005)、广东高校优秀青年创新人才培育项目和中山大学青年教师科研启动基金 (2007-35000-3171910)的资助。 -2- Frame Temporal Segmentation: Background Subtraction, Difference Frame, Motion Compensation, Optical Flow Spatial Segmentation: Histogram, Feature Cluster, Edge Detection, Region Segmentation Frequency Segmentation: Fourier Transform, Wavelet Transform Information Fusion Segmentation Post Processing Extracted Moving Object 图 1 基于信息融合的分割方法框架 Fig.1 Framework of segmentation based on information fusion 2 传统的分割方法 一般视频对象分割所依据的信息包括时域、空域或变换域信息。传统的分割算法往往 只从单一方面考虑,针对特定的场景提出适合的分割算法,因此算法
也具有较多的局限性。 下面先分别介绍基于时域、基于空域和基于变换域的分割方法。 时域上的分割方法主要有帧差法 [5] 、光流法 [6] 和背景减法 [7] 等。帧差法是通过比较两帧 间像素的变化,设置阈值,判断出运动区域。其算法简单,运算速度快,但不能完整地分割 出运动对象。文献 [8] 提出一种基于高阶统计量的帧间差分法,根据高斯分布随机变量四阶累 积量为零的特点进行分割。光流法不需要预先知道场景的任何信息而能检测出独立运动对 象,但计算复杂,难以实时检测,需要特殊硬件支持且其收敛速度依赖于场景、噪声或运动 [9] 。背景减法的关键是背景模型的建立上,Zhang 等 [10] 用自适应混合高斯模型(Gaussian Mixture Model,GMM)自动地更新背景模型。在此基础上,许多算法均对 GMM 进行改进, Zhang 等 [11] 提出了基于 SVM(support vector machine)的 GMM。Lee [12] 提出了一个不折衷稳 定性而提高收敛速度的有效 GMM 学习方法,这都使其更能抗噪声、阴影和光照的影响,提 高分割的质量。 空域的分割方法主要是基于颜色、边缘或区域等。基于颜色信息的分割方法包括直方图 阈值法、聚类法等。直方图统计方法简单,主要是确定其波峰波谷,设置阈值;聚类法从有 参数到无参数的发展可分为从 C 均值 [13] 和 K 均值 [14] ,到模糊 C 均值聚类 [15] 和 Mean shift 聚 类算法 [16, 17] 。常用的边缘检测算子有:Roberts 算子、Laplace 算子、Prewitt 算子、Sobel 算 子、Robinson 算子、Kirsch 算子和 Canny 算子等。对于边缘的检测常常要借助这些算子。 区域法包括区域的生长、分裂、合并 [18] 和分水岭处理 [19] 等方法。通常是把区域生长、分裂、 合并技术相结合起来,把相似的子区域合并成尽可能大的区域;分水岭算法是在一个梯度图 像不断“灌水”的过程,基于浸没式的模型较为经典。它把图像视为地形表面,像素的灰度值 对应于地形高度,局部最小值对应地形的洞。将水从最小值开始充满整个聚水盆地,得到一 个堤坝的轮廓。 -3- F F 现有的视频一般以编码形式存在,基于变换域的分割方法力图利用现有的变换域(如 DCT 或小波变换系数)信息来提高分割效率。视频帧中 DCT 系数的直流分量表示平均能量, 交流分量表示纹理分布。Eng 等 [20] 使用运动检测算法首先确定初始的运动对象,然后利用 DCT 系数在最大熵模糊聚类算法(Maximum Entropy Fuzzy Clustering)下分割出运动对象,算 法比较有效地利用了 I 帧中包含的 DCT 信息。目前有很多关于小波变换 [21,22] 进行频域视频 对象分割的研究。小波的多分辨率分析能力、空频局部化、表征函数的最优基底、快速算法 等特性,使得它特别适合于信号分析领域。 衡量视频对象分割方法的性能有三个方面:第一是实时性,要求分割要具有复杂度低, 运算速度快;第二是准确性,要求能较精确地提取视频对象的边缘;第三是适应性,要求算 法能对不同的场景进行有效的分割,抗噪声能力强。传统的分割方法往往存在着不足,若能 够联合时域、空域、频域各方面的信息,则可能设计出性能更优的算法,将更有利于视频对 象的准确提取。 3 基于时空信息融合的分割 基于时空信息融合的分割是较为常用的联合分割方法。时域的分割算法具有速度快,适 合实时分割的优点,但其对噪声比较敏感,分割的对象存在着边缘轮廓不连续的缺陷。而空 域分割的效果比较精确,但不能有效利用目标的运动特征,且计算复杂度较高。在实际的目 标对象提取中,只依靠时域或者空域的单一信息分割往往达不到要求。因此许多研究者提出 了时空信息融合的视频对象分割方法。 时域分割能大概分割出前景与背景,检测出视频对象的大概位置,若前景与背景都存在 运动,则要先进行全局运动估计 [23] 。空域的分割表现为不同区域之间有着明显色彩或灰度 区别,相邻区域边界表现为突变性,而内部表现为平滑性。时空融合分割方法是在时域分割 得到的模板上再采用空域分割,用特定的融合法则做出最终判决,区分出区域的前景,背景 [24] 。通常的融合过程是将当前帧的时域分割结果投影到空间区域。如果时域分割得到的模 板中像素的投影落在该区域内的比率超过一定门限,则将该区域作为视频对象的一部分。该 比率可定义为 [25] p A sp ace (i ) A tim e A sp ace (i ) G B G (1) 其中,A (i ) 表示第 i 个空间分割区域像素的集合, A 为时域模板像素的集合,G 为
背 space tim e B 景,G 为前景,实验时设置门限 r。王新卫等 [26] 提出了基于 Canny 边缘检测的时空分割算 法,选用累计帧差和对称帧差方法得到初模板。其时空域融合准则采用了易于实现的 8 邻域 像素准则。在融合之前将时域分割得到的初始模板进行形态学变换处理实现区域闭合,然后 进行区域填充,这样可以滤除小的干扰区域。上述的时空融合分割方法能得到较好的抗噪鲁 棒性。 时空联合分割方法目前正处于发展阶段,很多研究者均对其算法作了改进,其实现的 方法也各种各样。单纯使用空域特性聚类,这些区域可能只是物体的一部分,没有什么语义。 在MPEG-4和MPEG-7的应用中,要求分割出对象的在语义是有意义的,所以要结合相邻帧 的时域特性进行分析。针对不同的场景,选择不同的时域、空域分割方法,结合相当的融合 -4- 算法,最终有效地提取视频对象。文献 [27] 用基于F假设检测方法得到初始变化检测模板后再 融合到一种改进的活动轮廓算法。用GVF(gradient vector flow)snakes精练初始轮廓,找到 精确的视频对象边界,但用snakes或活动轮廓的计算量都很大。因此,Murugas等 [28] 提出一 种算法:沿着顺时针或逆时针对外轮廓进行跟踪,用直线把没连接的点与最靠近的对象像素 方向连接起来,然后在物体轮廓的范围内应用光栅扫描法提取像素,闭合了轮廓线。Wu等 [29] 先用连续帧差法得到初始区域,再进行分水岭处理,最后结合时间,空间和邻近的限制, 估计马尔可夫随机场(Markov random field, MRF)的最大后验概率将区域分类得到分割结 果,这种方法能对不规则运动和光照变化进行有效分割。为了提高分割速度,克服分水岭算 法计算复杂的缺点,文献 [24, 30] 均改进了分水岭算法并融合时域分割,改善过分割且提高抗 噪性。为了得到全自动且快速的分割,Han等 [31] 提出了基于稀疏图像特征的连续聚类。该方 法不要求额外的人工输入,静态摄像机,或者刚体场景。他们用线性回归的方法去计算前背 景层的仿射运动参数,用一个金字塔型的MRF模型提取前景,在此同时考虑了时间和空间 的平滑限制。Zhu等 [32] 提出了一种基于局部门限的时空联合分割方法,用相邻像素的均值和 方差来决定该像素门限,提高分割的准确性与有效性。 时空信息融合的方法通过选择优势互补的时域空域算法及适合的融合准则,有利于提高 视频对象分割的效率和准确率,是当前的研究热点之一。 4 空域内不同类型信息融合 基于空域信息融合的视频对象分割主要是根据颜色特征、纹理特征或几何特征进行的, 通过有效地融合局部信息和全局信息,得到更高效更准确的分割效果,这也是近几年计算机 图像处理领域极为活跃的一个研究课题。 空域的信息融合主要是把基于颜色信息的分割方法与基于几何空间信息的分割方法有 效地结合起来,扬长避短,减少计算复杂度,提高分割质量。空域信息融合在彩色图像的运 动目标分割中有很大的应用。颜色分割在阈值选取中若只考虑到像素的颜色信息,忽略掉几 何空间信息,往往得不到符合人们视觉要求的结果。因此黄春艳等 [33] 提出了自适应多阈值 法对图像进行直方图分析与区域的生长与合并算法结合起来,得到比单一信息更合理的分割 结果。文献 [34, 35] 充分利用区域分割和聚类分割的优点,选择不同的分割算法,有效地进行 融合,提高分割速度。 由于视频帧之间在时间上有相关性,应用时域的分割方法有很大的优势。若在时空信息 联合时应用多种空间信息联合分割,将得到更好的分割性能。文献 [36] 提出一种融合运动信 息,区域信息和边缘信息的活动轮廓方法对视频进行自动分割,获得较好的分割效果。Wang 等 [37] 则采用边缘导向(edge-guided)合并过分割区域,改进了均值漂移算法。Jiang等 [38] 不 是把帧按像素或边缘为单元划分,而是按颜色直方图将其分成不同的面 (facet),然后再根 据面的位置、运动向量和前一帧聚类的模型,把当前帧的面聚类成运动对象。 5 空域与变换域的融合分割方法 基于变换域的分析方法具有明显的针对性,所以其应用有一定的局限性,鲁棒性不强。 基于空域与变换域信息融合的分割方法正试图解决这一问题。 小波变换是对图像进行多分辨率分析和空频局部分析的有力工具。Zhang 等 [39] 提出了一 种把小波变换域的检测与 Canny 边缘检测算法相结合的分割方法。先在四个小波子带里用 不同的阈值进行变化检测,再用 Canny 算法对得到的小
波域的变化检测模板进行边缘检测, -5- 最终得到有效的分割结果。不仅提高了抗噪能力,还得到了精确的边缘。为了在视频序列中 自动提取视频对象,陈宏涛 [40] 采用基于像素的方法,设置特征提取的窗口大小,在原始图 像边缘进行对称延拓,利用等权值的融合准则,融合提升小波变换域提到的纹理特征和灰度 共生矩阵 (Gray Level Co-occurrence Matrix, GLCP) 在空域得到的特征,再用模糊 C 均值聚 类来对特征进行分类,得到更能代表不同纹理特征的分割结果,同时提高边缘准确性和区域 一致性的精度,减少了错误率。 在压缩编码中,基于变换系数的视频对象分割利用了视频帧变换系数蕴含的信息,通过 分析 DCT 系数的直流,交流信息提取视频对象。但就目前而言基于 DCT 变换系数的分割算 法对视频帧中复杂的前、背景容易产生过分割,而结合时域或空域信息则可以解决单纯基于 变换域的算法中存在的这一问题。Porikli [41] 结合 I 帧的 DCT 系数和 P 帧的块运动向量构造 一种时频的数据结构,有效地对视频对象进行实时分割。Wang 等 [42] 利用 DCT 域中基于块 的背景减法识别前景,再结合空域对前景像素进一步分析,在减少计算复杂度的同时得到了 较好的分割效果。 6 多摄像机信息融合 以上的分析是针对单摄像机捕捉的视频对象分割,多摄像机的信息融合解决单摄像机中 目标遮挡及景深难题,获得对目标分割,行为理解所需要的完整信息。前面所讲的基于单摄 像机的信息融合方法均可用于多摄像机中。在多摄像机中的,视频对象还具有深度信息,文 献 [43] 通过计算权相似性去构造不同分割模型(颜色,深度,运动)之间的图权重,从而使 视频对象的有用信息有效结合起来,达到较好的分割效果。现有的多摄像机融合方法一般只 是在特征层面,而非图像层面或决策层面 [1] ,而在如何融合不同类型的特征(如颜色、纹理、 几何特征),以及如何融合不同摄像机数据以持续、协同地跟踪目标和进一步理解其行为方 面仍有许多问题需要研究。 在实际的应用中,为了得到更好的分割效果,往往将视频对象的时域、空域及频域的信 息都结合起来,实现扬长避短,优势互补。然而不是融合越多的信息得到的效果越理想,要 考虑分割性能的要求。 7 总结 目前,视频对象分割技术还处于发展阶段,是计算机视觉领域和视频编解码领域的研究 热点之一。本文从基于信息融合的角度出发,总结了时域与空域、多种空域信息、空域与频 域信息融合进行视频对象分割的研究现状。衡量算法的优劣主要考虑其分割质量、计算复杂 度和通用性。基于信息融合的分割能有效地结合多方面的信息,利用不同算法的各自优点, 提高算法在上述几个方面的性能。