(19)中华人民共和国国家知识产权局
(12)发明专利申请
(10)申请公布号 CN 110110651 A(43)申请公布日 2019.08.09
(21)申请号 201910365711.1(22)申请日 2019.04.29
(71)申请人 齐鲁工业大学
地址 250399 山东省济南市长清区大学路
3501号(72)发明人 王晓芳 臧升睿 任洁 郑亚雯 (74)专利代理机构 济南泉城专利商标事务所
37218
代理人 赵玉凤(51)Int.Cl.
G06K 9/00(2006.01)G06K 9/62(2006.01)G06K 9/66(2006.01)G06N 3/04(2006.01)G06N 3/08(2006.01)
权利要求书2页 说明书6页 附图2页
(54)发明名称
基于时空重要性和3D CNN的视频中行为识别方法(57)摘要
本发明公开一种基于时空重要性和3D?CNN的视频中行为识别方法,本发明将空域重要位置选择功能、时域重要片段选择功能和3D?CNN的特征提取和分类功能相结合,通过计算视频的空域位置重要性和时域片段重要性,并利用重要性对空域位置特征和片段类别分值进行选择,突出对行为识别有用的时空信息在行为识别中的贡献,抑制背景或其他无关信息的影响,从而提高行为识别性能。
CN 110110651 ACN 110110651 A
权 利 要 求 书
1/2页
1.基于时空重要性和3D?CNN的视频中行为识别方法,其特征在于:包括以下步骤:S01)、构建一个行为识别模型,用于判别输入视频中正在发生的行为类别,行为识别模型包括视频分割模块、3D?CNN模块、空域重要位置选择模块、时域重要片段选择模块和类别判定模块,视频分割模块将输入的行为视频在时域进行分割得到多个视频片段;3D?CNN对分割后的每个视频片段进行特征提取与分类,从其中一个卷积层输出片段特征图,从softmax层输出片段的类别分值;空域重要位置选择模块根据每个片段特征图计算其空域位置的重要性,再利用位置重要性对特征图中各个位置的局部特征进行空域选择,得到片段特征;时域重要片段选择模块根据视频每个片段特征计算其重要性,再依据片段重要性对视频各个片段的类别分值进行时域选择,得到视频的类别分值;类别判定模块将分值最大的类别判定为当前视频中行为的类别;
S02)、利用大量已知类别的行为视频作为样本构建训练数据集,并将其中每个视频的空域尺寸缩放到固定大小;
S03)、基于步骤S02构建的训练数据集,采用分阶段的方式对步骤S01中的行为识别模型进行训练,使其具有自动选择时域重要片段和空域重要位置的信息进行行为识别的能力;
S04)、将待识别的行为视频的空域尺寸缩放到固定大小,再输入到训练后的行为识别模型,模型输出视频中行为的类别。
2.根据权利要求1所述的基于时空重要性和3D?CNN的视频中行为识别方法,其特征在于:步骤S01中,视频分割模块在时域按照相等的间隔将整个视频分割成给定数目的子视频,对每一个子视频,利用随机的方法确定一个时域位置,再从该位置开始向前或者向后截取一定数目的连续帧构成视频片段,所有子视频的片段按照时间顺序组成一个片段序列。
3.根据权利要求1所述的基于时空重要性和3D?CNN的视频中行为识别方法,其特征在于:步骤S01中,空域重要位置选择模块包括全连接层、softmax层和特征加权求和子模块,全连接层根据3D?CNN输出的片段特征图中每个空域位置局部特征计算该位置的重要性,第l个片段特征图中第k个空域位置局部特征xl,k输入到全连接层,全连接层输出该位置的重要性为
wp为权重向量,bp为偏置,(xl,k)T表示xl,k的转置;softmax层对特
K为位
征图中所有空域位置的重要性进行归一化,归一化后的值为
置总数;特征加权求和子模块以归一化的重要性为权值对特征图中所有空域位置的局部特征加权求和,得到经空域重要性选择的片段特征,第l个片段特征为
4.根据权利要求1所述的基于时空重要性和3D?CNN的视频中行为识别方法,其特征在于:步骤S01中,时域重要片段选择模块包括一个全连接层、两个softmax层和一个类别分值加权求和子模块,全连接层神经元个数为行为类别数C,全连接层根据空域重要位置选择模块输出的片段特征计算每个片段对所有行为类别的重要性,第l个片段特征接层,全连接层输出该片段对所有行为类别的重要性为
是第l个片段对第c个类别的重要性,1≤c≤C,Ws为权重矩阵,bs为偏置向量;第一个
输入到全连
2