多层循环神经网络在动作识别中的应用 - 图文

由天下分享时间：2025/1/20 21:26:49 加入收藏我要投稿点赞

Computer Science and Application 计算机科学与应用, 2020, 10(6), 1277-1285 Published Online June 2020 in Hans. http://www.hanspub.org/journal/csa https://doi.org/10.12677/csa.2020.106132

Multilayer Recurrent Neural Network for Action Recognition

Wei Du

North China University of Technology, Beijing

thstth

Received: Jun. 8, 2020; accepted: Jun. 21, 2020; published: Jun. 28, 2020

Abstract

Human action recognition is a research hotspot of computer vision. In this paper, we introduce an object detection model to typical two-stream network and propose an action recognition model based on multilayer recurrent neural network. Our model uses three-dimensional pyramid di-lated convolution network to process serial video images, and combines with Long Short-Term Memory Network to provide a pyramid convolutional Long Short-Term Memory Network that can analyze human actions in real-time. This paper uses five kinds of human actions from NTU RGB + D action recognition datasets, such as brush hair, sit down, stand up, hand waving, falling down. The experimental results show that our model has good accuracy and real-time in the aspect of monitoring video processing due to using dilated convolution and obviously reduces parameters.

Keywords

Action Recognition, Dilated Convolution, Long Short-Term Memory Network, Deep Learning

多层循环神经网络在动作识别中的应用

杜溦

北方工业大学，北京

收稿日期：2020年6月8日；录用日期：2020年6月21日；发布日期：2020年6月28日

摘要

人体动作识别是目前计算机视觉的一个研究热点。本文在传统双流法的基础上，引入目标识别网络，提出了一种基于多层循环神经网络的人体动作识别算法。该算法利用三维扩张卷积金字塔处理连续视频图

文章引用: 杜溦. 多层循环神经网络在动作识别中的应用[J]. 计算机科学与应用, 2020, 10(6): 1277-1285. DOI: 10.12677/csa.2020.106132

杜溦

像，结合长短期记忆网络，给出了一种能够实时分析人体动作行为的金字塔卷积长短期记忆网络。本文利用NTU RGB + D人体动作识别数据库，对五种人体动作，如梳头、坐下、起立、挥手、跌倒等动作进行识别。试验结果表明算法由于采取了扩张卷积，参数量明显降低，在监控视频处理方面具有较好的准确性和实时性。

关键词

人体动作识别，扩张卷积，长短期记忆网络，深度学习

This work is licensed under the Creative Commons Attribution International License (CC BY 4.0). http://creativecommons.org/licenses/by/4.0/

Open Access 1. 简述

在人体动作识别任务中，包含两个基本步骤：一是确定人体完整动作的起始和终止时间，二是识别该动作。本文仅对动作识别进行讨论。

在动作识别的方法中，目前较为流行的方法有三维卷积、基于人体姿态识别和双流法等动作识别方法。

从直观出发，基于人体姿态识别的方法更容易被理解和接受，利用连续帧之间人体姿态变化的规律实现人体动作的识别。这类方法以人体姿态识别[1]为基础，因此其研究重点集中于人体姿态识别的准确性和可靠性。同时，人体姿态识别的结果直接影响动作识别的准确性。

区别于基于人体姿态识别的方法，双流法[2] [3] [4] [5]使用两个并列的分支网络，分别从彩色视频图像和光流图像中提取动作信息。从不同的角度提取人体动作特征，并融合多角度特征进行动作识别。但目前的双流法网络无法实现读取连续视频图像。

三维卷积解决了连续视频图像读取的问题。三维卷积[4] [6]在二维卷积的基础上增加了提取前后图像关联特征的能力，这让三维卷积可以在获取单幅图像特征的同时，也能获取前后帧图像之间的关联信息。唯一不足的是三维卷积无法灵活地读取长短不一的连续视频图像。

本文通过引入目标检测网络，构造了一种新的金字塔卷积长短期记忆网络(Pyramid Convolutional Long-Short Term Memory, P-ConvLSTM)。将视频图像中的运动前景分离出来，而后通过深层长短期记忆网络进一步识别视频中运动的人体。之后通过前后帧运动人体之间的联系，利用金字塔形的设计获取视频图像在不同维度下的特征信息，捕捉人体动作特征，进而对如跌倒、头痛等人体动作进行识别分类。由于采用了多层循环神经网络，因此在处理序列长短有变化的数据上更加灵活。

2. 相关工作

双流法于2014年由Simonyan和Zisserman [2]提出。该方法采用两个并行的分支网络，分别提取空间信息和时间信息。空间信息网络利用三通道彩色视频图像提取图像中的人、事、物等空间信息，而时间信息网络利用视频的光流信息提取视频中随时间变化产生的时间信息。

两个分支网络相互独立，仅在信息融合阶段进行信息地整合。

当前的双流法研究中，多以使用较为成熟的图像识别网络为分支网络的主要结构，并在信息融合的位置上和方法上进行改良。这样可以大幅减少训练的时间和成本，但无法实现连续视频图像序列的读取。

DOI: 10.12677/csa.2020.106132

1278

计算机科学与应用

杜溦

我们再利用双流法提取不同角度特征这一特点，并结合三维卷积与多层循环神经网络，实现对连续视频序列的读取与处理，达到人体动作识别的目的。

未解决双流法中连续视频图像序列读取的问题，我们使用三维卷积[6]替换二维卷积。三维卷积以二维卷积为基础进行扩展，扩展后的三维卷积可以接收连续图像序列，并提取图像序列中每幅图像的特征信息及前后图像之间的时间信息。但三维卷积无法灵活读取长短不一的图像序列，因此我们结合多层循环神经网络，实现灵活读取图像序列的目的。

我们所使用的多层循环神经网络是卷积长短期记忆网络(Convolutional Long Short-Term Memory, ConvLSTM)，该方法由Xingjian Shi [7]等人提出。ConvLSTM是一种长短期记忆网络(Long Short-Term Memory，LSTM)的变形，它不仅利用自身的卷积操作获取视频图像中的信息，还利用LSTM的结构特点获取图像序列的长期依赖关系，更好地获取视频序列的特征。因此，ConvLSTM被广泛应用于动作识别方法中[8] [9]。

3. 金字塔卷积长短期记忆网络

(Pyramid Convolutional Long-Short Term Memory, P-ConvLSTM)

与典型的双流法的工作不同，我们向双流法中引入了一个基于循环神经网络的目标识别网络作为网络的主干结构。目标检测网络可以将视频图像中运动前景与不动后景进行分离，让P-ConvLSTM的注意力集中在运动的人体上。

该目标识别网络由Hongmei Song等人[10]于2018年提出，网络中设计了金字塔结构的扩张卷积模块和深层双向ConvLSTM模块为目标识别网络提供了更强的空间识别能力和时间信息获取能力。我们在Hongmei Song等人的工作上进行了简单的改动，不仅让网络能更好的适应人体动作识别任务，还能读取连续视频图像数列。

P-ConvLSTM中有两个主要的模块：扩张卷积金字塔模块(Dilated Convolution Pyramid Module, DCP)和金字塔卷积长短期记忆模块(Pyramid Convolutional Long-Short Term Memory Module, Pyramid ConvLSTM)。

3.1. 扩张卷积金字塔模块

在引入的目标识别网络中，Hongmei Song等人使用多个并列的二维扩张卷积在保留图像原始特征的情况下实现多尺度特征提取，同时避免了下采样操作并降低了网络中的参数。

我们将二维扩张卷积改造为三维扩张卷积，实现视频图像序列的多尺度特征提取。在DCP模块中，我们使用了四个尺寸相同、扩张度分别为2、4、8、16的三维卷积，它们之间相互并列构成金字塔模型。

而扩张卷积实现多尺度特征提取则是充分利用了其特点。以尺寸为3*3的卷积核为例，当扩张度为1时，卷积核仅能作用于图像上3*3的范围，进行卷积操作的像素数量为3*3；若扩张度为2，当卷积核在作用于图像上时，卷积核相邻元素之间距离变为2，卷积核作用范围扩大为5*5，但其中进行卷积操作的像素数量仍为3*3。图1中形象展示了扩张卷积。通过改变尺寸相同的卷积核扩张度可以有效实现多尺度特征提取，这样不仅保留图像的原始特征信息，还减少使用下采样操作。

3.2. 金字塔卷积长短期记忆模块

在Hongmei Song等人的工作中，使用双向循环神经网络进一步提取视频图像序列的前后帧之间的关联信息。这样的操作可以获取图像序列中某一图像来自前后两个方向的信息，更好的进行目标检测。图2展示了双向循环神经网络的基本结构。

DOI: 10.12677/csa.2020.106132

1279

计算机科学与应用

杜溦

(a) (b)

Figure 1. Dilated convolution. (a) When the dilated is 1, the 3*3 convolution kernel acts on the image, and the adjacent ele-ments in the convolution kernel act on the image together; (b) When the dilated is 2, the distance between the adjacent ele-ments of the 3*3 convolution kernel is pulled apart, and the area of convolution is expanded 图1. 扩张卷积示意图。(a) 当扩张度为1时，3*3卷积核作用于图像时卷积核中相邻元素靠在一起作用于图像上；(b) 当扩张度为2时，3*3卷积核的相邻元素之间的距离被拉开，卷积作用的区域扩大

Figure 2. Bidirectional recurrent neural network 图2. 双向循环神经网络示意图

而我们在Pyramid ConvLSTM模块中，使用两个扩张度不同的双层ConvLSTM网络分别对多尺度特征信息进行深层语义信息提取，获取人体动作的深层语义信息和视频图像的长期依赖关系。最后，将两个ConvLSTM的提取的特征信息进行融合用于最后的动作识别。而使用扩张度不同的ConvLSTM网络是为了获取不同尺寸下视频的语音信息和长期依赖关系，提升识别能力。

3.3. 改进模型

在数据预处理阶段，我们对视频数据进行分帧处理，并提取视频的稠密光流信息。之后，将彩色图像和光流信息图像进行尺寸调整。在输入到P-ConvLSTM中时，随机读取连续的是10帧视频图像。

P-ConvLSTM有两个结构相同的分支，其中一个分支的输入为彩色视频图像，另一个分支的输入为光流信息图像。我们引用标准ResNet-50 [11]模块并将其中的二维卷积修改为三维卷积，使其成为三维卷积ResNet-50。然后我们使用PDC模块进行多尺度特征提取，同时将PDC模块原本使用的二维卷积修改为三维卷积，实现视频序列多尺度特征提取。之后，我们将多尺度特征与ResNet-50的特征进行融合输入到金字塔ConvLSTM [12]模块中。在金字塔ConvLSTM模块中，融合后的特征信息将分别通过扩张度为1和扩张度为2两个平行的双层ConvLSTM，进行多尺度特征提取。最后通过平均池化层、全连接层、softmax得到分类向量。

通过将ResNet-50和PDC模块中的二维卷积操作替换为三维卷积，我们的网络P-ConvLSTM不仅可以读取连续的视频图像，还可以获取到所输入的连续图像的之间联系的特征信息。另外，将二维卷积修

DOI: 10.12677/csa.2020.106132

1280

计算机科学与应用

杜溦

改为三维卷积时，还需对步长、归一化等参数也许进行修改，确保不会出现融帧、丢帧的情况。图3展示了P-ConvLSTM的具体结构和模块之间的连接。

Figure 3. P-ConvLSTM

图3. P-ConvLSTM结构示意图

4. 实验

本文使用的数据来自南洋理工大学的NTU RGB + D人体动作识别数据库[13]。该数据库中包含多种类型人体动作数据，包括彩色视频数据、3D人体骨骼数据、深度信息等。涵盖了40种日常动作、19中医学动作及11种多人动作，每种动作包含948个数据。我们使用该数据库中的彩色视频数据，并从中挑选了5种常见动作进行试验。这5种动作包括梳头、坐下、起立、挥手及跌倒。

4.1. 实验环境及设置

我们使用GTX 1060对整个训练过程进行加速，运行平台是win 10。整个P-ConvLSTM使用Pytorch框架进行搭建。在数据处理的阶段，我们从每一类中抽取10%的数据作为测试集，63%作为训练集，23%作为验证集。训练时，我们每次读取两个视频，每个视频长度为10帧。初始设置的学习率为0.001，每训练五十轮，学习率乘以0.1。在训练过程中，每训练100次，记录一次模型的损失值；每进行完一轮训练后，即进行一次验证操作并记录模型的准确率。

在训练过程中，通过观察损失值和准确率的变化情况，我们发现：在训练进入到第五十轮以后，损失值和准确率的变化明显变慢；当训练进入六十轮以后，损失值趋于稳定，准确率基本保持不变。

之后我们调取第五十轮保存的模型数据，并调整训练集和验证集中数据，将训练集中部分数据与验证集中数据进行交换；将学习率调整为初始值，并再次进行训练，结果并无明显变化。这时，我们判断模型训练已经达到极限。

4.2. 实验结果

在测试阶段，我们首先对P-ConvLSTM及各个分支进行了准确度测试。在表1中，展示了P-ConvLSTM的准确度以及在各个类上的准确度。从结果中我们可以看出，时间信息分支的准确度要高于空间信息分支的准确度，P-ConvLSTM的准确度高于任意一个分支。同时，P-ConvLSTM在跌倒、挥手这两个动作

DOI: 10.12677/csa.2020.106132

1281

计算机科学与应用