胡薰尹:基于3D-LCRN视频异常行为识别方法论文

摘要:自动准确识别监控视频中的异常行为在安防领域具有广泛的应用前景.本文提出一种基于3D-LCRN(3D Long-short-term Convolutional Recurrent Network)视觉时序模型的视频异常行为识别方法.首先，基于视频图像帧间的结构相似性，结合光照感应与光照补偿机制进行背景建模，获取对光照突变与背景运动不敏感的矫正光流场与矫正运动历史图.同时，针对异常与正常行为视频数据失衡问题，计算三通道矫正光流运动历史图COFMHI(corrected optical flow motion history image)，随机提取视觉词块进行聚类，对样本数量与维度进行双向扩充，充分获取样本的微分和积分运动信息.在此基础上，采用3D-CNN深度学习网络模型对COFMHI进行学习，获取局部短时序时空-域特征，结合可学习贡献因子加权的LSTM网络以压制无关、冗余、具有混淆性的视频片段，进一步提取由短时序-长时序，由局部-全局的多层次时-空域特征用于异常行为识别.通过与同类方法的客观定量对比，实验结果表明，本文方法在光照突变与背景运动等复杂场景下具有优异的异常行为识别性能，进一步表明该方法有效、可行.

关键词:矫正光流运动历史图；样本扩充；3D-LCRN；3D-CNN；LSTM；异常行为识别

异常行为的研究关乎人身财产安全，视频监控系统已成为预防犯罪行为和识别安全威胁的流行方式.但是目前用人力来分析海量视频信息非常昂贵和低效，因此需要自动检测和定位可疑异常行为并及时预警.由于人类行为的模糊性和歧义性，异常行为的精准识别具有一定的挑战性.

早期的工作主要提取运动区域的手工特征如光流OF[1]、方向梯度直方图HOG[2]、运动历史图MHI[3]等来对视频进行编码.Hyukmin等[4]通过融合MHI与HOG来对人体行为进行建模与识别.Shiyang等[5]通过光流提取前景目标上的稀疏粒子轨迹来计算运动不稳定性，以实现异常行为识别.光流场与运动历史图在运动识别领域作为常用特征，在受约束场景下取得了较好效果，但在复杂场景下，上述方法均容易受到图像噪声、光照变化和背景抖动影响.与提取浅层手工特征相反，大量研究致力于从海量标记视频数据中自动学习深层特征[6].Christoph等[7]结合RGB图像光流场来训练双流2D-CNN网络，达到了较好的行为识别性能.但是2D-CNN容易丢失连续帧间时域运动信息的相关性，而这通常是行为识别的关键特征.杨天明等[8]提出基于3D-CNN的时-空双流网络来进行动作识别.但是3D-CNN只能对短时序间的运动结构进行建模.AMIN等[9]提出了基于2D-CNN与DB-LSTM的卷积循环神经网络，可以对长时序间的运动结构进行建模.考虑到人体运动行为之间具有很强的时间依赖性，需要同时对短时序与长时序间的运动区域进行建模.此外，公开的训练数据集如UMN[10]、CAVIAR[11]、Web[12]中正常行为视频片段数量远多于异常行为，使得模型容易陷入过拟合，很难从有限失衡样本中学习到其行为模式.

综上，视频异常行为识别的主要挑战有3点：1) 如何在光照变化、背景运动等复杂场景下压制背景干扰，提取出丰富的前景信息用于视频分析.2) 如何提取多帧间的时-空域结构信息并保留上下文间的时-空相关性用于视频理解.3) 如何通过有限且失衡的训练样本来训练神经网络.针对上述问题，本文提出了基于3D-LCRN网络的视频异常行为识别方法.该方法先建立包含光照感应与补偿机制的结构相似性背景模型，用于矫正光流场与运动历史图.接着，融合多模态特征获得矫正光流运动历史图COFMHI，并通过聚类扩充样本.在此基础上，结合3D-CNN、贡献因子加权的LSTM网络，提取COFMHI片段的多尺度时-空域特征用于异常行为判别.

1 光流运动历史图

1.1 结构相似性背景建模

光照突变、背景运动都会产生光流场与运动历史图，这些运动信息对异常行为的识别造成了一定的干扰.为了解决上述问题，本文提出了结构相似性背景建模方法来提取前景，在此基础上矫正光流场与运动历史图，以对抗运动背景和光照突变的干扰.

结构相似性[13]可以在一定程度上反映两张图像的纹理差异.即使背景是动态的，诸如树叶抖动、水纹波动、电梯运动也不会给背景造成较大的结构性改变，即帧间结构相似性基本保持不变.而当前景目标运动或光照突变时，帧间结构相似性会降低.基于背景图像具有结构相似性，背景更新模型定义为

不过，大人们要做的，可能是纠正“偏食”吧。文学的世界非常宽广，好吃的“食物”也远远不止那么几样。我想孩子们可以从各种题材的书中获得阅读的乐趣，让自己的视野更加开阔。毕竟，如果只偏好某种食物，有可能营养不良哦。

Bt(x,y)=(1-St(lt-1(x,y),lt(x,y))·α)Bt-1(x,y)+St(lt-1(x,y),lt(x,y))·α·It(x,y).

一个有生气、有活力的文人圈子应该是个既有争论，又有包容；既有赞许，更有批评的地方。关键是我们要对批评有个正确的认识和态度，纵然做不到闻过则喜，至少也要做到闻过不怒、不失风度。这才有个文人的样子。

式中：α为学习因子，设置为经验值0.01，It(x,y)为t时刻输入图像在像素(x,y)处的像素值，St是表征帧间结构突变程度的抑制因子，定义为

式中：lt-1(x,y)为背景图像Bt-1在点(x,y)处的亮度，lt(x,y)为输入图像It在点(x,y)处的亮度，μ1和μ2分别是lt-1(x,y)和lt(x,y)的局部均值，σ1和σ2分别是lt-1(x,y)和lt(x,y)的局部方差，σ1,2是lt-1(x,y)和lt(x,y)之间的协方差(上述参数可通过与3×3大小的高斯滤波器卷积获得)，c1和c2是常数，分别设为6.5和58.5.

部分实验结果如图1所示.其中，图1(a)～(f)依次为Bt-1、lt-1、μ1、σ1、σ1,2与Bt；图1(g)～(l)依次为It、lt、μ2、σ2、St与最终分割得到的前景目标Ft.

近期我国电力工业的发展，仍然是以燃煤发电为主。由于燃煤机组不断完善，电厂规模不断扩大，导致粉煤灰排放量急剧增长。1985年火电厂排灰渣总量达3 768万t，到1995年增加到9 936万t，到2007年粉煤灰排放量达到3亿t。按全国平均计，每增加10 MW装机容量，每年将增加近万吨粉煤灰的排放量。到2010年粉煤灰排放量已达到3.3亿t。按目前的排放状况和利用水平，冲灰用水量和储灰厂占地将增加一倍，分别达到30多亿吨和6.6万多平方米。对于我们这个水资源缺乏、可耕地人均占有率很低的国家来说，如何作好粉煤灰的利用和处置确实是一个十分重要的问题。

式中:Si为第i个聚类样本，Kj为第j个聚类中心.

第一，要在水资源配置中充分考虑农业用水和保障粮食安全的用水需求。水利部会同发改委等部门编制了全国水资源综合规划，明确了水资源配置方案，其中充分考虑了近期、中期和远期农业用水需求。

图1 结构相似性建模中间结果展示
Fig.1 Experimental results during structural similarity modeling

式中:m、n分别为图像的长和宽.

图像亮度变化越大，μs越小.为了降低光照突变对前景分割产生的干扰，当环境光照突变时，即当满足式(1)时，可依据式(2)更新背景Bt：

μs<Tu，

(1)

(2)

式中：Tu是背景变化阈值，实验中设为0.1[14]，Bbright为明候选背景，Bdark为暗候选背景，μt为当前帧It亮度均值，μb为明背景亮度均值，μd为暗背景亮度均值.

人体行为通常由一系列的子行为组成，子行为间有强烈的时间相关性.例如打架斗殴包含挥动手臂、奔跑等子行为.连续帧间的运动关联性比单帧图像更能区分行为.因而，本文采用3D-CNN对短时序视频片段的运动信息进行建模，捕获局部时-空域特征.此外，先前发生的行为在一定程度上会影响后续行为，例如跌倒后一般都会平躺然后弯腰起身.因而，本文采用LSTM桥接短时序时-空域特征，进行长时序深层次全局时-空域特征提取.

部分实验结果如图2所示.其中，(a)～(d)分别为第500、821、1 193与1 400帧输入图像，(e)为μs、Tu曲线，(f)为Δlt曲线，(g)为μt、μb、μd曲线.可以看出，当场景光线变化时，μs降低，Δlt升高.模型感知到了光线变化，调整μt、μb与μd的大小，做出相应的光照补偿.

根据模型计算得到的背景图像，对视频帧和背景图像进行差分和形态学滤波[15]，提取出前景目标

Ft=D(F(It-Bt))，

部分实验结果如下图.其中，图3(a)～(d)为视频原图，图3(e)～(h)为背景图像，图3(i)～(l)为前景图像.

式中:D(.)为图像的膨胀运算，F(.)为图像的腐蚀运算.

1.2 光流运动历史图与样本扩充

1)光流运动历史图

由于实际视频监控中正常行为数量往往远超出异常行为，因此，为后续的基于深度学习方法进行视频异常行为识别，需进行相应的异常行为样本扩充.具体方法与策略如下：对异常视频片段计算COFMHI，将连续的COFMHI，称为剪辑的片段，片段间隔设置为T.从每个剪辑片段Ti中随机提取N个n×n×3×T大小的区域，称为视觉词块.对所有剪辑片段进行处理后，在剔除平均像素值较小的视觉词块的基础上，采用K-means聚类[17]形成K个聚类中心，获取聚类中心的视觉词块.对聚类获得的K个n×n×3×T大小的扩充块进行尺度变换，转换成224×224×3×T大小的视觉词块.扩充后，将得到K×T帧224×224×3大小的COFMHI(计算COFMHI和提取扩充样本的过程如图6所示).

5.9 出院指导由于患者住院时间较短，大部分功能锻炼要在出院后完成，因此一定要教会患者功能锻炼的方法，并告知其重要性，促进肢体功能的恢复。同时发放功能锻炼图片，病区电话以便随时咨询。

式中：Ht(x,y)为第t帧像素(x,y)处矫正后的运动历史图，Ft(x,y)为第t帧前景图像(x,y)处的像素值，τ为持续时间，δ为衰退参数(实验中分别设为50，1)，dt(x,y)为像素(x,y)处的矫正光流场，w是像素(x,y)的邻域N的权重函数[16]，A与ΔB为扩展系数[16].

图2 光照突变感应与补偿
Fig.2 illumination sensing and compensation

部分实验结果如图4所示.其中，图2(a)～(b)分别为前、后帧输入灰度图像(以前景图像F为掩码得到)；图2(c)～(e)分别为权重函数w、扩展系数A、扩展系数ΔB；图2(f)～(h)分别为矫正光流场d在x方向的分量、矫正光流场d在y方向的分量与矫正运动历史图H.

图3 结构相似性建模得到的背景与前景图像
Fig.3 Background and foreground images obtained from structural similarity modeling

图4 光流场与运动历史图矫正过程
Fig.4 The correction of OF and MHI

在获取上述矫正运动历史图CMHI和矫正光流场COF的基础上，将COF分解为水平方向光流图COFx与垂直方向光流图COFy，并对上述图像分别进行归一化后将CMHI作为图像的R通道，COFx作为图像的G通道，COFy作为图像的B通道.对三通道进行堆叠形成矫正光流运动历史图COFMHI.

部分实验结果如图5所示.其中，图5(a)、(f)、(k)为视频原图，图5(b)、(g)、(l)为CMHI，图5(c)、(h)、(m)为COFx，图5(d)、(i)、(n)为COFy，图5(e)、(j)、(o)为COFMHI.

2)样本扩充

经上述结构相似性背景建模后，为进一步压制光照变化和背景抖动影响，分别进行运动历史图MHI和光流场OF矫正：

演示实验不仅是高中物理的重要教学内容，而且是测试中的常考知识点.但研究发现，部分教师开展演示实验教学时存在一些问题，影响教学效率的提升.这些问题主要体现在以下方面：

本文选取欧几里得距离d(i,j)来度量样本间的相似性，误差平方和SE作为聚类的目标函数：

式中：σ为sigmoid激活函数，wx*、wh*、wc*是线性变换的权重，b*是偏置，it为输入门，ft为忘记门，ot为输出门，ct为记忆细胞的状态，ht为LSTM输出.

为了使模型能尽快地感知场景光线变化，以便做出相应的光照补偿，需加入光照突变感应机制.当光照改变时，背景结构会发生变化，结构相似性会降低.因此，使用最小结构相似性映射的均值μs来反应环境亮度的变化，定义为

实验中，T为16，N为式中：F为异常视频剪辑片段数，w、h为分别图像宽度和高度，[.]为向下取整.

图5 矫正光流运动历史图
Fig.5 Corrected optical flow motion history image

图6 矫正光流运动历史图样本扩充
Fig.6 Sample expansion of the corrected optical flow motion history images

2 基于3D-LCRN异常行为识别

2.1 3D-LCRN网络结构

若相邻两帧结构相似性的差异性Δlt在光照突变后达到了历史最小值，则需更新Bbright与Bdark：

正常行为或异常行为中的某些片段是无关、冗余或具有混淆性的，例如空白的街道，上下运动的电梯与飞驰而过的车辆等.这些视频片段的主要内容从行人本身转移到了一些无关的运动物体上，会对网络训练造成一定的干扰.因此，本文提出了可学习的贡献因子αt，使得每个视频片段的重要性有所不同.αt由t时刻3D-CNN输出xt与t-1时刻LSTM输出ht-1计算所得

αt=exp(tanh(wxαxt+whαht-1+bα)).

式中：wxα、whα为线性变换的权重，bα为偏置.

t时刻LSTM输入由特征xt和贡献因子αt加权所得

在此基础上，本文构造了结合长-短时序的多层次网络模型3D-LCRN，以正确地对行为间的时间结构进行建模，如图7所示.3D-CNN模块基于ResNets[18]，用于捕获连续动作帧间的局部短时序时-空结构信息.本文剥离了ResNets最后的全连接层，增加了256-d、2-d两层全连接层，用于微调3D-CNN网络以适应后续建模.贡献因子αt加权的特征与长短时记忆网络LSTM相连，用于调整不同时刻时-空域信息的重要性.3D-LCRN结合LSTM的门控制记忆细胞(如图8所示)来存储过去态，当前态依据当前输入、输出和存储在该记忆细胞中的过去态进行更新，见式(3)～(7).最后，基于LSTM输出计算每个时刻的类别概率分布P(yt), 通过对重叠片段的所有预测结果求平均值来获得每帧图像的所属类别，以实现正常与异常行为识别，见式(8)、(9).3D-LCRN的结构特性，使其能够在长时序间桥接重要信息，保留记忆，实现由短时序-长时序，由局部-全局的多层次时-空域特征提取.

唐宋八大家之一的欧阳修在《醉翁亭记》中就有“若夫日出而林霏开，云归而岩穴暝，晦明变化者，山间之朝暮也。野芳发而幽香，佳木秀而繁阴，风霜高洁，水落而石出者，山间之四时也。朝而往，暮而归，四时之景不同，而乐亦无穷也”。极佳地诠释了“游之”的乐趣和真境界。

图7 3D-LCRN网络结构
Fig.7 The structure of the 3D Long-short-term Convolutional Recurrent Network

图8 LSTM记忆细胞结构
Fig.8 The structure of the long short-term memory cell

(3)

(4)

(5)

ct=ftct-1+ittanh(wxcxt'+whcht-1+bc)，

(6)

ht=ottanh(ct).

(7)

建构主义所主张的观念建构必须建立在基于身份的关系基础之上，美中之间假朋友的性质决定了建构主义性质的尝试注定会失败。[42]那么，自由制度主义能不能为缓解乃至解决南海问题提供借鉴？根据中国的尝试及其后续发展，美国显然不愿意由中国主导南海问题。而中国理所当然不同意在事关自身核心利益的问题上受制于他方主导的相关制度。这因而成为美国以南海问题为切入点、联合东盟大多数成员国制衡中国的渊源。

(8)

(9)

式中：P(yt=z)是模型预测t时刻输入视频片段属于类别z的概率，yf为第f帧图像所属类别，whz为权重，bz为偏置.

在中国，宠物狗最迟在唐代出现，小型观赏犬已经成了贵妇圈的宠物，描绘唐朝贵妇生活的周昉《簪花仕女图》便画了两只小巧玲珑的宠物犬。这种小型观赏犬叫作“拂菻狗”，唐初从高昌传入，“高六寸，长尺余，性甚慧，能曳马衔烛，云本出拂菻国。中国有拂菻狗，自此始也”。又称“猧儿”，极其名贵，只有宫廷贵妇才养得起。

2.2 3D-LCRN网络训练

3D-LCRN网络训练包含两个阶段，即3D-CNN训练和贡献因子αt加权的LSTM训练.3D-CNN模块基于UMN、CAVIAR与Web数据集对在UCF101[19]与HMDB51[20]数据集上预训练好的模型[21]进行微调，结构如图9(a)所示.模型输入为连续的16帧COFMHI，大小为3×16×224×224.输出2-d向量，表示正常或异常行为.微调后的模型剥离最后的2-d全连接层，抽取出256-d的特征向量.

LSTM模块初始输入为多个256-d特征向量的平均值，这些特征向量由随机抽取的一段正常视频通过预训练好的3D-CNN获得.基于该初始化，可以计算第1时刻的贡献因子α1.在后续的每个时刻，LSTM将依据上一时刻的输出计算新的贡献因子.本文将训练样本通过3D-CNN提取的特征加权后作为输入馈送到LSTM中训练整个3D-LCRN网络，如图9(b)所示.训练时，通过输出类别与真实类别计算出的误差反向传播来对贡献因子与LSTM权重进行训练，而3D-CNN的权重保持不变.图4中，3D-LCRN网络滑动步长为λT，时间步长为l.实验中，λ与l分别设为0.25与40[22]，T为16.学习率为0.003，在每150 000次迭代后减半.对于所有非循环连接，dropout设为0.5[23].

图9 微调、训练与预测阶段3D-CNN与3D-LCRN网络结构
Fig.9 The structure of 3D-CNN and 3D-LCRN during the fine tuning, training and predict stage

3 实验结果与分析

基于上述方法，本文选用多个公开数据集进行实验验证，包括UMN、CAVIAR与Web.UMN包含不同场景(草坪、室内和广场)中拍摄的11段视频，图像大小为320×240像素.每段视频都包含正常部分，几十人随机地四处走动，然后发生异常事件，人们惊慌地逃离.CAVIAR包含人们独自散步、与他人见面、逛街、进出商店、打架和昏迷，图像大小为384×288像素.Web数据集由8个具有异常行为(恐慌逃逸、抗议者冲突和人群斗殴)的序列和12个具有正常行为(步行、马拉松跑步)的序列组成，图像大小不等.UMN与CAVIAR场景相对简单，部分视频含有局部或全局的光照变化.Web数据集主要包含针对城市场景的纪录片和视频，通常包含复杂的背景，对识别系统具有挑战性[24].

以植物为食的恐龙总是要小心地提防凶猛的食肉恐龙，于是植食性恐龙演化出了各种防御结构，比如长角、头盾和大爪子。在众多植食性恐龙中，有一种恐龙的防御结构显得十分与众不同——头顶上长有厚厚的头盖骨。这就是练就了“铁头功”的肿头龙。

本文实验软件运行环境为Windows 7 64位，平台为Python3.6+Opencv3.3.1开源视觉库+Tensorflow1.8.0开源机器学习框架，硬件配置为Intel®CoreTMi5-4440 3.10GHz CPU，8G RAM内存.

3.1 异常行为识别

图10为OFMHI与COFMHI部分实验结果对比.其中，图10(a)、(f)、(k)为视频原图，分别选自UMN、CAVIAR与Web数据集；图10(b)、(g)、(l)为背景图像；图10(c)、(h)、(m)为前景图像；图10(d)、(i)、(n)为COFMHI；图10(e)、(j)、(o)为OFMHI.

从图10中可以看出，OFMHI包含大量由光照、抖动引起的背景干扰(透明绿色、红色)；而本文所提前景图像压制了背景抖动，对光照变化不敏感，矫正所得COFMHI几乎无背景干扰.实验证明，本文所提COFMHI在复杂场景下仍具有较好的鲁棒性，能够有效压制背景干扰.

采用此方法，在一些处于停止状态下的设备如果短时停电，对电网是没有冲击的，所以瞬间停电干扰对设备的影响不是很大。电机制动时回馈的能量可以被利用，所以比较节能。而因能够回馈能量的电机无功功率损失较小，所以以此方法还可以可以提高设备的功率因数。而且多台变频器共用直流母线可以稳定直流母线电压，减小因设备启停造成的电网电压波动。

样本扩充时的聚类参数如表1所示.其中，误差平方和为聚类完成后得到的结果.由于Web数据集计算得到的COFMHI图像尺寸不一，本文统一归一化为224×224×3像素.聚类范围为去除平均像素值小于0.2的候选样本后总样本数量.

地铁施工方法的选择不仅要满足其本身使用功能，合理开发利用地上、地下有效空间，而且要考虑施工对周围环境带来的影响.施工方法的选择对线路埋深、结构形式、工期及土建工程造价等影响很大.

部分实验结果如图11所示.由于每个聚类中心为4D视觉词块，这里选取T=1通道进行展示.其中，图11(a)～(d)为初始聚类中心，图11(e)～(h)为最终得到的聚类中心，即扩充后的新样本.可以看出，扩充后的新样本与原始样本不同，但是具有一定的相似性.

图10 COFMHI与OFMHI对比实验
Fig.10 Comparisons between corrected optical flow motion history image and optical flow motion history image

表1 K-means聚类参数
Tab.1 Parameters of K-means clustering

数据集图像大小w×h×3异常片段F候选样本FN样本大小n×n×3×T聚类范围聚类中心K误差平方和SEUMN[10]320×240×3951900138×138×3×161749392.623×107CAVIAR[11]384×228×3681360148×148×3×161239281.754×107Web[12]224×224×31583160112×112×3×162923654.467×107

图11 初始聚类中心与产生的新样本
Fig.11 Initial centers and new samples

图12 3D-CNN提取的时-空域特征
Fig.12 Spatial-temporal feature maps extracted from 3D-CNN

图13 LSTM预测概率分布
Fig.13 Probability distribution predicted by LSTM

经过聚类扩充后，本文得到了132个聚类中心，即2112帧新COFMHI图像.接着把原始样本与扩充产生的新样本一起送入3D-CNN进行网络微调，最后送入3D-LCRN网络进行分类训练，以实现异常行为识别.部分实验结果见图12与图13所示.

图12为微调后3D-CNN第2层卷积层输出的部分时-空域特征.该层共有64个特征，每个特征为56×56×8像素的3D特征块.其中，图12(a)～(h)为8个特征块的第一通道.

图13为LSTM预测所得类别概率分布.其中，图13(a)～(c)分别为第20、175与296帧输入图像，选自CAVIAR数据集；图13(d)～(g)为视频片段预测结果，P(yt=1)为t时刻当前片段属于异常行为的概率，P(yt=0)为t时刻当前片段属于正常行为的概率；(h)为图像帧预测结果，P(yf=1)为第f帧属于异常行为的概率，P(yf=0)为第f帧属于正常行为的概率；(i)为真值与识别结果对比.从图中可以看出，本文所提3D-LCRN网络有效、可行，异常行为识别结果准确、稳定.

3.2 客观定量评价对比

为进一步评价本文所提COFMHI的有效性，分别将光流图(矫正前后)、运动历史图(矫正前后)、光流运动历史图(矫正前后)与3D-LCRN网络结合，基于3个公开数据集进行5折交叉验证对比实验.实验使用6种不同的图像数据来训练6个3D-LCRN网络，结果如表2所示.其中，每一列的平均值与标准差由该列的3个数据计算得到.由表2可知，光流图与运动历史图相结合后识别效果提升，与光流图相比提高了0.7%，与运动历史图相比提高了2.4%.究其原因为光流场包含了运动目标的瞬态运动信息与表观结构，运动历史图包含了运动目标的轮廓轨迹和运动能量的空间分布，两相结合可以在一定程度上丰富时-空域特征的表现形式.并且，三类图像经过本文所提方法进行矫正后识别效果均有提升，COFMHI较OFMHI识别效果提高了2.0%.究其原因为本文所提方法能够在一定程度上对抗光照变化与背景抖动，压制了场景中部分背景干扰.实验表明，本文方法有效可行.

为定量评价本文所提贡献因子的有效性，将COFMHI分别与有、无贡献因子的3D-LCRN结合，在3个公开数据集上进行5折交叉验证，实验结果如表3所示.其中，每一行的平均值与标准差由该行的三个数据计算得到.由表3可知，含有贡献因子的3D-LCRN模型识别精度较高，较不含贡献因子的3D-LCRN相比提高了1.9%.究其原因为本文所提贡献因子能让每个输入视频片段的重要性有所不同，通过自适应学习能够在一定程度上压制冗余、混淆或无关视频片段，提高异常行为识别精度.

表2 基于不同预处理图像的异常行为识别性能对比
Tab.2 Performance comparisons for different preprocessed images

数据集输入图像光流图运动历史图光流运动历史图OFCOFMHICMHIOFMHICOFMHIUMN[10]0.9610.9670.9470.9550.9710.990CAVIAR[11]0.9410.9500.9250.9370.9450.964Web[12]0.8390.8460.8180.8290.8460.869平均值±标准差0.914±0.0530.921±0.0530.897±0.0560.907±0.0560.921±0.0540.941±0.052

表3 有无贡献因子α的3D-LCRN识别性能对比
Tab.3 Performance comparisons for 3D-LCRN with and without α

方法UMN[10]CAVIAR[11]Web[12]平均值±标准差3D-LCRN(withoutα)0.9880.9410.8370.922±0.0633D-LCRN0.9900.9640.8690.941±0.052

为客观定量评价本文方法的有效性，选取方法[5][8-9]基于3个公开数据集进行5折交叉验证，实验结果如表4所示.其中，每一行的平均值与标准差由该行的三个数据计算得到.由表4可知，本文所提方法异常行为识别时性能最优.究其原因在于，文献[5]基于轨迹计算运动不稳定性来判别异常行为.在复杂场景下，行人间存在大量交叉遮挡，该方法难以跟踪并提取目标的完整运动轨迹，因而异常行为识别精度不高.文献[8]基于输入为原始图片与光流图片的双流卷积神经网络来进行行为识别.但是光流和3D-CNN提取的都是短时序特征，针对长视频，上下文间的相关性容易流失，并且在复杂场景下无法压制光线变化与背景运动等干扰，因而在简单场景下识别效果较优，但是在复杂场景下性能不如本文所提方法.文献[9]通过2D-CNN提取RGB图像特征，送入双向LSTM网络进行深层特征提取，从而识别行为.由于2D-CNN容易丢失连续视频帧间运动信息的时间相关性，并且视频片段具有一定的冗余与混淆性，因而识别精度不高.实验表明，本文方法具有优异的异常行为识别性能.

表4 不同异常行为识别方法性能对比
Tab.4 Performance comparisons among the proposal and others

方法UMN[10]CAVIAR[11]Web[12]平均值±标准差MotionInstabil-ity[5]0.9810.9510.8210.918±0.069Spatiotemporal-3D-CNN[8]0.9920.9460.8340.924±0.0662D-CNN+LSTM[9]0.9870.9570.8410.928±0.063COFMHI+3D-LCRN0.9900.9640.8690.941±0.052

4 结论

提出了一种基于3D-LCRN的异常行为识别方法.1)通过结构相似性背景模型获取复杂场景下能够压制光照突变与背景运动的矫正光流场与矫正运动历史图.2)提出样本维度与数量双向聚类扩充方法有效丰富了COFMHI样本的时-空域信息，在一定程度上克服了样本有限且失衡的问题.3)提出结合可学习贡献因子的3D-LCRN网络对COFMHI进行分类识别，能够压制冗余，提取局部-全局、短时序-长时序的多层次时-空域特征，进一步提高了异常行为识别精度.该方法在UMN、CAVIAR与Web公开数据集上平均识别准确率达到94.1%，与现有的行为识别方法相比，本文方法能够在光照变化、背景抖动等复杂场景下保留视频上下文间的时-空相关性，准确、有效识别异常行为，具有优异的识别性能与一定的实用价值.

参考文献

[1]BROX T, BRUHN A, PAPENBERG N, et al. High accuracy optical flow estimation based on a theory for warping[C]//Proc 8th European Conference on Computer Vision. Prague: Springer, 2004: 25

[2]DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[C]//2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. San Diego, CA: IEEE Press, 2005: 886

[3]MURTAZA F, YOUSAF M H, VELASTIN S A. Multi-view human action recognition using 2D motion templates based on MHIs and their HOG description[J]. IET Computer Vision, 2017, 10(7): 758. DOI:10.1049/iet-cvi.2015.0416

[4]EUM H, YOON C, LEE H, et al. Continuous human action recognition using Depth-MHI-HOG and a spotter model[J]. Sensors, 2015, 15(3): 5197. DOI:10.3390/s150305197

[5]XIE Shiyang, GUAN Yepeng. Motion instability based unsupervised online abnormal behaviors detection[J]. Multimedia Tools & Applications, 2016, 75(12): 7423. DOI:10.1007/s11042-015-2664-8

[6]IJJINA E P, CHALAVADI K M. Human action recognition using genetic algorithms and convolutional neural networks[J]. Pattern Recognition, 2016, 59(11): 199. DOI:10.1016/j.patcog.2016.01.012

[7]FEICHTENHOFER C, PINZ A, ZISSERMAN A. Convolutional two-stream network fusion for video action recognition[C]//2016 IEEE Conference on Computer Vision and Pattern Recognition. Las Vegas, NV: IEEE Press, 2016: 1933

[8]杨天明, 陈志, 岳文静. 基于视频深度学习的时空双流人物动作识别模型[J]. 计算机应用, 2018, 38(3): 895. DOI:10.11772/j.issn.1001-9081.2017071740

YANG Tianming, CHEN Zhi, YUE Wenjing. Spatio-temporal two-stream human action recognition model based on video deep learning[J]. Journal of Computer Applications, 2018, 38(3): 895. DOI:10.11772/j.issn.1001-9081.2017071740

[9]ULLAH A, AHMAD J, MUHAMMAD K, et al. Action Recognition in video sequences using deep bi-directional LSTM With CNN features[J]. IEEE Access, 2018, 6(99): 1155. DOI:10.1109/ACCESS.2017.2778011

[10]UMN: Unusual crowd activity dataset of University of Minnesota[DB/OL]. 2006. http://mha.cs.umn.edu/Movies/CrowdActivity-All.avi

[11]Caviar: EC funded caviar project [DB/OL]. 2004. http://homepages.inf.ed.ac.uk/rbf/CAVIAR/

[12]The Web Datasets[DB/OL]. 2009. http://www.vision.eecs.ucf.edu/projects/rmehran/cvpr2009/Abnormal_Crowd.html

[13]BRUNET D, VRSCAY E R, Wang Zhou. On the mathematical properties of the structural similarity index[J]. IEEE Transactions on Image Processing, 2012, 21(4): 1488. DOI:10.1109/TIP.2011.2173206

[14]LUO Yong, GUAN Yepeng. Motion objects segmentation based on structural similarity background modelling[J]. IET Computer Vision, 2015, 9(4): 476. DOI:10.1049/iet-cvi.2014.0261

[15]冯宝, 张绍荣, 陈业航, 等. 结合小波能量和汉森形状指数的肺结节分割[J]. 仪器仪表学报, 2018, 39(11): 240. DOI:10.19650/j.cnki.cjsi.J1803951

FENG Bao, ZHANG Shaorong, CHEN Yehang, et al. Nodule segmentation combining wavelet energy and hessian shape index[J]. Chinese Journal of Scientific Instrument, 2018, 39(11): 240. DOI:10.19650/j.cnki.cjsi.J1803951

[16]FARNEBACK G. Two-frame motion estimation based on polynomial expansion[C]//13th Scandinavian Conference on Image Analysis. Halmstad: Springer, 2003: 363

[17]高国琴, 李明. 基于K-means算法的温室移动机器人导航路径识别[J]. 农业工程学报, 2014, 30(7): 25. DOI:10.3969/j.issn.1002-6819.2014.07.004

GAO Guoqin, LI Ming. Navigating path recognition for greenhouse mobile robot based on k-means algorithm[J]. Transactions of the Chinese Society of Agricultural Engineering, 2014, 30(7): 25. DOI:10.3969/j.issn.1002-6819.2014.07.004

[18]HARA K, KATAOKA H, SATOH Y. Can spatiotemporal 3D CNNs retrace the history of 2D CNNs and ImageNet?[C]//2018 IEEE Conference on Computer Vision and Pattern Recognition. Salt Lake City, UT: IEEE Press, 2018: 6546

[19]SOOMRO K, ZAMIR A R, SHAH M. UCF101: A dataset of 101 human action classes from videos in the wild: CRCV-TR-12-01[R]. UCF Center for Research in Computer Vision, 2012

[20]KUEHNE H, JHUANG H, GARROTE E, et al. HMDB: a largevideo database for human motion recognition[C]//2011 IEEE International Conference on Computer Vision. Barcelona: IEEE Press, 2011: 2556

[21]HARA K, KATAOKA H, SATOH Y. Learning spatio-temporal features with 3D residual networks for action recognition[C]//2017 IEEE International Conference on Computer Vision. Venice: IEEE Press, 2017: 3154

[22]Lu Na, Wu Yidan, Feng Li, et al. Deep learning for fall detection: 3D-CNN combined with LSTM on video kinematic data[J]. IEEE Journal of Biomedical and Health Informatics, 2019, 23(1): 314. DOI:10.1109/JBHI.2018.2808281

[23]SRIVASTAVA N, HINTON G, KRIZHEYSKY A, et al. Dropout: a simple way to prevent neural networks from over-fitting[J]. Journal of Machine Learning Research, 2014, 15(1): 1929

[24]仉长崎, 管业鹏. 基于动态粒子流场的视频异常行为自动识别[J]. 光电子·激光, 2015, 26(12): 2375. DOI:10.16136/j.joel.2015.12.0563

ZHANG Changqi, GUAN Yepeng. Dynamic particle flow field based automatic recognition of video abnormal behavior[J]. Journal of Optoelectronics·Laser, 2015, 26(12): 2375. DOI:10.16136/j.joel.2015.12.0563

3D-LCRNbasedVideoAbnormalBehaviorRecognition

HU Xunyin1, GUAN Yepeng1,2

(1.School of Communication & Information Engineering, Shanghai University, Shanghai 200444, China; 2.Key Laboratory of Advanced Display and System Application (Shanghai University), Ministry of Education, Shanghai 200072, China)

Abstract: Automatically anomaly recognition in surveillance videos is a crucial issue for social security. A 3D-LCRN visual time series model was proposed for abnormal behavior recognition on video surveillance. Firstly, a structural similarity background modeling method was proposed to obtain corrected optical flow and corrected motion history image, which was insensitive to illumination variation and background moving against background interference in complex scenes. Secondly, a new sample expansion method was proposed to solve the imbalance between normal training samples and abnormal ones, which enriched the spatial and temporal information of samples from both dimensionality and quantity. On dimensionality, the method stacked corrected optical flow and corrected motion history image to generate the corrected optical flow motion history image. In quantity, COFMHI was randomly cropped and clustered into center visual words by K-means. Finally, COFMHI was used as 3D-CNN input to extract local short-time spatial-temporal features of behavior. In order to suppress irrelevant, redundant and confusing video clips, a learnable contribution factor weighted LSTM was used to deeply extract the global long-time spatial-temporal features for abnormal behavior recognition. Through 3D-LCRN, abundant spatial-temporal features were extracted from both local to global and short-time to long-time levels. Experimental results show that the proposed method has excellent performance of abnormal behavior recognition in complex scenes such as illumination variation and background moving in comparison with the state-of-art methods.

Keywords: corrected optical flow motion history image; sample expansion; 3D-LCRN； 3D-CNN； LSTM； abnormal behavior recognition

中图分类号:TP391.7

文献标志码:A

文章编号:0367-6234(2019)11-0183-11

DOI：10.11918/j.issn.0367-6234.201812005

收稿日期:2018-12-04

作者简介:

胡薰尹(1994—)，女，硕士研究生；

一是个税应该进一步降低。今年10月1日起，个税减税政策已经率先实施，工资薪金起征点提至5000元，并适用新的税率，而明年1月1日起个税改革将全面实施，老百姓还能享受专项附加扣除。个税起征点提高到每月5000元以后，从总体上来讲，税收一年大致要减3200亿。

管业鹏(1967—)，男，教授，博士生导师

通信作者:管业鹏，ypguan@shu.edu.cn

(编辑苗秀芝)

标签：图像论文; 异常论文; 背景论文; 样本论文; 时序论文; 政治论文; 法律论文; 政治理论论文; 国家理论论文; 国家行政管理论文; 《哈尔滨工业大学学报》2019年第11期论文; 上海大学通信与信息工程学院论文; 新型显示技术及应用集成教育部重点实验室(上海大学)论文;