激光与光电子学进展, 2020, 57 (4): 041502, 网络出版: 2020-02-20   

基于卷积神经网络的特征融合视频目标跟踪方法 下载: 1488次

Feature Fusion Video Target Tracking Method Based on Convolutional Neural Network
作者单位
1 沈阳建筑大学信息与控制工程学院, 辽宁 沈阳 110168
2 沈阳理工大学自动化与电气工程学院, 辽宁 沈阳 110168
3 东北大学机械工程与自动化学院, 辽宁 沈阳 110168
摘要
针对计算机视觉中目标跟踪的问题,提出基于卷积神经网络(CNN)提取深度特征并与边缘特征进行自适应融合的策略来实现视频目标的跟踪算法。卷积神经网络的低层网络可以获取目标的一部分空间结构、形状等特征;高层网络可以获得相对比较抽象的部分语义信息。将VGG16神经网络中第2个卷积层Conv1-2、第4个卷积层Conv2-2和最后一个卷积层Conv5-3提取的深度特征与边缘特征进行特征的自适应融合来实现视频目标跟踪。在OTB100数据集中对本文算法进行实验验证与分析,结果表明,本文算法能够对目标实现更加准确的定位。
Abstract
To solve the target tracking problem in computer vision, this study proposes a strategy based on a convolutional neural network (CNN) that extracts depth features and adaptively blends with edge features to realize the tracking algorithm for video targets. The low-level network of CNN can acquire a part of the spatial structure and shape of the target. High-level network of CNN can obtain relatively abstract partial semantic information. Herein, depth features are extracted by the second convolutional layer Conv1-2, the fourth convolutional layer Conv2-2, and the last convolutional layer Conv5-3 in VGG16 neural network. The above mentioned features are fused with the edge feature adaptively to achieve video object tracking. Herein, the experimental verification and analysis of the proposed method are conducted on the OTB100 dataset. Results show that the proposed method can achieve accurate positioning of the target.

1 引言

目标跟踪,也被称为对象跟踪,是指一种当目标对象在视频中移动时自动估计其轨迹的技术,被广泛应用在安全视频监控、人机交互和体育视频分析等诸多领域中。目标跟踪在实际应用中可能需要实时跟踪多个移动对象,但其典型的处理方式是分别跟踪每个目标。视频的第一帧手动或自动识别到要跟踪的目标之后,后续帧需自动跟踪对象的轨迹。虽然现有的计算机视觉技术可以在良好的控制环境下为这个问题提供令人满意的解决方案,但是也会存在一些问题,出现诸如部分遮挡、背景杂乱、快速和突然运动、照明变化剧烈等因素干扰,因而在许多实际的应用场景中存在着难点和挑战[1-5]。大体来说,目前目标跟踪技术存在着几方面的挑战:

1) 当受到许多外界因素干扰时,如光照变化、遮挡、背景噪声等,目标会发生不规则变化,从而会增加跟踪的难度;

2) 跟踪模型的构建在很大程度上会受到复杂背景变换的影响,从而使得跟踪的目标会受到复杂背景的影响;

3) 当跟踪的目标由于遮挡等原因消失在视野中后,到目标再次出现时,能准确重新初始化目标位置十分困难。

由此可见,一种理想的目标跟踪算法应具备处理复杂情况的能力,能够在不利因素下实现对目标的实时和准确跟踪。卷积神经网络(CNN)可以获得更具有稳健性的深度特征, 边缘检测能够在对噪声进行抑制的同时还能够将边缘定位精确,进而捕捉到亮度急剧变化的区域。将VGG16神经网络提取的深度特征与边缘特征作为两条独立的跟踪线索,通过特征不确定性的自适应融合的策略来实现两种特征的融合,在获得深度特征的同时实现对边缘更加精确的定位,从而达到对目标的准确跟踪的目的。

2 深度特征表达

VGGNet神经网络是牛津大学计算机课题组与Google DeepMind 共同研发的,主要探索神经网络性能与神经网络深度之间的关系。VGG16神经网络是VGGNet当中的一个版本,其框架如图1所示。VGG16神经网络拥有16层深的卷积神经网络,是通过连续不断地堆叠2×2最大池化层以及3×3的小型卷积核来构建的。VGG16神经网络总共有5个卷积段,13个卷积层,每个卷积段包含2~3个卷积层,为了能够达到缩小图像尺寸的目的,每一个卷积段的末端都会连接一个最大池化层。并且每段的卷积核数量都是相同的,越是接近网络末端的卷积段,卷积核数量就会越多。卷积层为64-128-256-512这种结构中,2~3个3×3的过滤器会堆叠在一起,这样的好处是可以增加感受野,提高非线性,减少参数的数量。该网络具有良好的泛化性能,容易迁移到其他的图像识别项目上。VGG16网络的一大优点是简化了神经网络的结构,该的网络结构很规整,都是在几个卷积层后面增加可以压缩图像大小的池化层,池化层可以缩小图像的高度和宽度。

图 1. VGG16网络构架

Fig. 1. VGG16 network architecture

下载图片 查看所有图片

随着深度CNN出现,网络的完全连接层(FC)已经被普遍用于图像表示[6-7]。深卷积层的信息更有利于图像分类[8-9],另一方面,与较深卷积层相比,浅卷积层更适合于视觉跟踪[10]。深卷积层具有辨别力,并具有高级视觉的信息,相比之下,浅卷积层包含了高空间分辨率的低级特征,有利于定位。因此采取的方案为提取VGG16神经网络Conv1-2、Conv2-2和Conv5-3卷积层上的深度特征与边缘特征,对它们进行自适应融合来达到跟踪目的。

2.1 相关滤波跟踪方法

k通道的目标外观模板为x1,以 x1k表示第k个通道的特征,k1,2,3,,K。相关滤波器用ω表示,它由K个单通道滤波器ωk组成。通过最小化目标函数ε来求解相关滤波器,即

ε=k=1Kωk*x1k-y2+λk=1Kωk2,(1)

式中:λ为正则化参数;y为相关滤波器的期望输出;*为循环相关的操作。通过傅里叶变换快速求解,可以得到相关滤波器[11]

Wk=Y-Xkk=1KXk¯Xk+λ,(2)

式中:相关变量的频域描述用相应的大写字母表示, Y-Y的复共轭, Y-X为对应元素相乘。对下一帧的图像块提取图像块的特征zk,傅里叶变换后的特征Zk与滤波器Wk的相关输出响应f

f=F-1k=1KWk¯Zk,(3)

式中:F-1为傅里叶逆变换。f的最大值即目标出现的新位置。为了消除目标外观变化造成的不利影响,滤波器需要在线更新才能持续对目标进行跟踪,采取的更新方式为将(2)式拆分成分子 Atk和分母Bt

Atk=(1-ζ)At-1k+ζY-Xtk,(4)Bt=(1-ζ)Bt-1+ζk=1KXtk¯Xtk,(5)

式中:ζ为学习率;t为当前帧的序列号。

2.2 深度特征提取

在VGG16卷神经网络中,低层特征能更好地保留空间信息,深层特征能包含更多的语义信息。记目标的样本为x2,提取第m层的第k个通道的特征,m1,2,3,其中1表示VGG16的Conv1-2卷积层,2表示VGG16的Conv2-2卷积层,3表示VGG16的Conv5-3卷积层。由(1)~(3)式可分别求得相关滤波器,通过傅里叶变换得到相关滤波器 Wmk,以及经过傅里叶变换后 ZmkWmk的相关输出响应fm。基于高层特征对目标外观特征表示较好且语义信息更加丰富,令融合权重为0.6。虽然低层特征具有较高的分辨率,但是其抗干扰能力较弱,对遮挡、形变比较敏感,所以Conv1-2卷积层和Conv2-2卷积层的融合权重都为0.2。

3 边缘特征提取

边缘检测能对噪声进行抑制,同时还能够将边缘精确定位,因而在特征提取中应用十分广泛,已经成为了一个十分重要的研究领域。通常把极值点或者灰度值发生急剧变化的点定义为边缘点,当灰度不再连续变化时就是物体的边缘,那些与边缘方向垂直的像素的变化都相对比较剧烈,而那些沿着边缘方向的像素的变化则十分平缓[12-14]

图像函数g(x,y)在点(x,y)的梯度是一个矢量,即

g(x,y)=gxi+gyj,(6)

式中:ij分别为x方向和y方向的单位矢量。θ方向上的变化率为

gx·cosθ+gy·cosθ(7)

变化率的最大方向为

θmax=arctanl1l2,l1=gy,l2=gx(8)

梯度值大小为

f(x,y)=gx2+gy2(9)

采用一阶有限差分法来近似获得图像的灰度值梯度,从而可以得到在x方向上的偏导数和y方向上的偏导数。近些年,许多科研工作者基于边缘检测提出了一系列的模板算子以及其相对应的算法。Prewitt算子、Sobel算子和Roberts算子是常用的边缘检测算子。边缘检测算子可产生图像边缘增强效果的运算单元,其作用就是提供边缘候选点。作为一阶微分算子,Roberts算子具有结构简单、计算量小、对细节反应敏感的特点,与其他算子相比,Roberts算子可不经过后处理就可以给出相对较细的边缘。因此本文采用Roberts算子来提取边缘特征。

4 特征融合策略

为了能够融合边缘特征跟深度特征,需计算二者之间的相似程度。采用Bhattacharyya系数作为特征相似性度量法[15],具体定义为

d=1-ρP,Q,(10)ρP,Q=u=1Npuqu,(11)

式中:P= pu^u=1,2,3,,N,为候选区域的特征分布;Q= pu^,为目标模板的特征分布;N为粒子数目。当ρ越大时,d会越小,那么候选区域和目标模板就会越相似。

为了能够提高融合以后似然函数的鉴别能力以及噪声的影响,采用特征不确定性度量的方式来达到多特征的自适应融合[16]。特征的不确定性表达式为

Tt+1i=var_tK(pti),(12)

式中: Tt+1it+1时刻下i特征的特征不确定性;var_t为粒子在t时刻下的位置方差,位置方差越大,粒子就越分散;K( pti)为t时刻在第i种特征下全部粒子的观测概率值的熵,表示观测概率值的分散程度。熵是不确定性的量度,可表示为

K(pi)=-j=1Np(zi|xj)log2bp(zi|xj),(13)

式中:p(zi|xj)为第i种特征在第j个粒子状态下的观测概率值。K(pi)越大,则表明pi的不确定性也越大,估计的准确度就越低。

文献[ 16]提出的方法是基于特征不确定性的自适应融合,此自适应融合方式是将乘性融合方式和加性融合方式两种传统的方式统一到一个框架下,然后根据场景的变化,自适应地调节特征在跟踪中的不确定性,进而调整特征对跟踪结果的贡献。这个过程就是把每一种特征的观测概率值和一个正比于此特征不确定性的均匀分布通过加法运算进行归一化处理,然后取它们的乘积,公式为

p(z1z2z3zn|xj)=i-1np(zi|xj)+TiT(xj)1+Ti,(14)

式中:n为特征种类数。当 n为2时相应的融合规则为

p(z1,z2|xj)=1(1+T1)(1+T2)p(z1|xj)p(z2|xj)+T1T(xj)p(z2|xj)+T2T(xj)p(z1|xj)+T1T2T2(Xj),(15)

式中:T1为深度特征的不确定性;T2为边缘特征的不确定性;Ti= 1N,N为粒子数目。可以通过这个观测概率值来体现出候选模型和目标模型的相似程度。

此融合方式通过采取特征不确定性来改变它所在观测概率当中的比例,从而达到深度特征与边缘特征的融合。

5 算法的实现

本文算法在相关粒子滤波的框架下来实现对视频目标的跟踪,其具体流程如下。

1) 在初始帧状态下通过手动的方式来选择需要跟踪的目标,并且把目标框当成正样本,在它的周围选取一系列负样本并送入VGG16网络中;

2) 获取目标模型的边缘特征,并获取N个初始粒子 x0ii=1N,权值都设为 ω0ii=1N= 1N;

3) 由xt=Axt-1+N来获得当前帧的预测状态xt;

4) 计算深度特征和边缘特征的观测概率并将两者进行归一化处理,并求出这两个特征观测概率的熵;

5) 由粒子空间的位置坐标计算方差,并计算这两种特征各自的不确定性;

6) 计算似然函数p(z1,z2|xpresent),通过 ωti= ωt-1i×p(z1,z2|xpresent)来更新当前帧的粒子权值,然后进行归一化处理;

7) 由粒子权值的分布情况来决定是否需要采样,当 1i=1Nωti< N2时,重新抽取N个粒子,并把权重设置为 ωtii=1N= 1N,否则不进行处理;

8) 转到3),执行下一帧的跟踪。

6 实验结果及分析

在OTB100数据集上,将本文算法与目前比较主流的5个目标跟踪算法DLT(deep learning tracker)[17]、KCF(kernel correlation filter)[18]、CSK(circulant structure of tracking-by-detection with kernels)[19]、ORIA(online robust image alignment)[20]、CT(compressive tracking)[21]在100个测试视频序列上进行对比实验。采用一次性通过评估(OPE)[22]的精度曲线图和成功率曲线图来对算法的性能进行评判。

图2图3可以看出,本文算法的精度值和成功率都排在第一位,取得了很好的跟踪效果。

图 2. 精度曲线图

Fig. 2. Precision plot

下载图片 查看所有图片

图 3. 成功率曲线图

Fig. 3. Success rate plot

下载图片 查看所有图片

为了可以更加有效地验证本文算法的性能,在OTB100数据集上挑选了Car4、David、Dudek、Singer1、Soccer和Sylvester这6个复杂而具有挑战性的视频序列进行测试,并将本文算法与目前5个比较主流的目标跟踪算法进行比较。采取的方式是根据每一帧的中心位置误差跟重叠率来达到更直观的对比。中心位置误差的计算公式为

d=(xp-xg)2+(yp-yg)2,(16)

式中:(xp,yp)为跟踪结果的坐标位置;(xg,yg)为在原图像中真实的坐标位置。当d值小于20 pixel时,认为跟踪正确。重叠率的计算公式为

S=AreaDTDGDTDG,(17)

式中:DT为跟踪结果所获得的矩形边框;DG为原图像真实值所对应的矩形边框。在跟踪过程中,S的值大于0.5时,当前帧的跟踪效果满足要求,认为跟踪是成功的;若小于0.5,就认为当前帧的跟踪是失败的。

图4所示,本文算法在绝大多数帧内都能达到十分好的跟踪效果,中心位置误差整体低于其他几种算法。从图5可知,本文算法在跟踪过程中获得的边框与真实边框的重叠率能达到可观的效果,重叠率整体高于其他几种算法。图6是部分视频帧的跟踪结果。在Car4视频中,由于光照变化的影响并且跟踪目标发生了尺度变化,本文算法在整个过程中都能达到很好的跟踪效果;在David视频中,跟踪目标受到遮挡、运动模糊等干扰,同时跟踪目标发生了旋转,只有本文算法能达到很好的跟踪效果;在Dudek视频中,跟踪目标的某些部分超出了视野范围且发生了尺度变化,虽然各种算法都能跟踪到目标,但是本文算法的跟踪效果最好;在Singer1视频中,跟踪目标尺度的变化和光照的变化发生在整个视频序列中,本文算法实现了对目标很好的跟踪;在Soccer视频中,跟踪目标受到运动模糊、光照变化、快速移动等干扰因素的影响,只有本文算法实现了准确的跟踪;在Sylvester视频中,跟踪目标在图像平面中发生旋转,出现旋转出图像平面的情况,同时受到光照变化的干扰,本文算法也能实现很好的跟踪。综上所述,本文算法具有很好的稳健性,能够实现对目标的准确跟踪。

图 4. 中心位置误差对比结果(像素级)。(a) Car4;(b) David;(c) Dudek;(d) Singer1;(e) Soccer;(f) Sylvester

Fig. 4. Comparison of center position error (pixel level) . (a) Car4; (b) David; (c) Dudek; (d) Singer1; (e) Soccer; (f) Sylvester

下载图片 查看所有图片

图 5. 重叠率对比结果。(a) Car4;(b) David;(c) Dudek;(d) Singer1;(e) Soccer; (f) Sylvester

Fig. 5. Comparison of overlap rate. (a) Car4; (b) David; (c) Dudek; (d) Singer1; (e) Soccer; (f) Sylvester

下载图片 查看所有图片

图 6. 各种算法跟踪结果对比

Fig. 6. Comparison of tracking results of various algorithms

下载图片 查看所有图片

7 结论

提出一种基于卷积神经网络与边缘特征相融合的策略来实现目标跟踪。对VGG16神经网络中Conv1-2、Conv2-2与Conv5-3卷积层获得的深度特征与边缘特征进行自适应融合来实现跟踪,能提高跟踪精度。在OTB100数据集上对本文算法进行测试,并将本文算法与其他相关跟踪算法在每一帧上进行算法性能对比,结果表明本文算法能够对目标实现更有效的跟踪,具有较高的跟踪效率。

参考文献

[1] Wu Y, Lim J, Yang M H. Object tracking benchmark[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(9): 1834-1848.

[2] WuY, LimJ, Yang MH. Online object tracking: a benchmark[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, June 23-24, 2013, Portland, Oregon. New York: IEEE, 2013: 2411- 2418.

[3] 高美凤, 张晓玄. 尺度自适应核相关滤波目标跟踪[J]. 激光与光电子学进展, 2018, 55(4): 041501.

    Gao M F, Zhang X X. Scale adaptive kernel correlation filtering for target tracking[J]. Laser & Optoelectronics Progress, 2018, 55(4): 041501.

[4] 王艳川, 黄海, 李邵梅, 等. 基于在线检测和尺度自适应的相关滤波跟踪[J]. 光学学报, 2018, 38(2): 0215002.

    Wang Y C, Huang H, Li S M, et al. Correlation filter tracking based on online detection and scale-adaption[J]. Acta Optica Sinica, 2018, 38(2): 0215002.

[5] 仇春春, 李庆武, 王恬, 等. 一种改进的IVT目标跟踪算法[J]. 激光与光电子学进展, 2016, 53(1): 011002.

    Qiu C C, Li Q W, Wang T, et al. An improved IVT algorithm for object tracking[J]. Laser & Optoelectronics Progress, 2016, 53(1): 011002.

[6] OquabM, BottouL, LaptevI, et al. Learning and transferring mid-level image representations using convolutional neural networks[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2014, Columbus, Ohio. New York: IEEE, 2014: 1717- 1724.

[7] SimonyanK, Zisserman A. Very deep convolutional networks for large-scale image recognition[J/OL]. ( 2015-04-10)[2019-05-12]. https:∥arxiv.org/abs/1409. 1556.

[8] CimpoiM, MajiS, VedaldiA. Deep filter banks for texture recognition and segmentation[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, June 7-12, 2015, Boston, USA. New York: IEEE, 2015: 3828- 3836.

[9] LiuL, Shen C, van den Hengel A. The treasure beneath convolutional layers: cross-convolutional-layer pooling for image classification[C]∥Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, June 7-12, 2015, Boston, USA. New York: IEEE, 2015: 4749- 4757.

[10] DanelljanM, HagerG, Shahbaz KhanF, et al. Convolutional features for correlation filter based visual tracking[C]∥Proceedings of the IEEE International Conference on Computer Vision Workshops, June 7-12, 2015, Boston, USA. New York: IEEE, 2015: 58- 66.

[11] 杨丽娟, 张白桦, 叶旭桢. 快速傅里叶变换FFT及其应用[J]. 光电工程, 2004, 31(s1): 1-3.

    Yang L J, Zhang B H, Ye X Z. Fast Fourier transform FFT and its application[J]. Opto-Electronic Engineering, 2004, 31(s1): 1-3.

[12] 李志国, 顾鑫, 祝树生, 等. 基于特征确定性的目标跟踪算法[J]. 激光与红外, 2015, 45(5): 576-579.

    Li Z G, Gu X, Zhu S S, et al. Target tracking algorithm based on certainty measurement of the feature[J]. Laser & Infrared, 2015, 45(5): 576-579.

[13] 段瑞玲, 李庆祥, 李玉和. 图像边缘检测方法研究综述[J]. 光学技术, 2005, 31(3): 415-419.

    Duan R L, Li Q X, Li Y H. Summary of image edge detection[J]. Optical Technique, 2005, 31(3): 415-419.

[14] 李聪, 鹿存跃, 赵珣, 等. 特征融合的尺度自适应相关滤波跟踪算法[J]. 光学学报, 2018, 38(5): 0515001.

    Li C, Lu C Y, Zhao X, et al. Scale adaptive correlation filtering tracing algorithm based on feature fusion[J]. Acta Optica Sinica, 2018, 38(5): 0515001.

[15] Nummiaro K, Koller-Meier E, Van Gool L. An adaptive color-based particle filter[J]. Image and Vision Computing, 2003, 21(1): 99-110.

[16] 顾鑫, 王海涛, 汪凌峰, 等. 基于不确定性度量的多特征融合跟踪[J]. 自动化学报, 2011, 37(5): 550-559.

    Gu X, Wang H T, Wang L F, et al. Fusing multiple features for object tracking based on uncertainty measurement[J]. Acta Automatica Sinica, 2011, 37(5): 550-559.

[17] WangN, Yeung DY. Learning a deep compact image representation for visual tracking[C]∥Advances in Neural Information Processing Systems, December 5-8, 2013, Lake Tahoe, Nevada, United States. Canada: NIPS, 2013: 809- 817.

[18] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE transactions on pattern analysis and machine intelligence, 2014, 37(3): 583-596.

[19] Henriques JF, CaseiroR, MartinsP, et al. Exploiting the circulant structure of tracking-by-detection with kernels[M] ∥Fitzgibbon A, Lazebnik S, Perona P, et al. Computer vision-ECCV 2012. Lecture notes in computer science. Berlin, Heidelberg: Springer, 2012, 7575: 702- 715.

[20] WuY, ShenB, LingH. Online robust image alignment via iterative convex optimization[C]∥2012 IEEE Conference on Computer Vision and Pattern Recognition, June 16-21, 2012, Providence, RI, USA. New York: IEEE, 2012: 1808- 1814.

[21] ZhangK, ZhangL, Yang MH. Real-time compressive tracking[M] ∥Fitzgibbon A, Lazebnik S, Perona P, et al. Computer vision-ECCV 2012. Lecture notes in computer science. Berlin, Heidelberg: Springer, 2012, 7574: 864- 877.

[22] Everingham M, Van Gool L. Williams C K I, et al. The pascal visual object classes (voc) challenge[J]. International Journal of Computer Vision, 2010, 88(2): 303-338.

刘美菊, 曹永战, 朱树云, 杨尚奎. 基于卷积神经网络的特征融合视频目标跟踪方法[J]. 激光与光电子学进展, 2020, 57(4): 041502. Meiju Liu, Yongzhan Cao, Shuyun Zhu, Shangkui Yang. Feature Fusion Video Target Tracking Method Based on Convolutional Neural Network[J]. Laser & Optoelectronics Progress, 2020, 57(4): 041502.

本文已被 9 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!