光学学报, 2018, 38 (2): 0215002, 网络出版: 2018-08-30   

基于在线检测和尺度自适应的相关滤波跟踪 下载: 1163次

Correlation Filter Tracking Based on Online Detection and Scale-Adaption
作者单位
国家数字交换系统工程技术研究中心, 河南 郑州 450000
摘要
针对相关滤波跟踪在遮挡及目标尺度变化等情况下容易跟踪失败的问题,提出一种基于在线检测和尺度自适应的相关滤波跟踪算法。相关滤波跟踪器融合方向梯度直方图特征、颜色属性特征和光照不变特征进行目标定位;通过局部稀疏表示模型的重构残差进行遮挡判别,如果发生遮挡则进行在线支持向量机检测,实现目标重定位;进行由粗至精的尺度估计,通过尺度预估计和牛顿迭代法得到目标的精确尺度。采用均衡的模型更新策略,固定更新相关滤波器,保守更新稀疏表示模型和支持向量机。实验结果表明:与现有跟踪算法相比,所提算法能有效降低遮挡、目标尺度变化等复杂因素的干扰,并在50组测试序列上取得较高的距离精度和成功率,其整体性能优于其他对比算法。
Abstract
In correlation filter tracking, occlusion and object scale change can lead to tracking failure easily. To deal with this problem, a correlation filter tracking algorithm based on online detection and scale-adaption is proposed. The target is initially located through a correlation filter tracker fusing histogram features of oriented gradient, color attribute features and illumination invariant features. The reconstruction residual of local sparse representation model is used for occlusion discrimination. If occlusion occurs, online support vector machine detection will be carried out and target relocating will be realized. Scale estimation from coarse to precise is carried out, and precise scale of target is obtained by scale pre-estimation and Newton iterative method. A balanced model updating strategy is used to update correlation filter regularly and update sparse representation model and support vector machine conservatively. Experimental results show that, compared with existing tracking algorithms, the proposed algorithm can effectively reduce the occlusion, target scale change and other complicated factors, and can gain higher distance precision and success rate on 50 groups of test sequences. The overall performance of the proposed algorithm is better than other contrast algorithms.

1 引言

目标跟踪是指给出视频中目标的初始状态(如位置和大小等),并在后续序列中对目标的位置状态进行检测标识[1]。作为计算机视觉的重要研究课题,目标跟踪广泛应用于智能交通、视频监控和人机交互等领域[2]。近年来,研究者们在目标跟踪算法的研究方面取得了很大进展,但仍面临着诸多挑战,例如复杂背景、尺度变化和目标遮挡等。

根据目标的表观建模方式,可将目标跟踪算法模型分为两类[1]:产生式模型和判别式模型。产生式模型是对目标进行建模,搜索与之匹配度最高的候选区域进行跟踪;判别式模型基于检测判别机制,通过在线更新分类模型来实现目标的定位跟踪。随着机器学习等领域技术的发展,目前多数学者主要研究判别式跟踪算法[1]。其中,相关滤波(CF)跟踪模型以其较好的跟踪性能和较高的计算效率,成为当前目标跟踪领域的研究热点之一[3]。该模型主要有两个优势:1)通过对样本的循环密集采样,可实现对有限训练数据的扩展;2)采用循环相关和快速傅里叶变换,可有效减小训练和检测的运算量[3]。因此,相关滤波跟踪模型具有训练样本稀少且实时性强的特点,更适用于跟踪领域。Bolme等[4]提出的最小输出平方误差和相关滤波跟踪(MOSSE)算法将相关滤波思想引入跟踪领域,跟踪速度可达数百帧每秒。Henriques等[5]通过训练正则化最小二乘(RLS)分类器进行跟踪判定,之后他们又提取目标的方向梯度直方图(HOG)特征并建立了多通道特征融合模型[6],取得了较好的跟踪效果。Danelljan等[7]将颜色属性(CN)信息进行主成分分析(PCA)降维与灰度特征叠加,得到了更加精确、稳健的目标表观模型。Qi等[8]充分利用卷积神经网络(CNN)层级所抽取的特征建立多个弱相关滤波跟踪器,并采用自适应对冲思想将多个弱跟踪器整合成强跟踪器。但上述算法[4-8]存在两个问题:1)采用固定尺度的滤波模板,不能适应目标尺度变化;2)在目标遮挡后,采用固定的学习机制会导致误差累积,引起跟踪漂移。为解决尺度变化问题,Danelljan等[9-10]采用尺度金字塔思想,但该方法存在两个问题:1)该策略以目标原始大小为中心层,向上下层进行权重递减叠加,当目标尺度发生变化时,固定的权重叠加会导致真实目标尺度响应的减弱;2)各层间具有一定的间隔,由金字塔对应层直接得到目标尺度,会出现估计偏差较大的问题。针对遮挡问题,Ma等[11]根据目标回归CF跟踪模型的响应值进行遮挡判断,但该过程易受目标表观变化的干扰。

为增强CF跟踪模型对遮挡及目标尺度变化的稳健性,本文在相关滤波跟踪框架下提出基于在线检测和尺度自适应的相关滤波跟踪算法,主要开展了以下4个方面的工作:1)将HOG特征、CN特征和光照不变特征(IIF)[12]进行融合,以增强CF跟踪模型目标表征的精确性;2)提出一种在线检测机制,联合目标的局部稀疏表示模型[13]和在线支持向量机(SVM)模型[12,14],实现了目标遮挡的检测与遮挡目标的重定位;3)给出一种“由粗到精”的尺度目标估计方法,解决了尺度金字塔策略中权重配比和尺度估计不精确的问题;4)采用均衡学习策略,固定更新相关滤波系数以适应目标表观变化,根据跟踪结果的可信度保守更新稀疏表示字典和SVM检测器,以保留对目标的长时记忆,从而提高算法的适应性。

2 算法描述

所提算法主要分为4个阶段:1)采用相关滤波模型对目标进行跟踪定位;2)针对遮挡问题对目标进行在线检测;3)针对尺度变化问题对目标进行尺度估计;4)对各模块进行更新。算法框架图如图1所示。

图 1. 所提算法的框架图

Fig. 1. Framework of proposed algorithm

下载图片 查看所有图片

2.1 基于多特征融合的相关滤波跟踪器

在CF跟踪模型中,算法的目标是从训练样本 (xi,yi)}i中学习一个多通道的卷积(相关)滤波器。假设第i个训练样本为xi,对应标签为yi,若用函数f(xi)=wTxi来表示输入与输出,则分类器的训练可转化为目标函数的最小化,即 minwiL[f(w,xi),yi]+λw22,其中L(·)为损失函数,w为权重向量,λ为正则化参数。L(·)的形式为L[f(w,xi),yi]=[yi-f(w,xi)]2

设训练区域x的尺度大小为[ MN],循环样本可表示为xm,n,(m,n)∈{0,1,…,M-1}×{0,1,…,N-1},训练样本xm,n对应的标签y(m,n)=exp[-(m-M/2)2+(n-N/2)2/(2 δlabel2)],其中δlabel为标准差。通过核函数将样本x映射至Hilbert空间φ(x),可实现非线性模型的训练并提升分类性能[15]。设核函数κ(x,z)=<φ(x),φ(z)>,w可表示为 w=m,nam,nφ(xm,n),w可转化为求对偶空间的向量a= (αm,n)M×N。由(1)式推导可得

a^=(κ^xx+λ)-1y^,(1)

式中 κ^xx表示训练区域x映射至Hilbert空间后的离散傅里叶变换(DFT), y^为对应标签y的DFT。设当前帧目标的检测样本为z,最终得到的响应置信图为

f(z)=F-1(κ^xza^),(2)

式中F-1表示傅里叶逆变换,☉表示哈达玛积(对应元素相乘)。f(z)最大值的位置即为目标位置。

较早的相关滤波算法,如基于检测的循环结构核跟踪算法(CSK)[5],通常采用灰度特征,故图像的噪声干扰会对跟踪性能产生较大的影响。核相关滤波的运算基于点乘和范数。根据DFT的线性特征,只需将各特征通道进行求和运算,对跟踪速度的影响很小[6]。假设特征通道数为p,描述向量x=[x1x2xp],z=[ z1z2zp],由高斯核可得

κxx=exp-1δ2[x22+z22-2F-1(px^*z^)],(3)

式中*表示共轭运算,δ为标准差。通过多特征融合,可获得更为有效的目标特征描述,以提升跟踪性能[1]。基于HOG特征计算得到的图像局部区域的梯度强度和方向信息,反映的是图像各区域块的边缘形状信息;CN特征将RGB空间转换至CN空间,反映的是区域的11维主题颜色信息;IIF将CIE Lab空间的亮度通道进行局部非参数变换,具有对剧烈光照变化的抑制能力。上述三种特征具有对目标描述的互补性,此处将HOG特征、CN特征和IIF融合后进行目标表征,进而提升算法的跟踪性能。

2.2 在线目标检测机制

有效的抗遮挡机制是设计跟踪器时需要考虑的重要因素。对于相关滤波跟踪器,在目标被遮挡时,如果持续进行模板更新,会产生误差累积,当遮挡逐步消除后,则很容易误判目标。为此,提出一种在线检测机制,具体方法为:首先将当前帧相关滤波的跟踪结果输入稀疏模型;然后根据重构残差来判别是否发生遮挡及遮挡的严重程度,若遮挡严重,则根据保守更新的在线SVM进行目标再判定;最后通过计算新判定结果的遮挡指示值进行目标重选定。

稀疏表示跟踪模型是将当前的跟踪结果在基字典子空间进行映射,得到目标的稀疏表示。局部的稀疏表示跟踪模型能更好地捕获目标的表观变化,在遮挡序列集上性能更佳[16]。采用目标的原始像素进行局部表示,双线性插值后变为固定目标模板,再在目标模板上进行重叠掩模得到m个子块集,对各子块进行一维向量变换并归一化得到{ysparse,ii=1,2,…,m}∈ℝd,d为子块的维数。稀疏字典D∈ℝd×k。采用k-means聚类算法对首帧的子块集进行聚类,得到k个聚类中心。当前跟踪结果的子块ysparse,i可用字典线性表示为

minbiysparse,i-Dbi22+λsparsebi1,s.t.bi0,(4)

式中λsparse为调整重构残差和稀疏约束的参数。根据得到的稀疏表示向量bi可计算得到子块在字典集上的重构残差εi= ysparse,i-Dbi22,它反映了字典集对当前跟踪结果各子块的表示程度。显然,重构残差越大,当前目标子块被遮挡的可能性就越大,反之越小。设o=(o1,o2,…,om)表示遮挡指示向量,其中的元素可表示为

oi=1,εi<ε00,other,(5)

式中oi表示对应的子块ysparse,i是否被遮挡,ε0表示子块遮挡判别阈值。通常情况下,当目标发生小部分的遮挡时,不会对相关滤波跟踪器的判定结果造成太大影响,但如果出现大面积(指遮挡面积超过2/3)或者长时遮挡,则跟踪器很容易丢失目标。根据遮挡子块的数量来进行遮挡程度的判定,假设 O=ioi表示目标遮挡值,O0表示预定的目标遮挡阈值。当OO0时,说明目标发生严重遮挡,当前相关滤波跟踪结果可信度较低,需进行目标检测,反之则无需进行目标检测。

通过训练保守的在线SVM模型来实现遮挡目标的再检测。在目标位置附近以目标真实大小的窗口滑动采集样本,提取阶梯采样特征[12]后进行在线SVM训练。假设给定的训练数据集G={(xSVM,j,ySVM,j),j=1,2,…,r},r为数据集的大小,xSVM,j为训练样本,ySVM,j为样本标签。若样本边框s与目标真实边框g的重叠率[16]S=lslg/lslg,设定当S>0.9时为正样本,S<0.5时为负样本。训练目标函数为

minwSVM,bSVM12wSVM22+CSVMi=1rLh[ySVM,j,f(xSVM,j)],(6)

式中CSVM为惩罚参数,Lh(·)为合页损失,wSVM为权重向量。当判定目标出现严重遮挡时,在上一帧的跟踪位置采集样本,再将采集到的样本输入SVM分类器,根据输出的最大值来确定新定位的目标。目标重定位的策略如下:将SVM新检测的目标输出至稀疏表示模型进行遮挡检测,假设相关滤波跟踪结果的目标遮挡值为Ocf,SVM重检测的目标遮挡值为OSVM。若OSVM<0.5Ocf,则采用SVM重检测的目标位置,否则保持跟踪结果不变。

2.3 由粗至精的目标尺度估计

在跟踪中,保持跟踪标识框大小不变,则目标尺度变小会引入背景干扰,目标尺度变大会导致目标信息缺失。因此,实现目标尺度自适应是进行稳定跟踪的重要条件。基于尺度金字塔策略[9]提出了一种由粗至精的尺度估计方法,主要改进有:1)调整尺度窗函数,增加了尺度预估计的准确性;2)在置信图频域引入牛顿迭代法,提高了尺度估计的精细程度。

以原始目标为中心,采集一系列尺度变化的子图,通过双线性插值将其变为相同尺度,提取HOG特征叠加窗函数后进行尺度相关滤波器学习。假设上一帧的目标大小Tg_sz=[ Tg_wTg_h],其中Tg_w为目标的宽度,Tg_h为目标的高度;尺度金字塔层数为Q,目标候选域尺度参数为{τi*Tg_szi=-(Q-1)/2,…,(Q-1)/2},τ为尺度变化因子,对每个候选域进行尺度变换并提取HOG特征后进行一维向量化,可得Xsf=[ Xsf,1Xsf,2Xsf,Q],与汉宁窗相乘得到训练样本Xst=[Xst,1Xst,2Xst,Q],则

Xst,i=Xsf,i*12{1-cos[2π(i-1)/(Q-1)]},(7)

式中i=1,2,…,Q,再利用(1)式得到尺度滤波系数 a^s。检测时,在新的一帧抽取检测子图及其特征向量Zsf=[ Zsf,1Zsf,2Zsf,Q]。如果目标尺度发生变化,直接对Zsf叠加汉宁窗会削弱真实目标尺度的响应,影响尺度置信图的准确性。给出了一种窗函数调整方法,以提高真实目标尺度的置信度。将目标进行分块处理,若Tg_h>Tg_w,则将目标均分为上下两个子图,反之将目标分为左右两个子图,而后在各个子图上分别训练两个独立的相关滤波模型。以目标上下划分为例,设在第t帧上下子图的定位坐标分别为P1,t:(x1,t,y1,t)和P2,t:(x2,t,y2,t),定义φs,t为窗函数偏移因子,可表示为

φs,t=+1,y1,t<y1,t-1y2,t>y2,t-1-1,y1,t>y1,t-1y2,t<y2,t-10,other,(8)

式中+1表示尺度变化呈变大趋势,-1表示尺度变化呈变小趋势,0表示尺度不变。由此得到检测样本

Zst,i=12Zsf,i1-cos2πi-1-φs,tQ-1(9)

将(9)式得到的检测样本代入(2)式可得尺度响应置信图fs(Zst),尺度预估流程如图2所示。利用(9)式可增强真实目标尺度样本的窗口叠加权值,提高真实目标的响应值。金字塔层数之间具有一定的间隔,fs(Zst)为离散值,因此得到的目标尺度参数较为粗略。下面给出了一种基于牛顿迭代法的尺度精细化估计策略。

图 2. 尺度预估流程图

Fig. 2. Flow chart of scale pre-estimation

下载图片 查看所有图片

f^s(Zst)=[ f^s0f^s1f^s(Q-1)],对目标候选域进行连续尺度采样,ν∈[0,Q)为连续尺度参数,f(ν)为连续响应置信图,则f(ν)可通过对 f^s(m)进行插值运算得到,即

f(ν)=1Qm=0Q-1f^s(m)expi2πνmQ(10)

尺度参数νopt可表示为

νopt=argmaxν[0,Q)f(ν)(11)

由此可得到当前目标的精确尺度为Tg_szτνopt-(Q-1)/2,对(11)式的求解可借助于牛顿迭代法。设由fs(Zst)得到的尺度位置ν0∈{0,1,…,Q-1}为迭代起始值,实验发现仅需数次迭代就可达到收敛状态,这是由于离散fs(Zst)与连续f(ν)尺度参数最大值位置距离比较近。

2.4 基于均衡策略的模型更新

在序列中,视频场景及目标自身是复杂且不断变化的,如果跟踪器在序列第一帧建立目标的表观模型后不再改变,显然不能适应目标的表观变化,最终会导致跟踪失败,因此用最新的目标表观数据对模型进行更新是很有必要的。如果引入的更新样本有误差,会使更新后的模型存在偏差,引起跟踪漂移,同样会导致跟踪失败。鉴于上述原因,采用一种均衡模型更新策略:对相关滤波模型采用持续更新方式,以适应目标表观变化;对稀疏表示模型和SVM检测器采用保守更新方式,以保持目标的长时记忆。

符号 a^tx^t分别表示第t帧更新后的滤波模板系数和目标模板系数, x^表示当前帧目标的DFT,η为学习速率,则相关滤波跟踪模型更新机制可表示为

a^t=η(κ^txx+λ)-1y^+(1-η)a^t-1x^t=ηx^+(1-η)x^t-1(12)

尺度金字塔滤波器和目标分块滤波器均采用(12)式的更新机制。由第2.2节的分析可知,目标遮挡值O代表跟踪结果的可信度,因此可将O作为判别进行更新设定。当跟踪结果可信度较高时,对稀疏表示模型和SVM分类器进行更新,否则保持不变,如此便确保了目标检测机制的稳定性和记忆性。符号Ysparse,t∈ℝd×m表示第t帧的目标子块向量集,Dt-1∈ℝd×k表示第t-1帧的稀疏字典。如果O<Oupdate,将Ysparse,tDt-1采用k-means算法得到更新的字典Dt,否则不予更新。在线SVM分类器的更新方法为:设第t帧时SVM分类器保存的先前帧的训练集G1:t-1={ζi=(uii,si) i=1,2,…,B},uiγisi分别代表样本实例、标签和该实例所代表的支持向量个数,Gt={(xi,yi) i=1,2,…,J}表示当前帧提取的数据实例。实现SVM在线学习的目标函数可表示为

minwSVM,bSVM12wSVM22+CSVM[i=1BsiNγiLh(γi,ui;wSVM)+i=1J1NyiLh(yi,xi;wSVM)],(13)

式中 N+=γi=+si+yi=+1,N-=γi=-si+yi=-1由(13)式可从Gt得到新的支持向量。设定训练集G1:t-1的最大容量为U(正实例容量U+和负实例容量U-),如果新的支持向量与G1:t-1中的支持向量数量之和不超过最大容量,则直接加入更新,否则进行更新:

u'=(si1ui1+si2ui2)(si1+si2),(14)

式中 si1si2分别为与训练集某支持向量距离最近的新支持向量个数和训练集该支持向量的个数, ui1ui2分别为与训练集某支持向量距离最近的新支持向量的样本实例和训练集该支持向量的样本实例。通过(14)式可实现距离最小的支持向量的融合,得到新的训练集G1:t={ζ'i=(u'i,γ'i,s'i) i=1,2,…,B'}。如果O>Oupdate,则SVM分类器保持原参数不变,不进行更新。

2.5 算法实现

首先进行各模块初始化,然后进行位置检测和尺度估计,最后对各模块进行更新。具体步骤如下:

1) 输入。视频序列和首帧的目标位置P0和大小 Tg_sz0

2) 输出。序列中各帧的目标位置Pt和大小 Tg_szt

3) 初始化阶段。在训练区域输入相关滤波跟踪模型,由(1)式得到滤波器系数 a^1和目标模板 x^1;将目标输入稀疏表示模型并采用k-means聚类算法得到字典D1,由(5)式得到G1;分别提取分块及尺度相关滤波器的训练样本,由(1)式得到各自的滤波器系数和模板。

4) 跟踪阶段

for t=2:Fframe_num(Fframe_num为帧数)

∥位置检测

在跟踪位置Pt-1处抽取检测样本zt,提取特征后由(2)式得到相关滤波跟踪位置Pt=Pcf,t;

利用Pcf,t,通过(4)式、重构残差和(5)式得到遮挡值Ocf,t;

if Ocf,tO0

根据Pt-1和参数wSVM,t-1bSVM,t-1得到SVM响应最大值的位置PSVM,t;

根据PSVM,t,通过(4)式、重构残差和(5)式得到遮挡值OSVM,t;

if OSVM,t<0.5Ocf,t,Pt=PSVM,t;

end

end

∥尺度估计

根据PtTg_szt-1抽取样本Zsf,t,由分块相关滤波器和(8)式得到φs,t;

根据Zsf,tφs,t和(9)、(2)式,计算尺度响应图fs(Zst,t)和目标尺度位置ν0,t;

根据(10)式和ν0,t并采用牛顿迭代法可得νopt,t,从而得到目标精确尺度 Tg_szt;

∥模型更新

根据(12)式对各相关滤波模块的系数和模板进行更新;

根据PtTg_szt计算得到目标遮挡值Ot;

if Ot>Oupdate

提取Ysparse,t后更新Dt-1,根据(13)、(14)式更新G1:t-1;

else

保持原模型参数不变;

end

end

3 实验结果及讨论

设计了两个针对性实验和一个综合性实验对算法的有效性进行评估:1)对算法的抗遮挡性能进行对比测试;2)对算法的尺度适应性进行对比测试;3)与现阶段性能较好的跟踪算法进行综合实验对比。实验所用对比算法均采用作者公开的源码设置,测试序列均来自标准数据集Benchmark[16],评价标准采用文献[ 16]所提的指标:中心位置误差(CLE)、距离精度(DP)和成功率(SR)。CLE指跟踪结果位置与目标基准位置之间的欧氏距离,单位为pixel;DP是CLE小于某个阈值(通常为20 pixel)[16]的帧数占序列总帧数的百分比;当重叠率大于给定阈值(通常为50%)时,认为该帧跟踪成功;SR表示跟踪成功帧数与总帧数的比率。

3.1 实验环境及参数

实验环境为:CPU型号为3.60 GHz Intel(R) Core(TM) i7,内存为16.0 GB,操作系统为Windows 7 64 bit,软件平台为Matlab R2014b。基于实验测试分析,并参考文献[ 9,12-13],将具体参数设置如下:相关滤波跟踪器中,训练检测区域为目标大小的2.5倍,HOG特征的元胞大小为4 pixel×4 pixel,统计梯度方向数为9,正则化参数λ=10-4,δ=0.5,δlabel=0.1,学习速率η=0.025;尺度估计模型中,尺度层数Q=33,尺度变化因子τ=1.02,牛顿法迭代次数Γ=5;局部稀疏表示模型中,目标模板大小为32 pixel×32 pixel,λsparse=0.01,d=36,k=50;子块遮挡判别阈值ε0=0.04;在线SVM模型中,CSVM=100,最大容量U=80,U+=10,U-=70,Oupdate=5。

目标遮挡阈值是一个重要参数,关系到在线检测机制的目标遮挡判别,对算法的跟踪位置精确度和运算速度影响较大。选用20组具有遮挡属性的标准序列(basketball,carscale,coke,david,david3,dudek,doll,faceocc1,faceocc2,football,freeman4,jogging-1,jogging-2,skating1,lemming,tiger2,walking2,woman,walking,subway)进行测试,得到算法在不同目标遮挡阈值下的平均中心位置误差和平均运算速度,结果如图3所示。其中平均运算速度反映的是跟踪算法的效率,单位为frame/s。图3表明当目标遮挡阈值小于20时,目标再检测的次数随着该值的减小而增加,导致算法的运算速度大幅降低,而跟踪位置误差减小并不明显,这是因为CF跟踪器自身能够适应小部分遮挡等微弱表观变化。因此不能通过增加检测次数而无限制地减小跟踪位置误差;当目标遮挡阈值大于20时,目标再检测的次数随着该值的增加而减小,虽然跟踪速度有所提升,但在线检测机制不能有效地进行遮挡判别,算法的抗遮挡能力降低,跟踪位置误差明显增大。综合以上分析,并根据图3所示的实验结果,将目标遮挡阈值设置为20。

图 3. 目标遮挡阈值对跟踪性能的影响。(a)平均中心位置误差;(b)平均运算速度

Fig. 3. Influence of target occlusion threshold on tracking performance. (a) Average center location error; (b) average operating speed

下载图片 查看所有图片

3.2 遮挡检测的性能测试

为验证所提算法的性能,选择3种具有代表性的抗遮挡算法进行对比,包括基于相关滤波的遮挡算法LCT[11]、自适应结构稀疏表示模型ALSA[17]和核化结构SVM算法Struck[18],并选取了4组典型的遮挡序列tiger2、lemming、walking2和faceocc2进行测试。图4图5分别为4种算法针对4组测试序列的跟踪结果图及中心位置误差图。

图 4. 4种算法对4组遮挡序列的跟踪结果。(a) Lemming; (b) walking2; (c) tiger2; (d) faceocc2

Fig. 4. Tracking results of four occluded sequences with four algorithms. (a) Lemming; (b) walking2; (c) tiger2; (d) faceocc2

下载图片 查看所有图片

图4(a)和图5(a)所示序列Lemming主要存在长时的严重遮挡问题。其中,目标在299~350帧逐渐受到大面积的长时遮挡,并在350~375帧缓慢复出。从图5(a)可以看到,ALSA已经丢失目标,LCT出现较大跟踪漂移,所提算法采用的局部稀疏表示模型能更好地进行遮挡判别,并通过对目标长时记忆的在线SVM在第368帧实现了有效的目标检测跟踪。在939~1008帧,目标出现尺度变化并伴有旋转、正面遮挡情况,Struck跟踪失败,LCT定位误差较大并在1280帧丢失目标。在面对长时严重遮挡问题时,所提算法的遮挡检测机制能实现更稳定的持续跟踪。

图4(b)和图5(b)所示序列walking2主要存在短时的相似目标遮挡干扰问题。自186帧起,相似目标逐渐进入目标区域,ALSA在203帧开始定位至错误目标上,LCT则在213帧丢失目标,而所提算法不受相似目标遮挡的干扰,原因在于其相关滤波器采用互补性特征融合的方法,确保了目标描述更为准确、有效。从整个序列来看,目标逐渐远离镜头,导致尺度变小,Struck虽然实现了对目标的定位,但误差较大且不能应对目标的尺度变化问题,如第351帧和第452帧。由图5(b)可知,所提算法的定位精度优于其他算法。

图4(c)和图5(c)所示序列tiger2主要存在目标反复遮挡的问题。目标在左右来回移动的过程中外观变化较大,并不断地受到树叶的遮挡干扰,如第108,238,264,329,358帧等。所提算法的均衡更新策略能很好地适应该序列的复杂情况,一方面,相关滤波的固定学习机制增强了对目标外观变化的适应性;另一方面,保守更新的在线检测模块确保了对目标的稳定记忆,可对遮挡目标进行再检测,有效地抑制了遮挡问题的干扰。因此,在整个跟踪过程中,所提算法始终保持着较小的位置误差,而其他算法均有不同程度丢失目标的情况。

图4(d)和图5(d)所示序列faceocc2主要存在目标部分遮挡的问题。序列在第172,419,495,726,738帧等出现书本遮挡目标面部的情况,ALSA自726帧逐渐丢失目标。由分析可知,对于部分遮挡问题,LCT、Struck和所提算法均能较好地完成跟踪,且Struck和所提算法能更好地减弱部分遮挡的干扰,跟踪精确度更高。

图 5. 4种算法在4组遮挡序列的中心位置误差。(a) Lemming; (b) walking2; (c) tiger2; (d) faceocc2

Fig. 5. Center location error of four occluded sequences with four algorithms. (a) Lemming; (b) walking2; (c) tiger2; (d) faceocc2

下载图片 查看所有图片

3.3 尺度自适应性能测试

根据跟踪尺度变化的准确性对所提算法的性能进行验证,针对性地选择3种尺度自适应算法进行对比:基于金字塔策略的相关算法DSST[9]、检测跟踪算法TLD[19]和正向稀疏表示模型L1APG[20],用于测试的4组尺度变化序列为trellis、girl、walking和freeman1。跟踪面积[21]是指算法跟踪区域的面积,跟踪面积与目标真实面积之间的差值反映了算法的尺度适应性。4种算法在4组尺度变化序列的面积误差结果如图6所示,其中横坐标为序列帧数,纵坐标为跟踪面积与真实面积的差值,即面积误差(OAE),该值越接近于0,说明算法预测的尺度值与真实目标大小越相近,尺度预测的准确度越高,图中的标注数值为面积误差绝对值的平均值,单位为pixel。

图6(a)所示序列trellis主要存在目标经历光照与尺度变化的问题。L1APG在跟踪开始后尺度不断变大,跟踪结果所含背景区域过大,导致定位偏差越来越大并丢失目标;TLD在第221帧以后不能抑制光照及目标尺度变化的双重干扰,预测尺度发生剧烈变化;DSST预测的目标尺度始终小于目标的真实尺度。由分析可知,相对于其他3种算法,所提算法的尺度适应性更好。

图6(b)所示序列girl主要存在目标在旋转中伴有尺度变化的问题。目标在第81帧开始旋转,DSST不能及时地预测目标尺度。随着跟踪的进行,尺度偏差越来越大。在55~66帧和86~111帧TLD丢失目标,在161~265帧TLD和L1APG对目标的尺度预测偏差大,而所提算法则相对较小。

图6(c)所示序列walking主要存在目标远离镜头逐渐变小的问题。该序列的情景较为单一,对算法的尺度适应性检测针对性更强。TLD不能处理目标的尺度变化,当面积误差逐渐变大时,DSST与L1APG的性能相当。从图中的数值可以看出,所提算法的面积误差比DSST小39.1 pixel,这是因为所提算法在金字塔的基础上采用了“由粗到精”的策略,尺度估计更加精细。

图6(d)所示序列freeman1主要存在目标尺度反复变大、变小的问题。整个序列目标尺度先变大后变小,从图中结果来看,所提算法也出现了尺度预测偏差,但明显优于其他算法,且从定位结果可知,L1APG(自第127帧起)、DSST(自第181帧起)跟踪失败,TLD在135~191帧和第236帧至结束丢失目标。

图 6. 4种算法对4组尺度变化序列的面积误差结果。(a) Trellis; (b) girl; (c) walking; (d) freeman1

Fig. 6. Area error results of four scale changing sequences with four algorithms. (a) Trellis; (b) girl; (c) walking; (d) freeman1

下载图片 查看所有图片

3.4 与其他稳健跟踪算法的实验比较

为进一步更为全面地评估所提算法的性能,选取了当前主流的算法进行对比,主要包括两类:1)相关滤波算法,KCF[6]、SAMF[10]、Staple[22]和HDT[8];2)其他代表性算法,双线性结构SVM算法DLSSVM[23]、多专家联合模型MEEM[12]和稀疏协作模型SCM[13]。为了便于对比,表1列出了本文所提算法、KCF、SAMF、Staple和HDT 5种相关滤波跟踪模型的区别。利用标准数据集Benchmark提供的50个序列进行评测,主要包括复杂背景、尺度变化和目标遮挡等属性,测试方法为对序列首帧进行目标初始化,逐帧检测目标。

表 1. 5种相关滤波跟踪模型比较

Table 1. Comparison of five correlation filter tracking models

AlgorithmFeatureScale adaptionOcclusion handling
ProposedHOG,CN,IIFCoarse-to-precise scale estimationOnline detection module
SAMFGray,HOG,CNPyramid strategyNo
StapleGray,HOGPyramid strategyNo
HDTCNNNoNo
KCFHOGNoNo

查看所有表

图7为8种算法在测试集上的整体和主要属性DP、SR曲线图,子标题括弧中的数字表示此种属性的视频数量。DP曲线图的排序标注为CLE阈值为20 pixel时的距离精度值,SR曲线图的排序标注为曲线与坐标轴所围成的面积(AUC[16])。从图7(a)可以看出,在整体DP曲线图上,所提算法在8种典型算法中排名第2,仅次于深度学习算法HDT,且优于基准相关滤波跟踪KCF;相比在整体DP图上的排名,HDT、DLSSVM和MEEM在整体SR图上的排名均有不同程度的下降,这是因为这三种算法不能对目标进行尺度估计,进而降低了算法的覆盖率和成功率,所提算法、Staple和SAMF则因具备尺度适应模块而在整体SR图上的排名有所上升,分别位列第1、第2和第5。图7(b)中的遮挡子集验证了所提算法的有效性,可以看出所提算法在距离精度和成功率上均排名第1,原因在于所提算法的在线检测模块能更好地保存对目标的记忆性,在遮挡问题上有强抗干扰力。图7(c)为尺度变化子集,所提算法比HDT的DP低2.3%, 比HDT的SR高10.1%,与具备尺度调节功能的Staple相比,所提算法的DP和SR分别提高了9.7%和4.1%,因此所提算法的尺度估计策略能更有效地应对目标尺度变化。图7(d)为光照变化子集,与SAMF和Staple算法相比也有很大幅度的提升,原因在于所提算法在目标描述上融合了IIF通道,增强了对光照变化的适应能力。相对于其他属性子集,所提算法在复杂背景子集表现欠佳,如图7(e)所示。这是由于所提算法引入的局部稀疏模块为生成式,该模块的关键在于对目标进行精确拟合,如果出现复杂背景(特别是相似背景),则对判别的准确性影响较大。

图 7. 8种算法的距离精度和成功率曲线图。(a)整体性能(50);(b)遮挡(29);(c)尺度变化(27);(d)光照变化(25);(e)复杂背景(21)

Fig. 7. Curves of distance precision and success rate of eight algorithms. (a) Overall performance (50); (b) occlusion (29); (c) scale variation (27); (d) illumination variation (25); (e) complex background (21)

下载图片 查看所有图片

标准数据集Benchmark中光照变化子集共有25组序列,这里对图7(d)进行了整体分析,为进一步说明所提算法融合光照不变特征方法的有效性,就算法对光照变化的适应能力进行更为具体的分析。选取两组典型的代表序列shaking和soccer。shaking序列的目标主要经历背景强光的干扰,soccer序列的目标主要经历背景阴影的干扰,图8为8种算法对两组序列的跟踪结果。图8(a)所示为shaking序列,跟踪开始后,HDT、KCF、SAMF和Staple出现了小幅漂移,如第12帧;第58帧后镁光灯亮度开始增强,目标背景出现剧烈的光照变化,除了所提算法和MEEM外,其他算法均出现不同程度的跳动,如第62帧;Staple和KCF则在灯光亮度减弱后随灯光定位至镁光灯附近,跟踪失败,如第74帧;从整个序列来看,MEEM、DLSSVM、SCM、HDT和所提算法均完成了跟踪,但MEEM和所提算法的稳定性更好。图8(b)所示为soccer序列,在前31帧,目标清晰且亮度较高,所有算法均能较准确地跟踪,如第16帧;随后目标在跳跃过程中,奖杯的上下运动及洒落的烟花对目标跟踪造成了严重的干扰,如第75、173帧等;KCF在71~122帧出现较大偏差,Staple、SAMF、MEEM、DLSSVM和SCM均跟踪失败,如第375帧,HDT和所提算法实现了对目标的全程跟踪。所提算法能较成功地跟踪上述序列,原因在于提出的多特征融合方法能减弱光照变化的影响,实现更准确的目标表征。

图 8. 8种算法对2组典型光照变化序列的跟踪结果。(a) Shaking; (b) soccer

Fig. 8. Tracking results of two typical illumination variant sequences with eight algorithms. (a) Shaking; (b) soccer

下载图片 查看所有图片

表2为8种算法针对50个测试序列的平均运算速度。从表中可得,相关滤波跟踪算法因采用的循环相关,可通过FFT来实现高效地检测与训练,整体上要快于其他算法。HDT需提取多层CNN特征,本次实验环境均采用CPU,运算效率低,所提算法改进了金字塔的尺度估计策略并增加了目标在线检测模块,增加了时间开销。需要说明的是,只有当目标遮挡值超过阈值时才启用SVM检测模块,因此与SAMF和Staple相比,跟踪速度有所下降,但性能有较明显的提升。

表 2. 8种跟踪算法的平均运算速度

Table 2. Average operating speed of eight tracking algorithms

AlgorithmProposedHDTSAMFStapleKCFDLSSVMMEEMSCM
Average operating speed /(frame·s-1)15.60.819.718.8102.14.76.40.4

查看所有表

4 结论

提出了一种基于在线检测和尺度自适应的相关滤波跟踪算法,通过特征融合方法实现了特征间的有效互补,提高了目标表征的准确性。设计了在线检测机制和由粗至精的尺度估计方法,并采用均衡策略进行模型更新,实现了复杂场景下对目标的稳定跟踪。通过对两个针对性实验和一个综合性实验进行验证,结果表明,与其他算法相比,所提算法对光照变化、遮挡和目标尺度变化等场景具有更强的稳健性。

参考文献

[1] ChenZ, Hong ZB, Tao DC. An experimental survey on correlation filter-based tracking[OL]. Computer Science, 2015, 53( 6025): 68- 83. 10.1016/S0038-092X(00)00110-93d6266e61f844b2fcf7e5fd3a952838fhttp%3A%2F%2Fwww.oalib.com%2Fpaper%2F4052157Abstract: Over these years, Correlation Filter-based Trackers (CFTs) have aroused increasing interests in the field of visual object tracking, and have achieved extremely compelling results in different competitions and benchmarks. In this paper, our goal is to review the developments of CFTs with extensive experimental results. 11 trackers are surveyed in our work, based on which a general framework is summarized. Furthermore, we investigate different training schemes for correlation filters, and also discuss various effective improvements that have been made recently. Comprehensive experiments have been conducted to evaluate the effectiveness and efficiency of the surveyed CFTs, and comparisons have been made with other competing trackers. The experimental results have shown that state-of-art performance, in terms of robustness, speed and accuracy, can be achieved by several recent CFTs, such as MUSTer and SAMF. We find that further improvements for correlation filter-based tracking can be made on estimating scales, applying part-based tracking strategy and cooperating with long-term tracking methods.http://www.oalib.com/paper/4052157

    ChenZ, Hong ZB, Tao DC. An experimental survey on correlation filter-based tracking[OL]. Computer Science, 2015, 53( 6025): 68- 83. 10.1016/S0038-092X(00)00110-93d6266e61f844b2fcf7e5fd3a952838fhttp%3A%2F%2Fwww.oalib.com%2Fpaper%2F4052157Abstract: Over these years, Correlation Filter-based Trackers (CFTs) have aroused increasing interests in the field of visual object tracking, and have achieved extremely compelling results in different competitions and benchmarks. In this paper, our goal is to review the developments of CFTs with extensive experimental results. 11 trackers are surveyed in our work, based on which a general framework is summarized. Furthermore, we investigate different training schemes for correlation filters, and also discuss various effective improvements that have been made recently. Comprehensive experiments have been conducted to evaluate the effectiveness and efficiency of the surveyed CFTs, and comparisons have been made with other competing trackers. The experimental results have shown that state-of-art performance, in terms of robustness, speed and accuracy, can be achieved by several recent CFTs, such as MUSTer and SAMF. We find that further improvements for correlation filter-based tracking can be made on estimating scales, applying part-based tracking strategy and cooperating with long-term tracking methods.http://www.oalib.com/paper/4052157

[2] 赵高鹏, 沈玉鹏, 王建宇. 基于核循环结构的自适应特征融合目标跟踪[J]. 光学学报, 2017, 37(8): 0815001.

    赵高鹏, 沈玉鹏, 王建宇. 基于核循环结构的自适应特征融合目标跟踪[J]. 光学学报, 2017, 37(8): 0815001.

    Zhao G P, Shen Y P, Wang J Y. Adaptive feature fusion object tracking based on circulant structure with kernel[J]. Acta Optica Sinica, 2017, 37(8): 0815001.

    Zhao G P, Shen Y P, Wang J Y. Adaptive feature fusion object tracking based on circulant structure with kernel[J]. Acta Optica Sinica, 2017, 37(8): 0815001.

[3] Ma C, Xu Y, Ni B B, et al. When correlation filters meet convolutional neural networks for visual tracking[J]. IEEE Signal Processing Letters, 2016, 23(10): 1454-1458.

    Ma C, Xu Y, Ni B B, et al. When correlation filters meet convolutional neural networks for visual tracking[J]. IEEE Signal Processing Letters, 2016, 23(10): 1454-1458.

[4] Bolme DS, Beveridge JR, Draper BA, et al. Visual object tracking using adaptive correlation filters[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2010: 2544- 2550.

    Bolme DS, Beveridge JR, Draper BA, et al. Visual object tracking using adaptive correlation filters[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2010: 2544- 2550.

[5] Henriques JF, CaseiroR, MartinsP, et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]∥Proceedings of European Conference on Computer Vision, 2012: 702- 715.

    Henriques JF, CaseiroR, MartinsP, et al. Exploiting the circulant structure of tracking-by-detection with kernels[C]∥Proceedings of European Conference on Computer Vision, 2012: 702- 715.

[6] Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.

    Henriques J F, Caseiro R, Martins P, et al. High-speed tracking with kernelized correlation filters[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2015, 37(3): 583-596.

[7] DanelljanM, Khan FS, FelsbergM, et al. Adaptive color attributes for real-time visual tracking[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2014: 1090- 1097.

    DanelljanM, Khan FS, FelsbergM, et al. Adaptive color attributes for real-time visual tracking[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2014: 1090- 1097.

[8] QiY, ZhangS, QinL, et al. Hedged deep tracking[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2016: 4303- 4311.

    QiY, ZhangS, QinL, et al. Hedged deep tracking[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2016: 4303- 4311.

[9] DanelljanM, HagerG, Khan FS, et al. Accurate scale estimation for robust visual tracking[C]∥Proceedings of British Machine Vision Conference, 2014: 1- 11.

    DanelljanM, HagerG, Khan FS, et al. Accurate scale estimation for robust visual tracking[C]∥Proceedings of British Machine Vision Conference, 2014: 1- 11.

[10] LiY, Zhu JK. A scale adaptive kernel correlation filter tracker with feature integration[C]∥Proceedings of European Conference on Computer Vision, 2014: 254- 265.

    LiY, Zhu JK. A scale adaptive kernel correlation filter tracker with feature integration[C]∥Proceedings of European Conference on Computer Vision, 2014: 254- 265.

[11] MaC, Yang XK, Zhang CY, et al. Long-term correlation tracking[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2015: 5388- 5396.

    MaC, Yang XK, Zhang CY, et al. Long-term correlation tracking[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2015: 5388- 5396.

[12] ZhangJ, MaS, SclaroffS. MEEM: Robust tracking via multiple experts using entropy minimization[C]∥Proceedings of European Conference on Computer Vision, 2014: 188- 203.

    ZhangJ, MaS, SclaroffS. MEEM: Robust tracking via multiple experts using entropy minimization[C]∥Proceedings of European Conference on Computer Vision, 2014: 188- 203.

[13] Zhong W, Lu H C, Yang M H. Robust object tracking via sparse collaborative appearance model[J]. IEEE Transactions on Image Processing, 2014, 23(5): 2356-2368.

    Zhong W, Lu H C, Yang M H. Robust object tracking via sparse collaborative appearance model[J]. IEEE Transactions on Image Processing, 2014, 23(5): 2356-2368.

[14] Wang Z, Vucetic S. Online training on a budget of support vector machines using twin prototypes[J]. Statistical Analysis and Data Mining, 2010, 3(3): 149-169.

    Wang Z, Vucetic S. Online training on a budget of support vector machines using twin prototypes[J]. Statistical Analysis and Data Mining, 2010, 3(3): 149-169.

[15] ScholkopfB, Smola AJ. Learning with kernels: Support vector machines, regularization, optimization, and beyond[M]. London: MIT Press, 2002: 405- 423.

    ScholkopfB, Smola AJ. Learning with kernels: Support vector machines, regularization, optimization, and beyond[M]. London: MIT Press, 2002: 405- 423.

[16] WuY, LimJ, Yang MH. Online object tracking: A benchmark[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2013: 2411- 2418.

    WuY, LimJ, Yang MH. Online object tracking: A benchmark[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2013: 2411- 2418.

[17] JiaX, Lu HC, Yang MH. Visual tracking via adaptive structural local sparse appearance model[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2012: 1822- 1829.

    JiaX, Lu HC, Yang MH. Visual tracking via adaptive structural local sparse appearance model[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2012: 1822- 1829.

[18] HareS, SaffariA, Torr P H S. Struck: Structured output tracking with kernels[C]∥Proceedings of IEEE International Conference on Computer Vision, 2011: 263- 270.

    HareS, SaffariA, Torr P H S. Struck: Structured output tracking with kernels[C]∥Proceedings of IEEE International Conference on Computer Vision, 2011: 263- 270.

[19] Kalal Z, Mikolajczyk K, Matas J. Tracking learning detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7): 1409-1422.

    Kalal Z, Mikolajczyk K, Matas J. Tracking learning detection[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2012, 34(7): 1409-1422.

[20] Bao CL, WuY, Ling HB, et al. Real time robust L1 tracker using accelerated proximal gradient approach[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2012: 1830- 1837.

    Bao CL, WuY, Ling HB, et al. Real time robust L1 tracker using accelerated proximal gradient approach[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2012: 1830- 1837.

[21] 罗会兰, 杜芳芳, 孔繁胜. 像素点特征加权的尺度自适应跟踪算法[J]. 通信学报, 2015, 36(10): 200-211.

    罗会兰, 杜芳芳, 孔繁胜. 像素点特征加权的尺度自适应跟踪算法[J]. 通信学报, 2015, 36(10): 200-211.

    Luo H L, Du F F, Kong F S. Pixel feature-weighted scale-adaptive object tracking algorithm[J]. Journal on Communications, 2015, 36(10): 200-211.

    Luo H L, Du F F, Kong F S. Pixel feature-weighted scale-adaptive object tracking algorithm[J]. Journal on Communications, 2015, 36(10): 200-211.

[22] BertinettoL, ValmadreJ, GolodetzS, et al. Staple: Complementary learners for real-time tracking[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1401- 1409.

    BertinettoL, ValmadreJ, GolodetzS, et al. Staple: Complementary learners for real-time tracking[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2016: 1401- 1409.

[23] Ning JF, Yang JM, Jiang SJ, et al. Object tracking via dual linear structured SVM and explicit feature map[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2016: 4266- 4274.

    Ning JF, Yang JM, Jiang SJ, et al. Object tracking via dual linear structured SVM and explicit feature map[C]∥Proceedings of IEEE Conference on Computer Vision and Pattern Recognition, 2016: 4266- 4274.

王艳川, 黄海, 李邵梅, 高超. 基于在线检测和尺度自适应的相关滤波跟踪[J]. 光学学报, 2018, 38(2): 0215002. Yanchuan Wang, Hai Huang, Shaomei Li, Chao Gao. Correlation Filter Tracking Based on Online Detection and Scale-Adaption[J]. Acta Optica Sinica, 2018, 38(2): 0215002.

本文已被 7 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!