基于卷积神经网络与一致性预测器的稳健视觉跟踪 下载: 1189次
1 引言
视觉目标跟踪是计算机视觉领域中的一个基本问题,其任务是确定目标在视频中的运动状态,包括位置、速度以及运动轨迹等。尽管近年来视觉跟踪技术取得了较大进展,但是在目标遮挡、姿态变化、混杂背景等复杂情况下,要实现稳健性较强的跟踪仍然面临巨大挑战。
视觉跟踪问题中的目标特征表达是影响跟踪性能的重要因素之一。用来表达目标的特征应具有适应目标外观变化以及对背景具有较好的区分性的特点。大量的特征提取方法被应用于视觉跟踪,如Harr[1]、HOG[2]等,这些通过手工设计的底层特征,具有较强的针对性,但是对目标变化不具备稳健性。
近年来,深度学习技术中的卷积神经网络(CNN)广泛应用于目标检测、图像分类、语义分割等领域[3-6]。相比于传统的手工特征,基于CNN的自动学习特征能够捕捉目标的高层次语义信息,对目标外观变化具有较强的稳健性,因此逐渐被引入到目标跟踪问题的求解[7-9]。应用深度特征进行跟踪时,需要大量样本进行训练并更新CNN参数,而对于视觉跟踪任务,通常难以预先获得大量跟踪目标的训练样本,因此,CNN参数的有效训练与更新是其应用于跟踪所面对的主要问题。
另一方面,利用CNN提取目标特征后,通常以判别式方法实现跟踪[7-8],其基本思想是将目标跟踪视为图像区域的二值分类问题,通过分类器将图像区域分为目标和背景区域,根据每帧的分类结果获得最终轨迹。然而,分类结果的可靠性是决定跟踪成败的关键,目前的分类算法大都缺少对输出结果的可靠性分析,即通过量化的可信度评价结果在多大程度上是正确的这一过程。如果能够有效评估每个时刻的分类结果,并为目标状态估计以及特征模型参数更新提供可靠的信息依据,将会大幅提高跟踪的准确性和稳健性。
本文在CNN特征提取与分类研究的基础上,引入一致性预测器(CP)对分类结果进行可靠性分析,并提出一种基于分类可信度的视觉跟踪算法。首先,利用CNN提取图像中采样样本区域的高层特性,通过逻辑回归判别目标和背景区域;然后,采用CP评估分类结果的可信度,基于可信度选择每帧中的候选目标区域;最后,通过时空域全局能量优化实现目标跟踪。
2 算法概述
本文算法流程如
3 CNN目标特征提取与分类
CNN是一种专门处理栅格结构数据的多层神经网络,其通过卷积核隐式地提取图像局部特征,并具有良好的位移、缩放以及其他类型形变的不变性。而对于跟踪问题,网络结构和参数训练方式是影响CNN性能的关键因素,因此,必须对两者进行充分设计。
3.1 CNN网络结构
在目标识别应用中,CNN通常需要经过大量数据进行训练后才能准确地表达目标特征,而对于一个特定的跟踪任务,往往难以预先获得充分的训练数据,因此,应用于目标识别的CNN难以直接应用于目标跟踪,还需进行调整与改进。
与目标识别不同,目标跟踪中不必关注目标的具体种类,只要能与背景区分即可,为此,采用一种双路输入的CNN网络结构,如
3.2 网络参数训练
文中CNN卷积层预先在CIFAR-10数据集[11]上进行离线训练,使之能够提取通用目标特征。在预训练时,CNN网络结构简化为单输入结构,训练后的参数被两套卷积层共享。此外,针对CIFAR-10数据的10分类问题,CNN的输出层设为10个单元,当预训练结束后,再将输出层替换为1个单元,以对应跟踪任务的二分类问题。预训练后的CNN将根据实际跟踪任务进行参数微调。在跟踪过程中,为了提高参数调整效率,将预训练后的卷积层参数固定,仅对FC层和输出层参数进行在线更新,以适应目标和背景的变化。
对于训练集的建立,在跟踪初始化阶段,手工选取首帧中的目标区域,根据目标区域采样正负训练样本,以样本与目标区域的覆盖率(设定阈值为0.5)来判断其正负属性。为了提高训练样本数量,对样本进行随机的尺度和旋转变换以实现数据增强。在后续跟踪中,通过分类结果的风险评估,选取满足可信度条件的跟踪结果(选取方法见5.2节)作为中心进行训练样本采样。
训练集为
式中
采用随机梯度下降法沿着
4 基于CP的候选目标选择
Logistic回归值为样本类别预测提供了依据,但Logistic回归值本身无法对预测错误的风险进行理论评估。为了实现预测结果的可靠性分析,将CNN模型嵌入至CP框架中,根据算法随机性水平计算样本类别的可信度,进而选择候选目标。
4.1 CP
通过量化的可信度可以评价预测结果在多大程度上是正确的,而目前的机器学习算法对于预测结果大都缺乏该过程,有效可信度的衡量标准是可校准性[10]。CP是一种能够有效输出可信度的机器学习范式,其利用假设检验方法进行预测,并对预测结果提供可靠性评估。
传统的CP算法计算量很大,为提高运算效率,采用CP的改进算法预测样本类别,即归纳一致性预测器(ICP)[11]。在ICP算法中,首先假定训练集中的样本服从独立同分布,将训练集
算法随机性检验方法为:首先定义映射函数A∶
式中
当
因此,ICP的预测域具有可校准性。
4.2 样本奇异函数
序列的算法随机性检验需要先定义奇异值映射函数,用来度量待检验样本隶属于整体样本分布的一致性程度。根据CNN输出的回归值分析一致性,样本特征对应于真实类别的回归值越大,认为该样本与校准集序列的一致性越强,奇异值函数定义为
式中
4.3 候选目标选择
ICP输出的结果为一个集合,其中可能包含多个类别。对于待识别样本的二分类问题,ICP输出的结果有4种可能性,即
5 目标跟踪算法
5.1 时空域能量函数
候选目标集
式中T1∶
式中
式中
采用动态规划方法对(7)式中的能量函数进行优化[19],即可得到最优的运动轨迹。
5.2 训练样本更新
跟踪过程中,利用上一个序列段的跟踪结果更新CNN模型参数,然后处理下一个序列段。为避免出现模型漂移,仅在可靠性高的跟踪结果上采集训练样本。对于时刻
训练集中的负样本普遍存在冗余现象,冗余的负样本对模型训练贡献很小,浪费计算资源。为此,通过挖掘难负样本[13] 优化训练集,提高训练效率。实验中发现,域预测结果为{
5.3 跟踪算法步骤
所提出的CNN与CP的稳健视觉跟踪算法具体步骤如下:
输入:目标初始状态
输出:目标运动轨迹T1∶
初始化阶段:
1) 将
2) 在
3) 利用
跟踪阶段:
4) 将图像序列划分为
5) 估计第
第一步,建立所有帧的候选目标集合
①令当前时刻为
②利用CNN计算样本的回归值
③根据
④根据风险阈值
⑤令
第二步,通过优化能量函数
6) 更新训练集
7) 连接目标轨迹T←T∪T
6 实验结果与分析
为验证算法的有效性,利用Matlab软件进行仿真实验,硬件平台的CPU为3.4 GHz intel-i7-6700,内存为8 GB。算法的各项参数设置为:正常训练集
选用公开数据集TOP100[14]中的视频序列作为实验对象,并对当前多种主流跟踪算法实验效果进行对比,这些算法包括VTS[15]、LOT[16]、STRUCK[1]、MIL[17]和KCF[2]。为了验证CP的有效性,在实验中测试了本文算法的一个简化版本,该版本中未引入CP,而是直接根据CNN输出的回归值,选择最大的
视频序列Bolt是短跑比赛场景,跟踪目标为其中一名运动员。该序列的挑战在于目标的姿态不断变化,同时随着镜头的转动图像中运动员从正面逐渐转向背面,因此目标外观变化很大。
Football视频序列是美式足球比赛场景,跟踪目标为一名球员的头部。该序列的难点是背景中有许多外观十分相似的球员,他们之间频繁交互运动,对目标跟踪造成了干扰。
图 3. 视频序列跟踪结果。(a) FaceOcc1; (b) Bolt; (c) Football; (d) CarDark
Fig. 3. Tracking results of video sequences. (a) FaceOcc1; (b) Bolt; (c) Football; (d) CarDark
图 4. 跟踪结果的中心点位置误差。(a) FaceOcc1; (b) Bolt; (c) Football; (d) CarDark
Fig. 4. Center position error of tracking results. (a) FaceOcc1; (b) Bolt; (c) Football; (d) CarDark
他球员;本文算法通过时空轨迹优化确保轨迹平滑性,降低了相似目标干扰的影响。
图 5. 跟踪结果的覆盖率。(a) FaceOcc1; (b) Bolt; (c) Football; (d) CarDark
Fig. 5. Coverage rate of tracking results. (a) FaceOcc1; (b) Bolt; (c) Football; (d) CarDark
CarDark视频序列是夜景下汽车行驶场景,跟踪目标是一辆汽车的尾部,该序列的特点是光照剧烈变化,背景混杂且图像分辨率低。
为了比较7种算法的整体性能,
图 6. 一次通过评价结果。(a)位置精度图; (b)覆盖成功率图
Fig. 6. One-pass evaluation. (a) Positional accuracy diagram; (b) coverage success rate diagram
表 1. 平均中心点位置误差和覆盖率
Table 1. Average center position error and coverage rate
|
7 结论
提出了一种基于CNN与CP的目标跟踪算法。该算法采用CNN提取图像高层特征,克服了底层特征对目标外观变换敏感的缺点。为了提高跟踪稳健性,引入CP对分类结果进行可靠性分析,选择满足可信度条件的分类结果作为候选目标区域,最后通过时空域全局能量函数优化获得最终的目标轨迹。
在公开数据集上进行实验,并与多种目前流行的跟踪算法进行对比,结果表明,本文算法具有更优的跟踪稳健性和准确性。
[3] GirshickR, DonahueJ, DarrellT, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580- 587.
GirshickR, DonahueJ, DarrellT, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2014: 580- 587.
[4] KrizhevskyA, SutskeverI, Hinton GE. Imagenet classification with deep convolutional neural networks[C]. Advances in Neural Information Processing Systems, 2012: 1097- 1105.
KrizhevskyA, SutskeverI, Hinton GE. Imagenet classification with deep convolutional neural networks[C]. Advances in Neural Information Processing Systems, 2012: 1097- 1105.
[5] SimonyanK, ZissermanA. Very deep convolutional networks for large-scale image recognition[C]. International Conference on Learning Representations ( ICLR), 2015.
SimonyanK, ZissermanA. Very deep convolutional networks for large-scale image recognition[C]. International Conference on Learning Representations ( ICLR), 2015.
[6] 许路, 赵海涛, 孙韶媛. 基于深层卷积神经网络的单目红外图像深度估计[J]. 光学学报, 2016, 36(7): 0715002.
许路, 赵海涛, 孙韶媛. 基于深层卷积神经网络的单目红外图像深度估计[J]. 光学学报, 2016, 36(7): 0715002.
[7] NamH, HanB. Learning multi-domain convolutional neural networks for visual tracking[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 4293- 4302.
NamH, HanB. Learning multi-domain convolutional neural networks for visual tracking[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016: 4293- 4302.
[8] MaC, Huang JB, YangX, et al. Hierarchical convolutional features for visual tracking[C]. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2015: 3074- 3082.
MaC, Huang JB, YangX, et al. Hierarchical convolutional features for visual tracking[C]. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2015: 3074- 3082.
[9] WangL, OuyangW, WangX, et al. Visual tracking with fully convolutional networks[C]. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2015: 3119- 3127.
WangL, OuyangW, WangX, et al. Visual tracking with fully convolutional networks[C]. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2015: 3119- 3127.
[10] VovkV, GammermanA, ShaferG. Algorithmic learning in a random world[M]. New York: Springer, 2005.
VovkV, GammermanA, ShaferG. Algorithmic learning in a random world[M]. New York: Springer, 2005.
[11] KrizhevskyA. Learning multiple layers of features from tiny images[M]. Toronto: University of Toronto, 2009.
KrizhevskyA. Learning multiple layers of features from tiny images[M]. Toronto: University of Toronto, 2009.
[12] PapadopoulosH. Inductive conformal prediction: theory and application to neural networks[M]. Rijeka: Tools in Artificial Intelligence. InTech, 2008: 330- 332.
PapadopoulosH. Inductive conformal prediction: theory and application to neural networks[M]. Rijeka: Tools in Artificial Intelligence. InTech, 2008: 330- 332.
[14] WuY, LimJ, Yang MH. Online object tracking: a benchmark[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2013: 2411- 2418.
WuY, LimJ, Yang MH. Online object tracking: a benchmark[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2013: 2411- 2418.
[15] KwonJ, Lee KM. Tracking by sampling trackers[C]. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2011: 1195- 1202.
KwonJ, Lee KM. Tracking by sampling trackers[C]. Proceedings of the IEEE International Conference on Computer Vision (ICCV), 2011: 1195- 1202.
[16] Oron S, Bar-Hillel A, Levi D, et al. Locally orderless tracking[J]. International Journal of Computer Vision, 2015, 111(2): 213-228.
Oron S, Bar-Hillel A, Levi D, et al. Locally orderless tracking[J]. International Journal of Computer Vision, 2015, 111(2): 213-228.
[17] BabenkoB, Yang MH, BelongieS. Visual tracking with online multiple instance learning[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2009: 983- 990.
BabenkoB, Yang MH, BelongieS. Visual tracking with online multiple instance learning[C]. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2009: 983- 990.
[19] BuchananA, FitzgibbonA. Interactive feature tracking using K-D trees and dynamic programming[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2016, 1: 626- 633.
BuchananA, FitzgibbonA. Interactive feature tracking using K-D trees and dynamic programming[C]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2016, 1: 626- 633.
Article Outline
高琳, 王俊峰, 范勇, 陈念年. 基于卷积神经网络与一致性预测器的稳健视觉跟踪[J]. 光学学报, 2017, 37(8): 0815003. Lin Gao, Junfeng Wang, Yong Fan, Niannian Chen. Robust Visual Tracking Based on Convolutional Neural Networks and Conformal Predictor[J]. Acta Optica Sinica, 2017, 37(8): 0815003.