基于深度注意力机制的多尺度红外行人检测 下载: 1450次
1 引言
红外探测系统隐蔽性好、抗干扰能力强、受光线和恶劣天气影响小,具备全天时工作的能力,是目标检测跟踪、导航制导、安防监控、汽车夜视等**和民用探测系统中的重要组成部分。其中,超大视场(U-FOV)红外相机具有成像视场大、覆盖面广的优点,能极大地改善夜间汽车驾驶视线受阻等问题,可以有效预防近距离侧方盲区由于行人突然闯入造成的事故。
为了提取红外图像或视频中的目标信息,区分前景和背景的差异,针对单帧红外图像缺乏色彩和纹理信息的问题,Liu等[1]和Cai等[2]利用局部显著性差异实现了目标检测。在处理序列图像时,背景的低秩性和目标的稀疏性是背景建模的依据,如R2PCP[3]、ROSL[4]、RMAMR[5]、PG-RMC[6]、OSTD[7]等算法通过优化分解得到了背景模型。但是,运动缓慢或长时间静止的目标会被逐渐融入背景,从而无法处理相机载体运动的情况,而且这些方法的性能依赖于人工设计特征的鲁棒性和完备性,检测结果大都缺乏语义信息,不能自动获取目标的类别属性信息。
得益于深度卷积神经网络(CNN)的飞速发展,基于深度学习的目标检测技术在性能上取得了巨大突破,其中Faster R-CNN[8-10]、YOLO[11-13]、SSD[14-15]等方法已逐渐成为当前目标检测的主流方法。不同于传统检测方法,深度学习的主干卷积网络能从大量数据中自动学习目标特征,更有利于挖掘目标在数据中隐含的统计规律和本质特征。然而在U-FOV红外相机捕获的图像中,由于相机的焦距较短,目标尺度随距离增加而快速变小,且受限于红外图像对比度低、成像模糊的缺陷,小尺度目标容易淹没在背景中。此外,深度CNN中存在较多的下采样操作,导致小尺度目标的有限特征被进一步压缩。因此,多尺度红外行人检测的难点在于如何利用有限特征准确地检测出小尺度目标。
注意力机制可以有效学习输入数据或特征图上不同部分的权重分布,减少背景信息带来的影响,提高模型的识别能力和鲁棒性。残差注意力网络[16]利用残差机制构造网络,在引入注意力结构的同时保证了网络的深度。SENet[17]通过学习得到特征通道之间的相互依赖关系及各通道的重要性,然后依据通道重要性增强有用特征、抑制无用特征。CBAM[18]利用特征图的通道信息和空间信息,设计了一种具有注意力能力的卷积模块,该模块能使模型聚焦在更有用的信息上,进一步增强了模型对图像的分类能力。Attention U-Net[19]提出一种用于医学成像的注意力门控模型,该模型在U-Net中集成软注意力模型,突出显著特征。这些模型将注意力结构集成在基础网络结构中,一定程度上增加了网络参数量和计算开销。
本文将深度学习目标检测方法运用于U-FOV红外行人检测任务中,提出一种基于注意力机制的多尺度红外行人检测(MS-IRPD)方法。MS-IRPD方法解决了两个问题:针对深度学习方法中普遍存在的小尺度目标检测性能不高的问题,建立低层特征金字塔检测网络(LFPN)[20],充分利用低层高分辨率特征图的细节信息来弥补普通卷积网络中小尺度目标特征不足的缺陷;针对U-FOV图像中小尺度目标特征缺失严重的问题,将注意力模块融入到特征金字塔中,用于学习不同尺度卷积特征图之间的内在联系,从而产生目标显著性特征,使得检测网络更加关注局部细节,这在一定程度上弥补了红外小尺度目标特征缺失的问题。同时,不同于以往将注意力模块增加在每个卷积层上的方式,MS-IRPD方法仅在特定层间构建注意力模型,是一种轻量的连接方法。
2 U-FOV红外图像与深度卷积网络特性
2.1 U-FOV红外图像特点
夜间行人检测在先进驾驶员辅助系统(ADAS)中占据越来越重要的地位,它能自动为夜间行驶的车辆提供行人目标位置信息,有效防止事故发生。相比于传统汽车探照灯的模式,红外相机在夜间不受光照影响,具有更宽广的视野并且可以探测到更显著的目标特征。相比于小视场红外相机,U-FOV红外相机对目标距离更敏感,视野盲区小,容易实现水平视场的全覆盖。然而,由于红外图像本身质量相对较低,加之U-FOV成像图像中包含丰富的小尺度目标,故在U-FOV红外图像中实现多尺度行人检测非常困难,目前,还未有相关的文献提出检测方法,也未有对应的数据集可以直接使用。因此自主采集图像制作U-FOV红外行人数据集,
图 1. U-FOV红外图像行人特性。(a)中大尺度目标;(b)小尺度目标
Fig. 1. Characteristic of pedestrian in U-FOV infrared images. (a) Large and medium scale pedestrians; (b) small scale pedestrians
2.2 深度卷积网络检测目标的特点
传统机器视觉的目标检测方法一般使用滑动窗口的结构,主要包括3个步骤:首先利用不同尺度的滑动窗口遍历图像以确定候选区域[21-22];然后提取候选区域内的视觉特征,例如SIFT(Scale Invariant Feature Transform)[23]、HOG(Histogram of Oriented Gradient)特征[24]、Harr特征[25]等;最后利用分类器进行分类识别,常见的分类器有随机森林、SVM、Adaboost等。这类方法对于候选区域的选择缺乏针对性,会导致窗口冗余、时间复杂度高。并且人工设计的特征没有很好的鲁棒性,不能应对图像和目标多样性的变化。
深度卷积网络能从数据中自动学习目标特征[26],避免了显式的特征提取过程,可实现由端到端的目标检测。在网络中,依靠下采样增加感受野和抽象图像中的语义信息。随着下采样层和卷积层的堆叠,局部信息被不断综合成全局信息,边缘、纹理等低层特征被不断整合成高层语义特征,特征图分辨率变小、通道数增加,整个网络结构呈现出“倒尖锥”的形状。然而这种结构对小尺度目标的检测识别十分不友好,因为随着下采样的进行,小尺度目标映射到特征图上的像素会逐渐变少,最终不足一个像素,所以网络对于小尺度目标的定位能力急剧下降,这也是深度卷积网络中普遍存在的一个问题。例如VGG19[27]、ResNet101[28]、GoogleNet[29]等网络都进行了32倍下采样,那么在最终特征图上0.5的量化误差反映到输入图像上则是16 pixel,这有可能超过了某些小目标的大小,从而导致目标漏检,例如
3 多尺度红外行人检测的深度学习框架与方法
深度卷积网络中,多尺度的目标检测是一个比较有挑战性的任务,其难点主要源于小尺度目标的低分辨率和有限的特征信息。SSD从不同尺度的特征图上预测了目标分类与位置,提高了小尺度目标的检测性能。DSSD使用反卷积层增加了大量的上下文信息,进一步提高了小物体的检测精度。FPN[30]利用深度卷积网络堆叠过程中固有的多尺度、多层级金字塔结构来构建特征金字塔,设计了一种具有横向连接的自顶向下架构,用于在所有尺度上构建高级语义特征图。为此,采用基于多尺度特征复用的方法构建U-FOV红外行人检测框架。
3.1 U-FOV红外行人检测网络结构
深度卷积网络检测U-FOV中的行人需要克服两个问题:一是抵消特征图下采样对小尺度目标的不利影响;二是补充U-FOV红外图像中行人尺度过小造成的特征缺失。在构建检测网络时,设计两部分的网络结构:基于YOLOv3重构特征金字塔结构,增加一层更高分辨率的特征图来增加小目标的特征信息,可以分别从四个尺度上独立检测目标;提出一种轻量的注意力结构,仅在用于目标预测的相邻尺度特征图之间构建注意力模型,可以得到显著性特征,并将其与深度卷积特征相融合,获得有益于任务的特定局部特征。
整个网络的结构如
图 2. 基于Darknet53的多尺度红外行人检测网络结构
Fig. 2. Architecture of multi-scale infrared pedestrian detection network based on Darknet53
3.1.1 四尺度目标检测网络
原始的YOLOv3网络虽然改善了小目标的检测性能,但仍不足以处理U-FOV中的小尺度目标。该模型要求输入图像的分辨率为416×416,用于预测目标的特征图的最大分辨率为52×52,这之间存在步长为8的下采样,那么YOLOv3模型理论上能检测到的最小目标的分辨率在8×8左右。然而由
3.1.2 注意力模型
相比于可见光图像,红外图像的对比度低,细节分辨能力较差,导致图像中的目标特征检测受限,尤其影响小目标的检测精度。由于红外系统依赖热辐射成像,目标在图像中基本呈现高亮的显著特性,因此可以引入注意力机制对这一特性进行强化。考虑到在增加预测特征图分辨率后,模型的计算负担有所增加,在构建显著性特征生成模型时,设计一种轻量的连接方法。不同于CBAM模型[18]将注意力模块固化到每个卷积层中的方式,本文利用卷积网络不同层级间固有的上下文结构,仅在两组不同尺度的特征图之间融入注意力模块,如此,针对四尺度的目标检测网络,仅需三个注意力模块。这种连接方式不仅可以生成图像显著性特征,还完成了特征金子塔结构的横向连接,实现了不同尺度特征图的融合。
注意力模块在两组不同尺度特征图间构建上下文联系,其结构如
注意力模块计算了两组不同尺度特征图之间的目标相似性,当相似性较高时,即前后不同尺度特征图之间目标继承性较好,对应区域的显著性系数较大,反之显著性系数较小。显著系数图和特征图相乘的过程可视为图像各成分权重重新分配的过程,通过突出重点区域、融入显著特征,可以有效弥补红外图像特征缺失的问题。
3.2 模型中的基本模块
3.2.1 卷积模块
卷积模块由二维卷积层、批归一化层及非线性激活层组成,
批归一化层[31]用于将数据归一化至均值为0、方差为1的数据,然后再输入到下一层。在训练深度网络时,网络参数必然会发生变化,如果不进行归一化处理,那么除了输入层外,网络后面每一层的输入数据分布都会一直发生变化。神经网络的本质就是学习数据的分布特性,一旦每批训练数据的分布各不相同,网络在每次迭代中就要去学习适应不同的分布,这会大大降低网络的训练速度,这也是需要归一化预处理数据的原因。
非线性激活函数用于增强网络的非线性描述能力,建立输入与输出之间复杂的非线性映射关系。模型中采用的激活函数(LeakyReLU)是修正线性单元(ReLU)的一种特殊版本,解决了ReLU在输入为负值时,输出始终为0所导致的神经元不学习的问题。其数学表达式为
式中:x为卷积结果;y为激活输出;λ为一个很小的常数,保留了负轴的值。
3.2.2 残差模块
残差模块由2个卷积核大小分别为1×1和3×3的卷积模块及1条捷径连接构成。如
3.3 行人检测原理
为了检测出红外图像中多尺度的行人,MS-IRPD方法从四个尺度的特征图(即
4 实验分析
4.1 实验设置与数据集
实验环境为64位Windows操作系统,NVIDIA GeForce GTX TITAN X GPU;软件采用Keras,并以Tensorflow为后端进行卷积神经网络计算;编程语言为Python3.6。以YOLOv3模型为基本框架,在经ImageNet和COCO数据集预训练的Darknet53上构建行人检测模型,使用Adam优化算法进行训练。经过两次迁移训练:第一次迁移训练在Caltech行人检测数据集上进行,旨在扩充数据量,增强模型对行人类目标检测的鲁棒性与泛化能力;第二次迁移训练在U-FOV红外行人数据集上进行,训练模型对红外图像目标的识别定位能力。检测时利用U-FOV测试集验证模型的行人检测性能,并利用LTIR(Linköping Thermal Infrared)数据集检验模型的泛化能力。
U-FOV数据集由手工标注的1000张训练图像、200张验证图像及661张测试图像组成,分辨率为800×600。Caltech行人数据集包含约10 h、分辨率为640×480、频率为30 Hz的视频,视频由车载摄像机在城市环境中拍摄得到,总计约250000帧图像、350000标注框及2300个不同的行人。LTIR是一个用于评价短时目标跟踪性能的热红外数据集,包含20个红外图像序列,每个序列平均含有563帧图像。
4.2 学习率与损失
训练分两个阶段:第一阶段固定主干网络卷积核参数不变,训练其他网络层参数;第二阶段开放训练整个网络模型参数,损失函数与文献[
13]相同。在Caltech行人数据集上,每个阶段分别训练10个epoch;在U-FOV红外行人数据集上,每个阶段分别训练30个epoch。两次迁移训练的学习率及损失变化如
图 6. 学习率和损失曲线。(a) Caltech数据集上的学习率;(b) Caltech数据集上的损失;(c) U-FOV数据集上的学习率;(d) U-FOV数据集上的损失
Fig. 6. Learning rate and loss curves. (a) Learning rate on Caltech dataset; (b) loss on Caltech dataset; (c) learning rate on U-FOV dataset; (d) loss on U-FOV dataset
4.3 显著性系数和特征图
4.4 U-FOV数据集上的行人检测结果
为进一步定量评估检测方法性能,选择P-R(precision-recall)曲线作为评价指标,P-R曲线刻画了查准率和查全率之间的关系。准确率和召回率定义为
式中:NTP为正样本被正确识别为正样本的数量;NFP为负样本被识别为正样本的数量;NFN为正样本被识别为负样本的数量。改变置信度阈值计算对应的准确率和召回率,可以得到P-R曲线。如果检测器分类性能好,那么在Rrecall增长的同时,Pprecision应当保持在高水平。曲线下的面积代表检测器的平均准确率(AP),表征检测器对该类目标的检测性能。
图 10. 不同IoU阈值下的P-R曲线。(a) IoU阈值为0.3;(b) IoU阈值为0.45;(c) IoU阈值为0.5;(d) IoU阈值为0.7
Fig. 10. P-R curves under different IoU thresholds. (a) IoU threshold is 0.3; (b) IoU threshold is 0.45; (c) IoU threshold is 0.5; (d) IoU threshold is 0.7
表 1. 不同IoU阈值下的行人检测平均准确率
Table 1. Average precision of pedestrian detection under different IoU thresholds
|
由不同方法的性能评价结果可以看出,对加入低层高分辨率的特征图进行四尺度目标预测后,检测性能得到明显改善,相比于YOLOv3原始模型,其AP提高超过20个百分点,主要原因在于U-FOV数据集存在大量尺度过小的行人目标。
由于每幅测试图像包含的内容不同,所需的时间不同,因此在
表 2. U-FOV测试集的总处理时间
Table 2. Total times of U-FOV test set
|
4.5 扩展实验
为了进一步验证模型对于红外行人目标检测的鲁棒性和泛化能力,选择分辨率较高的LTIR数据集作为测试对象,对其中存在行人的红外图像进行检测,
图 11. 不同场景下LTIR数据集上的红外行人检测可视化结果
Fig. 11. Visualization results of infrared pedestrian detection on LTIR dataset at different scenes
5 结论
为实现更宽范围内的夜间行人自动检测,文中率先利用超大视场红外相机收集路况信息,为行人检测领域引入更具挑战性的新任务,为此提出一种基于深度注意力机制的多尺度红外行人检测方法。在四个尺度的特征图上构建特征金字塔预测多尺度目标,增强了小尺度目标的检测能力。设计注意力模块,产生显著系数图并对前三个尺度的预测特征图进行处理,突出重点局部区域,进一步提高了检测性能。同时,利用两个行人数据集进行迁移训练,补充了丰富的行人样本特征,改善了模型的泛化能力。实验结果表明,所提方法相比于YOLOv3,对多尺度行人检测的AP增加了26.74个百分比,具有较强的泛化能力,适合用于检测多尺度红外行人目标。
[1] Liu S T, Jiang N, Liu Z X, et al. Saliency detection of infrared image based on region covariance and global feature[J]. Journal of Systems Engineering and Electronics, 2018, 29(3): 483-490.
[2] Cai Y F, Liu Z, Wang H, et al. Saliency-based pedestrian detection in far infrared images[J]. IEEE Access, 2017, 5: 5013-5019.
[3] Hintermüller M, Wu T. Robust principal component pursuit via inexact alternating minimization on matrix manifolds[J]. Journal of Mathematical Imaging and Vision, 2015, 51(3): 361-377.
[4] Shu XB, PorikliF, AhujaN. Robust orthonormal subspace learning: efficient recovery of corrupted low-rank matrices[C]∥2014 IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2014, Columbus, OH, USA. New York: IEEE, 2014: 3874- 3881.
[5] Ye X C, Yang J Y, Sun X, et al. Foreground-background separation from video clips via motion-assisted matrix restoration[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2015, 25(11): 1721-1734.
[6] CherapanamjeriY, GuptaK, JainP. Nearly optimal robust matrix completion[C]∥Proceedings of the 34th International Conference on Machine Learning, August 6-11, 2017, Sydney, NSW, Australia.USA: MIT Press, 2017, 70: 797- 805.
[7] SobralA, JavedS, Jung SK, et al. Online stochastic tensor decomposition for background subtraction in multispectral video sequences[C]∥2015 IEEE International Conference on Computer Vision Workshop (ICCVW), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 946- 953.
[8] GirshickR, DonahueJ, DarrellT, et al. Rich feature hierarchies for accurate object detection and semantic segmentation[C]∥2014 IEEE Conference on Computer Vision and Pattern Recognition, June 23-28, 2014, Columbus, OH, USA. New York: IEEE, 2014: 580- 587.
[9] GirshickR. Fast R-CNN[C]∥2015 IEEE International Conference on Computer Vision (ICCV), December 7-13, 2015, Santiago, Chile. New York: IEEE, 2015: 1440- 1448.
[10] Ren SQ, He KM, GirshickR, et al. Faster R-CNN: towards real-time object detection with region proposal networks[C]∥Advances in Neural Information Processing Systems, December 7-12, 2015, Montreal, Quebec, Canada. New York: Curran Associates, 2015: 91- 99.
[11] RedmonJ, DivvalaS, GirshickR, et al. You only look once: unified, real-time object detection[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 779- 788.
[12] RedmonJ, FarhadiA. YOLO9000: better, faster, stronger[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI. New York: IEEE, 2017: 6517- 6525.
[13] RedmonJ, Farhadi A. Yolov3: an incremental improvement[J/OL]. ( 2018-04-08)[2019-09-22]. https:∥arxiv.xilesou.top/abs/1804. 02767.
[14] LiuW, AnguelovD, ErhanD, et al. SSD: single shot MultiBox detector[M] ∥Leibe B, Matas J, Sebe N, et al. Computer vision-ECCV 2016. Lecture notes in computer science. Cham: Springer, 2016, 9905: 21- 37.
[15] Fu CY, LiuW, RangaA, et al. ( 2017-01-23)[2019-09-22]. https:∥arxiv.xilesou.top/abs/1701. 06659.
[16] WangF, Jiang MQ, QianC, et al. Residual attention network for image classification[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 6450- 6458.
[17] HuJ, ShenL, SunG. Squeeze-and-excitation networks[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE, 2018: 7132- 7141.
[18] WooS, ParkJ, Lee JY, et al. CBAM: convolutional block attention module[M] ∥Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision-ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11211: 3- 19.
[19] OktayO, SchlemperJ, Folgoc LL, et al. ( 2018-05-20)[2019-09-22]. https:∥arxiv.xilesou.top/abs/1804. 03999.
[20] TangX, Du DK, He ZQ, et al. PyramidBox: a context-assisted single shot face detector[M] ∥Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision-ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11213: 812- 828.
[21] 覃剑, 王美华. 采用在线高斯模型的行人检测候选框快速生成方法[J]. 光学学报, 2016, 36(11): 1115001.
[22] 赵沛然, 吴新元, 汤新雨, 等. 基于GN分裂的小目标检测区域推荐搜索算法[J]. 光学学报, 2018, 38(9): 0915005.
[23] Cheung W, Hamarneh G. n-SIFT: n-dimensional scale invariant feature transform[J]. IEEE Transactions on Image Processing, 2009, 18(9): 2012-2021.
[24] DalalN, TriggsB. Histograms of oriented gradients for human detection[C]∥2005 IEEE Computer Society Conference on Computer Vision and Pattern Recognition (CVPR'05), June 20-25, 2005, San Diego, CA, USA. New York: IEEE, 2005: 8588935.
[25] Zhang C J, Liu J, Liang C, et al. Image classification using Harr-like transformation of local features with coding residuals[J]. Signal Processing, 2013, 93(8): 2111-2118.
[26] 叶国林, 孙韶媛, 高凯珺, 等. 基于加速区域卷积神经网络的夜间行人检测研究[J]. 激光与光电子学进展, 2017, 54(8): 081003.
[27] Aimar A, Mostafa H, Calabrese E, et al. NullHop: a flexible convolutional neural network accelerator based on sparse representations of feature maps[J]. IEEE Transactions on Neural Networks and Learning Systems, 2019, 30(3): 644-656.
[28] He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 770- 778.
[29] SzegedyC, VanhouckeV, IoffeS, et al. Rethinking the inception architecture for computer vision[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 2818- 2826.
[30] Lin TY, DollárP, GirshickR, et al. Feature pyramid networks for object detection[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE, 2017: 936- 944.
[31] IoffeS, SzegedyC. Batch normalization: accelerating deep network training by reducing internal covariate shift[C]∥32th International Conference on Machine Learning, July 6-11, 2015, Lille, France. USA: MLR Press, 2015: 448- 456.
[32] DaiJ, LiY, HeK, et al. R-FCN: object detection via region-based fully convolutional networks[C]∥Advances in Neural Information Processing Systems, December 5-10, 2016, Barcelona, Spain. New York: Curran Associates, 2016: 379- 387.
Article Outline
赵斌, 王春平, 付强, 陈一超. 基于深度注意力机制的多尺度红外行人检测[J]. 光学学报, 2020, 40(5): 0504001. Bin Zhao, Chunping Wang, Qiang Fu, Yichao Chen. Multi-Scale Infrared Pedestrian Detection Based on Deep Attention Mechanism[J]. Acta Optica Sinica, 2020, 40(5): 0504001.