基于多视角融合的夜间无人车三维目标检测 下载: 628次
1 引言
夜间无人车在道路上行驶需要感知周围环境的车辆、行人[1-2]等,基于红外摄像头的感知方案[3-5]虽然能够感知车辆前方的障碍物,但是无法准确获取障碍物的位置信息且准确率有限。激光雷达是一种主动传感器,通过发射与接收激光光束获取环境中物体的信息[6-7]。近几年陆续有研究人员利用深度学习在激光雷达点云上进行目标检测,斯坦福大学的Point Net[8]直接将激光点云作为输入,并解决了旋转问题和无序性问题。2017年苹果公司Voxel Net[9]将激光雷达分成等间距的体素,并引入新的体素特征编码表示,在KITTI[10]上取得很好的成绩。清华大学提出了MV3D[11],将彩色图像与激光雷达点云融合进行三维目标检测,该算法在KITTI上也表现出色。
上述前人的研究工作基本都是在白天条件下的彩色图像上进行,而在夜间,无人车往往需要依赖红外图像,但红外图像的成像原理是通过红外摄像头探测物体自身的红外辐射,再通过光电变换将物体的温度分布变换成图像。红外图像具有无色彩、简纹理、低信噪比等特点。因此在红外图像上进行目标检测效果较差。考虑到各个传感器在不同方面均有利弊,本文利用多传感器融合的思想,提出了利用多视角通道融合网络的基于红外图像与激光雷达点云的夜间无人车三维目标检测方法。实验结果证明,该方法的准确率高且能基本满足实时性的要求。
1 多视角通道融合网络
本文所采用的多视角通道融合网络由特征提取模块、候选区域生成模块和通道融合模块组成,整体结构图如
特征提取模块由特征编码网络和特征解码网络2部分组成,结构如
图 1. Structure diagram of multi-view channel fusion network
Fig. 1. Structure diagram of multi-view channel fusion network
图 2. Structure diagram of feature extraction module
Fig. 2. Structure diagram of feature extraction module
特征编码网络采用的是改进后的VGG(visual geometry group)16网络[12],将原VGG16网络的通道数减少一半至50%,然后在网络中加入批标准化层,并在Conv4删除最大池化层。特征编码网络将
输入一幅鸟瞰图,候选区域生成模块会生成一系列的三维候选区域。每个三维候选区域有六维的参数:
通道融合模块结合各个视角的特征,对各视角上的目标进行联合分类,并针对三维候选区域进行定向回归。由于不同的视角有不同的分辨率,对于每个视角通道所输出的不同分辨率的特征向量,通过ROI(region of interest)池化操作将每个视角通道所输出的特征向量调整到相同的长度。通过下式得到3个视角不同的ROI。
式中:
式中:
图 3. Structure diagram of channel fusion network
Fig. 3. Structure diagram of channel fusion network
对于通道融合网络的每一层,输入为鸟瞰图形式、前视图形式以及红外图像3个通道的特征,经过一次逐元素平均计算后,再经过各自的中间卷积层进一步提取特征。具体的融合过程如下式所示。
式中:
2 实验内容
2.1 实验配置与数据预处理
本文算法中的网络基于Tensor Flow[14]框架,实验硬件配置为处理器Intel i5-6600,内存16 GB,显卡NVIDIA GTX 1070;操作系统Ubuntu14.04。实验的所有数据由载有红外摄像头和激光雷达的车辆在南京理工大学夜晚的校园道路上拍摄所得,有车辆、行人和骑自行车的人3种类别。其中训练集为1 500 张红外图像及其对应的由激光雷达点云数据,验证集为500 张红外图像及其对应的由激光雷达点云数据,测试集为600 张红外图像及其对应的由激光雷达数据。
对于激光雷达点云数据,其中每一个点由其三维坐标
式中N是长方体区域内点的数目。最后将激光雷达点云转换成通道数为700×800×6的鸟瞰图形式。前视图形式指的是将激光雷达点云投射到一个前方的圆柱体平面上。给定激光雷达点云中的一个点的三维坐标
式中:
2.2 实验结果及分析
把红外图像与激光点云数据输入到多视角通道融合网络中,网络给出检测结果。由于红外摄像头与激光雷达的采集频率不一致,本文根据激光雷达帧号匹配红外图像,设定阈值为10 帧,寻找与雷达帧号小于阈值且最接近的图像作为对应图像,如
图 4. Input infrared image and lidar point cloud
Fig. 4. Input infrared image and lidar point cloud
使用传统的AdaBoost[15]算法、和二维的目标检测算法Fast RCNN[16]算法、Faster RCNN[17]算法以及三维的目标检测算法Voxel Net[10]在测试集中进行测试,并与本文算法进行结果对比,结果见
从
表 1. 不同算法在测试集上的结果对比
Table 1. Comparison of results for different algorithms on test sets
|
由
3 结论
本文采用多传感器融合的思想,在原有红外图像的基础上加入激光雷达点云,并使用多视角通道融合网络对这2种数据进行特征融合,准确地检测出目标的位置以及类别。实验结果表明,该方法能够提高无人车在夜间的物体识别能力,在实验室的测试数据中准确率达到90%,每帧耗时0.43 s,达到实际应用要求。
[1] KIESER D. Driverless vehicles and their impact on your portfolio[J]. Equity, 2018, 32(1): 4.
[2] 陈琪, CHEN Qi. Research on environment-aware tech-nology for unmanned driving[J]. Science and Te-chnology Economic Guide, 2018, 26(26): 77.
[5] 姚广顺, YAO Guangshun, SUN Shaoyuan, 孙韶媛, 方建安, FANG Jian'an. Infrared and radar based depth estimation of night unmanned vehicle scene[J]. Laser & Optoelectronics Progress, 2017, 54(12): 164-170.
[6] 谌彤童. 三维激光雷达在自主车环境感知中的应用研究[D]. 长沙: 国防科学技术大学, 2011.ZHAN Tongtong. Application research of 3D Lidar in autonomous vehicle environment perception[D]. ChangSha: National University of Defense Technology, 2011.
[7] 刘清. 基于激光雷达的三维目标检测[D]. 武汉: 华中科技大学, 2011.LIU Qing. Laser radar based 3D target detection[D]. WuHan: Huazhong University of Science Technology, 2011.
[8] QI C R, SU H, MO K, et al. Point: deep learning on point sets f 3d classification segmentation[C]Proceedings of the IEEE Conference on Computer Vision Pattern Recognition. Atlanta: IEEE, 2017: 652660.
[9] ZHOU Y, TUZEL O. Voxel: Endtoend learning f point cloud based 3d object detection[C]Proceedings of the IEEE Conference on Computer Vision Pattern Recognition. Salt Lake City: IEEE, 2018: 44904499.
[11] CHEN X, MA H, WAN J, et al. Multiview 3d object detection wk f autonomous driving[C]Proceedings of the IEEE Conference on Computer Vision Pattern Recognition. Atlanta: IEEE, 2017: 19071915.
[12] SIMONYAN K, ZISSERMAN A. Very deep convolutional wks f largescale image recognition[J]. arXiv preprint arXiv, 2014, 1409: 1556.
[13] LIN T Y, DOLLAR P, GIRSHICK R. Feature pyramid networks for object detection[J]. Computer Vision and Pattern Recognition, 2017, 2: 4.
[14] ABADI M, AGARWAL A, BARHAM P, et al. Tensflow: Largescale machine learning on heterogeneous distributed systems[J]. arXiv preprint arXiv, 2016, 1603: 04467.
[15] DALAL N, TRIGGS B. Histograms of oriented gradients for human detection[J]. IEEE Computer Society Conference on Computer Vision and Pattern Recognition, 2005, 1: 886-893.
[16] GIRSHICK R, FAST B. RCNN[C]International Conference on Computer Vision. Santiago. Chile: IEEE, 2015: 14401448.
[17] REN S, HE K, GIRSHICK R B, et al. Faster RCNN: towards realtime object detection with region proposal wks[J] IEEE Transactions on Pattern Analysis & Machine Intelligence, 2015, 39(6):11371149.
Article Outline
王宇岚, 孙韶媛, 刘致驿, 卜德飞. 基于多视角融合的夜间无人车三维目标检测[J]. 应用光学, 2020, 41(2): 296. Yulan WANG, Shaoyuan SUN, Zhiyi LIU, Defei BU. Nighttime three-dimensional target detection of driverless vehicles based on multi-view channel fusion network[J]. Journal of Applied Optics, 2020, 41(2): 296.