基于DeepLab-v3+的遥感影像分类 下载: 1558次
1 引言
遥感影像分类[1-5]是根据遥感数据自身的各种信息,通过某种算法提取每类地物的独有特征并将其分割为互不相交的子空间,进而将每个像素划分到对应的子空间。但是,对于高分辨率的遥感图像,地物的光谱特征非常丰富,“同物异谱”和“异物同谱”现象非常明显[6]。因此传统的参数化方法如最小距离分类法(MDC)[7]、极大似然分类法(MLC)[8]等分类准确度降低。而非参数化方法如支持向量机[9]、人工神经网络(ANN)[10]、决策树(DT)[11]等在高分辨率遥感影像分类中得到了广泛的应用。然而这些算法都属于浅层学习算法[12],难以有效地表达复杂函数,缺少对复杂样本的适应性,并且分类器模型的参数无法估计或估计不准确,导致分类效果不理想[13]。
2017年,加州大学伯克利分校的Shelhamer 等[14]提出全卷积网络(FCN),使得卷积神经网络(CNN)无需全连接层即可进行密集的像素预测,卷积网络从而得到普及。使用FCN方法可生成任意大小的图像分割图,且该方法比图像块分类法速度快。语义分割领域几乎所有先进方法都采用了该模型。除全连接层,使用卷积神经网络进行语义分割还存在另一问题,即池化层因扩大感受野、聚合语境而造成了位置信息的丢失。2015年,Ronneberger等[15]提出了U-Net。U-Net能够适应很小的训练集。与FCN逐点相加不同,U-Net采用将特征在通道维度拼接在一起的方法,形成了更厚的特征,所以分割效果更好。但是,实验发现,U-Net在划分的类别较多时收敛速度较慢,而且物体边缘分割效果不理想。2015年,谷歌发布了第一个版本的DeepLab模型[16]。之后,经过卷积神经网络特征提取器、目标尺度建模技术、语境信息处理、模型训练流程、深度学习硬件和软件的不断改进和优化,使得DeepLab模型升级到了DeepLab-v2[17]和DeepLab-v3[18]。谷歌通过添加一个简单又有效的解码器模块[19]以精炼分割结果(尤其是在目标边界处),将DeepLab-v3扩展为DeepLab-v3+[20],并进一步将深度可分卷积应用到空间多孔金字塔池化(ASPP)[21-23]和解码器模块上,得到了更快、更强大的语义分割编码器-解码器网络。本文为了解决传统深度神经网络在遥感影像分割时存在的精度低、边缘不准确等问题,采用DeepLab-v3+模型来提高分割效果。
2 基于DeepLab-v3+的遥感图像分类方法
2.1 系统概述
应用DeepLab-v3+算法解决遥感影像分类问题。系统框图如
图 1. 基于DeepLab-v3+模型的遥感图像分类系统框图
Fig. 1. System diagram of remote sensing image classification based on DeepLab-v3+
2.2 ASPP
深度卷积神经网络采用全卷积方式时,会明显降低特征地图的空间分辨率。为了解决该问题,有效地生成更稠密的特征地图,在深度卷积神经网络的最大池化层中避免降采样操作,将上采样滤波器加入接下来的卷积层中,在更高的采样率上计算特征地图。滤波上采样就是在非零滤波器之间插入空洞,以多孔卷积作为上采样滤波卷积运算。采用多孔卷积恢复全分辨率的特征地图,并计算更稠密的特征地图,接着在原图像和特征响应之间做简单双线性插值。这种算法为稠密预测任务中使用反卷积层提供了简单有效的方法。与常用的大滤波器卷积相比,多孔卷积可以有效增加滤波器视野而不增加参数数量或计算量。多孔卷积示意图如
图 2. 多孔卷积示意图[11]。(a)稀疏的特征提取;(b)稠密的特征提取
Fig. 2. Diagrams of abtrous convolution[11]. (a) Sparse feature extraction; (b) dense feature extraction
遥感影像在多尺度图像中的状态导致其对多尺度图像的识别精度不高。受到ASPP的启发,采用计算效率更好的算法,在多个采样率上重采样特定的特征层来进行卷积。因此,需要用互补有效视野的多个滤波器来检测遥感影像,可以在多个尺度上对有用图像捕捉地物特征。与真正对特征重采样不同,利用不同采样率的多个并行多孔卷积层做映射的技术被称为“ASPP”。ASPP示意图如
2.3 编码解码模块
由于ASPP方法参考了不同尺度的特征图,并且空洞卷积的使用加强了提取稠密特征的能力,因此该结构具有可以提取遥感影像中较稠密特征的优点。该方法中存在池化和有步长的卷积,使得遥感影像的边界信息严重丢失。编码-解码(Encoder-Decoder)方法中的Decoder就可以起到修复遥感影像尖锐边界的作用。
具体步骤如下:Encoder提取出的特征首先被4倍上采样,称之为特征图F1;Encoder中提取出来的与F1同尺度的特征F2'先进行1×1卷积,降低通道数得到特征图F2,再进行F1和F2的串联,得到F3;对F3进行常规的3×3卷积微调特征;最后直接4倍上采样得到分割结果。示意图如
3 实验与分析
3.1 实验环境
采用Pytorch0.4.0开源框架,搭建环境为个人PC,操作系统为Ubuntu14.04,Python版本为3.5,实验采用型号为Geforce GTX TITAN X的GPU进行训练。
3.2 实验数据及数据增强
所使用的数据集是英国**科学与技术实验室(DSTL)于2017年2月在kaggle上发布的数据集。根据该地区实际地物分布情况,分为绿地、道路、水域、居民区以及裸地5类,
由于训练集图片较少,并且为了增加模型的稳健性,对遥感影像数据进行缩放、翻转、裁剪等数据增强方法。本研究图像缩放后的图像分辨率为500 pixel×500 pixel,然后使用480 pixel×480 pixel的滑窗随机裁剪图像,最后以0.5的概率翻转图像。
3.3 训练和测试结果分析
使用上述数据集对DeepLab-v3+模型进行训练,其训练参数如
表 1. 训练参数
Table 1. Training parameters
|
每迭代一次大约耗时45 s,在训练达到25次以后就基本完成了收敛,由损失曲线图可以看出,在训练收敛时,选取损失最低的模型作为测试模型,损失曲线如
提取第一层卷积层卷积后的64张特征图,并把得到的特征图可视化,如
从测试图像中选取具有代表性的图像,经 DeepLab-v3+模型进行分割后,再对其结果进行颜色填充。
由
图 8. DeepLab-v3+分割效果示意图。(a)原图;(b) DeepLab-v3+分割结果
Fig. 8. Segmentation effect by DeepLab-v3+; (a) Original image; (b) segmentation result by DeepLab-v3+
3.4 DeepLab-v3+与其他模型分割结果对比
为证明所提方法的有效性和优越性,从测试图像中选取了具有代表性的图像,分别使用DeepLab-v3+和FCN、U-Net对遥感图像进行实验,并进行结果对比。
模型复杂度通常使用FLOPs(floating point operations)衡量。本文提出的DeepLab-v3+模型的计算消耗主要在于ResNet,其次是ASPP模块,所以模型的计算复杂度可视为二者复杂度之和。本研究的FLOPs为113亿。
图像分割评估指标有4种:像素精度(PA)、均像素精度(MPA)、均交并比(MIoU)、频率加权交并比(FWIoU)。像素精度为标记正确的像素占总像素的比例。均像素精度是PA的一种简单提升,计算每个类内被正确分类像素数的比例,之后求所有类的平均。均交并比为语义分割的标准度量,计算真实值和预测值的交集和并集之比,该比例可以变形为正真数比上真正、假负、假正(并集)之和,在每个类上计算交并比,之后取平均。频率加权交并比为MIoU的一种提升,这种方法根据每个类出现的频率为其设置权重。MIoU由于简洁、代表性强而成为最常用的度量标准。令
表 2. DeepLab-v3+和其他模型的精度和运行时间
Table 2. Precision and running time of DeepLab-v3+ and other models
|
图 10. DeepLab-v3+和其他模型分割结果对比。(a)原图;(b) FCN分割结果;(c) U-Net分割结果;(d) DeepLab-v3+分割结果
Fig. 10. Comparison of segmentation results of DeepLab-v3+ and other models. (a) Original images; (b) segmentation results of FCN; (c) segmentation results of U-Net; (d) segmentation results of DeepLab-v3+
3.5 在公开的数据集实验
对本研究提出的带有空洞卷积的编码器-解码器方法在公开的的遥感影像数据集GID上进行评估[24]。从高分-2(GF-2)卫星获取的数据集的图像显示出我国人口分布与地貌的特点,人口主要分布在东部沿海地区,且以水域为主线集中分布,大量的农田集中分布在建筑物与水域周围;我国地貌呈块状的梯形分布,为地势西高东低的阶梯状分布结构。GF-2卫星获取的数据集包含了6种最常见的土地覆盖类别(水域、建筑物、草地、农田、森林、杂波/背景),并且已被手动精确分类。GID数据集中包含150张分辨率为7200 pixel ×6800 pixel的GF-2卫星影像。选取5张卫星影像,进行数据增强,然后训练。训练参数采用
表 3. DeepLab-v3+和其他模型在GID数据集的精度
Table 3. Precision of DeepLab-v3+ and other models on GID dataset
|
图 11. DeepLab-v3+和其他模型在GID数据集分割结果。(a)原图;(b) FCN分割结果;(c) U-Net分割结果;(d) DeepLab-v3+分割结果
Fig. 11. Segmentation results of DeepLab-v3+ and other models on GID dataset. (a) Original image; (b) segmentation result of FCN; (c) segmentation result of U-Net; (d) segmentation result of DeepLab-v3+
4 结论
提出了一种基于编码解码器的空洞卷积的遥感图像分类方法。该模型能够提取图像中具有较强稳健性的边缘特征,并且错分情况较少。通过与现有的其他神经网络模型相比,该方法能够得到更高的分类精度,提取特征速度更快,可获得更优的分类效果。
[1] 李石华, 王金亮, 毕艳, 等. 遥感图像分类方法研究综述[J]. 国土资源遥感, 2005, 17(2): 1-6.
[2] 单宝华, 霍晓洋, 刘洋. 一种极线约束修正数字图像相关匹配的立体视觉测量方法[J]. 中国激光, 2017, 44(8): 0804003.
[3] 赵方珍, 梁海英, 巫湘林, 等. 基于局部和全局高斯拟合的主动轮廓分割模型[J]. 激光与光电子学进展, 2017, 54(5): 051006.
[4] 宋昱, 吴一全, 毕硕本. 边缘修正CV模型的卫星遥感云图分割方法[J]. 光学学报, 2014, 34(9): 0901004.
[6] 刘大伟, 韩玲, 韩晓勇. 基于深度学习的高分辨率遥感影像分类研究[J]. 光学学报, 2016, 36(4): 0428001.
[12] BengioY. Learning deep architectures for AI[M]. Foundations and Trends® in Machine Learning, 2009, 2( 1): 1- 127.
[13] 杜培军, 夏俊士, 薛朝辉, 等. 高光谱遥感影像分类研究进展[J]. 遥感学报, 2016, 20(2): 236-256.
[15] RonnebergerO, FischerP, BroxT. U-Net: convolutional networks for biomedical image segmentation[M] ∥Navab N, Hornegger J, Wells W, et al. Medical image computing and computer-assisted intervention. Lecture notes in computer science. Cham: Springer, 2015, 9351: 234- 241.
[16] Chen LC, GeorgeP, IasonasK, et al. Semantic image segmentation with deep convolutional nets and fully connectedCRFs[J/OL]. ( 2016-06-07)[2018-12-01]. https:∥arxiv.org/abs/1412. 7062.
[18] Chen LC, PapandreouG, SchroffF, et al. Rethinking atrous convolution for semantic image segmentation[J/OL]. ( 2017-12-05)[2018-12-01]. https:∥arxiv.org/abs/1706. 05587.
[20] Chen LC, Zhu YK, PapandreouG, et al. Encoder-decoder with atrous separable convolution for semantic image segmentation[M] ∥Ferrari V, Hebert M, Sminchisescu C, et al. Computer vision-ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11211: 833- 851.
[21] GraumanK, DarrellT. The Pyramid match kernel: discriminative classification with sets of image features[C]∥Tenth IEEE International Conference on Computer Vision (ICCV'05), October 17-21, 2005, Beijing, China. New York: IEEE, 2005: 8824338.
[22] LazebnikS, SchmidC, PonceJ. Beyond bags of features: spatial pyramid matching for recognizing natural scene categories[C]∥2006 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-( CVPR'06), June 17-22, 2006, New York, NY, USA. New York: IEEE, 2006.
[23] He KM, Zhang XY, Ren SQ, et al. Spatial pyramid pooling in deep convolutional networks for visual recognition[M] ∥Fleet D, Pajdla T, Schiele B, et al. Computer vision-ECCV 2014. Lecture notes in computer science. Cham: Springer, 2014, 8691: 346- 361.
[24] Ge W Y, Liu G Y. Unsupervised classification of high-resolution remote-sensing images under edge constraints[J]. Proceedings of SPIE, 2017, 10609: 106091C.
Article Outline
袁立, 袁吉收, 张德政. 基于DeepLab-v3+的遥感影像分类[J]. 激光与光电子学进展, 2019, 56(15): 152801. Li Yuan, Jishou Yuan, Dezheng Zhang. Remote Sensing Image Classification Based on DeepLab-v3+[J]. Laser & Optoelectronics Progress, 2019, 56(15): 152801.