激光与光电子学进展, 2020, 57 (4): 041018, 网络出版: 2020-02-20  

结合卷积受限玻尔兹曼机的CV图像分割模型 下载: 816次

CV Image Segmentation Model Combining Convolutional Restricted Boltzmann Machine
作者单位
陕西师范大学计算机科学学院, 陕西 西安 710119
摘要
传统图像分割方法主要依赖图像光谱、纹理等底层特征,容易受到图像中遮挡和阴影等的干扰。为此,提出一种基于卷积受限玻尔兹曼机的CV(Chan-Vest)图像分割模型,采用生成式模型——卷积受限玻尔兹曼机对目标形状建模并生成目标形状,以此为先验信息对CV模型能量函数增加目标全局形状特征约束,指导图像分割。在训练数据有限、目标形态各异、目标尺度变化较大的遥感影像数据集Satellite-2000和Vaihigen的目标分割中取得了理想的结果。
Abstract
Traditional image segmentation methods mainly rely on the low-level features, such as image spectrum and texture, and are easily disturbed by occlusion and shadow. To address these problems, a CV (Chan-Vest) image segmentation model combining the convolutional restricted Boltzmann machine is proposed. The target shape a priori information is modeled and generated using the convolutional restricted Boltzmann machine. Then the energy function of the CV model is constrained by the added a priori shape term to guide image segmentation. Better segmentation results are obtained in remote sensing datasets Satellite-2000 and Vaihigen, whose training data are limited while target shapes and sizes are different.

1 引言

如何利用分割方法从图像中自动提取目标是图像处理中重要的研究方向。传统图像分割方法主要依赖灰度、颜色、边缘和纹理等底层特征,易受目标遮挡、阴影等影响,使得分割效果不佳。而遥感图像与普通光学图像在图像角度、场景特性、图像分辨率方面都不尽相同,其目标分割更为困难。按照分割原理,可将遥感图像的目标提取方法分为5类。1)基于像素的目标提取方法[1-2],如阈值法,此类方法原理简单,分割速度快,但用于高分辨率遥感图像目标提取时,易受目标遮挡等噪声的影响,因此应用较少。2)基于区域的目标提取方法[3-5],如区域生长法、区域分裂合并法和CV(Chan-Vest)模型分割方法等,此类方法对灰度均匀的图像具有较好的分割效果,缺点是对噪声敏感,容易造成错分。3)基于边缘和角点检测的目标提取方法[6-8],如采用Canny算子、Roberts算子和Harris角点检测等,此类方法是寻找遥感图像中灰度值突变的地方来确定边缘和较明显的角点信息,再根据空间关系对图像中提取的边缘线段及角点进行分组,通过适当的搜索方法构建目标的空间结构及轮廓,过程比较复杂。4)基于形状先验的目标提取方法[9-11],即通过不同的方法提取目标全局的形状信息,将此作为先验知识并结合传统的图像分割方法辅助分割。多数分割方法只采用底层特征,而目标全局特征的使用使得此类方法在目标遮挡及阴影等情况下也可以较好地提取目标,缺点是针对复杂的遥感图像,怎样灵活地建模和获取目标形状成为难点,且计算量增加。5)基于深度学习的目标分割方法[12-13],即采用深层的网络模型,将输入的训练数据映射到多个层次,逐层将较低层的特征抽象成更高层特征,自动完成特征的提取与分割。此类方法是目前研究热点,缺点是需要大量的样本、强大的计算能力来训练模型,且对于遮挡、阴影等复杂场景和不同尺度的目标如何提升其分割性能还有待进一步研究。

本文提出了一种结合深度学习形状先验信息的CV图像分割模型,即卷积受限玻尔兹曼机模型,对目标形状建模和生成目标形状,定义形状约束项,将形状约束项加入基于水平集方法的能量函数中,得到基于深度学习形状先验信息的新的能量函数,求解新的能量函数使其最小化,得到图像分割结果。该模型的新颖性主要体现为,采用基于深度学习的形状建模方法不仅可以自动提取训练集的目标形状特征,而且可以灵活地表达及生成形状。在训练数据有限、目标形态各异、目标尺度变化较大的遥感图像Satellite-2000[14]和Vaihigen[15]上进行实验,结果表明,与未加入形状信息的分割结果相比,即使初始分割结果不理想,由于形状信息的加入,模型即使在阴影、遮挡、背景复杂的情况下依然能够得到更为完整的目标。

2 结合卷积受限玻尔兹曼机的CV图像分割模型

2.1 CV模型

CV模型是由Chan和Vest提出的图像分割方法。该模型将图像分割表达为能量函数最小化问题,用I表示待分割的灰度图像,I(x,y)的值表示I中任意像素点(x,y)的灰度值。演化曲线CI划分为两部分,C1C2分别表示演化曲线C内部和外部的灰度信息均值。LC的值表示演化曲线C的长度,AC的值表示演化曲线C内部区域的面积,λ1λ2μv是各项的系数,Ω表示图像平面。得到CV模型的能量泛函为

ECV=λ1I(x,y)-C12dxdy+λ2I(x,y)-C22dxdy+μLC+vAC,(1)

式中:等号右边前两项使得演化曲线C不断向目标轮廓靠近,合称为保真项;第三项用于约束演化曲线C,确保获得的曲线足够短,称为长度约束项;第四项用于约束演化曲线C,避免曲线震荡,称为面积项。只有当保真项的值为零,即演化曲线在目标边界上时能量函数才能达到最小值,实现对图的分割。

将(1)式中演化曲线C表示为水平集函数ϕ(x,y),令ϕ(x,y)表示图像I中任意点(x,y)与演化曲线C的最小欧氏距离值。ϕ(x,y)在图像内部时,水平集函数ϕ(x,y)>0;ϕ(x,y)恰好在目标边界上时,ϕ(x,y)=0(即初始化水平集);其他情况下水平集函数ϕ(x,y)<0。则(1)式改写为

ECV(C1,C2,ϕ)=λ1μ0(x,y)-C12H[ϕ(x,y)]dxdy+λ2μ0(x,y)-C221-H[ϕ(x,y)]dxdy+μδ[ϕ(x,y)]ϕ(x,y)dxdy+vH[ϕ(x,y)]dxdy,(2)

式中:μ0(x,y)为零水平集函数;Ñϕ(x,y)为演化曲线斜率;H(z)海氏(Heaviside)函数和δ(z)狄拉克(Dirac)函数分别为H(z)= 1,ifz00,ifz<0, δ(z)=dH(z)/dz

根据变分原理,使用欧拉-拉格朗日(Euler-Lagrange)方法推导出水平集函数的演化方程

ϕt=δ(ϕ){μk-v-λ1[μ0(x,y)-C1]2+λ2[μ0(x,y)-C2]2}ϕ(0,x,y)=ϕ0(x,y)C1=I(x,y)H[ϕ(x,y)]dxdyH[ϕ(x,y)]dxdyC2=I(x,y){1-H[ϕ(x,y)]}dxdy1-H[ϕ(x,y)]}dxdy,(3)

式中∂ϕ/t为不同时刻t的演化曲线的水平函数偏微分方程;k为演化曲线的曲率。通过迭代水平集函数的演化方程使得CV模型的能量函数值最小,得到分割结果。

2.2 基于深度学习的形状模型

2.2.1 基于深度学习的形状模型结构

为了在CV分割模型中引入有效的目标形状先验知识,采用深度信念网络(DBN)[16]、深度玻尔兹曼机(DBM)[17]和卷积受限玻尔兹曼机(CRBM)[18]3种深度学习模型对目标形状特征进行建模。3种模型的结构如图1所示。

3层DBN模型的结构如图1(a)所示,模型包含1个输入层v和2个隐层h1h2,只有顶部的2层为全连接,其他层之间均为单向连接。{w,a,b,c}表示模型参数,其中w1表示连接输入层节点v和隐层h1中节点j的连接权重,w2表示连接隐层h1中节点j和隐层h2中节点k的连接权重。abc分别表示vh1h2的偏置。3层DBM模型的结构如图1(b)所示,模型也是包含1个输入层v和2个隐层h1h2。与DBN不同的是,DBM层内无连接,层间全连接。由于模型的结构特点,将自下而上的信息和自顶向下的信息反馈结合起来,得到更多的特征信息。模型参数同DBN一致。

图1(c)所示,CRBM是包含1个输入层v和1个隐层h的2层模型。由于CRBM模型中引入了卷积操作,相较于DBN和DBM,CRBM的输入是二维的,卷积操作增加了局部感受野和权值共享,使得模型能够更好地获取输入数据的二维空间结构信息和图像的局部信息。{wm,a,bm}表示模型参数,其中m=k,表示有k个卷积核,wm表示与隐层相连的第m个卷积核的值,a表示输入层v的偏置,bm表示隐层hm个特征图的偏置。

图 1. 不同模型的结构。(a) DBN结构图;(b) DBM结构图;(c) CRBM结构图

Fig. 1. Structure of different models. (a) Structure of DBN; (b) structure of DBM; (c) structure of CRBM

下载图片 查看所有图片

2.2.2 基于深度学习的形状模型训练

模型结构确定后,利用训练样本训练模型,确定模型的参数。训练模型时以二值图像作为输入,0表示背景,1表示目标。DBN和DBM模型采用贪心逐层训练算法[19],该算法分为2个阶段,预训练阶段和微调阶段。预训练阶段模型通过自下逐上的顺序对模型逐层进行训练;微调阶段使用梯度优化算法对模型的全部参数进行全局调优,最终确定模型参数。

CRBM采用对比散度(CD)算法[20]训练模型,训练模型时将样本作为输入层的初始化状态,确定隐层单元的状态,即由P(h|v)求得h。再由得到的隐层单元状态,重构输入层单元的状态,即由P(v|h)求得v。不断重复,得到确定的隐层和重构输入层的单元状态,最终确定CRBM模型参数值。

2.2.3 基于深度学习的形状模型生成形状

确定模型参数后,采用多步Gibbs采样[21]方法在模型中生成形状。DBN模型的采样过程如图2(a)所示,为了生成近似服从DBN模型定义的样本,用二值图像初始化模型输入层的单元状态,从最顶端执行多步Gibbs采样得到其下一层隐层单元的状态,再通过Sigmoid置信网络依次随机激活每层的单元,从而得到输入层单元的状态(即生成样本)。如图2(b)所示,DBM也用二值图像初始化模型输入层的单元状态,执行多步Gibbs采样得到输入层和隐层的单元状态。从DBN、DBM采样过程可以看出,在DBM模型中隐层h1条件不仅依赖于输入层v也依赖于隐层h2两个方向的信息,因而模型生成的样本比较确定。

图2(c)所示,在CRBM模型中也用二值图像初始化模型输入层的单元状态,执行Gibbs采样得到输入层和隐层的单元状态。相较于DBN和DBM模型的一维输入,CRBM模型的输入是二维的,模型能够更好地获取样本的二维空间结构信息和图像的局部信息,在生成可视层单元时会更加全面,生成的形状数据也会更加确定。

图 2. 不同模型采样过程。(a) DBN模型;(b) DBM模型;(c) CRBM模型

Fig. 2. Sampling processes of different models. (a) DBN model; (b) DBM model; (c) CRBM model

下载图片 查看所有图片

2.3 形状约束项

受到水平集图像分割中施加形状先验信息的启发[22],采用深度学习模型CRBM获取形状,并将形状信息表示为符号函数(特殊的水平集函数)[23]引入CV模型中。在图像平面Ω中,用水平集距离函数ϕ表示演化曲线,ϕS表示目标形状的符号距离函数,通过度量ϕϕS的相似性来定义形状约束能量项

ES=H(ϕ)-H(ϕS)2dxdy(4)

图 3. 距离变换示例。(a)生成形状;(b)轮廓;(c)符号距离函数

Fig. 3. Examples of distance transformation. (a) Generated shapes; (b) contour maps; (c) sign distance functions

下载图片 查看所有图片

图3是数据集中airplane001和building001图像符号距离变换的1个示例,图3(a)表示CRBM模型生成形状的结果,图3(b)是将二值生成形状图进行数学形态处理得到的目标轮廓,图3(c)表示形状的符号距离函数。

2.4 CRBM-CV模型

CRBM-CV模型对传统的CV模型能量函数作了以下改进。1)由于面积约束项对图像分割精度影响不显著,为减少计算量,该模型舍弃了面积项。2)通过卷积受限玻尔兹曼机生成形状,以此为先验信息对演化曲线加以约束,并定义形状约束能量项ES。3)结合CV模型的能量项ECV和形状约束能量项ES得到新的能量泛函E,定义为

E=ECV+λES=ECV(C1,C2,ϕ)+λES(ϕ,ϕS)=λ1μ0(x,y)-C12H[ϕ(x,y)]dxdy+λ2μ0(x,y)-C22{1-H[ϕ(x,y)]}dxdy+μδ[ϕ(x,y)]ϕ(x,y)dxdy+λH(ϕ)-H(ϕS)2dxdy,(5)

式中:λ为形状先验项系数。使用欧拉-拉格朗日方法推导出水平集函数的演化方程,即

ϕt=δ(ϕ){μk-λ1[μ0(x,y)-C1]2-λ2(I-C2)2+2[H(ϕ)-H(ϕS)]}(6)

最后,通过迭代水平函数的演化方程使得CV模型的能量函数值最小,得到分割结果。

2.5 CRBM-CV模型算法步骤

为了更好地分割图像,采用生成式模型CRBM对目标形状建模及生成目标形状,并以此为先验信息结合CV模型对演化曲线加以约束,指导图像分割。采用CRBM-CV模型分割图像的算法步骤如下。

1)给定待分割灰度图像I,建立CV模型所对应的能量函数ECV(ϕ),将其最小化,得到粗分割结果f1

2)将一批已归一化至32 pixel×32 pixel大小的目标二值标记图像(Ground truth)作为训练集,送入CRBM模型中进行训练。

3)将f1归一化至32 pixel×32 pixel大小,并将其作为CRBM模型的输入,经过采样得到形状S,后将S扩大至待分割图像I的大小。

4)由(5)式计算得到形状约束项ES(ϕ,ϕS),并结合步骤1)得到的ECV(ϕ),得到新的CRBM-CV模型能量函数E。通过迭代水平集函数的演化方程使得模型的能量函数值最小,得到最终的分割结果f

3 数据集、实验参数配置和评价指标

3.1 数据集

3.1.1 Satellite-2000数据集

Satellite-2000数据集中包含 Airplane、Dense Residential、Harbor、Intersection、Overpass和Parking Lot 6类卫星图像目标,图像大小为256 pixel×256 pixel。选取Airplane类中1000幅图像作为实验对象,数据集中的目标是飞机,其形态各异,飞机朝向不同的方向。手动制作二值标记图像,最终得到RGB图像、二值标记图像各1000幅,其中训练集图像800幅,测试集图像200幅。数据集中的部分图像如图4所示。

图 4. Satellite-2000数据集部分实验图像

Fig. 4. Partial experiment images on Satellite-2000 dataset

下载图片 查看所有图片

3.1.2 Vaihigen数据集

Vaihigen数据集包含RGB图像、DSM图像和Ground-truth图像3类,图像尺寸大小不一,空间分辨率为9 cm。数据集中的目标是建筑物,建筑物的分布较为复杂且易受树木、汽车、马路等背景的干扰。在该数据集中仅有16幅图像包含二值标记图像,选择其中12幅图像作为模型训练集,其余4幅图像作为模型测试集。该数据集对训练深度学习生成模型来说图像尺寸过大,样本数量过少,因此采用3阶段方法扩充数据集。第1阶段,将所有图像按照不同比例放大、缩小至2048 pixel×2048 pixel、1536 pixel×1536 pixel。第2阶段将第1阶段中所有归一化的图像按顺时针旋转90°、180°和270°。第3阶段将所有图像按照178、256的步长进行裁剪,裁剪后每幅图像尺寸为256 pixel×256 pixel,最终得到RGB图像。二值标记图像共1971幅,其中训练集图像1700幅,测试集图像271幅。数据集中的部分图像如图5所示。

图 5. Vaihigen数据集部分实验图像

Fig. 5. Partial experiment images on Vaihigen dataset

下载图片 查看所有图片

3.2 实验参数配置

电脑配置为Intel(R)Xeon(R) CPU E5-2690,2.6 GHz,256 GB RAM,实验环境为Win10系统下安装的MATLAB R2016a。CV模型分割实验使用数据集中的灰度图像。设定初始演化曲线通过位于图像中心的矩形来表示,步长Δt=0.1,λ1λ2取值均为1,迭代次数为500。

参考文献[ 24-25]并结合实际设置模型参数。对于Satellite-2000数据集,DBN模型的参数设置如下:输入层、第1个隐层和第2个隐层单元个数分别为1024、500和500,学习率为0.01,迭代次数为2000。DBM模型的参数设置如下:输入层、第1个隐层和第2个隐层单元个数分别为1024、500和500,学习率为0.01,迭代次数为2000。CRBM模型的参数设置如下:卷积核的大小为3 pixel×3 pixel,卷积核个数为20,学习率为0.01,迭代次数为2000。对于Vaihigen数据集,DBN模型的参数设置如下:输入层、第1个隐层和第2个隐层单元个数分别为1024、1500和500,学习率为0.005,迭代次数为3000。DBM模型的参数设置如下:输入层、第1个隐层和第2个隐层单元个数分别为1024、1500和500,学习率为0.005,迭代次数为3000。CRBM模型的参数设置如下:卷积核的大小为3 pixel×3 pixel,卷积核个数为20,学习率为0.005,迭代次数为3000。

3.3 评价指标

采用全局精度(Global acc)和交并比(IOU) 2个参数定量评价分割结果,其定义如下:

PGlobalacc=TP+TNTP+TN+FN+FP,(7)PIOU=TPTP+FN+FP,(8)

式中:TP为目标正确分类的像素数目;TN为背景正确分类的像素数目;FN为目标分类为背景的像素数目;FP为背景分类为目标的像素数目。

4 实验结果和分析

4.1 基于深度学习的生成形状实验

为了更好地比较DBN、DBM和CRBM 3种模型形状建模的能力,通过度量生成形状图像与原始形状图像之间的欧氏距离差异,定量分析3个模型形状建模的差异。欧氏距离值越小表明建模效果越好,建模得到的形状越接近原始形状,3个模型的训练时间及平均欧氏距离度量值见表1。可以看出,在Satellite-2000数据集和Vaihigen数据集中,相较于DBN、DBM模型,不论是训练集还是测试集,CRBM模型的训练时间最短,且生成形状的平均欧氏距离最小。

Satellite-2000数据集和Vaihigen数据集的训练集和测试集中的4组图像生成形状结果如图6所示。其中图6(a)、6(e)表示二值标记图像,图6(b)、6(f)表示DBN模型生成形状结果,图6(c)、6(g)表示DBM模型生成形状结果,图6(d)、6(h)表示CRBM模型生成形状结果。模型生成形状的时间都在0.25 s左右,相差不大。

表 1. 不同模型的训练时间及生成形状结果的平均欧氏距离度量值

Table 1. Training time of different models and average Euclidean distance measure of shape results

ModelSatellite-2000Vaihigen
Training time /sEuclidean distanceEuclidean distance
Training setTest setTraining setTest set
DBN4612.575.80946.32035471.346.78547.3183
DBM4954.444.62714.87246854.435.62716.1724
CRBM1237.093.80424.39122735.094.80425.3912

查看所有表

图 6. 不同模型的生成形状结果图。(a)(e) 二值标记图像;(b)(f) DBN模型生成形状结果;(c)(g) DBM模型生成形状结果;(d)(h) CRBM模型生成形状结果

Fig. 6. Shape results from different models. (a)(e) Ground-truth images; (b)(f) shapes from DBN model; (c)(g) shapes from DBM model; (d)(h) shapes from CRBM model

下载图片 查看所有图片

图6可以看出,不论是训练集还是测试集,就生成形状能力而言,CRBM模型的结果较好,能很好地保留目标信息,重构得到的形状与输入更为相近。在Satellite-2000数据集中可以看到,当飞机目标较小时,无论是训练集还是测试集,CRBM模型的生成形状效果最好,符合实际,如第5、7幅所示。在Vaihigen数据集中,当图像目标较小且数目较多时,DBN和DBM模型生成形状的结果较差,出现丢失细节和边缘裂缝的情况,如第4、5、10幅所示。与其他模型相比,CRBM模型生成目标仍能较好地接近于实际形状。这是由于不同模型的结构带来的影响:1)在输入方面,DBN、DBM这2个模型将输入表示为一维向量学习特征,而CRBM模型的输入是二维的,这使得模型能够更好地获取输入数据的二维空间结构特征和图像的局部特征;2)在条件概率的表达方面,DBN模型最顶端的2个隐层是全连接的,其余各层之间是单向连接构成有向的置信网络,而DBM模型层间所有单元全连接,层内单元无连接。这导致DBN模型隐层单元的状态只受其相邻上一隐层的影响,使其生成的目标形状边缘丢失细节,出现裂缝。DBM模型隐层单元的状态会受到相邻两层的影响,使其生成的目标形状丢失细节的情况大大改善。CRBM模型中的卷积操作增加了局部感受野和权值共享,使得模型能够更好地提取样本的局部信息,从而使生成形状的结果最好。

4.2 结合不同形状先验的CV分割模型

4.2.1 Satellite-2000数据集

结合不同形状先验的CV模型的分割结果如图7所示。其中图7(a)表示原始图像,图7(b)表示CV模型分割结果,图7(c)表示结合DBN的CV模型分割结果,图7(d)表示结合DBM的CV模型分割结果,图7(e)表示结合CRBM的CV模型分割结果,图7(f)表示二值标记图像。

图 7. 不同模型的分割结果。(a)原图像;(b) CV模型分割结果;(c) DBN-CV模型分割结果;(d) DBM-CV模型分割结果;(e) CRBM-CV模型分割结果;(f)二值标记图像

Fig. 7. Segmentation results of different models. (a) RGB images; (b) CV model segmentation results; (c) DBN-CV model segmentation results; (d) DBM-CV model segmentation results; (e) CRBM-CV model segmentation results; (f) ground-truth images

下载图片 查看所有图片

对应于图7的定量评价结果如图8所示。由图可知,图7中第1、2、6、9幅原始图像是目标飞机与地表比较相近的情况。第3幅原始图像是目标飞机的一部分机翼受遮挡的情况。第8幅原始图像是目标飞机易受阴影、跑道及车辆影响的情况。第4、5、7、10幅原始图像是目标飞机易受机舱和跑道上车辆影响的情况。从图8可以看到,CRBM-CV模型得到的分割结果明显好于CV模型、DBN-CV模型及DBM-CV模型。全局精度和交并比分别衡量了分割的完整性和正确性,其值越高越好。CRBM-CV模型在每一幅图上的度量指标均能达到最高,分割结果更符合实际,效果更好。可见用CRBM模型生成形状并结合CV模型的CRBM-CV模型具有明显的优势。

为了充分验证CRBM-CV模型在数据集Satellite-2000上的分割性能,测试数据集中所有的图像。如图9测试结果显示,CRBM-CV模型在数据集上的平均全局精度和平均交并比性能最优。具体而言,模型在训练集上的平均全局精度和平均交并比比传统CV模型提高了14.97%和14.98%,在测试集上的平均全局精度和平均交并比分别提高了14.37%和14.11%。这充分说明CRBM-CV模型能够在一定程度上应对原始图像中目标飞机的形态多样性及遮挡带来的影响,提高分割的准确性。

图 8. 不同模型的分割评价结果。(a)全局精度;(b)交并比

Fig. 8. Segmentation evaluation results of different models. (a) Global acc values; (b) IOU values

下载图片 查看所有图片

图 9. 不同模型在Satellite-2000数据集的平均全局精度和平均交并比。(a)平均全局精度;(b)平均交并比

Fig. 9. Average Global acc and average IOU values of different models on the Satellite-2000 dataset. (a) Average Global acc; (b) average IOU

下载图片 查看所有图片

图 10. 不同模型的分割结果。(a)原图像; (b) CV分割结果; (c) DBN-CV分割结果; (d) DBM-CV分割结果; (e) CRBM-CV分割结果; (f)二值标记图

Fig. 10. Segmentation results of different models. (a) RGB images; (b) CV model segmentation results; (c) DBN-CV model segmentation results; (d) DBM-CV model segmentation results; (e) CRBM-CV model segmentation results; (f) ground-truth images

下载图片 查看所有图片

4.2.2 Vaihigen数据集

结合不同形状先验的CV模型的分割结果如图10所示。其中图10(a)表示原始图像,图10(b)表示CV模型分割结果,图10(c)表示DBN-CV模型分割结果,图10(d)表示DBM-CV模型分割结果,图10(e)表示CRBM-CV模型分割结果,图10(f)表示二值标记图像。

图11所示为图10对应的定量评价结果。从图中可见,各图像目标建筑物尺寸不一、形态各异,且都存在一定的阴影遮挡。例如第5、7幅原始图像中目标建筑物的分布较为密集且周围都存在阴影影响。与CV模型的分割结果相比,DBM-CV模型、DBN-CV模型及CRBM-CV模型的分割效果更佳,可见施加目标形状信息可有效提升图像目标分割性能,但与标记图相比仍有较大的差距,丢失了大量的细节信息。这是由于建模目标形状及生成目标时,模型的输入尺寸为32 pixel×32 pixel,在图像缩小过程中丢失细节信息,对于多尺度且分布较为密集的目标建筑物,丢失细节的情况更为严重,从而使得分割效果较差。

为了充分验证CRBM-CV模型在数据集Vaihigen上的分割性能,测试数据集中所有的图像。如图12测试结果显示,CRBM-CV模型在数据集上的平均全局精度和平均交并比性能最优。具体而言,模型在训练集上的平均全局精度和平均交并比比传统CV模型提高了12.33%和12.30%,在测试集上的平均全局精度和平均交并比分别提高了11.94%和11.92%。这充分说明该模型能够在一定程度上应对原图中目标建筑物的形态多样性及阴影带来的影响,提高分割的准确性。

4.3 模型推广性验证

为了更好地验证CRBM-CV模型对复杂遥感图像的目标分割性能,从网络上采集一些遥感图像,送入模型进行测试,结果如图13所示。图13结果证明,即使测试图像与训练集图像在背景、尺度、位置、数目上均有差别,该模型依然能够得到较好的分割结果,体现了该模型在遥感图像目标分割方面具有较好的推广潜力。

图 11. 不同模型的分割评价结果。(a)全局精度;(b)交并比

Fig. 11. Segmentation evaluation results of different models. (a) Global acc values; (b) IOU values

下载图片 查看所有图片

图 12. 不同模型在Vaihigen数据集的平均全局精度和平均交并比。(a)平均全局精度;(b)平均交并比

Fig. 12. Average Global acc and average IOU values of different models on the Vaihigen dataset. (a) Average Global acc values ; (b) average IOU values

下载图片 查看所有图片

图 13. 模型对其他图像的分割结果。(a)(d)原始图像;(b)(e) CV模型分割结果;(c)(f) CRBM-CV模型分割结果

Fig. 13. Segmentation results on other images. (a)(d) RGB images; (b)(e) CV model segmentation results; (c)(f) CRBM-CV model segmentation results

下载图片 查看所有图片

5 结论

为了解决传统CV模型分割图像时难以区分具有相似特征的目标和背景,且易受遮挡和阴影等影响的问题,提出了结合深度学习形状先验的CRBM-CV图像分割模型。分割实验结果表明,由于利用了目标的全局形状信息,该模型分割的目标更为完整,错分及漏分较少。即使测试图像与训练集图像在背景、目标大小、位置、数目上均有差别,该模型依然能够得到较好的分割结果,体现了该模型在遥感影像分割方面具有较好的推广价值。

参考文献

[1] 阙昊懿, 黄辉先, 徐建闽. 基于双阈值SSDA模板匹配的遥感图像道路边缘检测研究[J]. 国土资源遥感, 2014, 26(4): 29-33.

    Que H Y, Huang H X, Xu J M. Road edge detection based on dual-threshold SSDA template matching[J]. Remote Sensing for Land & Resources, 2014, 26(4): 29-33.

[2] 徐秋晔, 李玉, 林文杰, 等. 基于信息聚类的遥感图像分割[J]. 中国矿业大学学报, 2017, 46(1): 209-214.

    Xu Q Y, Li Y, Lin W J, et al. Remote sensing image segmentation based on information clustering[J]. Journal of China University of Mining & Technology, 2017, 46(1): 209-214.

[3] 李建飞, 文志强, 胡永祥, 等. 基于改进区域生长的遥感影像道路提取[J]. 计算机工程与应用, 2016, 52(2): 209-213, 238.

    Li J F, Wen Z Q, Hu Y X, et al. Road extraction from remote sensing images based on improved regional growth[J]. Computer Engineering and Applications, 2016, 52(2): 209-213, 238.

[4] 郎文辉, 沈杨, 昂安, 等. 带有区域分裂自适应细化过程的SAR海冰图像分割[J]. 遥感学报, 2015, 19(5): 864-872.

    Lang W H, Shen Y, Ang A, et al. Segmentation of SAR sea ice image based on region splitting and adaptive refinement process[J]. Journal of Remote Sensing, 2015, 19(5): 864-872.

[5] 郭靖, 江洁, 曹世翔. 水平集分层分割遥感图像中的建筑物[J]. 红外与激光工程, 2014, 43(4): 1332-1337.

    Guo J, Jiang J, Cao S X. Automatic building segmentation from remote sensing images using multi-layer level set framework[J]. Infrared and Laser Engineering, 2014, 43(4): 1332-1337.

[6] 石桂名, 索继东, 黄超, 等. 基于改进Canny算子的遥感图像边缘检测[J]. 大连交通大学学报, 2015, 36(3): 87-90, 108.

    Shi G M, Suo J D, Huang C, et al. Remote sensing image edge-detection based on improved Canny operator[J]. Journal of Dalian Jiaotong University, 2015, 36(3): 87-90, 108.

[7] 谭媛, 黄辉先, 徐建闽, 等. 基于改进Sobel算子的遥感图像道路边缘检测方法[J]. 国土资源遥感, 2016, 28(3): 7-11.

    Tan Y, Huang H X, Xu J M, et al. Road edge detection from remote sensing image based on improved Sobel operator[J]. Remote Sensing for Land & Resources, 2016, 28(3): 7-11.

[8] 戴进墩, 刘亚东, 毛先胤, 等. 基于NSCT域FAST角点检测的电气设备红外与可见光图像配准[J]. 电测与仪表, 2019, 56(1): 108-114.

    Dai J D, Liu Y D, Mao X Y, et al. Registration based on NSCT-domain FAST corner detection for infrared and visible images of electrical equipment[J]. Electrical Measurement & Instrumentation, 2019, 56(1): 108-114.

[9] 姚红兵, 卞锦文, 丛嘉伟, 等. 基于局部稀疏形状表示的医学图像分割模型[J]. 激光与光电子学进展, 2018, 55(5): 051011.

    Yao H B, Bian J W, Cong J W, et al. Medical image segmentation model based on local sparse shape representation[J]. Laser & Optoelectronics Progress, 2018, 55(5): 051011.

[10] Wang B, Gao X B, Li J, et al. A level set method with shape priors by using locality preserving projections[J]. Neurocomputing, 2015, 170: 188-200.

[11] AmbergB, VetterT. Optimal landmark detection using shape models and branch and bound[C]∥2011 International Conference on Computer Vision, November 6-13, 2011, Barcelona, Spain. New York: IEEE, 2011: 455- 462.

[12] 谭光鸿, 侯进, 韩雁鹏, 等. 基于卷积神经网络的低参数量实时图像分割算法[J]. 激光与光电子学进展, 2019, 56(9): 091003.

    Tan G H, Hou J, Han Y P, et al. Low-parameter real-time image segmentation algorithm based on convolutional neural network[J]. Laser & Optoelectronics Progress, 2019, 56(9): 091003.

[13] 裴亮, 刘阳, 谭海, 等. 基于改进的全卷积神经网络的资源三号遥感影像云检测[J]. 激光与光电子学进展, 2019, 56(5): 052801.

    Pei L, Liu Y, Tan H, et al. Cloud detection of ZY-3 satellite remote sensing images based on improved fully convolutional neural networks[J]. Laser & Optoelectronics Progress, 2019, 56(5): 052801.

[14] 周明非, 汪西莉, 王磊, 等. 高分辨卫星图像卷积神经网络分类模型[J]. 中国图象图形学报, 2017, 22(7): 996-1007.

    Zhou M F, Wang X L, Wang L, et al. Convolutional neural network models for high spatial resolution satellite imagery classification[J]. Journal of Image and Graphics, 2017, 22(7): 996-1007.

[15] GerkeM. Use of the stair vision library within the ISPRS 2D semantic labeling benchmark (Vaihingen)[R]. Netherlands: University of Twente, 2014.

[16] Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural Computation, 2006, 18(7): 1527-1554.

[17] SalakhutdinovR, Hinton GE. Deep Boltzmann machines[C]∥Proceedings of the 12th International Conference on Artificial Intelligence and Statistics, April 16-18, 2009, Clearwater Beach, Florida, USA.USA: MIT Press, 2009: 448- 455.

[18] NorouziM, RanjbarM, MoriG. Stacks of convolutional Restricted Boltzmann Machines for shift-invariant feature learning[C]∥2009 IEEE Conference on Computer Vision and Pattern Recognition, June 20-25, 2009, Miami, FL, USA. New York: IEEE, 2009: 2735- 2742.

[19] Salakhutdinov R. Learning deep generative models[J]. Annual Review of Statistics and Its Application, 2015, 2(1): 361-385.

[20] Hinton G E. Training products of experts by minimizing contrastive divergence[J]. Neural Computation, 2002, 14(8): 1771-1800.

[21] Walsh B. Markov chain Monte Carlo and Gibbssampling[J/OL]. ( 2004-01-01)[2019-07-28]. https:∥www.researchgate.net/publication/259088117_Markov_Chain_Monte_Carlo_and_Gibbs_Sampling.

[22] Li C M, Xu C Y, Gui C F, et al. Distance regularized level set evolution and its application to image segmentation[J]. IEEE Transactions on Image Processing, 2010, 19(12): 3243-3254.

[23] Chan T F, Sandberg B Y, Vese L A. Active contours without edges for vector-valued images[J]. Journal of Visual Communication and Image Representation, 2000, 11(2): 130-141.

[24] LiX, ZhaoF, GuoY. Conditional restricted Boltzmann machines for multi-label learning with incomplete labels[C]∥Proceedings of the 18th International Conference on Artificial Intelligence and Statistics (AISTATS)2015, May 9-12, 2015, San Diego, CA, USA.USA: MIT Press, 2015: 635- 643.

[25] 张娟, 汪西莉, 杨建功. 基于深度学习的形状建模方法[J]. 计算机学报, 2018, 41(1): 132-144.

    Zhang J, Wang X L, Yang J G. Shape modeling method based on deep learning[J]. Chinese Journal of Computers, 2018, 41(1): 132-144.

李晓慧, 汪西莉. 结合卷积受限玻尔兹曼机的CV图像分割模型[J]. 激光与光电子学进展, 2020, 57(4): 041018. Xiaohui Li, Xili Wang. CV Image Segmentation Model Combining Convolutional Restricted Boltzmann Machine[J]. Laser & Optoelectronics Progress, 2020, 57(4): 041018.

引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!