基于残差通道注意力和多级特征融合的图像超分辨率重建

席志红; 袁昆鹏

doi:doi:10.3788/LOP57.041504

激光与光电子学进展, 2020, 57 (4): 041504, 网络出版: 2020-02-20

基于残差通道注意力和多级特征融合的图像超分辨率重建下载： 1231次

Super-Resolution Image Reconstruction Based on Residual Channel Attention and Multilevel Feature Fusion

论文大纲

席志红 ^*袁昆鹏

作者单位

哈尔滨工程大学信息与通信工程学院, 黑龙江哈尔滨 150001

AI 词云图 AI一句话精读 AI短摘要

注：本部分内容由 AI 自动生成，请您知悉。

摘要

针对模型VDSR(very deep super resolution)中存在的忽略特征通道间的相互联系,不能充分利用各层特征,以及参数量过大,计算复杂度过高等问题,本文提出了一种基于残差通道注意力和多级特征融合的图像超分辨率重建网络结构,通过引入残差通道注意力,自适应校正信道的特征响应,提高了网络的表征能力。网络整体使用递归结构,在每个递归块内实现参数共享,减少了参数数量;多级特征融合的方式可以充分提取图像特征;用分组卷积代替传统卷积,进一步减少了参数数量,并降低了计算复杂度。所提算法在保证图像重建质量的同时,减少了模型的参数量并降低了计算复杂度,在图片放大4倍时,参数量和计算复杂度分别约为VDSR的0.33和0.02。

Abstract

The VDSR (very deep super resolution) model has some problems such as neglecting the interconnection between feature channels, inability to fully utilize the features of each layer, excessive parameter quantity, and computational complexity. To solve these problems, this paper proposes a network structure based on a residual channel attention mechanism and multilevel feature fusion. By introducing residual channel attention, the channel's characteristic response is adaptively corrected to improve network representation ability. A recursive structure is adopted in the network and parameter sharing is implemented in each recursive block, which reduces the number of parameters. The proposed multilevel feature fusion method can fully extract image features; traditional convolution is replaced by group convolution to further reduce the number of parameters and computational complexity. The algorithm reduces the number of parameters and complexity of the model while ensuring the quality of image reconstruction. When an image is enlarged four times, parameter quantity and computational complexity are approximately 0.33 and 0.02 times, respectively, those of VDSR.

1 引言

随着数字化时代的来临,高清移动设备得到迅速普及,人们对图像清晰度的要求越来越高。通过硬件设备实现图像分辨率的提高,面临着难度大、成本高、实用性不强等问题。图像的超分辨率重建技术就是基于一幅或者多幅低分辨率图像采用软件重建出一幅高分辨率图像^[1-3],一直是计算机视觉领域的研究热点,并已被广泛应用到医学影像、**侦查、视频监控等领域。本文主要研究单幅图像的超分辨率重建(SISR)。超分辨率重建技术可以分为三类:基于插值^[4]的方法;基于重建^[5]的方法;基于学习^[6-7]的方法。近几年,随着人工智能的迅速发展,基于卷积神经网络(CNN)的图像超分辨率由于端对端学习的效果好,正逐步成为主流方法。Dong等^[8]率先提出了超分辨率卷积神经网络(SRCNN),仅使用三层卷积就可实现重建,但由于其速度慢,网络层数不够深,不能充分提取图像的特征。之后,Dong等^[8]对SRCNN进行改进,提出了快速超分辨率卷积神经网络(FSRCNN)^[9],该网络不需要将原始低分辨率图像进行插值放大,减小了模型的复杂度,并使用PReLU激活函数代替ReLU,最后使用反卷积进行图像的放大。Shi等^[10]提出了亚像素卷积神经网络(ESPCN),用高效的亚像素卷积实现图像的放大,使速度得到很大提升。Kim等^[11]提出了VDSR(Very Deep Super Resolution),将网络层数加深到20层,使用3×3的卷积核,借鉴ResNet^[12]在网络中加入残差,加速网络的收敛。之后,Kim等^[13]又提出了深层递归卷积网络(DRCN),该网络中一共使用16个递归结构;同时,为了减轻训练难度,Kim等引入了递归监督和跳跃连接。

对于浅层的网络模型SRCNN^[8]、FSRCNN^[9]、ESPCN^[10],由于其卷积层数比较少,不能得到很好的重建效果;而对于VDSR^[11],由于其使用残差网络,在精度和速度上相对浅层网络都有很大提升。但是,上述网络模型仍然存在一些问题:首先,这些模型未考虑特征通道之间不同的重要性,缺乏对不同类型信息的判别能力,且平等地处理不同的信息,导致网络的表现能力受到限制。SENet(Squeeze-and-Exciation Networks)^[14]证明,通过显式的建模特征通道的相互联系,自适应地校正信道的特征响应,对重要性不同的信息区别处理,可以提高网络的表征能力。其次,神经网络提取的特征分为原始特征、浅层特征和深层特征,上述方法未能充分利用层级特征。最后,在加深网络层数的过程中,也会带来模型参数量和计算复杂度过大等问题。为了解决上述问题,本文提出了一种基于残差通道注意力和多级特征融合的图像超分辨率重建的网络模型。首先通过低层特征提取模块来提取图像的低层特征,然后在递归块内使用残差通道注意力和多级特征融合的方式,充分利用通道间的联系和层级之间的图像特征信息,最后将提取到的多级特征进行融合,使用亚像素卷积实现图像的重建。

本文算法的优点:1)网络整体采用递归结构,由于递归块内参数共享,在增加深度的同时可以控制模型的参数数量不增加;2)网络中使用残差通道注意力,对重要性不同的特征进行区别处理,可以提高网络的表征能力;3)使用多级特征融合的方式提取图像特征,充分利用了层级特征,并且引入分组卷积代替传统卷积,进一步减少了参数数量。

2 相关工作

2.1 ESPCN

Shi等^[10]提出了一种高效的亚像素卷积神经网络ESPCN,如图1所示。该网络不需要通过双三次差值就可将原始图像放大到目标尺寸,使用激活函数Tanh代替ReLU,通过亚像素卷积层实现图像的放大,降低了计算复杂度,缩短了运行时间。

图 1. ESPCN网络结构图

Fig. 1. Structure of ESPCN network

下载图片查看所有图片

2.2 VDSR

VDSR^[11]借鉴了ResNet^[12]的思想,使用了残差学习,在防止梯度消失的同时加快了网络的收敛速度。该网络的结构如图2所示:网络层数达到了20层,增大了感受野,图像块大小由SRCNN^[8]的13×13变为41×41,每层卷积使用了更小的卷积核3×3。为了充分利用图像的边缘信息,在每次卷积前进行边界补零,使图像的大小保持不变。

图 2. VDSR网络结构图

Fig. 2. Structure of VDSR network

下载图片查看所有图片

3 本文算法

如图3所示,本文算法的网络模型分为三部分——底层特征提取模块(FEBlock)、递归单元模块(RUB)、重建模块(RB)。

图 3. 本文算法的网络结构图

Fig. 3. Network structure of proposed algorithm

下载图片查看所有图片

3.1 低层特征提取模块

首先借鉴牛津大学VGG小组提出的基于卷积神经网络的视觉识别算法采用的VGG-ILSVRC- 16-layers模型^[15],使用3×3卷积核进行低层特征的提取。卷积层可以表示为

\begin{matrix} F_{1} (Y) = f (W_{1} \times I_{LR} + b_{1}), (1) \end{matrix}

式中:I_LR表示输入的原始的低分辨率图像;W₁表示一组数量为n₁、大小为k₁×k₁×c的滤波器;b₁为偏移项;f(·)表示激活函数,本文采用PReLU作为激活函数;F₁(Y)表示通过特征提取模块得到的n₁张特征图。这里,k₁取为3,n₁取为80。此外,由于人眼对图像的亮度信息最敏感,所以c取为1。为了保持特征图的大小不变,在每次卷积前都对边界都进行补零填充,以充分利用图像的边界信息。

3.2 递归单元模块

图4(a)所示为递归单元模块的组成。为了更好地利用通道间的联系以及层级之间的信息,在递归模块中通过两种方式提取图像特征,包含残差通道注意力和多级特征融合,将残差通道注意力与多级特征融合进行求和,并将就和结果作为每一个递归单元模块的输出。

文献[ 14]表明,在神经网络中,不同通道的卷积核所提取到的特征图是不同的,这些特征图在超分辨率重建中恢复高频细节信息的重要程度也不一样。通过使用残差通道注意力,可以直接建模通道之间的关系,强调特征通道中有用的信息,从而可以更好地恢复图像的高频信息。图4(b)所示为残差通道注意力,分为压缩、激励、缩放、求和4个步骤。在一般的卷积神经网络中,每个通道的滤波器都是对局部感受野进行操作,在一些层数较少的网络中,感受野的尺寸较小,无法利用其他上下文的信息。使用压缩对输入的H×W×C的特征图进行全局平均池化,将其变成一个1×1×C的实数列,就可使其获得全局感受野。在激励中,分别经过两个全连接层对特征图进行降维和升维操作,然后将特征图缩放到0到1之间,重新对其进行校准,即对应图4(a)中不同颜色通道的重要程度不同,将校准后的特征图与原来每个通道的特征图的值对应相乘,就可以达到特征选择的目的;最后将选择后的特征图与原始输入的特征图进行求和,使其在保持原始特征的前提下,强化学习更重要的有用信息。具体公式如下

\begin{matrix} \begin{matrix} S_{c} = σ {w_{2} ε {w_{1} [f_{ga} (F_{n})]}}, (2) \\ r_{n} = S_{c} \times F_{n} + F_{n}, (3) \end{matrix} \end{matrix}

式中: S_c为校准后的特征图;n=(1,2,…,4)代表残差通道注意力模块的数量;F_n为卷积后的输出;f_ga为全局平均池化;w₁、w₂为两个全连接层的权重;σ和ε分别代表sigmoid和PReLU激活函数;r_n为残差注意力的输出,为简单起见此处省略了偏移项。

图 4. 递归单元模块。(a)递归单元模块的组成;(b)残差通道注意力;(c)多级特征融合

Fig. 4. Recursive unit module. (a) Recursive unit module composition; (b) residual channel attention; (c) multilevel feature fusion

下载图片查看所有图片

VDSR^[11]将每层的特征映射无差别地发送给下面的卷积层,为了充分利用分层的特征并加强卷积层之间的信息流,可使用多级特征融合的方式。图4(c)为多级特征融合:首先经过一层卷积进行信息分流;然后提取两部分图像的特征,其中一部分为将两层卷积提取到的特征与经过分流的特征进行融合,称为提取到的增强的局部短路径特征,另一部分将经过两层卷积提取到的部分特征传递给更深层的卷积,称为网络提取到的局部长路径特征;最后将增强的局部短路径特征和局部长路径特征进行求和,得到每一个多级特征融合的输出。具体公式表示为

\begin{matrix} \begin{matrix} S_{1}^{k} = C_{a} (D_{k - 1}), (4) \\ S_{e}^{k} = C [G (S_{1}^{k}, 1 / g), D_{k - 1}], (5) \\ L^{k} = C_{b} [(S_{1}^{k}, 1 - 1 / g)], (6) \\ P^{k} = S_{e}^{k} + L^{k} = C {G [C_{a} (D_{k - 1}), 1 / g], D_{k - 1}} + C_{b} \{[C_{a} (D_{k - 1}), 1 - 1 / g]}, (7) \end{matrix} \end{matrix}

式中:k=1,…,4代表多级特征融合模块的数量;D_k_-1为经过一层卷积后的信息分流;C_a代表分别经过分组卷积和卷积处理; $\begin{matrix} S_{1}^{k} \end{matrix}$ 表示局部短路径特征;C(·)代表连接操作;G( $\begin{matrix} S_{1}^{k} \end{matrix}$ ,1/g)表示得到局部短路径特征的操作, $\begin{matrix} {S^{k}}_{e} \end{matrix}$ 具体步骤为先将 $\begin{matrix} S_{1}^{k} \end{matrix}$ 通道维数进行切分, $\begin{matrix} S_{1}^{k} \end{matrix}$ 特征通道数维数的1/g与信息分流的特征在维数上进行连接,就可以得到增强的局部短路径特征;L^k代表得到局部长路径特征的操作,具体步骤将 $\begin{matrix} S_{1}^{k} \end{matrix}$ 切分后剩余的特征信息,经过C_b即分组卷积和卷积,得到的就是局部长路经特征;P^k代表多级特征融合的输出,包括增强的局部路径特征和局部长路径特征。

3.3 重建网络

在重建网络中,首先将提取到的多种特征融合,包括低层特征和每个递归单元模块的输出特征,然后使用亚像素卷积对图像进行最终的重建。重建过程分可为两部分:首先经过亚像素卷积层时,输出特征图的大小保持不变,特征通道数变为原来的h²倍(h表示放大倍数);然后将h²个特征通道按照特定的顺序排列成一个大小为h×h的区域,该区域对应高分辨率图像中一个h×h的一个子块,那么一个大小为h²×H×W的低分辨率的特征图就重新排列一个1×hH×hW的高分辨率图像。相比使用插值函数放大图像,卷积过程是针对低分辨率图像进行的,所以使用亚像素卷积效率会更高,用公式可表示为

\begin{matrix} \begin{matrix} F_{c} = C (F_{1}, {F^{s}}_{1}, \dots, F_{n}^{s}), (8) \\ F_{HR} = A (w_{HR} \times F_{c} + b_{HR}), (9) \end{matrix} \end{matrix}

式中:F_HR表示最终重建的高分辨率图像;A(x)表示排列函数; $\begin{matrix} F_{n}^{s} \end{matrix}$ 代表第n个输出;w_HR表示一组大小为n₃×k₃×k₃×c₃的滤波器,n₃=h²,k₃代表卷积核大小(这里取为3,步长为1,边界零填充是1),c₃为1;b_HR是偏移项。

3.4 损失函数和评价标准

为了达到更好的重建效果,本文使用重建图像与原始高分辨率图像的均方误差(MSE)作为损失函数。使用均方误差作为损失函数可以得到更高的峰值信噪比(PSNR)。均方误差的计算公式为

\begin{matrix} L (θ) = \frac{1}{n'} \overset{n'}{\sum_{i = 1}} ‖ F (Y_{i}; θ) - X_{i} ‖^{2}, (10) \end{matrix}

式中:L(θ)表示均方误差;F(Y_i;θ)和X_i代表重建图像和原始高分辨率图像;n'代表训练样本的总数目。在训练过程中,通过计算重建图像和原始高分辨率图像的均方误差,更新各层参数θ=(W₁,W₂,…,W_i,B₁,B₂,…,B_i),得到最小化损失函数,从而获得最佳网络参数模型。本文使用PSNR和结构相似度(SSIM)^[16]作为客观评价指标。PSNR的值越大,说明重建的图像失真越小,效果越好;SSIM^[16]的值越接近于1,说明重建图像和原始图像的相似度越高,重建图像的质量越高。

4 实验结果与分析

4.1 实验环境

本实验的实验环境如下:ubuntu 16.04LTS操作系统;应用的深度学习框架是caffe^[17],搭建cuda和cudnn用于实验的加速;使用MATLAB R2014a进行测试,计算机CPU为 I7 8700,显卡是NVDIA Geforce 1050TI。

4.2 数据集及优化方法

本实验采用的是公开的Timofte dataset^[18]和Berkeley Segmentation Datasets^[19]数据集,将Timofte dataset里面的91张图片以及Berkeley Segmentation Datasets^[18]里面BSD200作为训练集,将Set5、Set14及Berkeley Segmentation Datasets^[19]里面的BSD100作为测试集。为了充分利用数据集,本文对训练集使用了两种数据增强方法:1)将图像分别旋转90°、180°和270°;2)将图像进行缩放,缩放因子分别为0.5、0.6、0.7、0.8、0.9。将得到的训练集图像进行f倍下采样,得到低分辨率图像,再将图像裁剪成子图像块,最后将裁剪后的图像块作为训练网络的输入。

本文使用Adam作为优化方法。Adam利用梯度的一阶矩估计和二阶矩估计动态调整每个参数的学习率,其优点在于经过偏置校正后,每一次迭代学习率都有一个确定的范围,使得参数比较平稳。公式为

\begin{matrix} \begin{matrix} m_{t} = β_{1} \cdot m_{t - 1} + (1 - β_{1}) \cdot g_{t}, (11) \\ n_{t} = β_{2} \cdot n_{t - 1} + (1 - β_{2}) \cdot g_{t}^{2}, (12) \\ {\hat{m}}_{t} = \frac{m_{t}}{1 - β_{1}^{t}}, (13) \\ {\hat{n}}_{t} = \frac{n_{t}}{1 - β_{2}^{t}}, (14) \\ Δ θ_{t} = - \frac{η}{\sqrt[]{{\hat{n}}_{t}} + ε'} {\hat{m}}_{t}, (15) \end{matrix} \end{matrix}

式中:t为时间;m_t和n_t分别是对梯度的一阶矩估计和二阶矩估计; $\begin{matrix} {\hat{m}}_{t} \end{matrix}$ 和 $\begin{matrix} {\hat{n}}_{t} \end{matrix}$ 是对m_t和n_t的校正;β₁、β₂为指数衰减速率;g_t为所求的梯度;η为步长; $\begin{matrix} β_{1}^{t} \end{matrix}$ 和 $\begin{matrix} β_{2}^{t} \end{matrix}$ 代表更新后的值;Δθ_t为参数θ的变化;ε'为一个很小的常数。- $\begin{matrix} \frac{η}{\sqrt[]{{\hat{n}}_{t}} + ε} \end{matrix}$ 对学习率形成了一个动态约束,使得每一次迭代都有一个确定的范围。初始学习率设置为0.0001,每迭代200000次,学习率降为原来的1/10。

4.3 网络参数的设置

4.3.1 层数设置

有研究表明^[20],网络深度是影响网络性能的重要因素之一。适当增加网络层数可以提升重建效果,但层数过深也会带来参数量和计算成本增加以及训练时间过长等问题。本文开展了三组实验,以f=4为例,采用Set5作为测试集,分别用3个RUB对应20层网络,4个RUB对应26层网络,5个RUB对应32层网络。从图5中可以看出,随着迭代次数增加,26层网络的和32层网路的差距趋于减小。考虑到参数量和运行时间,最终选择4个RUB(对应26层网络)作为本文的模型。

图 5. Set5测试集下不同层数时PSNR均值随迭代次数的变化

Fig. 5. Variation of mean PSNR with the number of iterations for different layers at Set5 test set

下载图片查看所有图片

4.3.2 模型参数及计算复杂度

深层的网络需要庞大的计算量和更大的存储空间,不利于实际应用。本文采用递归结构和分组卷积,引入这两种结构对降低模型的参数量和计算复杂度都有很大帮助。分组卷积最早出现在Alexnet^[21]中,受当时硬件资源的影响,Alexnet^[21]不能在一个GPU下进行训练,作者把输出的特征通道特征分给多个GPU分别进行处理,最后把多个GPU特征通道的特征进行融合。分组卷积使模型变得更加紧凑高效。假设一个输入的图像数据为D_f×D_f×M,D_f代表输入的宽和高,M代表输入的通道数,卷积核为D_k×D_k×N,D_k代表卷积核的宽和高,N代表卷积核的数量。如果不采用分组卷积,那么得到的输出图像数据为D_o×D_o×H;如果加入分组卷积,假设将组数设定为s组,那么每组中输入图像的数据变为D_f×D_f×(M/s),卷积核的大小变为D_k×D_k×(N/s),最后将每一组的输出特征通道数进行连接,输出数据变为D_o×D_o×(H/s),即为原来参数量的1/s。模型的计算复杂度公式为

\begin{matrix} O {(f_{1}^{2} n_{1} + n_{1} f_{2}^{2} n_{2} + \dots + n_{L - 1} f_{L}^{2} n_{L}) S_{input}}, (17) \end{matrix}

式中:f_i表示第i层滤波器的大小,i=1,2,…,L;n_i表示第i层滤波器的个数,i=1,2,…,L;S_input代表输入图像的大小。本文在底层特征提取模块中使用的卷积核大小是80×3×3,RUB中六层卷积核的大小分别是80×3×3、64×3×3、32×3×3、64×3×3,48×3×3、80×3×3。其中,32×3×3和48×3×3均使用分组卷积,组数为4。RB的卷积核大小是f²×3×3,f²代表放大的倍数。由公式可知计算复杂度不仅与参数的数量有关,还与输入图片的大小成正比。对比于VDSR^[11]使用插值后的图片作为网络的输入,本模型采用原始未经过插值放大的图片作为模型的输入,以f=4为例,采用Set5做测试集,经计算得模型的计算复杂度约为VDSR^[11]的0.02。本文在每一个递归单元中实现参数共享,并且引入了分组卷积,极大减少了参数量,模型参数量如图7所示,参数量约为VDSR^[11]的0.33。

图 6. Set5测试集下不同网络结构的参数数量与PSNR均值的关系

Fig. 6. Relationship between number of parameters of different network structures and mean PSNR at Set5 test set

下载图片查看所有图片

4.3.3 网络结构

为了研究多级特征融合和残差通道注意力对网络性能的影响,本文以f=4为例,采用Set5作为测试集,进行了4组实验,分别比较了有无多级特征融合和有无残差通道注意力时的PSNR均值。从表1可以看出,同时使用多级特征融合和残差通道注意力时,本文模型RCAF的PSNR值最高。

表 1. 在Set5测试集下不同RCAF模型组件的PSNR均值

Table 1. Means PSNR of different RCAF model components at Set 5 test set

Multilevelfeature fusion	Residualchannel attention	PSNR
√	√	31.61
×	√	31.35
√	×	31.40
×	×	30.94

查看所有表

4.3.4 运行时间

本文在相同的环境下进行了4组实验,比较了不同模型的运行时间。以f=4为例,采用Set5作为测试集,分别测试了RCAF、SRCNN^[8]、FSRCNN^[9]、ESPCN^[10]、VDSR^[11]的运行时间。从图7中可以看出,本文模型RCAF的客观评价指标PSNR值是最高的,运行时间为0.738 s,仅比ESPCN慢了0.1 s左右。

图 7. Set5测试集下不同方法的运行时间与PSNR均值之间的关系

Fig. 7. Relationship between run time of different methods and mean PSNR at Set5 test set

下载图片查看所有图片

4.4 实验结果分析

为了测试本文算法的性能,将其与Bicubic、SRCNN^[8]、FSRCNN^[9]、ESPCN^[10]、VDSR^[11]方法进行比较,测试集采用图像超分辨重建领域常用的数据集Set5、Set14和BSD100(三个测试集分别包括5,14,100张图片),并从中选取了图像边缘细节丰富的两张图像进行测试,然后对比了图像放大后的细节。受实验环境和迭代次数的影响,FSRCNN^[9]与VDSR^[11]与原文结果略有不同。图8、9中的小图分别是放大4倍后的效果,从主观的视觉效果来看,除了VDSR^[11]和RCAF外,其他方法恢复出来的图像边缘比较模糊,边缘甚至出现了严重的畸变,RCAF重建出的斑马条纹的边缘信息更加完整,辨识度更高,“How”的局部边缘更加锐利,细节更加清晰,具有更好的视觉效果。在测试集Set5、Set14、BSD100下,不同的方法的PSNR和SSIM^[16]平均值如表2、3所示。可以看出,本文模型的PSNR和SSIM^[16]均是最高的,说明采用本文方法恢复出来的图像最接近原始图像。

图 8. 采用不同算法恢复出来的斑马图像

Fig. 8. Comparison of zebra image recovered with different algorithms

下载图片查看所有图片

图 9. 采用不同算法恢复出来的ppt图像的对比

Fig. 9. Comparison of ppt image recovered with different algorithms

下载图片查看所有图片

表 2. 测试集Set5、Set14、BSD100下不同算法的PSNR均值

Table 2. Mean PSNR of different algorithms at Set5, Set14, and BSD100 test sets

Test set	Scale	Bicubic	SRCNN^[8]	ESPCN^[10]	FSRCNN^[9]	VDSR^[11]	RCAF
	2	33.68	36.19	36.38	36.45	37.34	37.62
Set5	3	30.45	32.46	32.71	32.59	33.47	34.00
	4	28.46	30.15	30.29	30.42	30.78	31.61
	2	30.21	32.10	32.20	32.21	32.82	33.24
Set14	3	27.51	28.99	29.12	29.12	29.51	29.87
	4	25.98	27.23	27.17	27.43	27.62	28.11
	2	29.43	30.88	30.93	31.24	31.51	31.81
BSD100	3	27.08	28.06	28.16	28.25	28.43	28.72
	4	25.84	26.63	26.59	26.85	26.87	27.18

查看所有表

表 3. 测试集Set5、Set14、BSD100下不同算法的SSIM均值

Table 3. Mean SSIM of different algorithms at test sets Set5, Set14, and BSD100

Dataset	Scale	Bicubic	SRCNN^[8]	ESPCN^[10]	FSRCNN^[9]	VDSR^[11]	RCAF
	2	0.931	0.955	0.957	0.957	0.958	0.963
Set5	3	0.869	0.911	0.915	0.912	0.919	0.930
	4	0.810	0.862	0.863	0.866	0.875	0.893
	2	0.869	0.958	0.960	0.963	0.910	0.964
Set14	3	0.774	0.884	0.887	0.892	0.827	0.897
	4	0.702	0.821	0.823	0.827	0.759	0.842
	2	0.844	0.880	0.883	0.887	0.892	0.897
BSD100	3	0.740	0.776	0.781	0.780	0.793	0.797
	4	0.670	0.692	0.694	0.701	0.719	0.720

查看所有表

5 结论

本文针对现有模型不能区别对待不同特征通道的重要程度,不能充分利用卷积层之间的特征信息,以及模型计算复杂度高,参数数量多等问题,提出了一种基于残差通道注意力和多级特征融合的图像超分辨率重建方法。该方法具有以下特点:通过使用残差通道注意力自适应校正通道的特征响应,提高了网络的表现能力;使用多级特征融合的方式,充分利用层间信息,促进了网络中的数据流通;网络整体采用递归结构,递归块内的参数共享,并引入了分组卷积,进一步降低了模型的计算复杂度以及参数的数量。下一步计划进一步提高重建图像的质量,同时缩短模型的运行时间。

参考文献

[1] Zhang H Y, Zhang L P, Shen H F. A blind super-resolution reconstruction method considering image registration errors[J]. International Journal of Fuzzy Systems, 2015, 17(2): 353-364.

[2] Chen H G, He X H, Teng Q Z, et al. Single image super resolution using local smoothness and nonlocal self-similarity priors[J]. Signal Processing: Image Communication, 2016, 43: 68-81.

[3] 李素梅, 雷国庆, 范如. 基于卷积神经网络的深度图超分辨率重建[J]. 光学学报, 2017, 37(12): 1210002.

Li S M, Lei G Q, Fan R. Depth map super-resolution reconstruction based on convolutional neural networks[J]. Acta Optica Sinica, 2017, 37(12): 1210002.

[4] BatzM, EichenseerA, SeilerJ, et al. Hybrid super-resolution combining example-based single-image and interpolation-based multi-image reconstruction approaches[C]∥2015 IEEE International Conference on Image Processing (ICIP), September 27-30, 2015, Quebec City, QC, Canada. New York: IEEE, 2015: 58- 62.

[5] Kim K I, Kwon Y. Single-image super-resolution using sparse regression and natural image prior[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2010, 32(6): 1127-1133.

[6] 练秋生, 张伟. 基于图像块分类稀疏表示的超分辨率重构算法[J]. 电子学报, 2012, 40(5): 920-925.

Lian Q S, Zhang W. Image super-resolution algorithms based on sparse representation of classified image patches[J]. Acta Electronica Sinica, 2012, 40(5): 920-925.

[7] 肖进胜, 刘恩雨, 朱力, 等. 改进的基于卷积神经网络的图像超分辨率算法[J]. 光学学报, 2017, 37(3): 0318011.

Xiao J S, Liu E Y, Zhu L, et al. Improved image super-resolution algorithm based on convolutional neural network[J]. Acta Optica Sinica, 2017, 37(3): 0318011.

[8] Dong C, Loy C C, He K M, et al. Image super-resolution using deep convolutional networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2016, 38(2): 295-307.

[9] 郑向涛, 袁媛, 卢孝强. 自外而内的单幅图像超分辨率复原算法[J]. 光学学报, 2017, 37(3): 0318006.

Zheng X T, Yuan Y, Lu X Q. Single image super-resolution restoration algorithm from external example to internal self-similarity[J]. Acta Optica Sinica, 2017, 37(3): 0318006.

[10] Shi WZ, CaballeroJ, HuszarF, et al. Real-time single image and video super-resolution using an efficient sub-pixel convolutional neural network[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 1874- 1883.

[11] KimJ, Lee JK, Lee KM. Accurate image super-resolution using very deep convolutional networks[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 1646- 1654.

[12] He KM, Zhang XY, Ren SQ, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 770- 778.

[13] KimJ, Lee JK, Lee KM. Deeply-recursive convolutional network for image super-resolution[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE, 2016: 1637- 1645.

[14] HuJ, ShenL, AlbanieS, et al. ( 2019-05-16)[2019-07-17]. https:∥arxiv.org/abs/1709. 01507.

[15] Qu Y Y, Lin L, Shen F M, et al. Joint hierarchical category structure learning and large-scale image classification[J]. IEEE Transactions on Image Processing, 2017, 26(9): 4331-4346.

[16] Ye Y X, Shan J, Bruzzone L, et al. Robust registration of multimodal remote sensing images based on structural similarity[J]. IEEE Transactions on Geoscience and Remote Sensing, 2017, 55(5): 2941-2958.

[17] Jia YQ, ShelhamerE, DonahueJ, et al. ( 2014-06-20)[2019-07-17]. https:∥arxiv.org/abs/1408. 5093.

[18] MartinD, FowlkesC, TalD, et al. A database of human segmented natural images and its application to evaluating segmentation algorithms and measuring ecological statistics[C]∥Proceedings Eighth IEEE International Conference on Computer Vision. ICCV 2001, July 7-14, 2001, Vancouver, BC, Canada. New York: IEEE, 2001: 416- 423.

[19] TimofteR, de SmetV, van GoolL. A+: adjusted anchored neighborhood regression for fast super-resolution[M] ∥Cremers D, Reid I, Saito H, et al. Computer vision -- ACCV 2014. Lecture notes in computer science. Cham: Springer, 2015, 9006: 111- 126.

[20] Du B, Wang Z M, Zhang L F, et al. Robust and discriminative labeling for multi-label active learning based on maximum correntropy criterion[J]. IEEE Transactions on Image Processing, 2017, 26(4): 1694-1707.

[21] KrizhevskyA, SutskeverI, Hinton GE. ImageNet classification with deep convolutional neural networks[C]∥Advances in Neural Information Processing Systems, December 3-6, 2012, Lake Tahoe, Nevada, United States. Canada: NIPS, 2012: 1097- 1105.

席志红, 袁昆鹏. 基于残差通道注意力和多级特征融合的图像超分辨率重建[J]. 激光与光电子学进展, 2020, 57(4): 041504. Zhihong Xi, Kunpeng Yuan. Super-Resolution Image Reconstruction Based on Residual Channel Attention and Multilevel Feature Fusion[J]. Laser & Optoelectronics Progress, 2020, 57(4): 041504.

基于残差通道注意力和多级特征融合的图像超分辨率重建 下载： 1231次

1 引言

2 相关工作

2.1 ESPCN

图 1. ESPCN网络结构图

Fig. 1. Structure of ESPCN network

2.2 VDSR

图 2. VDSR网络结构图

Fig. 2. Structure of VDSR network

3 本文算法

图 3. 本文算法的网络结构图

Fig. 3. Network structure of proposed algorithm

3.1 低层特征提取模块

3.2 递归单元模块

图 4. 递归单元模块。(a)递归单元模块的组成;(b)残差通道注意力;(c)多级特征融合

Fig. 4. Recursive unit module. (a) Recursive unit module composition; (b) residual channel attention; (c) multilevel feature fusion

3.3 重建网络

3.4 损失函数和评价标准

4 实验结果与分析

4.1 实验环境

4.2 数据集及优化方法

4.3 网络参数的设置

图 5. Set5测试集下不同层数时PSNR均值随迭代次数的变化

Fig. 5. Variation of mean PSNR with the number of iterations for different layers at Set5 test set

图 6. Set5测试集下不同网络结构的参数数量与PSNR均值的关系

Fig. 6. Relationship between number of parameters of different network structures and mean PSNR at Set5 test set

表 1. 在Set5测试集下不同RCAF模型组件的PSNR均值

Table 1. Means PSNR of different RCAF model components at Set 5 test set

图 7. Set5测试集下不同方法的运行时间与PSNR均值之间的关系

Fig. 7. Relationship between run time of different methods and mean PSNR at Set5 test set

4.4 实验结果分析

图 8. 采用不同算法恢复出来的斑马图像

Fig. 8. Comparison of zebra image recovered with different algorithms

图 9. 采用不同算法恢复出来的ppt图像的对比

Fig. 9. Comparison of ppt image recovered with different algorithms

表 2. 测试集Set5、Set14、BSD100下不同算法的PSNR均值

Table 2. Mean PSNR of different algorithms at Set5, Set14, and BSD100 test sets

表 3. 测试集Set5、Set14、BSD100下不同算法的SSIM均值

Table 3. Mean SSIM of different algorithms at test sets Set5, Set14, and BSD100

5 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

基于残差通道注意力和多级特征融合的图像超分辨率重建下载： 1231次