激光与光电子学进展, 2024, 61 (10): 1015001, 网络出版: 2024-04-02   

基于掩模重构与动态注意力的跨模态行人重识别 下载: 682次【增强内容出版】

Cross-Modal Person Re-Identification Based on Mask Reconstruction with Dynamic Attention
作者单位
重庆邮电大学通信与信息工程学院,重庆 400065
School of Communication and Information Engineering, Chongqing University of Posts and Telecommunications, Chongqing 400065, China
摘要
跨模态行人重识别是一项具有挑战性的行人检索任务。现有研究侧重于通过提取模态共享特征来减小模态间差异,忽视了对模态内差异和背景干扰的处理。为此,提出了一种掩模重构与动态注意力(MRDA)网络,该网络通过重构人体区域特征来消除背景杂波的影响,从而增强网络对背景变化的鲁棒性。此外,该网络结合了动态注意力机制,以过滤无关信息,动态挖掘并增强具有辨别力的特征表示,消除模态内差异的影响。实验结果显示:该网络在SYSU-MM01数据集的all-search模式下的第一个检索结果匹配成功的概率(Rank-1)和均值平均精度(mAP)分别达到70.55%和63.89%;在RegDB数据集的visible-to-infrared检索模式下的Rank-1和mAP分别达到91.80%和82.08%。在公共数据集上验证了所提方法的有效性。
Abstract
Cross-modal person re-identification is a challenging pedestrian retrieval task. Existing research focuses on reducing inter-modal differences by extracting modal shared features, while ignoring the processing of intra-modal differences and background interference. In this regard, a mask reconstruction and dynamic attention (MRDA) network is proposed to eliminate the influence of background clutter by reconstructing the features of human body regions, thereby enhancing the robustness of the network on background changes. In addition, the dynamic attention mechanism is combined to filter irrelevant information, dynamically mine and enhance the discriminating feature representations, and eliminate the influence of intra-modal differences. The experimental results show that the probability the first search result matches successfully (Rank-1) and mean average precision (mAP) in the all-search mode of the SYSU-MM01 dataset reach 70.55% and 63.89%, respectively. The Rank-1 and mAP in the visible-to-infrared retrieval mode of the RegDB dataset reach 91.80% and 82.08%, respectively. The effectiveness of the proposed method is verified on the public datasets.

1 引言

近年来,随着计算机视觉技术的不断发展,行人重识别(Re-ID)1在视频监控、安保和智慧城市等领域得到越来越多的关注和应用,其目标是在多个不重叠的相机之间检索同一身份的行人。可见光相机在夜间的成像能力不足,在黑暗条件下无法收集具有区别性的图像。为解决这一问题,跨模态行人重识别使用红外相机来拍摄夜间图像,通过对两种相机收集的图像进行匹配,实现跨可见光模态和红外模态的行人检索。但由于不断变化的相机和背景环境,模态差异和背景杂波对跨模态匹配影响较大。此外,由于遮挡、光照和姿态变化等因素的存在,网络容易提取到过多无关信息,从而无法进行准确的跨模态匹配。

针对以上问题,Wu等2提出了一种单流深度零填充网络来提取模态共享特征,缓解了跨模态差异。Gao等3提出了一种新的交叉模态知识蒸馏(CMKD)损失,在特征提取阶段缩小了特定模态特征间的差异。Sun等4提出了一种水平划分网络PCB(part-based convolutional baseline),将特征水平划分为若干个局部特征,隐式地利用行人身体部位来削弱背景杂波的影响。Dai等5提出了一种跨模态生成对抗网络(cmGAN),从两个不同的模态图像中生成交叉模态图像,将所生成的图像和真实的图像组合以产生混合的多光谱图像,并结合身份损失和跨模态三元组损失来最小化类间差异并最大化跨模态相似性。Zhao等6提出了Spindle Net,该网络分别捕获来自行人不同身体区域的语义特征,将来自不同语义区域的特征进行合并,有效地保留了判别特征。这些方法通常侧重于通过对卷积网络提取到的特征进行处理来缓解背景杂波的影响,忽视了网络源头对输入图像的处理,不能较好地解决遮挡、光照和姿态变化等因素引起的模态内差异问题,同时特征划分和对齐会破坏图像的原有结构,从而产生额外的噪声。

本文提出了一种基于掩模重构与动态注意力(MRDA)的网络,旨在消除背景干扰影响并动态提取判别特征。由于相机环境不断变化,图像背景复杂多样,因此提出掩模重构模块(MRM),在图像输入端构造掩模,通过掩模重构人体区域和背景区域,以此来消除背景杂波的影响,增强网络对背景变化的鲁棒性。然后将来自不同模态的特征对齐投影到公共子空间中。针对遮挡、光照和姿态变化等因素引起的模态内差异较大的问题,设计了一种动态注意力模块(DAM),动态挖掘并增强人体占比权重较大的区域,以此获得具有辨别力的判别特征。在两个公共数据集上验证了MRDA网络的优越性。在SYSU-MM01数据集的all-search模式下,与当前性能表现较好的MCLNet7相比,该网络的第一个检索结果匹配成功的概率(Rank-1)和均值平均精度(mAP)分别高出5.15和1.91个百分点。在RegDB数据集的visible-to-infrared检索模式下,该网络的Rank-1和mAP比MCLNet分别高出11.49和9.01个百分点,证明了相对于当前跨模态行人重识别方法,该网络具有较大优势。

2 方法

2.1 网络总体框架

可见光相机和红外相机的光谱特性及拍摄环境不同,导致模态差异和背景杂波的影响较大,并且低分辨率、遮挡和人体姿态不同等原因会使网络无法提取到具有辨别力的特征,因此,提出了一种适用于跨模态的MRDA网络,其网络结构如图1所示,包括掩模重构模块、特征提取模块和动态注意力模块。

图 1. MRDA网络结构

Fig. 1. MRDA network structure

下载图片 查看所有图片

2.2 掩模重构模块

随着深度学习在图像分割领域的应用迅速发展,出现了全卷积网络(FCN)8、条件随机区域(CRF)算法9、基于区域的卷积神经网络(Mask R-CNN)10以及大规模人类分割数据集11,它们可以较好地获得人体掩模。所提掩模重构模块通过最大-最小归一化来计算人体掩模,相对于复杂的FCN和Mask R-CNN网络结构来说简单且易于实现,无须进行复杂的模型训练或使用大规模数据集;相对于CRF等迭代算法来说,该模块计算复杂度较低、耗费时间短、所需计算资源更少。所提掩模重构模块通过在输入端生成掩模来重新构造图像的人体区域和背景区域,并在浅层卷积层约束原始图像特征与人体区域特征之间的距离,以缓解背景杂波的影响,其结构如图2所示。

图 2. 掩模重构模块的结构

Fig. 2. Structure of the mask reconstruction module

下载图片 查看所有图片

在数据加载时,随机抽取K个行人的M张图像组成一个训练批次,其大小N=K×M,该集合表示为xv={xiv|i=1,2,,N},其中,xiv={xiv|yi}表示训练批次中第i幅可见光图像,yi表示类别标签。同理,红外图像集合表示为xr={xir|i=1,2,,N},其中,xir={xir|yi}表示训练批次中第i幅红外图像。由于人体区域和背景区域像素值存在一定差别,因此通过最大-最小归一化来计算人体掩模,表示为

Mmask+=x-min(x)max(x)-min(x)2

式中:x表示原始输入图像;Mmask+表示人体掩模;2表示L2范数。然后生成背景掩模Mmask-来构建背景区域。为确保Mmask+Mmask-能够构成成对关系,应满足成对约束条件:

Mmask++Mmask-=1

将这对掩模应用于原始输入图像x,以生成人体区域和背景区域,表示为

xM+=Mmask+xxM-=Mmask-x

式中:xM+xM-分别表示人体区域和背景区域;表示空间加权操作。如图2所示,通过人体掩模重构的人体区域xM+保留了人体区域的全部信息,削弱了背景信息的表示。网络的权重共享结构可以捕获到更多的共享信息。在ImageNet12上的预训练权重通常对低级特征(如颜色或纹理)具有更强的依赖性,直接使用预训练模型可能会使网络关注到背景区域的颜色和纹理信息。因此采用将人体区域图像和原始图像合并输入的策略,通过人体区域xM+使网络学习到更多的人体特征,有效地减轻了来自背景区域的负面影响。

2.3 特征提取模块

将ResNet5013作为骨干网络(ResNet50具有较深的网络结构,能够提取丰富的语义信息,有助于区分不同行人的特征),通过引入残差结构13来解决深层网络训练中的梯度消失问题。相对于ResNet18和ResNet34等低层次的网络结构,ResNet50拥有更多的层级和参数,可以提取更丰富和多样化的特征;相对于ResNet101和ResNet152等更深层次的网络结构,ResNet50具有较少的参数量,可以更快地进行训练和推理,并且网络层次过深会产生过拟合的风险,使网络模型的泛化性能下降。

采用双流网络的结构,如图1所示,网络由可见光路径和红外路径组成。将ResNet50作为骨干网络,其中:ResNet50的浅层卷积模块stage 0和stage 1参数不共享;深层卷积模块stage 2~stage 4的参数共享。两路径的具体操作为

fv=φvcat(xv,xM+v)fr=φrcat(xr,xM+r)

式中:cat()函数将原始图像和重构的人体区域图像合并输入到网络中;φvφr分别表示可见光和红外模态特征提取函数,用来提取可见光模态特定特征fvC×H×W和红外模态特定特征frC×H×W,其中,CHW分别为特征的通道数、高和宽。由于在没有约束的情况下不能保证网络能够正确地学习到人体区域,因此,引入区域中心损失来引导人体区域特征的学习。区域中心损失表示为

Lac=i=1Nfv,original-fv,M+2+i=1Nfr,original-fr,M+2+i=1Nfv,original-fr,original2

式中:fv,originalfr,original是浅层卷积块提取的原始行人特征;fv,M+fr,M+是浅层卷积块提取的人体区域特征。

图3所示,通过约束Lac将原始图像特征与人体区域特征相互拉近。由于人体特征fv,M+和背景区域特征fv,M-呈负相关关系,因此推远原始图像特征与背景区域特征的距离,以保证网络学习到更多的人体区域特征,从而消除背景区域的影响,增强网络对背景杂波的抗干扰能力,使网络对人体区域具有更强的感知能力。同时,约束可见光模态与红外模态的人体区域特征之间的距离,避免在重构时产生过大的模态差异。最后将fvfr合并输入到共享卷积块中,表示为

f=φv,rcat(fv,fr)

式中,φv,r表示模态共享特征提取函数。将合并后的两个模态特定特征投影到公共特征空间中,从而学习不同模态间共同的特征表示fC×H×W

图 3. 区域中心损失示意图

Fig. 3. Schematic diagram of regional center loss

下载图片 查看所有图片

2.4 动态注意力模块

由于遮挡、光照和姿态变化等模态内差异因素的影响,网络难以提取到具有辨别力的重要特征。对此,文献[14-15]提出利用辅助姿态估计器和语义解析技术来对齐图像间的语义相关区域。但这些方法需要额外的数据集,并且计算开销大。文献[16]和文献[17]分别提出瓶颈注意力模块(BAM)和卷积块注意力模块(CBAM),以不同的方式将空间注意力和通道注意力相结合,在空间和通道两个维度计算注意力权重,以获取全局与局部之间的联系,在全局中增强局部特征。文献[18]提出模态内加权局部注意力模块(IWPAM),以学习局部聚合特征,自适应地为不同特征分配不同权重。但这些方法均需要对全部特征进行运算,这会导致网络计算过多无用信息,浪费计算资源。对此,本研究提出了动态注意力模块,动态地寻找全局中权重较大的局部区域,挖掘并增强具有辨别力的特征。动态注意力模块的结构如图4所示。

图 4. 动态注意力模块的结构

Fig. 4. Dynamic attention module structure

下载图片 查看所有图片

首先将ResNet50网络提取到的特征f通过1×1的卷积层(Conv1×1)线性映射为QKV三个特征,表示为

Q,K,V=Conv1×1(f)

通过求QK不同区域的均值,得到区域级特征QavgKavg;通过QavgKavg的矩阵运算得到区域亲和力矩阵Maff,表示为

Qavg=avg(Q),Kavg=avg(K)Maff=QavgKavgT

式中,avg()表示水平平均池化函数,用于求区域均值。矩阵Maff中的区域值衡量了特征f中不同区域的重要程度。保留其中前k个区域,得到区域索引矩阵Mindex,表示为

Mindex=topk(Maff)

式中:Mindex为区域索引矩阵,表示特征f中重要区域的位置索引;topk()表示保留特征中前k个最大元素的值和索引。通过位置索引提取Q中的k个区域,表示为

Qindex=gather(Q,Mindex)

式中,gather()表示按照索引矩阵从Q中选取指定位置的元素。Qindex过滤掉了大部分不相干信息,只保留了小部分重要的人体区域信息,以消除无关信息的干扰,提取更有辨别力的特征。

图5所示,将QindexK进行矩阵运算得到k个指定区域的注意力系数α。将αV进行加权求和得到注意力特征图,表示为

图 5. 注意力系数获取示意图

Fig. 5. Schematic diagram of attention coefficient acquisition

下载图片 查看所有图片

α=Softmax(QindexKT)f¯=αVT

式中:α为归一化后的注意力系数;Softmax(·)表示Softmax函数;f¯C×H×W表示特定区域的注意力特征图。最后,通过残差结构将注意力图f¯叠加在原始特征f之上,表示为

F¯=Gem(f)avg(f¯)

式中:F¯是通过动态注意力模块增强后的特征(残差结构能够使深层网络更加稳定,避免出现梯度消失和梯度爆炸问题);表示叠加操作;Gem(·)表示广义平均池化(generalized-mean)19操作,可有效降低数据维度,提高计算效率。给定一个三维特征XC×H×W,则Gem操作表示为

xGem=1|X|xiXxib1b

式中:xGem是广义平均池化后的特征;b是超参数。当b时,Gem近似于最大池化操作;当b1时,Gem近似于平均池化操作。

与其他注意力模块的对比结果如表1所示。用BAM、CBAM和IWPAM替换所提动态注意力模块DAM并进行实验,从实验结果可以看出,所提模块的Rank-1和mAP高于BAM、CBAM和IWPAM,说明所提动态注意力模块能够有效获取具有辨别力的特征,验证了其有效性。

表 1. DAM与其他注意力模块的对比

Table 1. Comparison of DAM and other attention modules

ModuleRank-1 /%mAP /%
DAM70.5563.89
BAM66.6362.17
CBAM66.7460.95
IWPAM67.7961.29

查看所有表

2.5 目标函数

使用交叉熵损失和中心三元组损失19对MRDA网络进行约束,以优化实例级上的特征分布;通过标签平滑运算20防止模型训练过拟合。给定一个图像,y表示图像标签,pi表示预测结果,则交叉熵损失表示为

Lid=i=1N-qilnSoftmax(pi)s.tqi=1-N-1Nξ,y=iξN,yi

式中:N是训练集中的总类别数;ξ是一个常数,可以促使模型对训练集数据产生一定误差,提高模型的泛化能力。中心三元组损失的目的是促使来自同一类的特征中心相互接近(类内紧致)而来自不同类的特征中心相互远离(类间分离)。中心三元组损失表示为

Civ=1Mj=1MF¯iv,j,Cir=1Mj=1MF¯ir,jLhc_tri=i=1Kρ+Civ-Cir2-minjinv,rCiv-Cj(n)2++i=1Kρ+Cir-Civ2-minjinv,rCir-Cj(n)2+

式中:F¯iv,jF¯ir,j分别表示一个训练批次里第i个行人(i=1,2,…,K)的第j张可见光和红外图像特征(j=1,2,…,M);CivCir分别表示第i个行人可见光和红外模态特征类中心;Cj(n)表示跨模态负样本特征类中心;ρ为一个阈值,表示正样本距离与负样本距离之间的最小差异。Lhc_tri关注每个行人的跨模态正样本特征中心和跨模态最难的负样本特征中心,可有效缩短类内距离,最大化类间差异。为消除不同模态之间的语义信息差异,保持模态间的同一性,缩小模态间差异,利用相关一致性损失21来约束不同模态间的距离,具体表示为

Gv=F¯vF¯vTF¯vF¯vT2,Gr=F¯rF¯rTF¯rF¯rT2Lmc=Gv-Gr2

式中,G是反映特征之间相似性的互相关性矩阵。通过优化Lmc拉近两个模态的距离,缓解模态差异。最终,总体损失表示为

L=Lid+Lhc_tri+Lmc+Lac

3 实验结果与分析

3.1 数据集和评估协议

SYSU-MM01数据集2是中山大学提出的大规模跨模态行人重识别数据集,共采集了491个行人的图像,其中包含由4个可见光相机拍摄的287628幅可见光行人图像以及2个红外相机拍摄的15792幅红外行人图像。训练集有395个行人图像,测试集有96个行人图像。SYSU-MM01数据集包含all-search和indoor-search两种模式。在all-search模式下,gallery集由4个可见光相机拍摄的图像组成,query集由2个红外相机拍摄的图像组成;在indoor-search模式下,gallery集只包含2个可见光相机拍摄的图像,query集包含2个红外相机拍摄的图像。测试阶段包括mutil-shot和single-shot两种检索模式,在mutil-shot模式下的gallery集中,每个行人包含多张图像,而在sing-shot模式下的gallery集中,每个行人仅包含一张图像。对于all-search和indoor-search两种模式,均采用single-shot模式设置进行实验。

RegDB数据集22是一个小规模数据集,包含一个可见光相机和一个远红外相机采集的412个行人的图像,每个行人都有10张可见光图像和10张红外图像。为确保实验的科学性,利用10次交叉验证法将数据集进行随机划分,训练集和测试集各包含2060张可见光图像和2060张红外图像。测试阶段包括visible-to-infrared和infrared-to-visible两种检索模式,研究采用visible-to-infrared模式进行实验。

利用累积匹配特征(CMC)23和mAP作为评估指标,其中CMC指前R个检索结果中匹配成功的概率,用Rank-R表示。

3.2 实验设置

实验环境配置为GeForce RTX 2080TI、CUDA10和PyTorch1.7。在开始训练前,batch size设置为36,包含3个行人的18张可见光图像和18张红外图像。对每一个行人,随机选择6张可见光图像和6张红外图像。在训练阶段,使用随机梯度下降(SGD)算法进行优化,动量参数设置为0.9。采用预热学习率策略,学习率初始值为0.1,经过20和50个epoch后分别衰减至0.10和0.01。

3.3 消融实验

在SYSU-MM01数据集的all-search模式下进行消融实验,以验证MRDA网络及所提模块的有效性。

1)特征提取模块。将输入数据进行预处理后输入到特征提取模块中,以此作为实验的基线网络(baseline)。如表2所示,baseline的Rank-1和mAP分别为63.21%和59.87%,说明特征提取模块能够较好地提取到行人特征。

表 2. 在SYSU-MM01数据集all-search single-shot模式下的实验结果

Table 2. Experimental results in all-search single-shot mode of the SYSU-MM01 dataset

BaselineMRMDAMRank-1 /%mAP /%
63.2159.87
68.3961.82
68.4763.09
70.5563.89

查看所有表

2)掩模重构模块。如表2所示,将掩模重构模块加入baseline进行实验,Rank-1和mAP分别为68.39%和61.82%,较baseline分别提高了5.18和1.95个百分点,说明掩模重构模块能够很好地消除背景杂波的影响,使网络对人体区域具有更强的感知能力。

3)动态注意力模块。如表2所示,baseline加动态注意力模块的Rank-1和mAP分别为68.47%和63.09%,较baseline分别提高了5.26和3.22个百分点,说明动态注意力模块能较好地挖掘重要特征并消除无关信息的干扰,有效地提高模型的精度。

综上所述,各个模块都能有效地帮助模型提升其性能,掩模重构模块与动态注意力模块在协同工作时效果最好,Rank-1和mAP达到了70.55%和63.89%,较baseline分别提升了7.34和4.02个百分点。说明MRDA网络能够有效地消除光照、背景及姿态变化等因素的影响,缩小模态差异。

为探索在双流网络中进行掩模重构约束学习的具体位置,在ResNet50的若干个stage之后分别进行实验,以实现更好的掩模重构约束学习,构建具有独立参数的模态特定特征提取器和具有共享参数的模态共享特征提取器。

对卷积模块stage 0到stage 4后的特征分别进行实验,实验结果如图6所示。从曲线变化趋势可以看出:在stage 1之后进行掩模重构约束学习,网络的性能最好;若在浅层stage 0后进行约束学习,可能导致网络不能充分地提取到人体躯体特征;相反,若在较深层进行约束学习,网络提取到的背景区域过多,不能较好地约束原始图像特征和身体区域特征之间的距离。

图 6. 在不同stage进行约束学习的实验结果

Fig. 6. Experimental results of constraint learning at different stages

下载图片 查看所有图片

3.4 可视化分析

为进一步分析MRDA网络的有效性,在SYSU-MM01数据集上对特征分布进行可视化实验。通过T-SNE算法24将高维特征向量转化为二维特征向量,图7(a)、(b)分别为baseline和MRDA网络的特征可视化结果,其中不同颜色表示不同的身份标签。与baseline相比,MRDA网络提取的特征能更好地聚集在一起,不同身份之间的边界更加明显,说明MRDA网络能更好地进行特征分类,更具有辨别力。图7(c)、(d)分别为baseline和MRDA网络特征距离的可视化结果。与baseline相比,MRDA网络的类内和类间特征距离平均值有所降低,说明MRDA网络能够有效地降低模态差异,提高类内相似度。

图 7. 特征分布可视化。(a)Baseline特征降维结果;(b)MRDA网络特征降维结果;(c)baseline特征距离分布;(d)MRDA网络特征距离分布

Fig. 7. Feature distribution visualization. (a) Baseline feature dimensionality reduction results; (b) MRDA network feature dimensionality reduction results; (c) baseline feature distance distribution; (d) MRDA network feature distance distribution

下载图片 查看所有图片

为了验证MRDA网络能挖掘并增强重要判别特征,通过Grad-CAM25绘制热力图来可视化图像特征(热力图反映了网络所关注的区域)。图8(a)、(b)分别为输入图像和MRDA网络的可视化结果。可以观察到,在MRDA网络中,人脸、胸口和腿部等身体部位被绘制为高亮,表示网络聚焦增强的身体区域,说明网络可以较准确地挖掘重要的判别特征,同时表现出对光照、遮挡和姿势变化等因素较强的抗干扰能力。

图 8. Grad-CAM可视化结果。(a)输入图像;(b)MRDA网络可视化结果

Fig. 8. Grad-CAM visualization results. (a) Input images; (b) MRDA network visualization results

下载图片 查看所有图片

为验证网络的检索能力,将检索结果进行可视化,图9(a)、(b)分别为baseline和MRDA网络的检索结果。在SYSU-MM01数据集上将红外图像作为query集,可见光图像作为gallery集,检索对应的top-10重排序图像。其中,绿色实线框标记的图像表示正确检索的图像,红色虚线框标记的图像表示错误检索的图像。从检索结果可以看出,MRDA网络能够正确地区分行人身份,检索图像与待检索图像具有较高的匹配度。

图 9. 在SYSU-MM01数据集上获得的top-10检索结果。(a)Baseline检索结果;(b)MRDA网络检索结果

Fig. 9. Top-10 retrieval results obtained on the SYSU-MM01 dataset. (a) Baseline retrieval results; (b) MRDA network retrieval results

下载图片 查看所有图片

3.5 与其他方法的对比

为验证MRDA网络的先进性,在SYSU-MM01和RegDB两个公共数据集上与近几年研究出的网络进行对比。加入对比的网络有Zero-Pad2、cmGAN5、D2RL26、Hi-CMD27、DDAG18、AGW1、MCLNet7、DML28、MAUMG29和MSFF30表3表4分别为在SYSU-MM01数据集的all-search和indoor-search两种模式下的实验结果。可以看出:所提网络与现有技术相比具有较强的竞争力,在all-search模式下Rank-1和mAP分别为70.55%和63.89%;在indoor-search搜索模式下Rank-1和mAP分别为72.69%和77.14%。与AGW和MCLNet等主要研究提取模态不变特征的网络相比,MRDA网络致力于消除背景干扰因素的影响,提取具有辨别力的人体特征。与cmGAN和Hi-CMD等相比,MRDA网络不需要耗费时间和空间来生成图像,避免了噪声的引入。与DDAG相同的是MRDA网络使用了注意力机制,与之不同的是MRDA网络可动态挖掘重要的身体区域而不需要进行全局计算,计算开销更少。在RegDB数据集上的实验结果如表5所示,MRDA网络在visible-to-infrared检索模式下有较好的表现,Rank-1和mAP分别为91.80%和82.08%。

表 3. 在SYSU-MM01数据集all-search模式下与其他网络的对比结果

Table 3. Comparison results with other networks in the all-search mode of the SYSU-MM01 dataset

NetworkRank-1 /%Rank-10 /%Rank-20 /%mAP /%
Zero-Pad214.8054.1271.3315.95
cmGAN526.9767.5180.5627.80
D2RL2628.9070.6082.4029.20
Hi-CMD2734.9477.5835.94
DDAG1854.7590.3995.8153.02
AGW147.5084.3992.1447.65
MCLNet765.4093.3397.1461.98
DML2858.4091.2095.8056.10
MAUMG2961.5959.96
MSFF3062.9393.6897.6760.62
MRDA70.5594.9098.5363.89

查看所有表

表 4. 在SYSU-MM01数据集indoor-search模式下与其他网络的对比结果

Table 4. Comparison results with other networks in the indoor-search mode of the SYSU-MM01 dataset

NetworkRank-1 /%Rank-10 /%Rank-20 /%mAP /%
Zero-Pad220.5868.3885.7926.92
cmGAN531.6377.2389.1842.19
DDAG1861.0294.0698.4167.98
AGW154.1791.1495.9862.97
MCLNet772.5696.8899.2076.58
DML2862.4095.2098.7069.50
MAUMG2967.0773.58
MSFF3068.0995.7198.2254.51
MRDA72.6997.1598.7377.14

查看所有表

表 5. 在RegDB数据集上visible-to-infrared检索模式下与其他网络的对比结果

Table 5. Comparison results with other networks in the visible-to-infrared mode of the RegDB dataset

NetworkRank-1 /%Rank-10 /%Rank-20 /%mAP /%
Zero-Pad217.7534.2144.3518.90
cmGAN524.4447.5356.7820.08
D2RL2643.4066.1076.3044.10
Hi-CMD2734.9477.5835.94
DDAG1872.3769.09
AGW170.0586.2191.5566.37
MCLNet780.3192.7096.0373.07
DML2877.6084.30
MAUMG2983.3978.75
MSFF3078.0691.3696.1272.43
MRDA91.8097.4698.6782.08

查看所有表

4 结论

针对跨模态行人重识别存在的模态内差异和背景干扰问题,提出了一种新颖的MRDA网络,该网络致力于通过掩模重构人体区域特征,动态提取具有辨别力的重要特征。一方面,通过掩模重构约束学习促使网络学习到更多的身体区域特征,减小背景区域的影响。另一方面,动态地寻找网络所关注的区域,挖掘并增强具有辨别力的特征。在两个公共数据集上进行消融实验和对比实验,实验结果验证了MRDA网络的先进性以及网络中各组成部分的有效性。下一步工作将对来自不同模态的特征进行特征匹配和对齐,进一步提升模型性能。

参考文献

[1] Ye M, Shen J B, Lin G J, et al. Deep learning for person re-identification: a survey and outlook[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2022, 44(6): 2872-2893.

[2] WuA C, ZhengW S, YuH X, et al. RGB-infrared cross-modality person re-identification[C]∥2017 IEEE International Conference on Computer Vision (ICCV), October 22-29, 2017, Venice, Italy. New York: IEEE Press, 2017: 5390-5399.

[3] Gao G W, Shao H, Wu F, et al. Leaning compact and representative features for cross-modality person re-identification[J]. World Wide Web, 2022, 25(4): 1649-1666.

[4] SunY F, ZhengL, YangY, et al. Beyond part models: person retrieval with refined part pooling (and a strong convolutional baseline)[M]∥FerrariV, HebertM, SminchisescuC, et al. Computer vision-ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11208: 501-518.

[5] DaiP Y, JiR R, WangH B, et al. Cross-modality person re-identification with generative adversarial training[C]∥Proceedings of the 27th International Joint Conference on Artificial Intelligence, July 13-19, 2018, Stockholm, Sweden. New York: ACM Press, 2018: 677-683.

[6] ZhaoH Y, TianM Q, SunS Y, et al. Spindle Net: person re-identification with human body region guided feature decomposition and fusion[C]∥2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), July 21-26, 2017, Honolulu, HI, USA. New York: IEEE Press, 2017: 907-915.

[7] HaoX, ZhaoS Y, YeM, et al. Cross-modality person re-identification via modality confusion and center aggregation[C]∥2021 IEEE/CVF International Conference on Computer Vision (ICCV), October 10-17, 2021, Montreal, QC, Canada. New York: IEEE Press, 2022: 16383-16392.

[8] ShelhamerE, LongJ, DarrellT. Fully convolutional networks for semantic segmentation[C]∥IEEE Transactions on Pattern Analysis and Machine Intelligence, May 24, 2016, New York: IEEE Press, 2016: 640-651.

[9] Chen L C, Papandreou G, Kokkinos I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848.

[10] HeK M, GkioxariG, DollárP, et al. Mask R-CNN[C]∥2017 IEEE International Conference on Computer Vision (ICCV), October 22-29, 2017, Venice, Italy. New York: IEEE Press, 2017: 2980-2988.

[11] WuZ F, HuangY Z, YuY N, et al. Early hierarchical contexts learned by convolutional networks for image segmentation[C]∥2014 22nd International Conference on Pattern Recognition, August 24-28, 2014, Stockholm, Sweden. New York: IEEE Press, 2014: 1538-1543.

[12] DengJ, DongW, SocherR, et al. ImageNet: a large-scale hierarchical image database[C]∥2009 IEEE Conference on Computer Vision and Pattern Recognition, June 20-25, 2009, Miami, FL, USA. New York: IEEE Press, 2009: 248-255.

[13] HeK M, ZhangX Y, RenS Q, et al. Deep residual learning for image recognition[C]∥2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 27-30, 2016, Las Vegas, NV, USA. New York: IEEE Press, 2016: 770-778.

[14] MiaoJ X, WuY, LiuP, et al. Pose-guided feature alignment for occluded person re-identification[C]∥2019 IEEE/CVF International Conference on Computer Vision (ICCV), October 27-November 2, 2019, Seoul, Korea (South). New York: IEEE Press, 2020: 542-551.

[15] KalayehM M, BasaranE, GökmenM, et al. Human semantic parsing for person re-identification[C]∥2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition, June 18-23, 2018, Salt Lake City, UT, USA. New York: IEEE Press, 2018: 1062-1071.

[16] ParkJ, WooS, LeeJ Y, et al. BAM: bottleneck attention module[EB/OL]. (2018-07-18)[2023-06-19]. https://arxiv.org/abs/1807.06514.

[17] WooS, ParkJ, LeeJ Y, et al. CBAM: convolutional block attention module[M]∥FerrariV, HebertM, SminchisescuC, et al. Computer vision-ECCV 2018. Lecture notes in computer science. Cham: Springer, 2018, 11211: 3-19.

[18] YeM, ShenJ B, CrandallD J, et al. Dynamic dual-attentive aggregation learning for visible-infrared person re-identification[M]∥VedaldiA, BischofH, BroxT, et al. Computer vision-ECCV 2020. Lecture notes in computer science. Cham: Springer, 2020, 12362: 229-247.

[19] Liu H J, Tan X H, Zhou X C. Parameter sharing exploration and hetero-center triplet loss for visible-thermal person re-identification[J]. IEEE Transactions on Multimedia, 2021, 23: 4414-4425.

[20] LuoH, GuY Z, LiaoX Y, et al. Bag of tricks and a strong baseline for deep person re-identification[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition Workshops (CVPRW), June 16-17, 2019, Long Beach, CA, USA. New York: IEEE Press, 2020: 1487-1495.

[21] FuC Y, HuY B, WuX, et al. CM-NAS: cross-modality neural architecture search for visible-infrared person re-identification[C]∥2021 IEEE/CVF International Conference on Computer Vision (ICCV), October 10-17, 2021, Montreal, QC, Canada. New York: IEEE Press, 2022: 11803-11812.

[22] Nguyen D T, Hong H G, Kim K W, et al. Person recognition system based on a combination of body images from visible light and thermal cameras[J]. Sensors, 2017, 17(3): 605.

[23] Moon H, Phillips P J. Computational and performance aspects of PCA-based face-recognition algorithms[J]. Perception, 2001, 30(3): 303-321.

[24] Laurens V D M, Hinton G. Visualizing data using T-SNE[J]. Journal of Machine Learning Research, 2008, 9(2605): 2579-2605.

[25] SelvarajuR R, CogswellM, DasA, et al. Grad-CAM: visual explanations from deep networks via gradient-based localization[C]∥2017 IEEE International Conference on Computer Vision (ICCV), October 22-29, 2017, Venice, Italy. New York: IEEE Press, 2017: 618-626.

[26] WangZ X, WangZ, ZhengY Q, et al. Learning to reduce dual-level discrepancy for infrared-visible person re-identification[C]∥2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 15-20, 2019, Long Beach, CA, USA. New York: IEEE Press, 2020: 618-626.

[27] ChoiS, LeeS M, KimY, et al. Hi-CMD: hierarchical cross-modality disentanglement for visible-infrared person re-identification[C]∥2020 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 13-19, 2020, Seattle, WA, USA. New York: IEEE Press, 2020: 10254-10263.

[28] Zhang D M, Zhang Z Z, Ju Y, et al. Dual mutual learning for cross-modality person re-identification[J]. IEEE Transactions on Circuits and Systems for Video Technology, 2022, 32(8): 5361-5373.

[29] LiuJ L, SunY F, ZhuF, et al. Learning memory-augmented unidirectional metrics for cross-modality person re-identification[C]∥2022 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 18-24, 2022, New Orleans, LA, USA. New York: IEEE Press, 2022: 19344-19353.

[30] 王凤随, 闫涛, 刘芙蓉, 等. 融合子空间共享特征的多尺度跨模态行人重识别方法[J]. 电子与信息学报, 2023, 45(1): 325-334.

    Wang F S, Yan T, Liu F R, et al. Multi-scale cross-modal pedestrian re-recognition method integrating subspace sharing features[J]. Journal of Electronics & Information Technology, 2023, 45(1): 325-334.

张阔, 范馨月, 李嘉辉, 张干. 基于掩模重构与动态注意力的跨模态行人重识别[J]. 激光与光电子学进展, 2024, 61(10): 1015001. Kuo Zhang, Xinyue Fan, Jiahui Li, Gan Zhang. Cross-Modal Person Re-Identification Based on Mask Reconstruction with Dynamic Attention[J]. Laser & Optoelectronics Progress, 2024, 61(10): 1015001.

本文已被 1 篇论文引用
被引统计数据来源于中国光学期刊网
引用该论文: TXT   |   EndNote

相关论文

加载中...

关于本站 Cookie 的使用提示

中国光学期刊网使用基于 cookie 的技术来更好地为您提供各项服务,点击此处了解我们的隐私策略。 如您需继续使用本网站,请您授权我们使用本地 cookie 来保存部分信息。
全站搜索
您最值得信赖的光电行业旗舰网络服务平台!