多元信息聚合的人群密度估计与计数

人群密度估计与计数是指对拥挤场景中人群分布及数量进行统计，对安全系统、交通控制等具有重要意义。针对高密度图像在人群密度估计中特征提取困难、空间语义信息获取较难、特征融合不充分等问题，本文提出一种多元信息聚合人群密度估计方法（Multivariate information aggregation，MIA）。首先，设计多元信息提取网络，采用VGG-19作为骨架网络提高特征提取深度，利用多层语义监督策略编码低层特征方式提高低层特征的语义表达，通过空间信息嵌入丰富高层特征空间信息表征；其次，设计多尺度上下文信息聚合网络，通过两个带有步长卷积的轻量级空洞空间金字塔池化（Simplify-atrous spatial pyramid pooling，S-ASPP）结构在进行全局多尺度上下文信息聚合的同时缓解模型参数冗余；最后，网络末端采用步长卷积，在不影响精度的前提下加快网络运行速度。采用ShanghaiTech、UCF-QNRF、NWPU数据集进行对比实验，实验结果表明：在典型数据集ShanghaiTech的Part_A部分上的MAE、MSE分别为59.4、96.2，Part_B部分分别为7.7、11.9；超高密度多视角场景数据集UCF-QNRF的MAE为89.3，MSE为164.5；NWPU数据集的MAE为87.9，MSE为417.2。本文方法较对比方法性能有一定提升，且实际场景应用结果验证了本文方法效果较好。

Abstract

In crowd density estimation， the crowd distribution and quantity in a crowded scene are counted， which is vital to safety systems and traffic control. A multivariate information aggregation method is proposed herein to solve difficult feature extractions， difficult spatial semantic information acquisitions， and insufficient feature fusions in the crowd density estimation of high-density images. First， a multi-information extraction network is designed， where VGG-19 is used as a skeleton network to enhance the depth of feature extraction， and a multilayer semantic surveillance strategy is adopted to encode low-level features to improve the semantic representation of low-level features. Second， a multiscale contextual information aggregation network is designed based on spatial information embedded into the high-level feature space， and two lightweight spatial pyramiding structures with step-size convolution are applied to reduce the redundancy of model parameters during global multiscale context information aggregation. Finally， step convolution is performed at the end of the network to accelerate the network operation without affecting the precision. The ShanghaiTech， UCF-QNRF， and NWPU datasets are applied for a comparison experiment. The experimental results demonstrate that the MAE and MSE of Part_A of the ShanghaiTech dataset are 59.4 and 96.2， respectively， whereas those of Part_B are 7.7 and 11.9， respectively. The ultradense multiview-scene UCF-QNRF dataset indicates an MAE and MSE of 89.3 and 164.5， respectively. The high-density NWPU dataset indicates an MAE and MSE of 87.9 and 417.2， respectively. The proposed method performs better than the comparison method， as indicated by actual application results.

1 引　言

随着我国人口的快速增长和城市化进程加快，大型人群聚集活动日益增多，这同时也带来了诸如人员拥挤导致踩踏事故、上班高峰交通调度压力等各种问题。因此，人群密度估计与计数已经成为公共安全领域的一个重要研究课题^［1］。

目前，图像人群计数方法可分为基于检测的方法^［2-3］和基于回归的方法^［4-5］。基于检测的方法主要通过类似滑动窗口探测器检测图像中人员全身或者诸如脸、头等局部位置实现人群的计数，但随着图像中人员数量及遮挡现象的逐步加剧，检测效果明显下降^［6-7］。基于回归的方法通过学习图像特征到人群数量之间的映射关系建立回归模型，预测人群数量^［8］。进一步划分，可分为传统回归方法与深度学习回归方法。传统回归方法仅采用整体图像特征，导致图像空间和语义信息缺失，特征提取能力弱，无法满足密度逐渐增长的计数任务对精度的要求^［9］。

近年来，卷积神经网络（Convolutional Neural Network，CNN）凭借出色的深层特征获取能力，在计算机视觉领域发展迅速^［10-11］，研究人员也将其应用于人群计数领域，并取得了较好的效果^［12-13］。2015年，Wang等^［14］首次提出适用于高密度人群的端到端CNN回归模型，但所提模型未考虑人群规模的变化，无法兼顾高低密度人群，导致在将该模型部署于新场景中时，计数精度明显下降。Zhang等^［15］对算法模型跨场景使用时性能大幅度下降问题进行了研究，提出了一种多列结构人群计数网络，通过多列CNN结构，利用不同大小感受野并行提取行人多尺度信息，从而提高计数的准确性；在此基础上，MCNN^［16］、Switching CNN^［17］、MSCNN^［18］等多列结构相继被提出，然而，由于多列结构每一列具有相似的学习功能，使其存在结构冗余现象，造成尺度信息提取效率及精度不尽人意。相较于多列结构，文献［19-22］提出利用单列结构获取图像特征的方法，在保证精度的同时提升网络的运算速度；但单列结构对空间信息和深层特征提取能力相对较弱，不能很好地适应视角变化带来的空间信息丢失以及遮挡带来的语义信息不足的问题，导致其在高密、多视角的人群场景下检测效果不稳定。

信息聚合是解决视角变化与遮挡问题的有效途径。文献［20］利用上下文空间金字塔对图像的局部和整体进行信息聚合，将全局上下文信息引入特征图中，提升密度图生成质量；但该方法并不能有效处理人数分布变化及图像特征信息丢失问题。Liu等^［21］提出可感知尺度上下文网络（Context-Aware Network， CAN），通过聚合从多个不同大小感受野中提取的特征，获取了丰富的空间位置信息；但其特征提取能力及特征融合效率较低，应用于较密场景时效果不佳。文献［22］将主干网络的高低层特征直接融合，辅以通道注意力模块优化特征融合过程，利用空洞卷积扩大感受野、回归密度图；有效解决了透视导致的尺度多样性问题，但在特征融合时未考虑高低层特征之间的语义差距，精度仍有进一步提升的空间。文献［23］利用从“上-左-右-下”方向对视角变化进行信息编码，通过递进聚合方式捕获深层次全局上下文信息，同步提取多维度视角的尺度关系特征；在有效地解决视角问题的同时取得了较高的精度，但过于冗余的网络结构造成模型复杂度上升，网络运行速度减慢。

基于上述分析，本文提出了一种多元信息聚合的人群密度估计方法（Multivariate information aggregation，MIA）。首先，在特征提取部分，采用VGG-19作为骨架网络提取初始特征，利用多层语义监督策略提升低层特征质量，采用空间信息嵌入策略优化高层特征空间表征能力。其次，在信息聚合部分，设计双步长卷积轻量空洞空间金字塔池化结构（Simplify-atrous spatial pyramid pooling，S-ASPP）增大网络感受野，捕获丰富的上下文关系，利用逐点卷积与具有不同扩张率的步长卷积在保留ASPP特征聚合能力的同时降低网络冗余。最后，网络末端采用步长卷积进行上采样回归密度图，在保证精度的同时降低计算量。

2 多元信息聚合人群密度估计与计数

高效多语义空间信息聚合人群密度估计网络结构如图1所示，包括多元信息提取（Multivariate information extraction，MIE）部分、多尺度上下文信息聚合（Multi-scale context information aggregation，MCIA）部分及密度图回归部分。多元信息提取部分用于高低层特征的优化；多尺度上下文信息聚合部分用于丰富感受野，实现高低层特征的有效融合。

图 1. 高效多语义空间信息聚合人群密度估计网络结构

Fig. 1. Network structure of efficient multi-semantic spatial information aggregation crowd density estimation

下载图片查看所有图片

2.1　多元信息提取网络

通常，低层特征含有丰富的空间细节但缺乏语义信息，高层特征含有丰富的语义信息但缺乏空间信息。将高低层特征进行直接融合是获得空间、语义信息全面性表达的常用手段。然而，这种直接融合的方式忽略了高低层特征之间语义层次和空间层次的差异，融合效果不佳，特征利用率较低。文献［24］证明，通过将更多语义信息引入低层特征或将更多空间信息嵌入高层特征可有效增强特征融合效果。基于此，本文提出一个如图2所示的高效多语义特征提取网络，用于强化高低层特征，为后续特征融合奠定基础。主要包括三部分：骨架网络VGG-19、多层语义监督策略（Multi Semantic Supervision，MSS）与空间信息嵌入策略（Spatial Embedding，SE）。

图 2. 高效多语义特征提取网络

Fig. 2. Efficient multi-semantic feature extraction network

下载图片查看所有图片

VGG-16网络架构对大部分物体检测提供了较为合适的感受野且易于捕获细节信息，是目前人群密度估计常用骨架网络之一。但对于高密度图像，VGG-16细节特征挖掘能力略显不足。因此，本文选择与VGG-16网络结构类似但有着更深网络层数的VGG-19网络获取更优的初始特征。实验证明，去除VGG-19网络全连接层对人群计数精度影响不大，且可有效降低网络参数，故本文采用去除全连接层的VGG-19作为骨架网络，在获取深层特征的同时缓解网络冗余。

低层特征含有较多的位置、细节信息，但语义性低、噪声较多。针对此问题，本文提出如图2所示的多层语义监督策略MSS处理低层特征，设计三个语义监督模块（Semantic Supervision，SS）附着在VGG-19骨干网络的第2、4、6层，实现对骨干网络低层特征的优化。MSS和SE执行结果如图3所示，将图1中的示意图像作为输入，以其第2层特征图为例，说明SS模块的执行过程。首先通过一个3×3卷积和一个1×1卷积细化特征图输出，输出的特征图分别如图3（c）、3（d）所示，降低特征映射维数，增强特征细节表达；之后通过一个全局平均池化降低参数量，整合全局空间信息，形成语义边界约束，降低噪声干扰，生成带有部分语义信息的高质量低层特征。对其他层采取相似操作，组合各层输出，形成最终富含语义信息的高质量低层特征。

图 3. MSS与SE执行结果

Fig. 3. Execution results of MSS and SE

下载图片查看所有图片

随着卷积层数加深，网络在获取富含语义信息的高层特征的同时也损失了较多的空间信息。如本文使用的VGG-19网络在第13层时特征图尺寸仅为输入图像的1/16。融合低层特征是为高层特征补充空间信息的有效途径之一，但直接融合的方式会因为特征图空间分辨率重叠度低带来部分语义信息损失。因此，为强化高层特征的空间表征能力，本文提出如图2中所示的空间信息嵌入策略SE。通过对VGG-19第13层特征采用双线性插值上采样，如图3（f）所示，将通道尺寸缩放至与第6层相同维度，进而将第6层特征与上采样后的特征逐元素相乘，优化特征融合方式，为高层特征补充空间信息的同时缓解因融合带来的语义信息损失，获取强化高层特征（High-level feature）。

2.2　全局多尺度上下文信息聚合网络

捕捉丰富的上下文关系有助于网络对复杂场景的理解，是缓解人群密度估计中视角多变、遮挡以及尺度变换问题的有效途径。但在高密人群图像中，随着目标数量的增多，图像之间关联剧增，上下文信息在提升回归精度的同时，也无法避免地增加了模型计算量，制约了算法的实际应用部署与落地。因此，如何高效聚合多尺度上下文信息是实现高密人群密度估计的核心。本文提出如图4所示全局多尺度上下文信息聚合网络，通过两个轻量级空洞空间金字塔池化（Simplify-atrous spatial pyramid pooling，S-ASPP）模块逐级渐进捕获并融合低、高层特征不同尺度的上下文信息，在保证有限计算成本的前提下增强特征的全局性表达。为方便表述，将两个S-ASPP模块分别记作S1-ASPP、S2-ASPP。

图 4. 全局多尺度上下文信息聚合网络

Fig. 4. Multi-scale context information aggregation network

下载图片查看所有图片

2.2.1　S-ASPP模块

文献［25］提出空洞空间金字塔池化（Atrous spatial pyramid pooling，ASPP）思想，通过不同采样率的空洞卷积对特征图并行采样，扩张感受野，获取不同尺度的上下文信息。但ASPP在特征映射过程中信道占比较大，造成计算量高，模型冗余。基于此，本文设计轻量化空洞空间金字塔池化S-ASPP结构，以S1-ASPP为例：首先通过4个核大小为1的逐点卷积层，对多元信息提取网络得到的高层特征进行通道降维，执行信道信息交互；其次，采用类Inception结构，采用步长卷积（章节2.2.2予以详述）减小模型冗余，以1、6、12、18扩张率方式丰富特征图感受野，捕获更多上下文信息；最后，对处理后的特征图进行融合操作，增强特征的全局性表达。

2.2.2　步长卷积

空洞卷积（Atrous Convolution）是常用的上采样方法之一，常规空洞卷积计算复杂度与计算代价较大。本文采用一种改进的空洞卷积，简化空洞卷积计算步骤，降低运行步长，其可被称作“步长卷积”。本文对具有同等空洞率的空洞卷积与步长卷积进行对比分析，验证步长卷积在卷积运算上的优势。

空洞卷积（以空洞率为2举例）在计算的过程中可以分为图5中所示的三步，图1中的示意图像执行空洞卷积操作的结果如图6所示。

图 5. 空洞率为2的空洞卷积计算过程图

Fig. 5. Calculate process of atrous convolution with rate 2

下载图片查看所有图片

图 6. 空洞率为2的空洞卷积执行结果

Fig. 6. Execution result of atrous convolution with rate 2

下载图片查看所有图片

（1）根据输入特征图像 $f_{i n}$ 的奇偶性，将其分为两部分输入特征 $f_{i n}^{0}$ 、 $f_{i n}^{1}$ ；

（2）利用相同的卷积层处理特征 $f_{i n}^{0}$ 、 $f_{i n}^{1}$ ，得到两部分输出特征 $f_{o u t}^{0}$ 、 $f_{o u t}^{1}$ ；

（3）合并两部分输出特征，得到最终的输出结果 $f_{o u t}$ 。

步长卷积计算过程等效于如图7中两步：

图 7. 步长卷积计算过程

Fig. 7. Calculation process of step size convolution

下载图片查看所有图片

（1）对输入特征 $f_{i n}$ 进行正则卷积，得到中间特征 $f_{m}$ ；

（2）移除带有奇数的元素，得到输出特征 $f_{o u t}$ 。

由上述步骤描述可知，步长卷积相较于常规空洞卷积有着参数量少的优点，且步长卷积在此过程中并未因参数量降低而影响密度图输出质量，只是等效的简化了空洞卷积的计算过程，因此在S-ASPP模块中使用步长卷积进行上采样操作，有效缓解了网络的冗余。

在网络末端进行密度图回归时，也需要进行上采样操作回归密度图，为进一步降低网络冗余，本文使用步长卷积执行密度图回归中的上采样任务。因方法一致，此处不再进行赘述。

3 实验结果与分析

本文及对比算法实验均在Ubuntu系统下进行，GPU型号为GTX2080Ti，实验软件环境配置为CUDA10.2+anaconda3.7+Python3.7+pytorch1.8。本文算法所有层均使用标准差为0.01的高斯分布初始化，网络初始训练学习率为10^-⁴，迭代次数为1 200。

3.1　评价指标

人群密度估计领域的大部分研究均采用平均绝对误差（Mean Absolute Error，MAE）和均方误差（Mean Square Error，MSE）作为评价指标。为了能够较好地进行实验对比分析，本文也使用平均绝对误差和均方误差作为评价指标。

MAE反映网络预测人数与图像真值人数之间的误差，MSE描述网络预测人数与图像真值人数之间的差异程度，其定义分别为：

f_{M A E} = \frac{1}{N^{'}} \sum_{i^{'} = 1}^{N^{'}} |C_{i^{'}} - C_{i^{'}}^{G T}|

f_{M S E} = \sqrt[]{\frac{1}{N^{'}} \sum_{i^{'} = 1}^{N^{'}} (C_{i^{'}} - C_{i^{'}}^{G T})^{2}}

其中： $N^{'}$ 为测试图像数量， $C_{i^{'}}$ 为第 $i^{'}$ 幅测试图像的预测人数， $C_{i^{'}}^{G T}$ 为第 $i^{'}$ 幅测试图像的真实人数。

3.2　ShanghaiTech数据集实验与分析

ShanghaiTech数据集^［16］是人群密度估计与计数领域的典型数据集，包含1 198幅图像，共计330 165个已标记人头。数据集共分为两部分，Part_A和Part_B。Part_A包含482幅图像，来源于互联网；Part_B包含716幅图像，来源于上海的街道，含有较多稀疏人群场景。本文将Part_A的300幅和Part_B的400幅图像用于训练，其余用于测试。ShanghaiTech数据集单幅图像实验结果如图8所示，多算法性能指标结果对比如表1所示。

图 8. ShanghaiTech数据集实验结果

Fig. 8. Experimental results of ShanghaiTech

下载图片查看所有图片

表 1. ShanghaiTech数据集多算法性能指标结果对比

Table 1. Comparison of performance index results of multiple algorithm on ShanghaiTech

Method	Part_A		Part_B
Method	MAE	MSE	MAE	MSE
MCNN^［16］	110.2	173.2	26.4	41.3
Switch-CNN^［17］	90.4	135.0	21.6	33.4
CSRNet^［19］	68.2	115.0	10.6	16.0
DUBNet^［26］	64.6	106.8	7.7	12.5
CAN^［21］	62.3	100	7.8	12.2
FF-CAM^［22］	71.0	109.8	10.3	15.8
HLMMNet^［23］	-	-	8.1	13.2
Ours	59.4	96.2	7.7	11.9

查看所有表

由ShanghaiTech数据集实验结果可知，在Part_A中，本文算法MAE与文献［21］方法相比下降了2.9，MSE下降了3.8；在Part_B部分，与文献［21］方法相比，MAE下降了0.1，MSE下降了0.3，提升幅度较Part_A小。这主要由于本文多元信息提取方法侧重提升高密场景特征捕获能力，故在以密集人群为主的Part_A部分效果较好，而在以稀疏人群为主的Part_B部分检测精度虽有所提升，但提升幅度略小。

3.3　UCF-QNRF数据集实验与分析

近年来，人们越来越关注高密度场景的计数性能，用于超高密度场景计数性能评价的数据集UCF-QNRF^［27］随之被提出。UCF-QNRF数据集拍摄于真实场景，包含建筑、植被、天空和道路等多样化背景，同时具有视角、密度、光照变化多样的特点。UCF-QNRF数据集包含1 535张图像，本文将其中1 201张用于训练和334张用于测试。UCF-QNRF数据集单幅图像实验结果如图9所示，多算法性能指标结果对比如表2所示。

图 9. UCF-QNRF数据集实验结果

Fig. 9. Experimental results of UCF-QNRF

下载图片查看所有图片

表 2. UCF-QNRF数据集多算法性能指标结果对比

Table 2. Comparison of performance index results of multiple algorithms in UCF-QNRF

Method	MAE	MSE
MCNN^［16］	277	426
Switch-CNN^［17］	228	445
CAN^［21］	107	183
DUBNet^［26］	105.6	180.5
SFCN^［28］	102.0	171.4
FF-CAM^［22］	114.5	200.5
Ours	89.3	164.5

查看所有表

由实验结果可知，在UCF-QNRF数据集中，本文所提方法与文献［28］方法相比，MAE降低12.7、MSE降低6.9，相较于其他算法均有提升。此外，UCF-QNRF数据集包含多元场景，导致视角、密度、光照变化多样，而实验结果表明，本文所提信息聚合方法能有效缓解上述因素带来的影响，对多元复杂场景具有较好的鲁棒性。

3.4　NWPU数据集实验与分析

NWPU数据集^［29］是由Wang等人公开，目前为止在人群密度估计领域数据量最大、密度等级最高的数据集，拥有5 109张图片和2 133 238个标注实体；内含部分负样本，比如极高密度的人群，这样可以提高训练模型的鲁棒性；图片的分辨率相比其他数据集更高，且单张图片的标注实体数量范围非常大，区间是［0，200 33］。本文将NWPU的4 100张图片用于进行训练，其余用于测试。NWPU数据集单幅图像实验结果如图10所示，多算法性能指标结果对比如表3所示。

图 10. NWPU数据集实验结果

Fig. 10. Experimental results of NWP

下载图片查看所有图片

表 3. NWPU数据集多算法性能指标结果对比

Table 3. Comparison of performance index results of multiple algorithms in the NWPU

Method	Val		Test
Method	MAE	MSE	MAE	MSE
MCNN^［16］	218.5	700.6	232.5	714.6
CSRNet^［19］	104.8	433.4	121.3	387.8
CAN^［21］	93.5	489.9	106.3	386.5
SFCN^［28］	95.4	608.3	105.4	424.1
BL^［30］	93.6	470.3	105.4	454.2
HLMMNet^［23］	89.3	431.2	103.0	433.2
Ours	87.9	417.2	101.2	418.5

查看所有表

由表3可知，本文方法较对比方法均有一定提升。与文献［23］方法相比，本文方法在Val验证集下的MAE降低1.4、MSE降低14.0，Test测试集下的MAE降低1.8、MSE降低14.7。验证了本文方法对NWPU数据集中密度等级较高的场景保持有较好的检测能力，且对于NWPU数据集中较高分辨率图像同时具有稳定的检测效果，表明本文算法在高密、高分辨率数据下具有良好鲁棒性。

3.5　消融实验与速度对比分析

本文在人群密集程度较高、数据量较大、代表性强的NWPU数据集上进行MIE消融实验、MCIA消融实验、模型大小与算法速度对比实验。

通过不采用MIE、单独采用多层语义监督策略MSS、单独采用空间信息嵌入策略SE、同时采用两种策略这四个实验，验证MIE及其各模块的有效性，实验结果如表4所示。可以看出，采用多层语义监督策略MSS，Val验证集MAE、MSE分别降低1.7、12.9，Test测试集MAE、MSE分别降低2.4、15.1，验证了多层语义监督策略的有效性；采用空间信息嵌入策略SE，Val验证集MAE、MSE分别降低1.2、11.0，Test测试集MAE、MSE分别降低0.6、11.4，验证了空间信息嵌入策略的有效性；同时采用MSS、SE策略，Val验证集MAE、MSE分别降低了4.0、44，Test测试集MAE、MSE分别降低9.1、52.3，计数精度提升幅度明显，说明多层语义监督策略、空间信息嵌入策略从不同角度提高了特征的表达能力，证明了本文多元信息提取网络MIE的有效性。

表 4. MIE消融实验结果

Table 4. Ablation results of MIE

Method	Val		Test
Method	MAE	MSE	MAE	MSE
Ours（without MIE）	91.9	461.2	110.3	470.8
Ours （with MSS）	90.2	448.3	107.9	455.7
Ours （with SE）	90.7	450.2	109.7	459.4
Ours（with MSS and SE）	87.9	417.2	101.2	418.5

查看所有表

令S-ASPP模块分别采用步长卷积、同等扩张率的空洞卷积，通过对比算法精度、速度的差异，验证多尺度上下文信息聚合MCIA与步长卷积的有效性；同时，从训练模型参数量大小、模型运行速度两方面与先进算法进行对比实验，验证本文算法在速度上的优势，实验结果如表5所示。

表 5. MCIA消融实验、模型大小与算法速度实验结果

Table 5. Results of MCIA ablation experiment， model size and algorithm speed

Method	Val		Test		Model size/MB	Average running speed of test image /s
Method	MAE	MSE	MAE	MSE	Model size/MB	Average running speed of test image /s
MCNN^［16］	218.5	700.6	232.5	714.6	19.2	2.8
CSRNet^［19］	104.8	433.4	121.3	387.8	16.2	2.1
MDPMIF^［23］	89.5	451.9	108.0	459.3	21.4	2.3
HLMMNet^［23］	89.3	431.2	103.0	433.2	28.7	2.6
Ours （空洞卷积）	87.5	416.9	100.7	418.3	27.3	2.5
Ours （步长卷积）	87.9	417.2	101.2	418.5	14.2	1.9
Ours （步长卷积单S-ASPP）	89.6	427.0	110.8	437.8	13.4	1.7

查看所有表

本文在表5后三行分析对比了空洞卷积、步长卷积及步长卷积单S-ASPP模块三种不同情况嵌入至MCIA的精度与模型复杂度差异，由“Ours（空洞卷积）”与“Ours（步长卷积）”两种情况的对比结果可知，相比空洞卷积，使用步长卷积后MAE和MSE变化不大，但模型大小降低了约48.0%，运行速度增加了24%，验证了步长卷积在降低算法冗余上的优势；由“Ours （步长卷积）”与“Ours （步长卷积单S-ASPP）”两种情况的对比结果可知，可以发现，通过增加一个S-ASPP模块，算法MAE和MSE下降程度明显，模型大小上升幅度较小，验证了双S-ASPP结构的有效性，证明了本文MCIA特征聚合方法的优势。

由表5总体可知，MCNN模型采用了多列结构，导致模型参数量高，运行速度较慢。相较而言，采用单列结构的CSRNet网络，结构简单，运行速度较快。文献［23］所提的HLMMNet虽然也是单列结构，但其信息聚合的方式在提升网络精度的同时也带来了模型的冗余。相比之下，本文方法在信息聚合部分采取更加高效轻量的步长卷积，有效降低了特征聚合时带来的冗余参数，且采用双S-ASPP结构，在速度与精度上均取得了较好的结果。

进一步地，以图1中的示意图像为输入图像，分析图11所示S1-ASPP、S2-ASPP捕获到的多尺度特征，验证全局多尺度上下文信息聚合网络MCIA逐级渐进捕获并融合低、高层特征不同尺度上下文信息的有效性。

图 11. S1-ASPP、S2-ASPP捕获到的多尺度特征

Fig. 11. Multiscale features captured by S1-ASPP、S2-ASPP

下载图片查看所有图片

图11中，P1、P2、P3、P4为S1-ASPP获得的具有不同感受野的特征图，P5为融合P1至P4得到高层特征图；C1、C2、C3、C4为S2-ASPP各层级输出结果，C5为融合C1至C4得到特征图，获取过程与S1-ASPP类似。可以看出，S1-ASPP、S2-ASPP通过多扩张率方式丰富了感受野，获得了更多的上下文信息；S1-ASPP各级特征更关注图像整体的变化，偏重深层语义信息的挖掘，S2-ASPP各级特征则更侧重图像局部细节的表征，对空间位置信息较为敏感。融合特征P5、C5，得到的特征图M包含丰富的全局多尺度上下文信息，可提升算法对人群密度的估计能力。

3.6　实际应用实验

人群密度估计与计数在公共安全领域有着极大的应用价值，对于突发性聚集活动，如非法抗议、节日活动、疫情防控、车站人流控制等场景发挥着巨大的作用，为验证本文算法的泛化能力与实际应用效果，本文对现实生活中实际聚集性场景进行实验与分析，实验结果如图12和图13所示。

图 12. 高密聚集场景检测结果

Fig. 12. Detection results in high-density crowd gathering scenes

下载图片查看所有图片

图 13. 大型活动场景检测结果

Fig. 13. Results of detecting big events

下载图片查看所有图片

由图12可知，本文算法在密度区域划分及人数统计方面均表现优异，且对于不同的拍摄高度、角度均效果稳定。在此类异常聚集活动中，人数及密度区域准确高效检测可为维护公共安全提供有力的数据支撑，为快速高效的应急处理提供助力。

由图13可知，本文算法对不同密度区域的大型活动场景保持较好的稳定性，同时，可利用人群计数结果，为会场高效分配资源。并且，通过密度图人群分布结果可较好的反映出相应的队列整齐程度，为大型表演的彩排提供助力。

4 结　论

针对人群密度较高且有大量的背景干扰、多语义空间信息及人群特征提取困难的问题，本文设计多元信息聚合的人群密度估计方法，以VGG-19作为骨架网络，利用多层语义监督策略及空间信息嵌入策略提升高低层特征质量；而后，设计双S-ASPP结构捕获全局多尺度上下文信息；最终，在网络后端使用步长卷积进行密度图回归，进一步减少网络参数，提升网络运行速度。实验结果证明：典型数据集ShanghaiTech的Part_A部分MAE为59.4，MSE为96.2；Part_B部分MAE为7.7，MSE为11.9。超高密度多视角场景数据集UCF-QNRF的MAE为89.3，MSE为164.5。高密度等级数据集NWPU的MAE为87.9，MSE为417.2。此外，本文在现实场景中进行了实际应用实验，算法稳定性良好。实验结果表明，本文模型在不同人群场景、视角、密度等级下都具有较好的性能，泛化能力较强。

参考文献

[1] LIX， CHENM， NIEF， et al. A multiview-based parameterfree framework for group detection［C］. Thirty-First AAAI Conference on Artificial Intelligence.49，2017， San Francisco， California USA .2017：4147-4153

[2] LIN S F, CHEN J Y, CHAO H X. Estimation of number of people in crowded scenes using perspective transformation[J]. IEEE Transactions on Systems, Man, and Cybernetics - Part A: Systems and Humans, 2001, 31(6): 645-654.

[3] ZHAO T, NEVATIA R, WU B. Segmentation and tracking of multiple humans in crowded environments[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2008, 30(7): 1198-1211.

[4] VIOLA P, JONES M J, SNOW D. Detecting pedestrians using patterns of motion and appearance[J]. International Journal of Computer Vision, 2005, 63(2): 153-161.

[5] KILAMBI P, RIBNICK E, JOSHI A J, et al. Estimating pedestrian counts in groups[J]. Computer Vision and Image Understanding, 2008, 110(1): 43-59.

[6] 左静，巴玉林. 基于多尺度融合的深度人群计数算法［J］. 激光与光电子学进展， 2020， 57（24）： 241502. doi: 10.3788/lop57.241502ZUOJ， BAY L. Population-depth counting algorithm based on multiscale fusion［J］. Laser & Optoelectronics Progress， 2020， 57（24）： 241502.（in Chinese）. doi: 10.3788/lop57.241502

[7] 赵建敏，李雪冬，李宝山. 基于无人机图像的羊群密集计数算法研究［J］. 激光与光电子学进展， 2021， 58（22）： 2210013.ZHAOJ M， LIX D， LIB S. Algorithm of sheep dense counting based on unmanned aerial vehicle images［J］. Laser & Optoelectronics Progress， 2021， 58（22）： 2210013.（in Chinese）

[8] IDREESH， TAYYABM， ATHREYK， et al. Composition loss for counting， density map estimation and localization in dense crowds［C］.Proceedings of the European Conference on Computer Vision （ECCV）.814， Munich， Germany.2018： 532-546. doi: 10.1007/978-3-030-01216-8_33

[9] RODRIGUEZM， LAPTEVI， SIVICJ， et al. Density-aware person detection and tracking in crowds［C］. 2011 International Conference on Computer Vision. 613，2011， Barcelona， Spain. IEEE， 2011： 2423-2430. doi: 10.1109/iccv.2011.6126526

[10] 慕晓冬，白坤，尤轩昂，等. 基于对比学习方法的遥感影像特征提取与分类［J］. 光学精密工程， 2021， 29（9）： 2222-2234. doi: 10.37188/OPE.20212909.2222MUX D， BAIK， YOUX A， et al. Remote sensing image feature extraction and classification based on contrastive learning method［J］. Opt. Precision Eng.， 2021， 29（9）： 2222-2234.（in Chinese）. doi: 10.37188/OPE.20212909.2222

[11] 周涛，霍兵强，陆惠玲，等. 融合多尺度图像的密集神经网络肺部肿瘤识别算法［J］. 光学精密工程， 2021， 29（7）： 1695-1708. doi: 10.37188/OPE.20212907.1695ZHOUT， HUOB Q， LUH L， et al. Lung tumor image recognition algorithm with densenet fusion multi-scale images［J］. Opt. Precision Eng.， 2021， 29（7）： 1695-1708.（in Chinese）. doi: 10.37188/OPE.20212907.1695

[12] REN S Q, HE K M, GIRSHICK R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[13] 常亮，邓小明，周明全，等. 图像理解中的卷积神经网络［J］. 自动化学报， 2016， 42（9）： 1300-1312. doi: 10.16383/j.aas.2016.c150800CHANGL， DENGX M， ZHOUM Q， et al. Convolutional neural networks in image understanding［J］. Acta Automatica Sinica， 2016， 42（9）： 1300-1312.（in Chinese）. doi: 10.16383/j.aas.2016.c150800

[14] WANGC， ZHANGH， YANGL， et al. Deep people counting in extremely dense crowds［C］. Proceedings of the 23rd ACM international conference on Multimedia. Brisbane Australia. New York， NY， USA： ACM， 2015： 1299-1302. doi: 10.1145/2733373.2806337

[15] ZHANGC， LIH S， WANGX G， et al. Cross-scene crowd counting via deep convolutional neural networks［C］. 2015 IEEE Conference on Computer Vision and Pattern Recognition. 712，2015， Boston， MA. IEEE， 2015： 833-841. doi: 10.1109/cvpr.2015.7298684

[16] ZHANGY Y， ZHOUD S， CHENS Q， et al. Single-image crowd counting via multi-column convolutional neural network［C］. 2016 IEEE Conference on Computer Vision and Pattern Recognition. 2730，2016， Las Vegas， NV， USA. IEEE， 2016： 589-597. doi: 10.1109/cvpr.2016.70

[17] SAMD B， SURYAS， BABUR V. Switching convolutional neural network for crowd counting［C］. 2017 IEEE Conference on Computer Vision and Pattern Recognition. 2126，2017， Honolulu， HI， USA. IEEE， 2017： 4031-4039. doi: 10.1109/cvpr.2017.429

[18] ZENGL K， XUX M， CAIB L， et al. Multi-scale convolutional neural networks for crowd counting［C］. 2017 IEEE International Conference on Image Processing. 1720，2017， Beijing， China. IEEE， 2017： 465-469. doi: 10.1109/icip.2017.8296324

[19] LIY H， ZHANGX F， CHEND M. CSRNet： dilated convolutional neural networks for understanding the highly congested scenes［C］. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 1823，2018， Salt Lake City， UT， USA. IEEE， 2018： 1091-1100. doi: 10.1109/cvpr.2018.00120

[20] SINDAGIV A， PATELV M. CNN-Based cascaded multi-task learning of high-level prior and density estimation for crowd counting［C］. 2017 14th IEEE International Conference on Advanced Video and Signal Based Surveillance. August 29 - September 1， 2017， Lecce， Italy. IEEE， 2017： 1-6. doi: 10.1109/avss.2017.8078491

[21] LIUW Z， SALZMANNM， FUA P. Context-aware crowd counting［C］. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.1520，2019， Long Beach， CA， USA. IEEE， 2019： 5094-5103. doi: 10.1109/cvpr.2019.00524

[22] 张宇倩，李国辉，雷军，等. FF-CAM：基于通道注意机制前后端融合的人群计数［J］. 计算机学报， 2021， 44（2）： 304-317. doi: 10.11897/SP.J.1016.2021.00304ZHANGY Q， LIG H， LEIJ， et al. FF-CAM： crowd counting based on frontend-backend fusion through channel-attention mechanism［J］. Chinese Journal of Computers， 2021， 44（2）： 304-317.（in Chinese）. doi: 10.11897/SP.J.1016.2021.00304

[23] 孟月波，陈宣润，刘光辉，等. 高低密度多维视角多元信息融合人群计数方法［J/OL］. 控制与决策：1-10［2022-01-16］.DOI：10.13195/j.kzyjc. 2021.0520.MENGY B， CHENX R， LIUG H， et al. High and low density multi-dimension perspective multivariate information fusion crowd counting method［J/OL］. Control and Decision： 1-10［2022-01-16］.DOI：10.13195/j.kzyjc.2021.0520.（in Chinese）

[24] ZHANGZ L， ZHANGX Y， PENGC， et al. ExFuse： Enhancing Feature Fusion for Semantic Segmentation［C］.Proceedings of the European Conference on Computer Vision（ECCV）.2018： 269-284. doi: 10.1007/978-3-030-01249-6_17

[25] CHEN L C, PAPANDREOU G, KOKKINOS I, et al. DeepLab: semantic image segmentation with deep convolutional nets, atrous convolution, and fully connected CRFs[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2018, 40(4): 834-848.

[26] OH M H, OLSEN P, RAMAMURTHY K N. Crowd counting with decomposed uncertainty[J]. Proceedings of the AAAI Conference on Artificial Intelligence, 2020, 34(7): 11799-11806.

[27] HAROONI， MUHMMADT， KISHANA， et al. Composition Loss for Counting， Density Map Estimation and Localization in Dense Crowds［C］.Proceedings of IEEE European Conference on Computer Vision （ECCV）， 814， Munich， Germany， 2018：532-546. doi: 10.1007/978-3-030-01216-8_33

[28] WANGQ， GAOJ Y， LINW， et al. Learning from synthetic data for crowd counting in the wild［C］. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition （CVPR）.1520，2019， Long Beach， CA， USA. IEEE， 2019： 8190-8199. doi: 10.1109/cvpr.2019.00839

[29] WANG Q, GAO J Y, LIN W, et al. NWPU-crowd: a large-scale benchmark for crowd counting and localization[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021, 43(6): 2141-2149.

[30] MAZ H， WEIX， HONGX P， et al. Bayesian loss for crowd count estimation with point supervision［C］. 2019 IEEE/CVF International Conference on Computer Vision （ICCV）. October 27 - November 2， 2019， Seoul， Korea （South）. IEEE， 2019： 6141-6150. doi: 10.1109/iccv.2019.00624

3.2　ShanghaiTech数据集实验与分析

刘光辉, 王秦蒙, 陈宣润, 孟月波. 多元信息聚合的人群密度估计与计数[J]. 光学精密工程, 2022, 30(10): 1228. Guanghui LIU, Qinmeng WANG, Xuanrun CHEN, Yuebo MENG. A multivariate information aggregation method for crowd density estimation and counting[J]. Optics and Precision Engineering, 2022, 30(10): 1228.