融合渐进空间金字塔的YOLOv8芒果目标检测算法研究

王宝宇; 李汉棠; 陈希用; 姚伟

doi:doi:10.3788/LOP242205

激光与光电子学进展, 2025, 62 (14): 1415002, 网络出版: 2025-06-26

融合渐进空间金字塔的YOLOv8芒果目标检测算法研究【增强内容出版】

Mango Target-Detection Algorithm Based on YOLOv8 Integrated with Adaptive Spatial Pyramid

论文大纲

王宝宇 ^1,2,*李汉棠 ^1,2陈希用 ^1,2姚伟 ^1,2

作者单位

¹ 中国热带农业科学院科技信息研究所，海南海口 571101

Institute of Scientific and Technical Information, Chinese Academy of Tropical Agricultural Sciences, Haikou 571101, Hainan , China

² 海南省热带作物信息技术应用研究重点实验室，海南海口 571101

Key Laboratory of Applied Research on Tropical Crop Information Technology of Hainan Province, Haikou 571101, Hainan , China

YOLOv8 渐进特征金字塔结构尺度变化数据增强芒果计数 YOLOv8 adaptive feature pyramid structure scale variation data augmentation mango counting

AI超清视频导读

AI一图读本文 AI语音精读 AI语音超短摘要

注：本部分内容由 AI 自动生成，仅供您参考。对于您使用本站 AI 自动生成内容所产生的一切后果，本网站及平台运营方概不承担任何商业和法律责任，请您知悉。

摘要

针对传统目标检测算法在处理多尺度目标时准确率不足的问题，提出一种基于YOLOv8网络的改进算法。通过引入渐进特征金字塔网络（AFPN），来增强模型对多尺度特征的提取能力，使其在识别不同尺寸目标时具备更高的适应性和鲁棒性。同时，结合数据增强技术与优化的训练策略，进一步提升模型的泛化能力。在多个公开数据集上进行实验，结果表明所提算法在目标检测精度方面显著优于Faster R-CNN、RetinaNet和YOLOv8原始网络结构。此外，在自制芒果数据集上的实验表明，所提方法在多尺度目标识别方面表现较突出。所提方法不仅为目标检测算法的优化提供了新思路，而且为农业及其他领域中的多尺度目标检测任务提供了有效参考。

Abstract

To address the limitations of conventional target-detection algorithms in accurately handling multi-scale targets, this paper proposes an improved algorithm based on the YOLOv8 network. The capability of the model to extract multi-scale features is enhanced by incorporating an adaptive feature pyramid network (AFPN), enabling better adaptability and robustness in identifying targets of varying sizes. The incorporation of data augmentation techniques and optimized training strategies further improves the generalization capability of the model. Experiments performed on multiple public datasets demonstrate that the proposed algorithm significantly outperforms faster region-based convolutional neural network (Faster R-CNN), RetinaNet, and the original YOLOv8 architecture in terms of detection accuracy. Furthermore, experiments on a self-made mango dataset demonstrate the outstanding performance of the proposed method in recognizing multi-scale targets. The proposed algorithm not only affords insights into optimizing object-detection algorithms but also provides an effective reference for multi-scale target-detection tasks in agriculture and other fields.

1　引言

近年来，随着我国芒果种植产业的迅速发展，发展模式也逐步从数量扩展向质量提升转变。但是，针对果实质量的管控与监测还停留在人工排查阶段，这制约了芒果产业的发展。目前，计算机视觉的发展使得果实质量监测成为一项可行的任务，涌现出越来越多的算法。

传统的水果图像识别方法主要是人工根据先验信息设计手工特征，如根据颜色、形状、纹理等特征设计特征检测器，进而使用非监督或监督分类算法进行识别计数，如K-Means聚类算法^［1］、基于密度的噪声应用空间聚类（DBSCAN）算法^［2］和高斯混合模型（GMM）^［3］，或者经典的支持向量机和K最近邻等^［4-9］。然而，受光照造成的颜色变化，以及距离、遮挡、重叠造成的形状变化的影响，算法计数的鲁棒性下降，这制约了传统水果图像识别算法的发展。但随着深度学习的兴起，研究人员逐步采用分割网络^［10-11］或检测网络^［12-13］替代传统识别方法。网络模型具有隐含的特征表达能力和较强的泛化能力，提升了检测的鲁棒性。

截至目前，国内外涌现出不少在不同领域应用的神经网络和深度学习方法^［14-16］。在水果图像识别检测应用中，Kestur等^［17］提出MangoNet，并将其应用于开放果园环境中对芒果进行识别和计数，该方法在复杂背景和遮挡条件下表现出色。Nanaa等^［18］提出结合随机霍夫变换和反向传播神经网络的芒果检测方法，有效提高了检测精度。Borgoti等^［19］利用真实果园数据集训练网络，提升了遮挡、光照变化和复杂背景下的水果检测准确率。上述方法通常从待识别芒果图像的一个尺度进行分析和处理，而尺度变化带来的计数准确性下降是水果检测面临的一大挑战。因此，本文将YOLOv8目标检测网络^［20］与多尺度特征融合模块渐近特征金字塔网络（AFPN）^［21］融合，以克服网络尺度特征单一的局限性，并通过数据增强、训练策略的优化，来提升芒果识别计数的准确性与鲁棒性。

2　芒果计数算法

YOLO目标检测网络具有多重优势。首先，在网络结构方面，YOLOv8采用新的Backbone网络、无锚点头部和改进的损失函数，有效改善小目标检测能力，显著提高检测准确率。此外，YOLOv8在检测速度方面有所突破，易于在现实场景中进行部署。综合来看，YOLOv8在网络结构设计、检测精度、检测速度和部署易用性等方面均表现优异，是一种理想的目标检测网络。

2.1　总体网络

YOLO系列检测网络将目标检测任务转化为回归问题，在单个网络中同时进行目标定位和分类，实现端到端的目标检测。检测过程中图像被划分为S×S个网格，网络预测每个网格边界框和每个边界框的类别概率。每个网格由（x， y， w， h， confidence）5个值定义，其中，（x，y）表示边界框的中心坐标，w、h分别表示边界框的宽、高，confidence表示边界框中存在目标的置信度，即单元格包含目标的概率大小，取值范围为0~1。如果网络单元格内存在目标，则该网络单元格负责检测识别该目标。整个网络通过多层卷积和池化层来提取特征，并通过全连接层输出上述边界框和类别概率。YOLOv8网络的端到端检测原理使得该网络在检测过程中具有更好的适应性和鲁棒性，总体结构包括骨干网络（Backbone）、颈部网络（Neck）、检测头（Head）3个部分，如图1所示，其中SPPF为快速空间金字塔池化。

图 1. YOLOv8网络总体结构

Fig. 1. Overall structure of YOLOv8 network

下载图片查看所有图片

2.2　主干网络

C2f模块是YOLOv8网络结构中的主要特征提取单元，旨在优化特征提取、特征增强与多层次特征的融合过程，其结构如图2所示，其中，T为True，F为False，分别表示是否启用残差链接。该模块首先通过标准卷积层对输入图像进行处理，提取基础的低层次特征，随后将生成的中间特征图分为2个部分：一部分直接传递到Concat拼接层；另一部分通过多个Bottleneck模块进一步进行深度处理。Bottleneck模块由卷积层、归一化层和非线性激活函数（如ReLU或SiLU）组成，能捕捉更复杂的局部和全局特征，特别是在处理具有不同尺度和背景复杂度的目标时效果较好。经过深度处理的特征图与直接传递的特征图在Concat层中进行拼接，这一设计能有效整合不同层次的信息，从而提升网络对多尺度物体的识别能力。

图 2. C2f模块结构

Fig. 2. Structure of C2f module

下载图片查看所有图片

模型的深度参数通过depth_multiple进行控制，可以灵活调整Bottleneck模块的数量，从而有效平衡模型的精度与计算复杂度。通过对Bottleneck块数量的调节，C2f模块可以根据不同的任务需求动态优化网络深度，使其适用于有计算资源限制的场景。此外，拼接后的特征图再经过一个额外的卷积层进行整合处理，进一步提升特征的表达能力，为后续任务提供高质量的特征输入。

2.3　改进的YOLO检测模型

在芒果检测计数实验中，当芒果图像的大小发生变化时，网络的鲁棒性会变差。此外，不同视角、距离导致的图像中芒果尺度变化也会影响检测计数的准确性。为解决这个问题，对YOLOv8网络结构进行改进，引入特征融合模块AFPN来提升不同深度下的特征提取能力，所提网络结构如图3所示。

图 3. 改进网络结构

Fig. 3. Structure of improved network

下载图片查看所有图片

AFPN是一种改进的特征金字塔网络，旨在通过多层级设计和自适应特征融合机制来显著提升目标检测性能。AFPN从主干网络（Backbone）提取不同尺度的特征图，通过上采样和下采样与特征图对齐分辨率，利用可学习的权重参数α和β动态加权融合浅层高分辨率特征与深层强语义信息，确保多尺度特征的高效利用。同时，AFPN可集成注意力机制，进一步增强特征表达能力，突出有效信息并抑制冗余特征。此外，AFPN在特征融合过程中能根据不同目标尺度和数据分布自适应地调整各特征图的贡献，确保网络在小目标检测和大目标检测中均表现优异。AFPN可输出多尺度特征金字塔，用于目标分类和边界框回归。通过合理的参数设置，如上采样方式和权重初始化，以及网络结构设计，AFPN不仅增强了对小目标的检测能力，而且平衡了不同尺度特征的表达，显著提升了目标检测的精度与泛化能力，适用于复杂场景下的检测任务。

AFPN模块的优势不仅体现在特征的高效提取和融合上，还在于其在不同网络深度下的适应性。通过多尺度信息的有效利用，AFPN模块为YOLOv8模型在复杂场景中的目标检测提供强有力的支持，使其在应对不同尺度的挑战时表现突出。AFPN的灵活性和高效率使改进YOLOv8模型在保证检测精度的同时，降低计算资源的占用，极大提升其在实际应用中的实用性。

3　实验与分析

为验证所提网络结构的有效性，在公开数据集上进行实验，并与现有的其他方法进行对比分析。此外，在实际采集制作的芒果数据集进行实验，以验证所提网络的准确性与鲁棒性。

3.1　数据集

2024年5月，在位于海南省海口市、广西壮族自治区贵港市的芒果园内进行不同品种的芒果图像采集实验，旨在构建1个丰富的芒果图像数据集。自制数据集中部分芒果图像如图4所示。以iPhone 13为拍摄设备，图像分辨率设为4032 pixel×3024 pixel，并以彩色JPEG格式保存。实验共拍摄3360幅图像，其中，3058幅为包含芒果的图像，302幅为不包含芒果的背景图像。

图 4. 自制数据集中部分图像。（a）芒果图像1；（b）芒果图像2；（c）背景图像

Fig. 4. Partial images of self-made dataset. (a) Mango image 1; (b) mango image 2; (c) background image

下载图片查看所有图片

使用图像标注软件LabelImg对图像进行详细标注，共标注24464个芒果。每幅图像的平均芒果数量为8个，单幅图像最多包含25个芒果。将构建的3360幅芒果图像按照70%为训练集、15%为验证集和15%为测试集的比例进行划分，即2352幅用于训练，504幅用于验证，504幅用于测试。不同数量芒果的图像分布有助于提升数据集的质量，从而增强模型的性能。

为更全面地评估所提模型的性能，选用公开数据集MangoSet-A^［22］、MangoSet-B^［23］和MangoSet-C^［24］进行验证。MangoSet-A数据集包含7379幅图像，分辨率为640 pixel×640 pixel，其中，6385幅用于训练，663幅用于验证，331幅用于测试。MangoSet-B数据集包含50幅图像，分辨率为640 pixel × 640 pixel，其中，35幅用于训练，10幅用于验证，5幅用于测试。MangoSet-C数据集包含1129幅图像，分辨率为224 pixel×224 pixel，其中，763幅用于训练，226幅用于验证，140幅用于测试。这些数据集覆盖了不同分辨率和规模的图像，能有效测试模型在各种实际场景中的泛化能力。各数据集的详细信息如表1所示。

表 1. 不同数据集详细信息

Table 1. Detailed information of different datasets

Dataset	Number of image	Average resolution /（pixel ×pixel）	Average count	Maximum count	Number of annotation
With mango of self-made dataset	3058	4032×3024	8.0	25	24464
Without mango of self-made dataset	302	4032×3024	0	0	0
MangoSet-A	7379	640×640	1.2	4	7351
MangoSet-B	50	640×640	2.7	12	134
MangoSet-C	1129	224×224	1.6	19	1250

查看所有表

在自制数据集构建过程中，特别考虑了尺度变化对芒果计数的影响，因此采集不同尺度的芒果图像，以增加图像的多样性。此外，将无芒果图像作为背景图像，能有效降低模型在训练过程中可能出现的过拟合问题，提升模型的泛化能力。以上方式确保了构建的自制数据集具有更好的代表性，为芒果检测和计数的实验奠定了良好的基础。

3.2　损失函数

YOLOv8目标检测网络的损失函数综合了边界框回归损失、分类损失和置信度损失，旨在同时优化定位精度和分类精度。边界框回归损失采用完全交并比（CIoU）来衡量预测框与真实框的重叠程度、中心点距离和长宽比差异，确保模型在定位时能更准确地对齐目标。边界框回归损失的计算公式为

L_{C I o U} = 1 - R_{I o U} + \frac{ρ^{2} (b, b^{g})}{c^{2}} + α v

（1）

式中： $R_{I o U}$ 为交并比（IoU）的值； $ρ^{2} (b, b^{g})$ 为真实框 $b^{g}$ 与预测框 $b$ 的中心距离； $c$ 为真实框与预测框的最小外接矩形的对角线长度； $α$ 为宽高比一致性项的权重系数； $v$ 为宽高比的一致性度量。

分类损失通常使用二值交叉熵（BCE）或焦点损失来优化类别预测，其中焦点损失通过增加难分类样本的权重来有效应对类别不平衡问题，提升检测效果。分类损失的计算公式为

L_{c l s} = - α_{t} {(1 - p_{t})}^{γ} l o g p_{t}

（2）

式中： $α_{t}$ 为类别平衡因子； $γ$ 为调节样本权重的参数； $p_{t}$ 为模型预测的第t个样本属于正类的概率。

置信度损失同样使用BCE损失，评估模型对预测框是否包含目标的信任度，从而减少误检。置信度损失的计算公式为

L_{c o n f} = - [y l o g p + (1 - y) l o g (1 - p)]

（3）

式中： $y$ 为目标标记； $p$ 为预测置信度。最终的损失函数为

L_{t o t a l} = λ_{b o x} L_{C I o U} + λ_{c l s} L_{c l s} + λ_{c o n f} L_{c o n f}

（4）

式中： $λ_{b o x}$ 、 $λ_{c l s}$ 、 $λ_{c o n f}$ 为用于平衡各部分损失在总损失中贡献的权重。在目标检测任务中，为保证定位精度，通常设边界框回归损失的权重较大，本文为7.5，而分类损失和置信度损失的权重可根据实际数据分布进行调整，本文均为0.5。在训练时，为防止某一损失主导训练过程，特别是置信度损失过高时会导致背景过拟合，需要动态调整各项损失权重，并结合损失曲线的平衡点进行优化。此外，还可以通过IoU阈值来控制正负样本的划分。在训练过程中，监控各损失的变化趋势，若发现某项损失较大且下降缓慢，可适当调整其权重或优化策略，确保各部分在不同训练阶段都能发挥最佳效果。

YOLOv8的损失函数通过多任务优化平衡各部分权重，使模型在处理尺度变化、复杂背景和类别不均衡时表现更为稳健，维持了YOLO系列的高效性与精度。

3.3　评价指标

为进一步分析芒果图像识别与计数效果，利用平均计数误差（MAE）、计数准确率（CA）对网络结果进行评价。计算公式如下：

E_{M A E} = \sqrt[]{\frac{\sum_{i = 1}^{n} {(N_{P N, i} - N_{M U N, i})}^{2}}{n}}

（5）

\bar{T} = \frac{1}{n} \sum_{i = 1}^{n} T_{i}

（6）

R_{C A} = (1 - \frac{E_{M A E}}{\bar{T}}) \times 100 %

（7）

式中： $N_{P N, i}$ 为模型预测第i幅图像中的芒果数量； $N_{M U N, i}$ 为人工计数第i幅图像中的芒果个数；n为测试集中的图像数量； $T_{i}$ 为人工统计的每幅图像的芒果数量； $\bar{T}$ 为平均每幅图像的芒果数量。

3.4　网络训练

为增强模型对尺度变化的检测能力，将采集标注的3360幅芒果图像划分为训练集、验证集和测试集，分别包含2352、504、504幅图像。这一划分比例能保证模型在训练阶段有足够的样本进行学习，同时保留足够的验证和测试数据用于评估模型性能，避免过拟合。

针对训练集，首先，通过随机缩放操作来改变图像中芒果的大小，帮助模型学习不同尺度下的芒果特征。其次，通过改变分辨率使网络适应不同大小的输入图像，进一步增强对尺度变化的适应能力。此外，通过随机裁剪来模拟部分遮挡和不同视角下的芒果场景，促使模型在实际应用中更具鲁棒性。最后，改变颜色与亮度，模拟不同光照条件下的图像效果，增强模型在各种光照环境下的适应性。这些数据增强方法能有效扩充训练数据的多样性，使模型在训练时能看到更多的场景变化，进而提升其在实际应用中的鲁棒性和准确性。另外，验证集和测试集不进行数据增强，保持其原始性，以便客观评估模型在未见过的数据上的表现，确保其适应性和稳定性。

3.5　实验结果及分析

3.5.1　与其他方法对比

为进一步验证所提算法的实际效果，在相同的实验条件下，将所提网络与Faster R-CNN^［25］、RetinaNet^［26］和YOLOv8进行对比。Faster R-CNN实验中，初始学习率设为0.02，优化器为随机梯度下降（SGD），其动量为0.9，权重衰减为0.0001，训练共总迭代90000步，batch size设为16，学习率在60000步和80000步时分别衰减为上一阶段的1/10。RetinaNet实验中，初始学习率设为0.01，优化器同样为SGD，其他参数与Faster R-CNN一致。使用预训练模型YOLOv8时，初始学习率设为0.01，优化器为SGD，动量为0.9，权重衰减为0.0005，训练500个epoch，batch size为16。所提改进网络与YOLOv8网络参数保持一致。上述网络的输入图像分辨率统一为640 pixel×640 pixel。

将上述网络分别在MangoSet-A、MangoSet-B、MangoSet-C和自制数据集上进行对比，结果如表2所示。与Faster R-CNN、RetinaNet和YOLOv8对比算法相比：在MangoSet-A数据集中，所提算法的CA分别提升了4.24%、2.43%和1.64%；在MangoSet-B数据集中，所提算法的CA分别提升了6.45%、1.13%和2.70%；在MangoSet-C数据集中，所提算法的CA分别提升了3.65%、2.33%和2.73%；在自制数据集中，所提算法的CA分别提升了3.83%、1.74%和3.29%。这些结果验证了所提算法在芒果多尺度变化时的优越性。

表 2. 不同算法在不同数据集中的CA对比

Table 2. Comparison of CA for different algorithms on different datasets

Algorithm	MangoSet-A	MangoSet-B	MangoSet-C	Self-made dataset
Faster R-CNN	86.45	81.23	89.10	84.56
RetinaNet	87.98	85.50	90.25	86.30
YOLOv8	88.67	84.20	89.90	85.00
Proposed	90.12	86.47	92.35	87.80

查看所有表

为全面评估改进算法在不同尺度下的检测性能，从实际采集的数据集中随机抽取不同尺度的芒果图像进行实验。实验中为确保样本的均衡性，采用分层抽样方法。首先按照芒果大小将芒果数据集划分为小、中、大3类，然后在每个类别中，以相同的比例随机抽取测试样本。这种分层抽样的方法能够确测试集中不同尺度的芒果都有足够的代表性，避免测试结果因数据分布不均产生偏差。通过这种方式，可以更准确地评估模型检测不同尺度芒果的精度和鲁棒性，从而验证模型的多尺度检测能力。部分图像的检测与识别效果如图5所示。实验结果表明，改进算法在各个尺度下均能较好地识别芒果目标，特别是在小目标检测上表现优异，进一步证明了其在多尺度物体检测任务中的有效性。

图 5. 不同尺度下的芒果检测结果

Fig. 5. Detection results of mangoes with different scales

下载图片查看所有图片

由图5可知，所提网络在应对芒果尺度变化时表现出色，能有效解决不同大小芒果目标的检测问题。此外，在实际采集的芒果图像中，会不可避免地出现模糊现象，这进一步增加了目标检测的难度。图5（e）、（f）、（h）展示了在图像模糊条件下所提网络的检测效果，结果表明即使在图像质量下降的情况下，所提网络依然能准确识别并框选出不同大小的芒果。这充分证明了所提网络在复杂场景下的鲁棒性，以及在处理低质量图像时的稳定性能。

然而，尽管改进算法在检测精度上具有显著优势，但仍存在一些不足。首先，增加的数据增强策略和更复杂的网络结构提高了训练的复杂性，导致模型训练时间延长。另外，在目标严重遮挡、复杂光照条件下，虽然改进算法在一般场景表现稳定，但依然存在一定的识别误差，这表明模型在应对极端条件时仍需要进一步提升其鲁棒性。未来的工作可以进一步优化模型结构，以减少计算资源的需求，进而满足更广泛的农业应用需求。

总体而言，通过结合AFPN模块有效的多尺度特征学习与训练中采用的数据增强策略，所提算法在芒果计数任务中表现出明显的性能提升。

3.5.2　AFPN模块的影响

为进一步验证AFPN模块的效果，对比YOLOv8与所提改进网络的结果，并在不同分辨率条件下验证所提网络在芒果不同尺度下的计数准确性，结果如表3所示。

表 3. YOLOv8与所提网络在不同分辨率的CA对比

Table 3. Comparison of CA between YOLOv8 and the proposed network at different resolutions

Resolution /（pixel×pixel）	YOLOv8	Proposed
1280×1280	89.46	91.69
640×640	87.32	90.83
320×320	85.12	87.07

查看所有表

从表3可以看出，所提网络引入AFPN结构，其在自制数据集的整体表现优于原来的YOLOv8算法。具体而言，在1280 pixel×1280 pixel下，所提网络的CA为91.69%，比YOLOv8提升了2.49%。在640 pixel×640 pixel下，所提网络的CA为90.83%，较YOLOv8提高了4.02%，证明了AFPN在各尺度下对特征提取的增强效果。在降低分辨率至320 pixel×320 pixel时，所提网络的CA为87.07%，相比YOLOv8提高了2.29%，说明改进网络在低分辨率下仍能保持较高的检测准确率。

综上所述，所提网络引入AFPN后，通过有效融合多尺度特征，显著提高了芒果计数的准确性，在不同分辨率下均能表现出优越性，这验证了所提改进策略在多尺度检测中的优势。

4　结论

本文介绍了以YOLOv8算法为代表的卷积神经网络，针对以芒果为识别对象和受尺度变化等因素影响的芒果计数任务提出了改进方案。具体来说，结合YOLOv8目标检测网络的优势，并引入AFPN渐进空间金字塔结构，可显著增强模型对芒果在不同尺度下的适应性。此外，结合数据增强和优化的训练策略，可有效提升模型的泛化能力。在多个公开芒果数据集上的对比实验表明，改进的YOLOv8+AFPN网络的表现均优于传统网络结构，尤其在不同分辨率和尺度变化的背景下具有显著的检测优势。在真实场景采集的芒果数据测试中，改进算法在整体识别率上明显优于对比模型，且其在实际应用中的可行性得到验证，证明了改进方案的有效性和实用价值。

参考文献

[1] Sreekanth G R, Thangaraj P, Kirubakaran S. Fruit detection using improved K-Means algorithm[J]. Journal of Critical Reviews, 2020, 7(12): 5-6.

[2] HuZ, GuoY, LiuP, et al. The optimization of CNN fruit recognition based on DBSCAN and SLIC algorithm[C]∥2022 7th International Conference on Intelligent Computing and Signal Processing (ICSP). IEEE, 2022: 19-25. 10.1109/icsp54964.2022.9778688

[3] Aiadi O, Kherfi M L. A new method for automatic date fruit classification[J]. International Journal of Computational Vision and Robotics, 2017, 7(6): 692-711.

[4] 廖崴, 郑立华, 李民赞, 等. 基于随机森林算法的自然光照条件下绿色苹果识别[J]. 农业机械学报, 2017, 48(S1): 86-91.

Liao W, Zheng L H, Li M Z, et al. Green apple recognition in natural illumination based on random forest algorithm[J]. Transactions of the Chinese Society for Agricultural Machinery, 2017, 48(S1): 86-91.

[5] Qureshi W S, Payne A, Walsh K B, et al. Machine vision for counting fruit on mango tree canopies[J]. Precision Agriculture, 2017, 18(2): 224-244.

[6] 傅隆生, 冯亚利, Elkamil Tola, 等. 基于卷积神经网络的田间多簇猕猴桃图像识别方法[J]. 农业工程学报, 2018, 34(2): 205-211.

Fu L S, Feng Y L, Tola E, et al. Image recognition method of multi-cluster kiwifruit in field based on convolutional neural networks[J]. Transactions of the Chinese Society of Agricultural Engineering, 2018, 34(2): 205-211.

[7] Payne A B, Walsh K B, Subedi P P, et al. Estimation of mango crop yield using image analysis-segmentation method[J]. Computers and Electronics in Agriculture, 2013, 91: 57-64.

[8] 李国进, 董第永, 陈双. 基于计算机视觉的芒果检测与分级研究[J]. 农机化研究, 2015, 37(10): 13-18.

Li G J, Dong D Y, Chen S. Research on mango detection and classification by computer vision[J]. Journal of Agricultural Mechanization Research, 2015, 37(10): 13-18.

[9] Stein M, Bargoti S, Underwood J. Image based mango fruit detection, localisation and yield estimation using multiple view geometry[J]. Sensors, 2016, 16(11): 1915.

[10] Liu X, Chen S W, Liu C H, et al. Monocular camera based fruit counting and mapping with semantic data association[J]. IEEE Robotics and Automation Letters, 2019, 4(3): 2296-2303.

[11] Roy K, Chaudhuri S S, Pramanik S. Deep learning based real-time industrial framework for rotten and fresh fruit detection using semantic segmentation[J]. Microsystem Technologies, 2021, 27(9): 3365-3375.

[12] 巩晴, 尚庆生, 郭泓, 等. 芒果图像的改进EfficientNet模型分级[J]. 宜宾学院学报, 2022, 22(12): 1-5.

Gong Q, Shang Q S, Guo H, et al. A study on mango image grading based on an improved EfficientNet model[J]. Journal of Yibin University, 2022, 22(12): 1-5.

[13] 胡艺馨, 张逸杰, 方健, 等. 面向目标检测任务的轻量化网络模型设计[J]. 计算机工程与设计, 2023, 44(2): 548-555.

Hu Y X, Zhang Y J, Fang J, et al. Design of lightweight network model for target detection task[J]. Computer Engineering and Design, 2023, 44(2): 548-555.

[14] 吴磊, 储钰昆, 杨洪刚, 等. 面向铝合金焊缝DR图像缺陷的Sim-YOLOv8目标检测模型[J]. 中国激光, 2024, 51(16): 1602103.

Wu L, Chu Y K, Yang H G, et al. Sim-YOLOv8 object detection model for DR image defects in aluminum alloy welds[J]. Chinese Journal of Lasers, 2024, 51(16): 1602103.

[15] 单慧琳, 王硕洋, 童俊毅, 等. 增强小目标特征的多尺度光学遥感图像目标检测[J]. 光学学报, 2024, 44(6): 0628006.

Shan H L, Wang S Y, Tong J Y, et al. Multi-scale optical remote sensing image target detection based on enhanced small target features[J]. Acta Optica Sinica, 2024, 44(6): 0628006.

[16] 陈翼景, 皮一涵, 庞逸轩, 等. 大视场多尺度非接触光声智能缺陷检测算法[J]. 中国激光, 2024, 51(21): 2109002.

Chen Y J, Pi Y H, Pang Y X, et al. Wide field-of-view multiscale noncontact photoacoustic intelligent defect-detection algorithm[J]. Chinese Journal of Lasers, 2024, 51(21): 2109002.

[17] Kestur R, Meduri A, Narasipura O. MangoNet: a deep semantic segmentation architecture for a method to detect and count mangoes in an open orchard[J]. Engineering Applications of Artificial Intelligence, 2019, 77: 59-69.

[18] NanaaK, RizonM, Abd RahmanM N, et al. Detecting mango fruits by using randomized Hough transform and backpropagation neural network[C]∥2014 18th International Conference on Information Visualisation, July 16-18, 2014, Paris, France. New York: IEEE Press, 2014: 388-391. 10.1109/iv.2014.54

[19] BargotiS, UnderwoodJ. Deep fruit detection in orchards[C]∥2017 IEEE International Conference on Robotics and Automation (ICRA), May 29-June 3, 2017, Singapore. New York: IEEE Press, 2017: 3626-3633. 10.1109/icra.2017.7989417

[20] JjocherG, QiuJ, ChaurasiaA. YOLOv8[EB/OL]. [2024-10-28]. https://github.com/ultralytics/ultralytics.

[21] YangG Y, LeiJ, ZhuZ K, et al. AFPN: asymptotic feature pyramid network for object detection[EB/OL]. (2023-06-28)[2024-10-28]. https://arxiv.org/abs/2306.15988. 10.1109/smc53992.2023.10394415

[22] Roboflow. Mango[EB/OL]. [2024-10-28]. https://universe.roboflow.com/project-1hjh0/dataset1_mango.

[23] Whan. Mango-nok3g[EB/OL]. [2024-10-28]. https://universe.roboflow.com/whan/mango-nok3g.

[24] Roboflow. Mangol-dvppw[EB/OL]. [2024-10-28]. https://uni-verse.roboflow.com/mango-kbssd/mango1-dvppw.

[25] Ren S Q, He K M, Girshick R, et al. Faster R-CNN: towards real-time object detection with region proposal networks[J]. IEEE Transactions on Pattern Analysis and Machine Intelligence, 2017, 39(6): 1137-1149.

[26] LinT Y, GoyalP, GirshickR, et al. Focal loss for dense object detection[C]∥2017 IEEE International Conference on Computer Vision (ICCV), October22-29, 2017, Venice, Italy. 10.1109/iccv.2017.324

王宝宇, 李汉棠, 陈希用, 姚伟. 融合渐进空间金字塔的YOLOv8芒果目标检测算法研究[J]. 激光与光电子学进展, 2025, 62(14): 1415002. Baoyu Wang, Hantang Li, Xiyong Chen, Wei Yao. Mango Target-Detection Algorithm Based on YOLOv8 Integrated with Adaptive Spatial Pyramid[J]. Laser & Optoelectronics Progress, 2025, 62(14): 1415002.

融合渐进空间金字塔的YOLOv8芒果目标检测算法研究【增强内容出版】

1　引言

2　芒果计数算法

2.1　总体网络

图 1. YOLOv8网络总体结构

Fig. 1. Overall structure of YOLOv8 network

2.2　主干网络

图 2. C2f模块结构

Fig. 2. Structure of C2f module

2.3　改进的YOLO检测模型

图 3. 改进网络结构

Fig. 3. Structure of improved network

3　实验与分析

3.1　数据集

图 4. 自制数据集中部分图像。（a）芒果图像1；（b）芒果图像2；（c）背景图像

Fig. 4. Partial images of self-made dataset. (a) Mango image 1; (b) mango image 2; (c) background image

表 1. 不同数据集详细信息

Table 1. Detailed information of different datasets

3.2　损失函数

3.3　评价指标

3.4　网络训练

3.5　实验结果及分析

3.5.1　与其他方法对比

表 2. 不同算法在不同数据集中的CA对比

Table 2. Comparison of CA for different algorithms on different datasets

图 5. 不同尺度下的芒果检测结果

Fig. 5. Detection results of mangoes with different scales

3.5.2　AFPN模块的影响

表 3. YOLOv8与所提网络在不同分辨率的CA对比

Table 3. Comparison of CA between YOLOv8 and the proposed network at different resolutions

4　结论

Article Outline

关于本站 Cookie 的使用提示

全站搜索

融合渐进空间金字塔的YOLOv8芒果目标检测算法研究【增强内容出版】

1 引言

2 芒果计数算法

2.1 总体网络

图 1. YOLOv8网络总体结构

Fig. 1. Overall structure of YOLOv8 network

2.2 主干网络

图 2. C2f模块结构

Fig. 2. Structure of C2f module

2.3 改进的YOLO检测模型

图 3. 改进网络结构

Fig. 3. Structure of improved network

3 实验与分析

3.1 数据集

图 4. 自制数据集中部分图像。（a）芒果图像1；（b）芒果图像2；（c）背景图像

Fig. 4. Partial images of self-made dataset. (a) Mango image 1; (b) mango image 2; (c) background image

表 1. 不同数据集详细信息

Table 1. Detailed information of different datasets

3.2 损失函数

3.3 评价指标

3.4 网络训练

3.5 实验结果及分析

3.5.1 与其他方法对比

表 2. 不同算法在不同数据集中的CA对比

Table 2. Comparison of CA for different algorithms on different datasets

图 5. 不同尺度下的芒果检测结果

Fig. 5. Detection results of mangoes with different scales

3.5.2 AFPN模块的影响

表 3. YOLOv8与所提网络在不同分辨率的CA对比

Table 3. Comparison of CA between YOLOv8 and the proposed network at different resolutions

4 结论

Article Outline

相关论文

相关资讯

关于本站 Cookie 的使用提示

全站搜索

1　引言

2　芒果计数算法

2.1　总体网络

2.2　主干网络

2.3　改进的YOLO检测模型

3　实验与分析

3.1　数据集

3.2　损失函数

3.3　评价指标

3.4　网络训练

3.5　实验结果及分析

3.5.1　与其他方法对比

3.5.2　AFPN模块的影响

4　结论