没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报:一种基于Foveabox的快速高效的青苹果目标检测模型
沙特国王大学学报一种基于Foveabox的快速高效的青苹果目标检测模型贾伟宽a,b,王志芬a,张忠华a,杨新波a,侯素娟a,郑远杰aa山东师范大学信息科学与工程学院,山东济南250358b机械工业设施农业测控技术与装备重点实验室,镇江212013阿提奇莱因福奥文章历史记录:2021年10月1日收到2022年1月6日修订2022年1月16日接受2022年2月4日在线提供保留字:快速FDM物体检测青苹果FoveaBoxATSsA B S T R A C T水果目标检测对于自动收获系统至关重要,可用于果园产量测量和水果收获等应用。为了实现青苹果的快速识别和定位,满足采摘机器人视觉系统的实时工作要求,提出了一种快速优化的Foveabox检测模型(Fast-FDM)。Fast-FDM使用一种优化形式的无锚Foveabox来准确有效地检测收获环境中的青苹果。具体地说,采用训练速度快、规模小的EfficientNetV 2-S作为骨干网络,采用加权双向特征金字塔网络(BiFPN)作为特征提取网络融合多尺度特征,然后将融合后的特征送入中心凹头部预测网络进行分类和边界框预测。此外,自适应训练sam-采用了简单选择(ATSS)方法,直接选择阳性和阴性样本,使不同尺度的绿色水果获得更高的召回率,实现更准确的绿色苹果检测。实验结果表明,该算法使用较少的参数和浮点运算,实现了62.3%的平均精度(mAP),在准确性和检测效率之间取得了较好的平衡.版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍目标检测是计算机视觉中的一个基本但具有挑战性的问题,其主要目的是对图像中的每个目标进行分类和局部化。然而,在复杂的果园环境中,目标水果图像的获取通常会受到照明、生长姿势和重叠遮挡等干扰因素的影响,这使得检测具有挑战性(Bargoti和Underwood,2017)。因此,实现对目标果实的准确、高效检测成为视觉系统研究的关键,直接影响到采摘机器人的可靠性和效率。*通讯作者:山东师范大学信息科学与工程学院,济南250358Jia,S.Hou)。电子邮件地址:jwk_1982@163.com(W. Jia),hsj1985@126.com(S. Hou)。沙特国王大学负责同行审查传统的机器学习方法包括从图像中提取诸如颜色、形状或纹理等信息,并通过使用支持向量机(SVM)或人工神经网络(ANN)对其进行分类,这些方法在水果检测和分割方面做出了重要贡献(Jia et al.,2020年)。Huang等人(2018)使用自适应阈值分割算法分割区分性区域特征集成(DRFI)健康图。利用分水岭分割算法对水果粘连部分进行了分割,取得了较好的识别效果91.7%。Tian等人(2019)创造性地引入了一种基于深度图像的水果定位技术。具体地,深度图像和RGB空间信息分别用于定位苹果的中心和半径,以确定目标区域。但是,在重叠遮挡的情况下,深度图像难以确定,容易导致模糊的果心定位。Moallem等人(2017)使用多层感知器(MLP)和k-最近邻(KNN)对苹果进行分类,提取的特征的识别率分别为92.5%和89.2%。Wang等人(2021)提出了一种新的核密度聚类(KDC),以更好地实现对青苹果的准确识别。Linker等人(2012年)提出了一个模型,基于代表性https://doi.org/10.1016/j.jksuci.2022.01.0051319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comW. Jia,Z.Wang,Z.Zhang等人沙特国王大学学报5157水果的信息然而,在非独立区域中的果实在识别时容易被视为同一区域虽然这些方法在一定程度上提高了水果检测的准确性,但基于表面特征信息的检测不够稳定。甚至同一种水果的颜色、质地和其他特征也有很大的差异。此外,图像可能会重叠,聚集和模糊,这使得它们难以检测。自从AlexNet(Krizhevsky等人,2012年)获得ImageNet Chal-lenge竞赛的冠军,深度学习在计算机视觉任务领域得到了更多的关注。深度学习的直接端到端识别和自动深度特征提取也推动了目标水果的准确检测(Sultana et al.,2020年; Li等人,2021; Koirala等人,2019; Qi等人,2017年)。大多数主流模型,如Faster R-CNN(Renet al.,2015)、SSD(Liu等人,2016)、RetinaNet(Lin等人,2017),YOLOv3(Redmon和Farhadi,2018)和网络(Öztürk和Akdemir,2019)基于深度学习算法。目前,深度学习算法已用于智能农业应用,如水果识别和早期产量预测。 Xin等人(2020)提出了一种基于普查变换和具有强大特征学习能力的深度信念网络(DBN)的水果图像识别新算法,识别性能优于传统识别算法。Jia等人(2021)提出了一种新的FoveaMask,用于提高绿色水果分割的鲁棒性和泛化能力,该模型优于早期的分割模型,并在重叠遮挡环境中实现了更好的准确性。Liu et al.(2020)优化了YOLOv3目标检测器来预测圆形西红柿的区域,提高了识别和定位效果。Kang和Chen(2020)提出了一种DaSNet-v2模型,其中使用视觉传感器来分割苹果实例并从语义上分割树枝,结果可靠。 Jia等人(2021)设计了一个专门针对绿色水果生产开发的分割框架RS-Net,可以满足农艺管理中视觉系统的精度和鲁棒性。 Fu et al.(2018)提出了一种改进的检测模型,用于使用FasterR-CNN和ZFNet进行猕猴桃识别。该方法克服了人工选择特征的问题,具有良好的鲁棒性。Xiong et al.(2018)还使用Faster R-CNN来识别不同数量、大小和照明角度的绿色柑橘。Liu等人(2021)构建了一个具有遮挡层和遮挡层的DLNet模型,用于在自然果园环境中准确分割被遮挡的绿色水果。与传统的机器学习方法相比,上述基于深度学习算法的检测模型的准确性和鲁棒性都有很大提高,在水果检测和分割方面取得了显著进展。尽管有上述发展,准确的绿色在真实的果园环境中支持机器人收获的苹果检测仍然是一个巨大的挑战。目前利用深度学习技术进行苹果识别的研究还处于发展阶段,利用多种技术和条件进行青苹果检测的研究还很少。许多现有的方法是基于具有很少遮挡和很少光照条件的简单结构化果园(Dias等人,2018年)。此外,计算成本高,参数多,影响运行速度,不足以满足收割机器人实时检测的需要。本研究的主要目的是为非结构化果园环境中绿色水果的检测提供一种可靠、简单的方法。为此,我们基于深度学习模型FoveaBox(Kong et al.,2020),使用在不同光照和其他条件下的真实果园环境中收集的综合青苹果数据集。FoveaBox是一个主流的无锚对象检测器,为主模型提供高灵活性,以提高整体检测精度。所提出的模式包括三个阶段。在第一阶段中,采用规模较小的深度神经网络EfficientNetV2(Tan和Le,2021)作为骨干网络,以提取特征并有效提高训练速度。在第二阶段,BiFPN(Tan等人,2020)被采用作为颈部,以执行提取的特征的简单但有效的融合,没有花里胡哨的,实现更好的融合。在最后阶段,融合的特征被发送到FoveaBox使用的中央凹头部预测网络,用于分类和边界框预测。此外,ATSS(Zhang等人,2020)方法直接选择阳性和阴性样本,能够更准确地识别不同尺度、不同干扰的水果,青苹果检测效果优越。与原模型相比,该结构在计算量和内存方面都有很大的节省。实验结果表明,该方法具有较高的精度和运行效率,参数和浮点数较少,易于嵌入移动设备,保证了收割机器人更快更准确的工作该研究有助于智能农业中视觉系统的发展,简化了模型架构,可以很容易地嵌入到基于深度学习的视觉模型中,并通过图像聚合不显眼物体的相似特征,有效地提高水果检测的准确性和效率。本文的总体贡献如下:(1) 我们介绍了一种快速准确的目标检测模型,称为Fast-FDM,用于收获机器人的快速实时青苹果检测,使用复杂果园环境中收集的综合青苹果数据集。(2) 我们采用EfficientNetV2 + BiFPN骨干网络,网络规模小,能够充分提取和融合特征,有效提高了训练速度,减少了参数和FLOP。(3) 我们利用ATSS方法自适应地选择训练样本,提高了不同尺度下目标的召回率,为准确率的提高提供了更多的前景。本文的其余部分组织如下。第二部分介绍了青苹果数据集的图像采集和增强。第三部分提出了一种准确快速的目标检测模型Fast-FDM,具有快速的训练速度。第4节进行了相关的实验,并与最先进的目标检测模型的检测性能进行了比较最后,第5节总结了所提出的方法,并展望了未来的研究对象检测。2. 青苹果数据集2.1. 图像采集本研究选取的水果图像为青苹果图像,苹果图像采集的细节如下。青苹果类:未成熟的嘎拉苹果。采集地点:山东省济南市南山区、山东省烟台市福山区龙王山苹果生产基地(山东师范大学农业信息技术实验基地)。采集环境:苹果的实际生长环境非常复杂。为了尽可能地模拟果园的自然环境,采用了重叠、阴影、水滴、不同光照条件下的苹果图像,W. Jia,Z.Wang,Z.Zhang等人沙特国王大学学报5158××--采集不同的角度,在不同的角度和距离拍摄苹果树靠近相机的样本被用作大目标,远离相机的样本被用作小目标,以充分丰富数据集照明包括白天的自然照明(包括向下照明、仪表照明和背光照明)和夜间的LED辅助照明。在不同场景下采集的苹果图像的一些例子如图所示。1.一、采集设备:青苹果图像采集使用索尼阿尔法7 II相机1386苹果图像的分辨率为6000 - 4000。为了提高网络对低分辨率图像的检测质量,满足果园的实时检测要求,对图像进行压缩,并统一缩放到600~ 400。图像处理:首先,过滤掉具有极其模糊特征的模糊图像然后,使用LabelMe软件有效地对绿色苹果图像进行标注,并将标签设置为apple。标记点的内部是绿色目标水果区域,其余部分是背景。所有的标注信息都保存到原图对应的JSON文件中,JSON文件转换成微软COCO格式的苹果数据集(Lin et al. 2014年)。将数据集按照特定比例划分为训练子集和验证子集,并将每个子集的注释信息合并在一起,形成最终的苹果数据集。在标注目标水果区域后,根据以下条件将苹果小样本:面积6322中样:322面积6962大样:面积>962<此外,10种不同的数据增强方法被用于苹果图像。对每幅图像进行随机变换以扩展数据集,避免了由于数据采集不足而导致的过拟合,从而提高了模型的泛化能力和稳定性。2.2. 数据增强在给定网络结构和有限先验知识的条件下,训练时可以扩展模型的参数搜索空间,通过数据增广实现模型的全局优化,从而提高模型的性能(Ma et al. 2021年)。另一方面,由于大量数据的收集困难,一些研究领域受到了限制。收集和标记如此大量的数据可能是繁琐和昂贵的。此外,还存在泛化能力差、模型过拟合问题和低当数据集不足以训练神经网络时,很容易导致准确性。因此,为了提高模型在训练期间的泛化性和鲁棒性,数据图像在亮度、对比度和翻转方面被增强,使得数据集足够丰富以大致覆盖真实果园的实际情况。两种常见的数据增强方法包括光度和几何失真,这对目标检测任务肯定是有益的。对于光度失真,将调整图像亮度、对比度、色调、饱和度和噪波。对于几何扭曲,随机缩放,裁剪,翻转和旋转添加。具体地,将以下增强技术应用于训练数据集,其中每个图像被随机变换有一定的概率。2.2.1. 光度畸变的变化:1) 色调饱和度值(HSV)的H通道的变化该值在区间[0.08,0.08]内变化,应用概率为0.15。2) HSV的S通道改变。在区间[0.7,1.5]中通过乘法因子随机改变该值,应用概率为0.15。3) 亮度变化。亮度的变化以0.15的概率应用,并且在[0.35,0.35]之间选择随机值4) 对比度变化。对比度变化的应用概率为0.15,随机倍增因子在[0.25,1.35]之间。5) 伽马射线改造。以0.15的概率应用Gamma变换,乘法值设置为1,并且所选指数项的随机值在区间[0.5,2.5]中。6) 模糊不清。模糊以0.15的概率应用,并使用5×5邻域过滤均值。2.2.2. 几何变形的变化:7) 尺寸修改。图像的缩放概率为0.25,随机缩放因子在区间[0.65,1.25]之间8) 水平翻转。图像水平旋转的概率为0.25。9) 垂直翻转。图像以0.15的概率垂直旋转。10) 随机旋转。对于[-60 °,60 °]之间的旋转角度,图像以0.25的应用概率随机旋转。Fig. 1. 在自然果园环境中采集的苹果图像示例。W. Jia,Z.Wang,Z.Zhang等人沙特国王大学学报5159概率用于允许系统忽略图像的方向或大小,并更多地关注具有与数据集相似的值的图像。此外,为了避免图像被修改得太多而无法区分,仅在亮度和对比度均未改变的情况下3. 青果检测模型由于FoveaBox模型计算量大,为了提高检测效率,对各部件进行了简化,目标是嵌入到自动水果采摘机器人中。在这一部分中,提出了一种准确高效的青苹果目标检测模型Fast-FDM所提出的架构侧重于优化检测处理,同时通过改变原始FoveaBox网络来确保效率和速度之间的权衡。图2示出了所提出的整体网络架构以及预测阶段的结果。这些变化总结如下。采用快速训练、规模小的EfficientNetV 2-S作为骨干网络,BiFPN作为特征网络,对提取的特征进行自顶向下和自底向上的双向特征融合。融合后的特征仍被输入到中心凹头部预测网络,该网络由两个子分支组成:分类分支执行每像素分类以生成目标类别,但使用ATSS方法代替原始选择方法以自适应地选择训练样本;以及框预测分支在由目标覆盖的位置处执行边界预测以生成边界框。3.1. 骨干在复杂的水果采摘环境中,机器人必须不断地在大小果树之间移动,以准确地识别和采摘水果。一个快速简单的模型可以很容易地嵌入到移动设备中,如收获机器人,以有效地检测复杂环境中的水果。因此,EfficientNetV 2-S,一个小而强大的特征提取器,具有快速的训练速度,被选为Fast-FDM的骨干网络更有效地提取特征,避免在复杂的果园环境中遗漏小果实。EfficientNets(Tan和Le,2019)是一系列目标检测器,专注于以更少的参数实现更高的精度。EfficientNetV2比第一版EfficientNetV1具有更小的模型,更快的训练速度和更高的参数效率。利用步长为2的多个卷积来减小数据的大小。EfficientNetV 2-S骨干网的网络架构如下表1所示,它使用较少的参数和FLOP来获得更高的准确性和效率。科学性,实现模型精度和运行速度之间的权衡。实验结果见第4.3.2节表33.2. 用于特征融合的随着 不同层之 间特征 融合的重 要性被 强调,特 征金字 塔网络(FPN)(Lin et al.,2017)通常用于融合多尺度特征。许多以前的作品只是简单地总结了不同的输入功能,没有区别融合时,他们,但是,因为不同的输入功能包含不同的分辨率,他们并不总是平等地贡献融合输出功能。为了解决这个问题,通过优化路径聚合网络(PANet)上的跨尺度连接来获得简单而有效的BiFPN(Liu等人,2018年)。引入可学习的权重来学习不同输入特征的重要性。考虑到不同分辨率的输入特征对输出特征的贡献通常不相等,BiFPN采用快速归一化融合方法,学习各输入特征的重要性,计算权值并加权融合。因此,在我们的模型中,BiFPN被用来不平等地融合来自不同层的特征。同时,将双向跨尺度连接与快速归一化融合相结合,反复使用自顶向下和自底向上的多尺度特征融合,在精度和效率之间取得了较好的折衷。在被充分融合之后,特征被馈送到中央凹头部网络中用于特定分类和边界框预测。3.3. 用于果实预测的Fast-FDM采用无锚检测模型FoveaBox中开发的Fovea头部预测网络进行分类和边界框预测,使模型能够像人类视觉一样快速准确地学习目标水果和边界框候选者的可能位置。3.3.1. 选择训练样本在训练目标检测模型时,需要先对正样本和负样本进行定义和分类,然后使用正样本进行回归。因此,阳性和阴性样本的选择对模型的检测性能至关重要。比较了用于区分来自不同检测器的阳性和阴性样本的四种不同方法,即FoveaBox中的尺度分配方法、FCOS中的空间和尺度约束(SSC)(Tian等人,2019),基于RetinaNet中的交叉联合(IoU)的采样方法,以及我们的Fast-FDM 中采用的ATSS方法,如下所述。图二. 整体网络架构以及预测阶段的结果。W. Jia,Z.Wang,Z.Zhang等人沙特国王大学学报5160×RlRlRlRl×表1EfficientNetV 2-S的架构阶段操作员跨通道层0 Conv3×3 2 24 11熔融-MBConv 1,k3×3 1 24 22熔融-MBConv 4,k3×3 2 48 43熔融-MBConv 4,k3×3 2 64 44 MBConv4,k3× 3,SE0.25 2 128 65 MBConv6,k3× 3,SE 0.25 1 160 96 MBConv6,k3× 3,SE0.25 2 272 157 Conv 1×1,合并,FC- 1792 1比例分配。由于目标边界框的直接预测通常是不稳定的,因此FoveaBox模型根据目标的大小分配相应的金字塔区域,以指定要使用相应的金字塔特征来预测的目标水果,以便更稳定地训练模型目标水果的大小范围rl=(32,64,128,256,512)分别对应于根据水果大小的范围,分配相应的金字塔层进行预测。该方法显著增加了每层中的阳性样本数量,使训练过程更加稳定,同时通过优化相邻层特征图来提高语义表示但是,这些参数仍然是基于经验的,并且需要改进对不同模型的泛化。SSC。FCOS检测器将位置作为训练样本,并直接回归该位置处的目标边界框,而不是锚框。SSC用于从不同金字塔级别划分锚点。将地面真值框内的锚点视为正候选样本,然后根据在金字塔的每个级别定义的尺度范围从候选中选择最终的正样本,并且负样本是未被选择的锚点。该方法将属于多个包围盒的位置作为模糊样本,选择面积最小的包围盒作为回归目标。基于IOU的方法。基于IoU的样本选择方法是ATSS对大、中、小三个尺度的回忆率最高,和小目标果实,尤其是小目标果实,其显著优于其它方法。此外,ATSS方法几乎没有超参数,并且与传统方法相比对不同设置具有鲁棒性。因此,自适应训练样本选择方法ATSS被用于快速FDM中,以自动选择训练样本的基础上的对象的统计特性。在训练阶段,阳性样本所在的每个像素都有相应的类别标签。对于预测,每个金字塔热图输出集具有C个通道,其中C是类别的数量,并且特征图的大小是H W。每个通道都是一个二进制掩码,表示类别的概率正样本通常只占整个特征图的一小部分。采用FocalLoss训练分类分支,以缓解正负样本数量不平衡的3.3.2. 框预测目标果实的箱形预测是头网络的一个分支.从正样本区域中的每个正样本(x,y)开始,地面真值框被表示为G =(x1,y1,x2,y2),并且直接计算(x,y)与G的四个边界之间的正则化偏移,并表示为tx1;ty1;tx2;ty2,如公式(1)所示。由RetinaNet使用,通过除以将不同金字塔级别的框锚定到空间和比例维度。IoU的两个阈值被设置为hp和hn。当边界框和地面实况框之间的IoU高于tx11/4logslx0:5-x1;ty1TY21/4logsly0:5-y1;tx2/4logx2-slx0:5;1/4logy2-sly0:5:1当IoU小于阈值hn时,锚盒被认为是正样本,而当IoU小于阈值hn时,锚盒被认为是负样本。最后,在训练过程中忽略剩余的锚框。RetinaNet和FCOS针对较大对象的样本选择策略往往具有更多的正样本,导致不同对象之间的不公平。ATSS。新的ATSS根据目标的统计特征自动选择正样本和负样本,并对正候选样本进行过滤,得到最终的正样本区域。该方法主要分为三个步骤:首先,选择阳性候选样本。对于图像的每个地面实况框g,基于L2距离公式,选择其中心最接近g的中心的k个锚点在L层金字塔的每一层上,并且地面实况框g将具有k个L正候选样本。接下来,计算IoU。对于每个候选对象,地面实况框的IoU阈值被计算为IoU的平均值和标准偏差的总和。最终的阳性样本从IoU大于或等于的候选者中选择。如果锚框被分配给多个地面实况框,则选择具有最高IoU的一个作为阳性样本。其余为阴性样品。在消融研究中比较了上述四种训练样本选择方法的效果结果表明其中r1是定义的基本尺度,而s1是下采样因子。如上式所示,正样本坐标(x,y)首先通过下采样尺度s1映射到输入图像,然后计算投影坐标与地面实况框G的四个边缘之间的归一化偏移最后利用对数空间函数对目标进行正则化在框预测分支中,金字塔热图的每个输出集合具有用于(tx1,ty1,tx2,ty2)的联合预测的四个通道。使用广泛使用的平滑L1损失函数来训练用于边界框预测的损失函数Lreg。然后优化对象以在输出特征图上为每个位置(x,y)生成边界框3.4. 损失函数损失函数主要影响检测模型对目标水果的检测效果,有助于模型训练过程中的迭代优化,通过梯度反向传播和模型的迭代训练,拟合训练数据,得到最优模型。目标检测器中的模型损失主要由分类和回归两个分量产生,它们是类别置信度和分类目标之间的损失Lcls和正样本预测的正则化边界偏差之间的损失LregW. Jia,Z.Wang,Z.Zhang等人沙特国王大学学报5161FG.ΣsiNclssi我Nreg我我1Xpωt ij-tω。 -0:5 b的价格四分之一1-p否则s¼1-a否则回归和回归目标。由于目标水果只占整个图的一小部分,因此阳性样本的数量相对较小,这导致阳性和阴性样本的不平衡。针对不平衡分类问题,采用聚焦损失(Focal Loss)计算分类损失Lcls,采用平滑L1损失(Smooth L1 Loss)计算回归损失Lreg。因此,在模型训练期间产生的总损失是这两部分损失的总损耗L如公式(2)所示。Lfpg;ftigLclsLreg1XLclsp;pωk1XpωLregti;tω我我对于实验设置,首先使用COCO数据集对所提出的模型进行预训练,并获得初始训练权重等参数,以加快整体训练过程,减少模型的计算量,提高检测效率。然后,在过滤后将标注的图像分为训练数据集 和 验 证 数 据 集 , 分 别 包 含 953 和 408 使 用 Open-MMLab 中 的MMDetection框架在训练数据集上训练模型环境,并在验证数据集上进行测试和评估1/4X-as-1-p-clogg-p训练 高效的NetV 2-S,训练速度快,体积小Ncls我思思该方法以模型尺寸为骨干网络提取图像特征,然后用BiFPN进行双向加权其中,IJreg我IJð2Þ多尺度特征融合,更好地获得特征图具体地说,期间模型培训、一五层金字塔P3;P4;P5;P6;P7,其中P1的分辨率为输入的1/21256个频道在金字塔的所有级别都可用金字塔的每一层都有一个cls子网和reg子网。的p.pi如果pωi 1/4a.一我如果pωi¼1和C. 1.一、tij-tωij。B0否则中心凹头部位于每个金字塔的水平面上,并且参数在所有金字塔级别中共享。将图像的大小调整为(800,1200),然后填充0到(800,1216),其中i是训练样本s的索引,pωi 是样本i的真值的概率,并且pi是模型在位置i处的预测。如上式所示,采用焦点损失计算分类损失时,a用于平衡正负样本影响因子;c用于平衡易样本和难样本的重要性,避免易样本产生的损失占优势,影响模型效果。在利用Smooth L1 Loss计算回归损失时,根据损失范围的不同,采用b来选择不同的L1或L2损失函数,避免了L1 Loss收敛速度慢的缺点以及L2损失对离群值的敏感性tωi ¼tωi x1;tiωy1;tωi x2;tωi y2是从正样本i的输入图像处的映射点到四个边界的归一化偏移的向量。此外,这两个损失函数分别由Ncls和Nreg正则化。最后将总损耗L梯度反传更新模型参数,通过迭代优化得到最优模型。4. 实验和结果为了验证所提出的Fast-FDM在青苹果数据集上训练的快速性和准确性,实施了一系列消融研究和比较实验,并从平均预测准确率和召回率等指标评估结果。首先,经过预训练,选择最优的训练模型,并在青苹果的验证集上进行测试,以验证模型检测青苹果的有效性。接下来,在消融研究中比较骨干EfficientNetV 2-S和BiFPN对Fast-FDM的参数和效率的贡献。最后,在对比实验中,针对青苹果数据集,分别选取当前主流的基于深度学习算法的目标检测器,比较不同模型的检测性能4.1. 实验设置本文的实验是在Ubuntu上实现的16.04操作系统,构建PyTorch深度学习框架,实现目标水果检测模型的训练和测试。所有进程都是用Python编程语言编写的。可被下采样乘法器整除。此外,根据2.2节修改了train_pipeline部分以增加apple数据集。COCO数据集上的预训练权重被用作模型的初始化参数,并且每次迭代使用2个图像训练总共24个时期,总共11,232次迭代。为了防止模型在预训练过程中出现梯度爆炸,采用了预热学习速率调整策略,即在前500次迭代中,模型的学习速率从0逐渐线性增加到0.0025。随后,衰减因子被设置为0.0001,并且模型分别在训练的第8和第11个时期之后根据衰减因子衰减。在训练过程中学习率的变化曲线如图所示。3.第三章。采用上述参数配置对模型进行训练,得到的训练集上的变化曲线和验证集上的mAP演化曲线如图所示。 四、如上所示,模型在第9个训练期后收敛于验证集,并选择最终的训练参数来详细评估其在测试集上的性能,以确保模型的泛化能力。推理。在推理阶段,输入图像被调整大小,置信度阈值设置为0.05以过滤掉预测,图三. 训练过程中的学习率曲线我¼NW. Jia,Z.Wang,Z.Zhang等人沙特国王大学学报5162Xð Þ2¼¼¼·1X见图4。 训练集上的损失演变曲线和验证集上的mAP演变曲线。低置信度,然后输出每个预测层具有前1000个得分的检测框。接下来,使用阈值为0.5的非最大抑制(NMS)进行过滤,以生成每个图像的前100个分数为了保持快速FDM简单,没有使用其他后处理技术。4.2. 评估指标为了详细评估模型的性能,选择了以下多个复合指标,例如精确度(P)、召回率(R)、F1得分(F1)、mAP、参数(Params)和FLOP。IoU表示目标预测区域和地面实况区域的相交比率。作为两者之间重叠的指标,IoU的阈值通常被设置以确定模糊区域中的目标属于哪个类别。具体地,当预测框的置信度高于设定的置信度阈值时,同时其与地面实况框的IoU高于设定的IoU阈值,则该预测被认为是真阳性样本(TP)。否则,将其视为假阳性样本(FP)。未成功检测到的其他地面实况框被确定为假阴性样本(FN)。的P和R是通过计算每个类别的数量而获得的,它们都取范围[0,1]中的值,如下所示:其中,i表示大于或等于0.5且小于1的可设置IoU阈值的值,即,. ,0.95],该公式中的r表示召回率,pr表示与召回率r相关联的精度,并且R是[0,0.01,0.02,. . ,1.0],具有101个值和0.01的区间,其可以近似为指定IoU阈值下的精确度-召回率(P-R)曲线的面积。下面的公式表明,mAP是对应于10个不同阈值的AP值的平均值,它结合了准确率、召回率和阈值。mAP1/4 = 10APIoU2017年7月i2I10个IoU阈值下模型的P-R曲线如图所示。 六、此外,还使用了以下指标AP50、AP75:AP值超过IoU阈值0.5和0.75。mAPS、mAPM、mAPL:三种浓度下不同的规模:小型、中型和大型。Params:总参数,用于衡量模型的简单性。FLOPs:浮点运算,用来衡量模型的复杂度。FPS:每秒帧数,表示图像数量PTPTPFPRTPTPFNð3Þð4Þ被模型每秒检测到。包括用于数据增强和预测结果后处理的时间,600× 400在测试集上运行三次并取平均值。其中TP是真阳性的数量,FP是将背景错误识别为水果的检测到的帧的数量,FN是模型未检测到的真帧的数量。综合指标F1如下公式所示。4.3. 结果和分析4.3.1. 检测效果在网络训练完成后,通过上述评价指标对模型的整体性能进行评价。验证数据集中Fast-FDM的检测结果为F2P·RPRð5Þ在表2中给出。P、R、F1的置信度阈值为0.304,IoU阈值为0.5。结果表明,高磷当IoU阈值为0.5时,模型的P、R和F1随置信度变化的曲线如图所示。五、当置信度取0.304时,该模型具有最高的F1得分0.83,因此置信度=0.304被用作计算P/R和可视化检测结果的阈值。除F1外,综合指标mAP用于评估模型性能,特定IoU阈值下的平均精度(AP)计算如下。APIoU¼i¼1= 1012016年6月R2R用较少的参数和FLOP获得较高的R。除了上述指标外,在不同IoU阈值下,Fast-FDM针对不同规模的目标水果的召回率如图7所示。当IoU阈值为0.5时,模型对大规模和中等规模目标水果的召回率都接近1,对小目标的召回率也达到93%,这意味着模型性能有更大的潜在提升空间。选取了复杂果园中检测难度较大的青苹果图像,包括枝叶阴影、重叠覆盖、光照强度差异等干扰。将目标水果检测结果可视化,W. Jia,Z.Wang,Z.Zhang等人沙特国王大学学报5163图五、具有变化置信度的模型的P、R和F1曲线见图6。 10个IoU阈值下的P-R曲线。效果更加直观和清晰。图8示出了所提出的用于青苹果的快速FDM的一些检测结果。第一列显示带有注释信息的水果图像,第二列显示NMS之前网络预测结果的映射,第三列显示网络的最终预测结果。上图表明,Fast-FDM能够准确有效地检测出目标水果的位置,没有出现误检或小果遗漏,与实际结果一致。即使在较严重的干扰条件下,如黑暗条件下或由于严重遮挡而不明显的水果特征,也可以快速获得准确的检测边界框实现高效准确的目标水果检测。因此,Fast-FDM具有更好的泛化能力和鲁棒性4.3.2. 消融研究如本文所述,Fast-FDM是一种青苹果对象检测模型,具有基于FoveaBox对象检测器的高效骨干和特征网络。在本节中,通过消融研究验证了模型的主干和特征网络的有效性。解 开 EfficientNetV 2-S 主 干 和 BiFPN 。 为 了 了 解 新 的 骨 干EfficientNetV 2-S和BiFPN对参数和效率的贡献,W. Jia,Z.Wang,Z.Zhang等人沙特国王大学学报5164表2Fast-FDM在苹果数据集验证集上的对象检测结果度量PRF1地图AP50AP75图S地图M图LParamsFLOPsFPS值87.879.083.262.387.967.546.067.988.116.232.933.6见图7。在不同的区域范围内调用超过10个IoU。以原骨干网Fast-FDM为基准,比较了EfficientNet-S和BiFPN对网络性能的影响。实验结果示于表3中。从具有ResNet 50主干和自上而下FPN的FoveaBox检测器开始,主干首先被EfficientNetV 2-S取代,后者将精度提高了1 AP50,参数和FLOP略少。然后,将基准FPN替换为BiFPN,后者以更少的参数和FLOP实现了额外的0.3 AP50增益。总的来说,与原始基准模型相比,使用更少的参数和FLOP获得了1.3 AP50如表所示,EfficientNetV 2-S骨干网和BiFPN都是Fast-FDM必不可少的,它可以获得更好的检测精度和更高的效率。结果表明,快速频分复用方法具有更高的效率.不同的抽样选择方法与ATSS。该模型的预测检测性能是基于正负样本的选择。因此,在3.3.1节中分析了四种典型的正样本和负样本选择方法,分别是FoveaBox中的尺度分配方法、FCOS中的SSC、RetinaNet中基于IoU的采样方法以及我们的Fast-FDM中采用的ATSS方法。我们在我们的青苹果数据集上进行实验,比较它们在区分训练样本方面的有效性。结果如图9所示,其中ATSS对于不同尺度的目标水果具有最好的召回率,特别是对于小目标水果。4.3.3. 比较在绿色苹果数据集上,将所提出的模型Fast-FDM与其他先进的目标检测器的检测效果进行了比较,进一步验证了该模型在绿色水果检测中的有效性所有的实验环境、数据集和评估标准都是相同的,并且为了公平比较,采用了相同的后处理我们选择了在各种条件下拍摄的图像,果园环境下,对严重遮挡、重叠、远景、逆光和夜间四种情况下的检测效果进行可视化。 这些模型在苹果图像上的检测结果如图所示。 10个。第一行是我们标记的基本事实从第二行到第五行依次显示了Fast-FDM、Faster R-CNN、FCOS和YOLO模型对青苹果的检测结果从上图可以看出,对于完全独立存在的水果和遮挡程度较低的水果,检测结果没有显著差异然而,在复杂的果园环境中,由于受到许多不可避免的干扰因素的影响,水果的特征变得模糊不清,因此几种目标检测器之间的性能差距也就显现出来。其中,Fast-FDM算法对青苹果的检测效果最好,得分概率最高,能够更准确地识别和定位目标水果。甚至有一些水果在制作数据集时没有被标记,因为特征严重缺失,但我们的模型也可以准确地检测到它们,如第二行所示(图2)。 11)。为了清楚准确地比较不同检测器用于青苹果检测的性能,我们使用不同类型的当前最先进的检测器评估了所提出的YOLOv 3和无锚单阶段算法FCOS。选择AP和AP 50来测量每个探测器的精度。该模型的容量、复杂度和检测速度分别通过Params、FLOPs和FPS进行测量,结果如表4所示。从总体比较结果来看,在相同的输入规模下,本文提出的Fast-FDM算法在所有度量指标上都优于不同类型的算法,这意味着Fast-FDM算法具有更少的参数、更低的模型复杂度和更快的检测速度,可以获得更准确的检测结果。快速FDMW. Jia,Z.Wang,Z.Zhang等人沙特国王大学学报5165见图8。由所提出的快速FDM执行的检测结果的示例。可以很容易地嵌入到便携式设备中,如机器人,用于水果收获和农药喷洒等实时应用,这可以促进智能农业领域的发展(表5)。具体而言,与以高检测精度为特征的基于锚点的两阶段模型相比,Fast-FDM即使在参数、模型复杂度、表3解开骨干和BiFPN-启动从的标准FoveaBox(ResNet 50 + FPN),首先用EfficientNetV 2-S替换主干,然后用BiFPN替换基线FPN输入大小:(608,416)。高效NetV 2-S + BiFPN87.9(+0.3)11.42个月(-8.34)9.02G(-12.75)脊柱+颈部AP50ParamsFLOPsResNet50 + FPN86.631.28M24.16G高效NetV 2-S + FPN87.6(+1.0)19.76米(-11.52)21.77G(-2.39)W. Jia,Z.Wang,Z.Zhang等人沙特国王大学学报5166见图9。 回顾四种样本选择方法。见图10。 比较Fast-FDM和其他先进物体探测器的探测结果。和 检 测 速 度 明 显 优 于这 些 算 法 。 为 了
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功