没有合适的资源?快使用搜索试试~ 我知道了~
DLNet模型:自然果园中被遮挡果实准确识别和分割的改进方法
沙特国王大学学报DLNet:在模糊环境刘杰a,赵燕娜a,贾伟宽a,刘伟,季泽ba山东师范大学信息科学与工程学院,山东济南250358b卡迪夫大学工程学院,英国卡迪夫CF24阿提奇莱因福奥文章历史记录:2021年8月30日收到2021年9月22日修订2021年9月27日接受2021年10月4日网上发售关键词:DLNet暗果GATRS-RFP鲁棒分割A B S T R A C T为了实现对自然果园环境中被遮挡果实的准确识别和分割,提出了DLNet模型。该模型是改进的,更具有挑战性的问题,分割重叠水果从同色背景,而不考虑各种损害。这种方法相当于构建检测网络RS-RFP和分段网络DLNet。RS-RFP扩展了全卷积一阶段目标检测(FCOS)。具体来说,特征金字塔网络(FPN)通过加入高斯非局部注意机制构建细化金字塔网络(RFP),用于细化残差网络(ResNet)和FPN不断生成的语义特征。DLNet分割框架由双层图形注意力网络(GAT)层组成,该层被构造为将图像建模为两个重叠层,其中顶部GAT层检测被遮挡对象(被遮挡),底部GAT层推断部分被遮挡实例(遮挡)。两层结构遮挡关系的显示模型可以自然地显示被遮挡和被遮挡实例之间的边界,并考虑它们之间的相互作用。实验结果表明,该方法优于早期的分割模型,平均精度(AP)框和AP掩模的度量值分别达到80.9%和81.2%。在合理的运行时间内,满足了采摘机器人对准确性和鲁棒性的要求,为分割提供了参考其他水果和蔬菜。版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍随着深度学习的逐渐成熟,将这场新的革命移植到各个行业以获得更好的效果已经成为一种普遍现象,这刺激了自主机器人在农业中的发展。视觉系统作为农业机器人最基本和最重要的组成部分,用于从复杂多样的场景中分辨指定目标,已广泛应用于许多实际应用中,例如水果产量估计(Zhang et al.,2021)、作物生长监测(Schima等人,2016)和疾病检测(Zhao等人,2016年)。至于视觉识别系统,这是水果和蔬菜采摘机器人的重要组成部分(Bauer等人,2019年),其水果检测的准确性,效率和鲁棒性*通讯作者。电子邮件地址:jwk_1982@163.com(W. Jia)。沙特国王大学负责同行审查复杂的背景条件会极大地影响拣选机器人的装箱质量。因此,配备稳定的视觉识别系统的采摘机器人将是实现目标果实高效检测的关键,也是实现果园智能化管理机器学习在图像分割中起着重要的作用,并且在绿色水果分割中取得了很好的效果。Arefi(Arefi等人,2011)首先在红绿蓝(RGB)空间去除背景,然后结合RGB和水平位置指示(HSI)空间提取成熟番茄区域,最后利用形状特征定位果实区域,算法的整体准确率能够达到96.36%。Dorj(Dorj等人,2017年)在颜色特征的帮助下识别了柑橘,图像处理的方法来估计果实产量,但柑橘和叶片之间的颜色差异明显,很少有混合检测的情况下,这是比较简单的识别。 Tian(Tian等人,2019)提出了一种基于深度图像的目标水果局部化方法,通过深度图像及其对应的RGB空间信息分别定位苹果圆心和半径来拟合目标区域,但由于水果重叠和遮挡问题,该方法难以通过深度图像定位水果圆心,鲁棒性较差https://doi.org/10.1016/j.jksuci.2021.09.0231319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.comJ. Liu,Y.Zhao,W.Jia等人沙特国王大学学报7260在复杂的环境中。 Bhunia(Bhunia等人, 2020)提出了一种新的特征描述符来探索色调之间的关系(H) 以及色调-饱和度-值(HSV)颜色空间中的饱和度(S)通道,其组合颜色和纹理信息。实验表明,该描述子是一个显着的改进,现有的描述子基于内容的彩色图像检索。Bhattacharyya(Bhattacharyya等人,2019)提出了一种从人脸图像中获取特定性别信息的新方法,从正面人脸图像中提取信息进行性别判别,在背景、光照、亮度和面部表情的干扰下仍然稳定,从而提高了整体分类精度。这些方法往往伴随着图像预处理、特征选择和提取等一系列复杂的操作,这些操作很容易涉及到模型的识别效果。当果实表面纹理特征因光照强度、枝叶遮挡或果实重叠而缺失,目标果实与背景枝叶颜色相同而产生颜色干扰时,这些问题会大大降低此类方法对目标果实的识别准确率。近年来,随着深度学习和卷积神经网络的发展,端到端的检测过程以及自动提取图像深度特征的优势,省去了传统视觉算法的许多复杂运算,吸引了众多研究者将其应用于目标水果的定位和识别。Bargoti(Bargoti andUnderwood,2017)首先使用多级感知器和卷积神经网络对苹果图像进行分割,以提取图像中的苹果目标,然后使用分水岭分割和循环Hough变换方法识别和计数苹果目标。 Jia(Jia等人, 2020)改编的Mask R-CNN(He等人, 2017),其是通过改进残差网络(ResNet)来进行苹果目标检测的实例分割模型(He等人, 2016)与密集连接卷积网络(DenseNet)(Huangetal.,2017年)作为新模型的特征提取网络,以大幅提高重叠和分支遮挡环境中苹果目标的检测精度。Chen(Chen等人, 2017)提出了一种基于全连接卷积神经网络(CNN)的斑点检测器,用于提取图像中的候选区域,分割对象区域,并使用CNN计数算法的后续计算水果的数量。Gupta(Gupta等人, 2020)提出了一种基于内容的图像检索(CBIR)的两步方法,将图像二值模式和谷模式进行配准,并将它们与颜色直方图相结合。该方法克服了现有方法使用较大特征向量且检测精度仍然较低的缺点。Ghose(Ghose等人,2021)提出了一种新的地面地形识别方法,通过对纹理信息进行建模,在无序纹理信息分量和有序空间信息之间建立平衡,实现分类器对地面地形的有效分类。在上述基于深度学习的检测模型中,其准确性和适用性较传统视觉方法有显著提高,但此类方法需要大量的计算和存储资源,速度尚不能满足采摘机器人对实时性的需求。通过上述国内外研究现状,为了平衡目标果实分割的准确性和速度之间的关系,使机器人在严重遮挡的果园环境中达到实时操作的要求,提出了DLNet实例分割模型。该模型由检测网络框架RS-RFP和分割网络框架DLNet组成,其中RS-RFP是全卷积一阶段对象检测(FCOS)的扩展(Tian等人,2019)通过添加非本地(Wang et al., 2018)注意块的功能金字塔网络(FPN)(Lin等人, 2017)和构建细化金字塔网络(RFP)以提高特征提取的准确性。DLNet网络的严重遮挡部分的分割是通过构建一个双层图注意力网络(GAT)来实现的(Velickovic'etal.,2017),在两层GAT结构下,能够真实地改善叶果遮挡干扰下模型的分割,满足了实际应用中各种智能技术对速度、精度和鲁棒性的多重要求。总体而言,本研究至少有以下贡献:(1) 嵌入一个非局部注意模块,并建立一个GAT结构,集中在信息像素,同时抑制噪声。(2) 本文提出的方法在准确性和鲁棒性方面优于现有的模型,更适合于复杂场景中的绿色水果分割。(3) 由于DLNet消除了锚定框架,因此不需要为特定数据集重置超鞭毛体,这意味着重命名的模型可以直接迁移到其他水果的分割。本文的其余部分组织如下:第2节描述了相关数据集的图像采集、处理和注释。接下来,第3节介绍了检测网络RS-Net和分段网络DLNet的详细组成及其各自的改进。第四节通过实验验证了该方法在查准率、查全率和鲁棒性方面优于其他方法。最后,对本文提出的方法进行了总结,并指出了该领域尚待解决的问题,为今后的研究指明了方向。2. 数据收集和数据集创建2.1. 数据采集为了评估该模型对绿色水果的分割效果,本文收集并产生了两个数据集:未成熟的柿子和绿色苹果,这两个数据集都是用Sony Alpha 7 II相机捕获的,使用Labelme软件手动注释图像中的目标水果,并统一转换为MS COCO(Lin et al.,2014)数据集格式,为了适应遮挡环境下的模型分割效果,将COCO格式数据集进一步转换为该模型所需的双层标注格式进行模型学习。柿子数据集采集自山东师范大学、山东省济南市长清区两个数据集都包含在各种环境中捕获的水果图像,例如不同时间段、不同天气、不同光线角度和不同阴影条件。使用柿子数据集作为例子,图1分别示出了不同情况下的一些实际图像;表1示出了柿子数据集的采集时间间隔、图像和果实分布以及训练/验证集划分。2.2. 数据集生成和数据集增强用labelme软件对数据集进行标记,标记前将分辨率统一降低到600× 400像素J. Liu,Y.Zhao,W.Jia等人沙特国王大学学报7261Fig. 1.复杂自然场景下的柿子实物图像。注意事项:a-c示出了在不同光强度下的图像; d-f示出了不同类型的阴影(果实重叠、叶子阴影、树枝阴影); g-i示出了在不同光角度下的图像。表1柿子数据集的分布。注释信息在同一个json文件中,训练集和验证集在每个干扰中以7:3的比例划分。时间场景划分训练套装图片(张)/水果(件)验证集图片(张)/水果(片)总和图片(张)/水果(件)每种干扰类型的影响程度。最后,从apple训练集中总共获得了3703张图像,从验证集中获得了1587张图像,并在MS COCO数据中获得了注释文件-早上65/26628/8493/350设置格式分别生成。中午87/27837/142124/420下午69/52129/12998/650雨388/1865 165/659 553/2524注:图像采集和数据集划分表。收购于日间在自然阳光下进行,并于夜间使用LED灯辅助照明对于在每个时间段下采集的图像,训练集和验证集按照图像数量的3:1的比例划分。将标记图像中每个果实的最小外矩阵作为真帧并生成相应的json文件,按7:3随机组合成训练集和数据集,其中柿子数据集训练集中的图像数为398,测试集中的图像数为170。由于苹果数据集中的图像和标记水果的数量很少,因此标记后的图像被随机增强。增强类型包括亮度增强、对比度降低、雾化、高斯噪声、脉冲噪声、泊松噪声。如图2所示,将每种增强类型划分为不同的增强程度,最终共生成5290张图像。从原始图像生成的增强图像共享为了提高果园阴影环境下绿色水果分割的准确性和效率,提出了一种准确高效的DLNet分割模型。 新模型的框架如下图3首先,分割网络DLNet,它使用两层GAT结构,其中顶部GAT检测被遮挡的对象,底部GAT推断部分被遮挡的实例。利用两层GAT结构,获取被遮挡部分的实例并且通过全卷积网络(FCN)生成掩码(Long等人,2015)以生成水果所在的详细区域。3.1. 特征提取RS-RFP检测网络特征提取RS-RFP检测网络由提取、融合和细化三部分组成,晚上87/33638/125125/4613. DLNet双层遮挡分割模型后80/46433/179113/643J. Liu,Y.Zhao,W.Jia等人沙特国王大学学报7262图二. 不同类型的苹果图像增强实例。图三. DLNet的流程图图四、RS-RFP流程图注:检测网络共包含三个部分,骨干网络ResNet和FPN用于提取图像特征,RFP用于细化提取的特征,RFP中嵌入的注意力模块的详细示意图如图所示。五、分别由ResNet101、FPN和RFP提供。ResNet和FPN的结合可能会导致梯度消失和爆炸,随着网络深度的增加,导致模型退化。因此,基于ResNet和FPN的高效特征提取能力,引入RFP,从而有效地解决了这一矛盾现象,提高了更深层次网络的区分能力。3.1.1. ResNet + FPN一般来说,ResNet101骨干网络中的深层高层特征具有更多的语义信息,而浅层低层特征在内容上更具描述性。虽然最终经过连续下采样操作后,ResNet101网络的输出特征图包含丰富的语义信息(卷积和池化),会使其分辨率很低,边界等细节信息基本丢失,这会使更小对象的语义信息被严重淡化,最终导致检测失败,因此,其提取的特征值适合于大尺度目标的预测。考虑到机器人与物体之间的距离,以及被遮挡物体的小面积,采摘机器人的视觉系统设计也需要准确识别较小的区域因此,在该模型体系结构中引入了FPN。J. Liu,Y.Zhao,W.Jia等人沙特国王大学学报7263FG×××我c^x在本研究中,取ResNet101的最终残差块conv2、conv3、conv4、conv5,其输出特征地图是fA2; A3; A4; A5g,并将其特征图按照自顶向下和横向连接进行融合,得到F2; F3; F4; F5。FPN主要解决检测中的目标多尺度预测问题,通过融合深层特征图的语义信息和浅层特征图的细节信息构建特征金字塔,将不同尺度的待检测目标分配到金字塔中负责预测的不同层次的特征图上3.1.2. RFPResNet和FPN提取的特征可以作为检测的基础,并且已经取得了很大的进步,可以达到很高的准确率,但是ResNet + FPN网络应用于复杂果园环境下的水果检测会存在以下问题。一方面,在复杂的果园环境中采集水果图像这些图像受到光照、重叠、尤其是遮挡等不利因素的影响,使得采集图像中的水果区域不完整。另一方面,集成特征提取方法应该从每幅图像的每个像素的语义特征中获得均衡的信息,但在ResNet + FPN结构中会使集成特征更多地关注相邻像素的语义信息,而较少关注其他分辨率,并且在信息流动过程中,非相邻层次所包含的语义信息会在每次融合中被稀释。因此,为了解决上述两个难题,RS-RFP网络增加了RFP,RFP是在FPN之上嵌入非局部模块,以获取和提炼更多的语义特征信息,其结构如图所示。 具体实现如图5所示。在本文中,为了通过在图5中的u和f后面添加最大池化层来更有效地设置非局部块,wh、wf和wx的声道的数量将被设置为通道数×,从而形成一个瓶颈,将能够减少一半的计算。然后,重新逼近的通道数,以确保输入和输出维度一致。在使用下采样操作之后,输出yi变为以下等式:y1X8jf. xi;^xjg. ^xj1其中,x表示输入;f∈xi;xj∈用于计算两两3.2. DLNet分割模型在严重遮挡环境中的图像中,在分割期间同一边界框中的多个重叠对象可能导致来自真实对象的实例轮廓与遮挡边界之间的混淆。例如,Mask scoring RCNN的掩码报头设计(Huang等人, 2019)直接用完全卷积网络回归掩蔽,忽略掩蔽实例和对象之间的重叠关系。为了缓解这一限制,DLNet扩展了现有的两阶段实例分割方法,在传统的目标预测管道中添加了一个两层GAT结构,以便在掩模回归阶段可以很好地考虑感兴趣区域中的对象之间的相互作用,从而可以很好地考虑特定的真实对象和掩模。3.2.1. 双层GAT结构近年来,图卷积网络(GCN)(Kipf和Welling,2016)已被用于对图像和视频中的长期关系进行建模,高度重叠的目标可以将属于被遮挡对象同一部分的像素分割成不相交的子区域。然而,由于GCN假设图是有向的,不能处理动态图,并且不能为每个相邻点分配不同的权重,因此引入了GAT。基于GAT的非局部特性,DLNet采用GAT作为基本块,每个图节点代表一个像素在特征地图上。为了显式地对封闭区域进行建模,该模型将单个GAT块扩展为如图3所示的两层GAT结构,在单个通用框架下构建两个正交图。该模型的分割部分设计简单有效,由3 - 3conv层、GAT层和FCN层组成,然后将输出送入上采样和1 - 1conv层,得到用于边界和掩模 联 合 预 测 的 通 道 特 征 映 射 GAT 的 实 现 通 过 双 注 意 力 网 络(DANet)来执行(Fu等人, 2019a)模块,分为位置关注模块和通道关注模块,构建的GAT结构如下图6所示。3.2.2. DLNet工作流在此的GAT结构中,需要给出邻接图G^hV;ei,其中在节点V之间存在边e。图中,卷积运算表示为:OrAXWgx2其中,XR N×K是输入特征图; NHW是数字I和所有可能的相关位置j之间的关系;gxj用于计算位置j处的输入信号的特征值。j;cx是归一化参数。ROI区域内的像素g2网格;K是A2RN×N是定义每个节点的功能相似性,图五、注意力模块的详细描述,在图1的RFP部分中说明。四、J. Liu,Y.Zhao,W.Jia等人沙特国王大学学报726420FGFN阳;x;y见图6。 建成的GAT结构。邻接矩阵图的节点;Wg2RK×K是输出变换矩阵,在此模型中K0¼K;输出特征O RK×K由整个图形层内通过全局信息传播更新的节点特征组成,该图形层是归一化的和整流线性单元(ReLU)(Krizhevsky等人,2012)的非线性函数r:的函数。在两层GAT结构中,进一步定义gi为with图,Xroi为输入ROI特征,Wf作为FCN层的权重,因此完整的公式为:O1 1½rfA1½rr fA0XroiW0Xroi]W1g Of30g直接识别为遮挡边界,从而可以将其与真实对象轮廓区分开。3.3. 损失函数损失函数的设计是决定该模型分割基于每个分支的预测目标、任务类型、正负样本比例,使用如下所示的损失函数对模型进行迭代优化。根据模型的结构分析,给出了损失函数,O ¼rðA XG gW0W0Xð4Þ该模型由三部分组成:检测阶段产生的损失,闭塞分支的损失,闭塞分支的丧失总损失函数方程为为了连接两个GAT块,第一GAT的输出特征A0被直接添加到Xroi以获得融合的遮挡感知特征Of,Of是第二GAT层的输入,并且输出O1用于遮挡掩模预测。在利用两层GAT结构进行分割的过程中,对RS-RFP检测网络中得到的特征信息进行处理,特别是对被遮挡果实的判别,并对被遮挡部分进行分步处理。在第一种选择中,先区分遮挡部分和被遮挡部分,然后分别发送到各自的处理GAT层,最后对信息进行综合处理,输出最终的预测图像。其中,第一GAT层用于检测轮廓并处理遮挡实例,实现遮挡实例的轮廓预测和掩模回归;第二GAT层用于处理遮挡实例,实现遮挡实例的轮廓预测和掩模回归。基于GAT中的注意机制,它可以更好地关注功能信息减少噪声干扰。经过这样的两层GAT过程-如下所示L/L检测器/L封堵器/L封堵器/被封堵器关于模型在检测阶段LDetect中产生的损失,进一步由Classification、Regression和Centerness三个分支产生的损失组成。以来其中目标水果与背景相比占据相对小的面积并且经历因子收缩R的图片,在正SAM和负SAM之间存在不平衡问题在训练阶段。为了考虑到上述缺点并简化计算,因此选择分类、回归和中心度分支来通过焦点损失计算(Lin等人,2017),IoU(联合的交集)损失(Yu等人,2016)和BCE损失(de Boer et al.,2005)分别,模型函数检测部分的整体损失如下所示:L检测; L检测ð6 Þing,被遮挡的和被遮挡的被分别处理,然后Lcls¼1XLclass;pω7集成以实现掩模的准确分割,如下面的图7所示。N阳性x;yx;yx;y双层GAT结构构造了新的语义图L¼kXL布吕德;dω8空间为封闭的区域,另外相比,这是未知掩码头类的一种单层结构,每个像素只有二进制标签(前景/背景)。回归N阳性x;y回归x;yx;y该模型明确区分了两层occlu的工作SiON结构,并且两个层之间的重叠可以是Lcenterness<$bXLcenterness(中心)ROIROIx;yJ. Liu,Y.Zhao,W.Jia等人沙特国王大学学报7265ðÞ见图7。GAT的工作流程图。注:第一层GAT将提取用于分割遮挡部分的特征,找到并分割遮挡部分;第二层GAT将分割遮挡对象,然后将第一层GAT得到的结果合并,生成最终的分割图像。在上述等式中,px;y;dx;y;centerx;y分别是分类分支、回归分支和中心性分支在空间位置(x,y)处的预测值y,pωx;y;dωx;y;centerrωx;y对应于空间位置(x,y)处的训练目标,并且在三个损失项中,Lregssion;Lcenterness仅针对正样本,Npos表示正样本数,k;b为各损失项的平衡该模型产生的损失函数的LOclude和LOccluder在闭塞的分支和闭塞的分支的分区网络与以下的功能公式,如方程。(10)Eq. (十一)、LOccludee¼k1LOcc-Bk 2LOcc-S10L封堵器¼k3L0Occ-B封堵器 4L0Occ-S封堵器11mm关于方程(1)中的分割遮挡的边界检测的分类损失L0Occ-B(12),则示出以下等式L0Occ-B¼LBCE-BFOcc-BF Occ-Xrot-;gTB≤12mm其中LBCE表示二进制交叉熵损失,表示如下。LBC Ex;class sweight t½class s].-x½类s]日志。Xex px½j]!!Jð13ÞFocc表示遮挡建模模块的非线性变换函数;WB是边界预测器的权重;Xroi是由目标区域的Roi Align操作给出的剪切FPN特征图;以及gTB是现成的遮挡边界,其可以容易地从掩模注释计算。对于方程中的分类损失L0Occ-s,(12)为了对分段的遮挡的遮挡进行建模,示出了以下等式。4. 结果和分析为了检验DLNet模型在绿色水果识别中的有效性实验首先采用预训练和直接训练两种方法来获得模型,并比较它们对实验结果的影响。然后,选择最优的训练模型,在柿子和苹果果实的验证集上进行评估,并对实验数据进行分析。最后,针对每种类型的目标检测和分割,选取了最先进的算法,在分割绿色水果时,对模型的检测和分割性能进行了测试和比较4.1. 实验实施细节本文所涉及的所有相关实验都是在与主配置环境相同的服务器设备上完成的Ubuntu 16.04操作系统,32 GB Tesla V100显卡和10.0CUDA环境。所有模型都是使用Python语言和Pytorch 1.4深度学习库在Detectron框架中的相关模块的帮助下构建的。4.1.1. 训练阶段在正式训练之前,使用1586幅苹果图片进行每次训练.将预训练后的参数作为初始化参数迁移到DLNet网络中,以更好地提高模型的准确性和鲁棒性。对于正式训练,使用mini-batch迭代训练12个epoch,每次迭代使用2个样本作为一个批次。在训练期间由三个分支产生的损失变化如图8所示,其中水平轴显示迭代次数,垂直轴显示损失值。在验证集上评估每个训练时期之后,获得的分割平均精度(AP)变化图在L0发生率-s14LBCEBCE BCE BCEWS FoccBCEXroiBCE;gTSBCE14mm见图9。使用ResNet101作为基础网络来提取图像特征,并使用批量归一化(BN)(Ioffe和Szegedy,其中FoccXroi用于在掩码的掩码预测中使用边界预测的联合优化的共享特征;WS表示掩码的预测值的可训练权重1× 1卷积层分割掩码;gTs表示掩码的掩码标记。高于k1;k2;k3;k4是高钠血症体重,平衡的损失功能,这是调谐到在验证集上分别为0: 5; 0: 25; 0: 5; 1: 0g2015)在更新权重时用于正则化;当构建FPN时,使用5层金字塔层次结构{pl}(l= 3,4,. 7)熔合特征,每层通道的数量是256,下采样倍数分别为2l;收缩因子r设为0.4,则目标水果帧上与特征图对应的映射区域收缩0.4倍作为正采样区域;使用J. Liu,Y.Zhao,W.Jia等人沙特国王大学学报7266¼¼¼2101r2R r~:r~≥r图8.第八条。训练阶段两个数据集的损失函数变化曲线图9.第九条。两个数据集在训练阶段的mAP变化图BN每次更新时,模型参数使用随机梯度下降(SGD)(Bottou,2010)更新,学习率,权重衰减和动量分别设置为0.0025,0.0001和0.9。输入网络是单向的,属于真阳性(TP)或假阳性(FP)的,统计它们的数量,并根据公式计算精确率和召回率。在训练之前,其大小被正式地调整为(1200,800),并且利用随机翻转、正则化和填充操作来顺序地重新处理。4.1.2. 测试阶段这些图像也经过了裁剪、随机翻转、精密度TPTPs召回TPTPs和 FNsð15Þð16Þ接入网前的ping、规则化和填充;在网络推理后,首先排除置信度小于0.05的低质量预测帧,然后用NMS以IoU等于0.5为阈值对重叠过多的预测帧进行筛选,筛选完成后,为每个图像保留具有最多前100个置信度的预测帧,按照置信度的顺序,为每个图像保留前100个置信度帧。4.2. 评价指标在该实验中,模型预测框和标记框之间的IoU = 0.5被用作将它们分类为由方程式(15)Eq.TP、FP和FN分别表示在指定置信水平下和IoU阈值下的真阳性样本的数量最后,采用AP指标对模型检测效果进行客观、全面的(十七)、A PIoUi¼1Xmaxp. ~r1 7由方程式(17),R [0,0.01,0.02,.,1],r表示作为召回率的值,p是与作为召回率的值通过上述方程,将准确率和召回率一起评估,以获得近似J. Liu,Y.Zhao,W.Jia等人沙特国王大学学报7267在指定的IoU阈值下的曲线下面积(AUC)的值AP(默认i = 0.5),并用作以下实验的评价指标。4.3. 模型分割效应在网络训练完成后,通过性能评估选出最优模型,该模型采用不同目标果粒范围下的不同IoU阈值和AP、平均召回率(AR)值此外,选取了重叠、枝叶遮挡、夜间、远景、雨后、逆光等混合干扰条件下的柿子和苹果果实图像进行分割,研究分析了分割效果图。DLNet对两种水果的分割效果如图10所示,其中柿子水果显示在左侧,苹果水果显示在右侧。模型对两个水果验证集的详细评估结果见表2。和分割性能,并比较了它们与DLNet在识别性能上的差异。得出最终实验结论,如表3所示。如上表3所示,选择不同类型的目标检测和实例分割算法用于与DLNet进行比较,包括基于锚帧的两阶段算法:Faster R-CNN(Ren et al. 2015),Mask R-CNN,MS R-CNN;基于锚帧的单阶段算法:SSD 512(Liu等人,2016)、YOLO v3(Redmon和Farhadi , 2018 ) 、 YOLACT ( Bolya 等 人 , 2019 a ) 、YOLACT++(Bolya等人,2019 b)、SOLO(Wang等人, 2020)和 没有锚帧的 单 阶 段 算 法 : FCOS , Polar-Mask ( Xie 等 人 ,2020)、RetinaMask(Fu等人, 2019b)、BCNet(Ke等人,2021),表示模型不具备预测边界或掩码的能力。如上表3所示,与其他算法相比,DLNet在检测准确率和分割准确率方面的综合评价指标mAP和mAR值最高,分别为80.9%和81.2%,高于其他三种不同类型的算法。除了考虑分割的准确性外,还需要考虑分割的其中APb,APs是边界模型的AP值算法在GPU上识别图像的平均速度50 50以及在IoU = 0.5的阈值下的掩码的AP值; mAP b、mAP s是在[0.5,0.55,0.6,... ,0.95]并对获得的10个AP值取平均值; fur-1、mAPS、mAPM和mAPL 分 别是模型在三个尺度范围[0,322]、[322,962]和[962,INF]中对小规模水果、中规模水果和大规模水果预测结果的组合评价结果。虽然DLNet已经能够针对果园中的遮荫情况识别出大部分被遮荫的果实,但仍存在光照、树叶和果实颜色过于接近,因严重遮荫而无法识别果实的情况,如下图11所示。4.4. 算法比较为了进一步说明该模型对目标水果分割的有效性,在同一数据集和同一配置的实验平台上,从检测和实例分割两个角度对当前先进的该模型需要在保证分割精度的同时减少分割时间,如果分割时间达不到实时性的要求,就很难真正投入使用 如图所示。在下面的图12中,列出了上表3中的分割算法平均分割相同数据集上的图像所需的时间。上述分析表明,DLNet模型能够以更简单的模型结构和更少的计算量获得更高的检测精度,同时在速度和准确性上实现高效,适应复杂的果园环境,部署到移动采摘设备上能够以更少的功耗保证更稳定、高效的运行质量4.5. COCO数据集为了进一步验证网络的性能,使用了公开的标准数据集进行网络测试。选择COCO 2014数据集,并选择四种最新的分割算法Mask R-CNN,MS R-CNN,RetinaMask和YOLACT,以比较DLNet模型的准确性。见图10。 模型在不同干扰场景下的分割效果。J. Liu,Y.Zhao,W.Jia等人沙特国王大学学报7268表2DLNet网络在两个验证集上的评估结果。5050SsMmLl5050SsMmLlssss嗯嗯嗯llll图十一岁图像分割缺失。注:(a)叶子与果实混在一起;(b)叶子被严重遮挡;(c)光线太暗。表3每个模型在两个数据集上的识别结果。执行方法数据集苹果数据集两级锚基mAPbmAPsmAPbmAPs更快的R-CNN 72.3 - 82.4掩码R-CNN 71.8 72.3 81.5 74.3MSR-CNN 72.9 72.5 80.6 76.2单级锚基SSD512 64.1 - 75.1-YOLO v3 69.6 - 82.2-尤拉特58.0 61.0 67.4 75.6YLACT ++70.2 69.1 78.0 78.8SOLO-58.6 - 76.4一级无锚FCOS 68.8 - 81.4-PolarMask 57.7 54.6 69.9 68.7视网膜面膜72.4 71.6 81.8 73.6BCNet我们DLNet 80.9 81.2 82.8 78.9见图12。 不同分割算法的时间比较。表4不同算法在coco数据集上的比较结果COCO数据集,以及它们的比较结果示于下表4中。从上表4可以看出因此,经过以上分析,该方法在分割精度和时间上都取得了较好的效果,具有较强的泛化能力和鲁棒性。5. 结论在非结构化的果园环境中,针对遮挡环境下的分割难题,本研究以绿色水果为研究对象,提出了一种绿色的柿子苹果BboxSegmBboxSegm度量值度量值度量值度量值mAPb百分之八十点九mAPs\* MERGEFORMAT81.2%mAPb\* MERGEFORMAT百分之八十二点八mAPs\* MERGEFORMAT百分之七十八点九APB百分之九十点三AP\* 合并格式百分之八十九APb\* 合并格式百分之八十六点四AP\* 合并格式百分之八十四点八mAPb百分之四十四mAPs\* MERGEFORMAT42.2%mAPb\* MERGEFORMAT45.7%mAPs\* MERGEFORMAT44.8%mAPb百分mAPs\* MERGEFORMAT百分mAPb\* MERGEFORMAT百分之七十mAPs\* MERGEFORMAT百分之六方法骨干APSAP50AP75时间Mask R-CNNR-101-FPN35.758.037.8116.3MS R-CNNR-101-FPN38.358.841.5116.3视网膜面膜R-101-FPN34.755.436.9166.7优拉克特R-101-FPN31.250.632.842.7DLNetR-101-FPN-RFP40.460.142.353.2J. Liu,Y.Zhao,W.Jia等人沙特国王大学学报7269遮挡环境下的目标水果分割模型。该模型由两部分组成,第一部分是检测网络RS-RFP,它通过添加嵌入式高斯注意模块扩展了FCOS生成。在ResNet和FPN的基础上,增加了新提出的RFP,使相似的语义特征实现相互增益,并减少遮挡,光照和重叠等不利因素的影响。第二部分是DLNet分割网络,它以GAT为基本模块,利用GAT的非局部特性和注意力网络,构造了DLNet分割网络。为了显式地对遮挡区域进行建模,将单个GAT块扩展为两层GAT结构,以解耦重叠关系。其中第一GAT层用于遮挡预测,第二GAT层进行遮挡建模,通过第一GAT层提供的丰富的辅助预测信息,如形状和位置预测,引导目标(遮挡)对象分割。实验结果表明,该方法对绿色目标水果的检测和分割具有较高的准确性,并且在各种干扰条件下具有较强的鲁棒性。与YOLACT等分割算法相比,该模型计算量和存储量更小,架构设计更简洁,分割速度更快。在叶片遮挡、与背景颜色相似、重叠以及各种光照效果的情况下,DLNet模型能够在分割检测时聚合整幅图像中的青果信息,抑制背景干扰噪声,以最少的计算资源达到更好的分割效果。新模型实现了高效准确的识别绿色目标果实,并在复杂果园环境的干扰下表现出更好的泛化能力和鲁棒性。在未来的研究中,将进一步考虑果园中更复杂的情况和模型的效率,对装配能力和实时操作能力进行研究的设备新模型对绿色目标水果具有良好的识别性,可进一步推广到其他果蔬生产中。本文提出的模型具有识别速度快、准确率高、泛化能力强的特点。虽然该方法到目前为止取得了比较好的效果,但在实际问题中还需要考虑精度和内耗,而且这种模型在未来仍需要不断提高效率,并优化模型的网络结构,在精度提高的情况下提高运算速度和效率。竞争利益作者声明,他们没有已知的竞争性财务利益或个人关系,可能会影响本文报告的工作。致谢本工作得到了山东省自然科学基金项目(ZR 2020 MF 076、ZR2019 ZD 04)的资助;山东省重点研究发展计划项目(编号:2019 GNC106115);国家自然科学基金(编号:62072289、81871508);山东省高等教育科技计划(编号:J18 KA 308);中国山东省泰山学者计划(编号:TSHW 201502038)。引用张伟,陈凯,王杰,施,Y.,郭文,2021年简单的领域自适应方法,用于填补基于深度学习 的 水 果 检 测 中 的 物 种 空 白 。 霍 蒂 克 第 8 ( 1 ) 号 决 议 。https://doi.org/10.1038/s41438-021-00553-8网站。Schima 河 , Mollenhauer , H. , Grenzdörffer , G. , 梅 尔 巴 赫 岛 , Lausch , A. ,Dietrich,P.,Bumberger,J.,2016.想象所有的植物:用于现场作物生长监测的光场相机的评估。遥感8(10),823。https://doi.org/10.3390/rs8100823.赵玉,贡湖,黄,Y.,刘,C.,2016年。基于视觉的采摘机器人控制关键技术综述。Comput. 电子学。农业。127,311-323.鲍尔,A.,Bostrom,A.G.,鲍尔,J.,Applegate,C.,郑,T,Laycock,S.,Rojas,S. M.,Kirwan,J.,周杰,2019.结合计算机视觉和深度学习,实现超大规模空中表型 分 析 和 精 准 农 业 : 生 菜 生 产 的 案 例 研 究 。 霍 蒂 克 Res. 6 ( 1 ) 。https://doi.org/10.1038/s41438-019-0151-5.Arefi,A.,Motlagh,A.M.,Mollazade,K.,例如,2011.基于机器视觉的成熟番茄识别与定位。Aust. J. 作物科学 5(10),1144-1149。Dorj,U.- O.,李,M.,云,S.-美国,2017年。柑桔园之产量估测:以影像处理之果实侦测与计数。Comput. Electron. Agric. 140,103-
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功