绿色果实夜间识别的优化Retinanet-PVTv2模型

88 浏览量更新于2024-01-27 收藏 2.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报GHFormer-Net：在夜间孙美丽a，徐连成a，罗荣b，卢玉琪a，贾伟宽a，c，刘伟a山东师范大学信息科学与工程学院，山东济南250358b齐鲁工业大学（山东省科学院）生物基材料与绿色造纸国家重点实验室，济南25035c机械工业设施农业测控技术与装备重点实验室，镇江212013阿提奇莱因福奥文章历史记录：收到2022年2022年4月28日修订2022年5月9日接受2022年5月13日网上发售保留字：RetinaNet-PVTv2梯度协调机制小青苹果/秋海棠水果检测A B S T R A C T绿色果实的准确识别对于果园生长、果实采收、产量估算等全过程的自动监控具有重要意义。然而，受果园环境的非结构化、目标果实形态多样性、多尺度果实等因素的影响，绿色小果实的准确检测仍然是一个尚未解决的难题，尤其是夜间环境下的小尺度果实。在本文中，我们提出了一个优化的Retinanet-PVTv 2通过引入梯度协调机制，以检测小青苹果/秋海棠果实在夜间环境中，即GHFormer-Net。具体而言，采用基于Transformer的PVTv 2-B1作为骨干网络，从全局感受器中提取特征信息，打破了空间卷积只能从局部区域提取信息的局限性;其次，借助FPN，通过横向连接和自顶向下的结构，将具有丰富语义信息的浅层特征和高层特征融合在一起为适应夜间环境下小苹果/秋海棠果实的检测，引入梯度协调分类损失（GHM-R Loss）和梯度协调回归损失（GHM-R Loss）对RetinaNet-PVTv 2进行改进。实验结果表明，该方法在NightFruit和Gala数据集上分别获得了85.2%/61.0%AP和67.5%/45.2%APS，证明了该方法对小青苹果/秋海棠果实检测的有效性。©2022作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍水果检测（Koirala等人，2019年; Fu等人， 2020），作为智慧农业的重要应用领域（Darwin et al.，2021;Pathan等人，2020）和物体检测，具有重要意义对于绿色水果的生长监测，产量估计（Khaki和Wang，2019年; Maheswari等人，2021; Kerry等人， 2017;Kerry等人，2016）和成熟果实的自动收获（Gongal等人，2015;Hua等人，2019; Jia等人，2020年b）。因此，水果检测引起了国内外众多学者的关注。提出了一种识别和检测方法*通讯作者：山东师范大学信息科学与工程学院，济南250358（L. Xu，W. Jia）。电子邮件地址： lchxu@163.com（L. Xu），jwk_1982@163.com（W. Jia）。沙特国王大学负责同行审查假设在Kim等人（2015）的AdaBoost学习算法的帮助下计算树上的苹果数量，以学习和生成表示信息。Yu等人（2021）提出了一种基于红绿蓝深度（RGB-D）相机的成熟荔枝检测方法，其中应用随机森林二元分类模型，利用颜色和纹理信息检测荔枝果实，并应用多尺度检测方法和非最大值抑制来进一步优化果实检测精度。Nyarko等人。（2018）设计了一种新的近似凸表面描述符，并提出了一种基于分类和检测水果凸表面的新方法，使用RGB-D图像进行识别和检测。Gao等人（2020）设计了一种基于Faster R-CNN的多种水果形态的水果检测算法。为了显示柑橘产量的估计，一种新的柑橘识别和计数算法（Dorj等人，2017）是基于分水岭分割和计数的颜色特征设计的。对于上述方法，无论是利用单目相机的RGB图像还是双目系统的RGB-D图像，水果检测主要针对水果表皮颜色与背景https://doi.org/10.1016/j.jksuci.2022.05.0051319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comM. 孙湖，澳-地许河，巴西-地Luo等人沙特国王大学学报4422颜色.同时，成熟果实的检测精度较高，尤其是果皮颜色与背景颜色反差较大的果实。然而，与成熟水果的检测相比，对于果皮颜色与背景颜色相似的绿色水果的检测研究较少，尤其是在夜间环境下。对于绿色目标果实的检测，由于其存在于果实生长的全过程中，绿色果实的准确检测是果园产量预测（Khaki and Wang，2019）、智能采摘、果实生长全过程自动监控的基础（Behera et al.，2021;Wang等人，2020年）。然而，由于未成熟的绿色目标果实体积小，果皮颜色与背景颜色相近，与成熟果实相比，目标果实生长初期果皮颜色与背景颜色相差较大，检测精度不高，这将极大地限制产量估算等智能操作的精度。因此，夜间对小青果进行准确检测，对于实现果园24小时监控，降低人工成本，提高经济效益具有重要意义。近年来，绿色水果的夜间检测引起了国内外许多学者的关注早期的绿色目标水果检测算法主要集中在机器学习方法上（Africaet al.，2020），并借助图像处理技术实现了目标水果的识别和检测（Sethy etal.，2017年）。为了检测和计数不同光照环境和随机遮挡条件下未成熟的柑橘类水果，王等。（2018）通过光照归一化设计了一种基于局部二值特征的水果检测和计数算法。李等人（2017）提出了一种归一化互相关函数作为通过模板匹配的特征检测算法。Safrenet al.（2007）在高光谱成像的帮助下，利用主成分分析、同质对象提取和分类以及机器学习技术，开发虽然上述机器学习方法可以快速检测出目标水果，但对小的绿色目标水果的精度还可以进一步优化。后来，随着计算机硬件的迭代更新和深度学习技术的出现（LeCun等人，2015），以卷积神经网络为代表的深度学习方法（Li et al.，2016）为农业夜间物体检测带来了新的灵感（Kamilaris和Prenafeta-Boldú，2018）。目前，绿色目标检测算法主要是在一般目标检测算法的基础上提出的. 典型的对象检测算法可以分为单阶段方法，例如YOLOv 1-v3（Redmon等人，2016;Redmon和Farhadi，2017; Farhadi和Redmon，2018），RetinaNet（Lin等人，2017 a），以及两阶段方法，如快速R-CNN（Girshick2015），更快的R-CNN（Ren等人2015），根据检测算法的阶段数（Zhao等人，2019年）的报告。其中，单阶段方法根据是否存在锚点又可分为基于锚点的方法和无锚点的方法。结合DenseNet和ResNet来提取特征，Jia et al. （2020 a）提出了一种优化的MaskR- CNN，适用于重叠水果的检测和分割。为了检测新鲜市场番茄（罗马和梨品种）的成熟度（绿色，橙色和红色），Wan等人（2018）通过特征颜色值和反向传播神经网络分类技术设计了一种Xiong et al.（2020）提出了一种基于YOLOv2的无人机视觉检测算法，用于检测树冠表面的青芒果并估算芒果产量虽然上述基于一级和二级的目标检测算法都是利用深度卷积神经网络自动提取特征，但特征提取只针对大小为卷积核，但不能从全局接受。随着注意力机制的出现，Transformer（Vaswaniet al. 2017）引入到特征提取阶段，突破了只提取局部区域特征的局限，捕捉到了粗粒度的全局信息。 Srinivas 等人（2021）在ResNet50的最后阶段c5将多头自注意机制引入到瓶颈结构的中间层，以提取局部语义信息和全局粗粒度信息。该方法虽然能将高层语义信息与全局粗粒度信息融合，但会丢失相关的小目标特征信息，影响绿目标检测的精度Wang等人（2021 b）提出的金字塔视觉变换器（PVT）用于从全局区域中提取特征，它在每个特征提取层中引入了Transformer。但该方法存在局部连续性损失、位置编码大小固定、计算量大等问题PVTv2被提出，其中卷积、具有零填充的位置编码和具有线性复杂度的具有均值池的注意力层被应用于缓解Wang等人（2021a）的上述三个问题。虽然PVTv 2可以从全局信息中提取特征，实现一般的目标检测，但该方法并不完全适合夜间小青苹果/海棠果的检测。同时，面积为32 2的小尺度目标的精度<仅为大尺度目标的一般精度（Liu et al. 2021年）。同样，小青苹果/秋海棠果实具有相同的特征。提高小青苹果/海棠果实的精度针对夜间的识别和检测问题，通过引入梯度协调机制（GHM），对RetinaNet的分类损失和边界盒回归损失进行了优化。具体来说，本文提出了一个GHFormer-Net检测小青苹果/秋海棠果实在夜间。该方法以RetinaNet为基本架构，利用PVTv 2-B1作为骨干网络进行特征提取，并从梯度的角度引入GHM，使其适用于夜间苹果/秋海棠果实检测环境。为清楚起见，我们的贡献概述如下：(1) GHFormer-Net是为在夜间识别和检测青苹果/秋海棠果实而设计的。(2) 引入GHM从梯度的角度对分类损失和回归损失(3) 构建NightFruit和Gala数据集来评估我们方法的有效性。(4) 实验结果表明，本文优化的方法能够提高小青苹果/秋海棠果实的检测精度。本文的其余部分组织如下。图像采集，注释和数据集的生产在第2节介绍。第三章详细阐述了以PVTv 2-B1为骨干网络的GHFormer-Net在夜间检测青苹果/秋海棠果实中的应用及其优化。第四部分进行了对比实验和烧蚀实验。第5节讨论了这一问题，包括四个部分：结果分析、混淆矩阵分析、误差分析和稳健性评价。最后，在第6节中给出了结论。2. 数据集生成在实际的果园环境中，目标果实有单果、重叠果、枝叶遮挡果等多种形态，目标果实图像采集过程易受光照和天气的影响。来模拟手术M. 孙湖，澳-地许河，巴西-地Luo等人沙特国王大学学报4423×××最大限度地提高了果园自动检测系统在小青果图像采集时的实用性，采集了不同天气条件下、多形态果实、多角度的图像采集时间是果实生长的早期和果实较小的时期。图像采集条件如下：分类：Gala and Begonia图像采集地点：苹果图像采集地点为山东省烟台市福山区，海棠图像采集地点为山东师范大学长青湖校区。设备：图像采集设备为Canon EOS 80D。海棠图像采集设备是智能手机。对于小的绿色水果图像，佳能EOS 80 D采集的所有gala图像均以6000 4000像素的JPG格式存储，所有海棠图像均保存为46083450像素。相机镜头距离目标果实0.5- 4.5m。所有图像的大小调整为600400像素。基于上述过程，分别构建了两个基准数据集，NightFruit和Gala数据集，其中来自NightFruit的图像仅包含夜间环境，而Gala数据集包括上述所有条件。为了方便地衡量该模型对小目标绿色水果的识别精度，将数据集图像中的水果样本分为小、中、大三个尺度的目标。请注意，根据MS COCO中不同尺度目标的分类标准，所有水果都通过水果面积像素数分为面积为<32 2<<的小尺度水果、面积为32 2的中等尺度水果和面积>96 2的大尺度水果（Lin et al.， 2014年）。针对NightFruit，设计了一个夜间绿色我们将详细介绍上述基准数据集。2.1. 夜果夜果包括两类水果，即秋海棠果和嘎拉果。海棠和嘎拉图像是在无雨天气下，基于一定的LED光源在夜间采集的领取时间为20时至22时。采集多形态果实和多角度果实图像，模拟真实果园环境。最后收集了330张图片对于收集的图像，选择280个图像来制作绿色夜果数据集，包括102个秋海棠图像和178个gala图像。对于所选图像，通过使用图像注释工具LabelMe将每个目标水果区域注释为多边形区域标签结果按照MS COCO格式以JSON格式保存由于样本数量少，在划分训练集和测试集之前，先利用数据增强对图像进行增强，包括亮度、随机噪声、随机点等，和随机翻转请注意，考虑到唯一的用途因此，在数据增强阶段增加改变图像亮度的条件，以模拟不同的光。最后，生成了1960个图像。一些原始图像和增强图像如图1所示。然后，按照7：3的比例随机选取训练集和测试集，得到训练集中的1371幅图像和测试集中的589幅图像。划分结果见表1。可以观察到，NightFruit数据集中的训练集和测试集中分别包含7713和3396个水果，1371和589个图像。最后，构建NightFruit数据集。不同的条件图像和注释的测试集的结果显示在图中的夜间。二、2.2. Gala数据集Gala数据集与NightFruit数据集不同Gala数据集与NightFruit数据集相结合，包括具有不同天气、可变光照和多尺度目标水果的水果，以及不同的水果形态。天气有晴、雨、雾和多云。采集的时间是不同天气条件下的白天和夜晚同时，在同一水果场景中利用多个角度来捕捉不同的水果形态，包括单个水果、重叠的水果和被遮挡的水果。类似地，水果由LableMe根据MS COCO格式进行注释接下来，按照7：3的比例随机划分训练集和测试集构造了一个新的数据集Gala数据集包括1361张图像，其中953张和408张图像包括在训练集和测试集中。4943和2194个水果包含在训练集和测试集中。Gala数据集的统计结果从多尺度的角度呈现在表2中，包括不同尺度大小上的果实数量和比例3. 我们的方法GHFormer-Net是在一级目标检测方法RetinaNet-PVTv 2的基础上进行优化的一种方法。RetinaNet-PVTv 2的概述包括三个部分：提取特征的主干、特征融合架构和RetinaNet表1NightFruit在数据增强后的分割结果。区域小介质大果总图像总培训3505/45%1693/22%2515/33%77131371测试1554/46%724/21%1118/33%3396589总5059/45%2417/22%3633/33%11,1091960Fig. 1. 原始图像和数据增强结果。M. 孙湖，澳-地许河，巴西-地Luo等人沙特国王大学学报4424×2-SISI图二. NightFruit上的不同条件图像和注释结果表2Gala数据集按果实面积大小划分的结果区域小介质大果总图像总培训2079/42%2012年/41%852/17%4943953测试1022/47%799/36%373/17%2194408总3101/44%2811/39%1225/17%71371361检测器（一个分类和一个边界框回归子网络），如图3所示。采用PVTv2作为主干，打破了卷积神经网络只能从卷积核的局部区域提取特征的限制，减少了上下文特征的丢失。特征金字塔网络（Lin等人，2017 b）被用作特征融合架构。采用RetinaNet检测器作为我们方法的检测器。在本节中，将介绍我们方法的每个组件。此外，如何通过梯度协调机制优化分类损失函数和边界盒回归损失函数也将在下文中详细阐述3.1. 骨干采用PVTv2作为特征提取的骨干网络，如图所示。第3（a）段。PVTv2与原始RetinaNet中的深度卷积神经网络不同在特征提取过程中，PVTv2从全局区域中捕捉优势信息，打破了空间卷积只能从局部区域中提取语义信息的局限PVTv2采用多头自注意机制进行特征提取从全球区域映射PVTv2由四个阶段组成每个阶段由一个补丁嵌入，一个位置嵌入，和Transformer编码器组成，如图所示。四、具体地，通过重叠块嵌入，二维图像将经由线性投影映射到一维图像。位置嵌入将在补丁嵌入中忽略的位置编码器嵌入到一维向量中，其中位置编码在全连接层和GELU层之间嵌入内核3的深度方向Transformer编码器通过线性空间约简的多头自注意机制和卷积前向网络提取特征映射，增强特征的表示能力PVTv2中不同阶段的特征映射维度不同。第i级中的特征输出维度被映射到输入图像的1=Si。假设输入要素映射大小fi RHi-1×Wi-1×ci-1，特征图执行以下操作：首先，应用于将二维特征映射重新整形为一维向量Hi-1×Wi-1×ci，其中该线性投影基于与步长S、核大小2S 1、填充S-1和输出通道ci的卷积;然后，通过在第一全连接层和GELU层之间进行深度卷积的位置嵌入，以逐元素加法的方式将图像的位置嵌入信息并入一维特征中。最后，将具有位置信息的特征图输入到N个Transformer编码器。具体来说，对于每个Transformer编码器，它首先通过一个归一化层和一个多头自关注图三. GHFormer-Net的概述。M. 孙湖，澳-地许河，巴西-地Luo等人沙特国王大学学报4425×FG×图四、PVTv2架构的主干层，然后利用包括归一化层和多层感知器的残差结构，将第n个特征映射Hi-1×Wi-1×ci分类子网络是一个小型卷积网络，可以将特征金字塔层的任意一层作为输入其中，所有输入特征图将共享Transformer编码器。3.2. FPN体系结构SiSi分类子网络参数。分类子网络由四个卷积层conv1和一个卷积层conv2组成，如图3（c-top）所示。具体地，每个卷积层conv1由具有PVTv 2-B1网络仅输出高级特征图C4。这主要包括大规模目标的特征映射，而在特征提取过程中，能够映射到小目标的特征随着网络深度的增加而逐渐减少甚至消失因此，PVTv 2-B1适用于大规模目标预测。为了融合多尺度特征映射，将FPN引入到特征提取结构中通过横向连接和自顶向下的结构，高分辨率的浅层特征映射和低分辨率的高层语义信息被合并，以逐元素添加的方式构建特征金字塔。然后，结合浅层特征和高层语义信息的特征金字塔映射被送入检测器，以检测不同尺度的水果。在RetinaNet-PVTv 2中，PVTv2的最后三个阶段中的特征的输出被映射到C2;C3;C4作为FPN的输入。借助基于最近邻的自顶向下结构采样，11个横向连接，F2;F3;F4通过逐元素的增订条文然后，在高级特征映射F4上使用核大小为3×3、步长为2的空间卷积运算，得到F5。特征图F6是通过空间卷积获得的，核大小为3× 3，步幅为2，使用ReLU函数。最后，构造了特征金字塔结构F2、F3、F4、F5、F6，如图1所示。 3（b）款。3.3. RetinaNet检测器RetinaNet-PVTv 2采用RetinaNet检测器作为小型绿色水果的检测器。RetinaNet检测器由两个任务特定的子网络组成，分别是分类子网络和边界框回归子网络，如图3（c）所示。分类子网络和边界盒回归子网络是两个不同的网络，并且不共享网络参数。通道数为C，内核大小为3× 3，以及ReLU函数-卷积层conv2由3 3的内核组成，通道数为AK。更详细的分类子网结构如图所示。 5（左）。包围盒回归子网络是与分类子网络并行的另一个卷积网络，它将根据每个锚盒和真实包围盒的空间位置信息输出四个相对偏移量。边界框回归子网络的结构相同如图3（c-底部）中的分类子网络。不同之处在于卷积层边界框回归子网络的conv2为4A，如图所示在图5（右）中。边界框回归子网络可以在每个空间位置处获得4A线性输出，其中4A线性输出表示是指对应于每个空间位置的锚点与真实边界框之间的4A3.4. 损失函数Original RetinaNet-PVTv 2是一种绿色目标检测算法，由PVTv 2-B1网络、FPN结构、分类子网络和边界框回归子网络组成。该方法的损失函数由分类损失和边界盒回归损失组成.具体来说，分类损失是指所有锚框的预测类别和真实类别的损失，通常用标准的交叉熵损失（CE损失）函数表示。考虑到前景和背景之间的类别不平衡，标准的CE损失函数被转换成一个可调整的CE损失函数。通过平衡因子α，改进的损失函数焦点损失，即CE函数，可以被转换为：FLpt-at1-ptc logpt 1M. 孙湖，澳-地许河，巴西-地Luo等人沙特国王大学学报4426我GD总g/l1其梯度函数定义为真实光滑L1（ASL1）.d2=12.btLCEpt;pωt不不;-log 1-p，如果pω<$01X2图五. RetinaNet检测器的子网。（左）：分类子网络;（右）：回归子网络;1/4。其中，表示训练sam的预测置信度，如果ð9Þ普尔 c是超参数。因此，分类损失@xRetinaNet-PVTv 2的功能是：如果pω¼0，则为pLcls¼FL螺纹螺纹2螺纹然后，梯度g的范数可以表示为：. 1-p，如果pω 1其中Pt表示训练样本的预测置信度，At和C是超参数。边界框回归损失是指锚框和真实框g如果pω¼0，则为pð10Þ边界框，由平滑 L1损失计算。假设真实边界框的边界框信息是v/v x;v y;vw;whx，并且预测边界框的位置信息是锚框为tu¼tu;tu;t;u;tu，边界框回归损失Lreg3.4.2. 梯度协调回归损失（GHM-R损失）对于模型的回归损失，RetinaNet-PVTv 2仍然使用平滑L1损失作为回归损失的基准。假设也可以将平滑L1损耗整形为：XyWH可以表示为：（d2ifjdj6dLX光滑t uv3光滑L1¼2d;11注册i2fx;y;w;hgL1i-I'm sorry. I'm sorry.jdj -d否则其中d表示分界点，通常设置为1/9。的其中平滑L1你好。0：5 x2，如果jxj <1平滑L1损失的梯度函数可以表示为：05-05虽然分类损失焦点损失和边界框回归损失平滑L1损失可以评估模型损失，为了提高方法的精度，本文介绍了@Smooth L1@ti¼D 如果jdj 6dsgnd否则ð12ÞGHM（Li，Liu和Wang 2019）从梯度的角度首先，可以将梯度密度函数GD_g_f定义为：1Xsgk¼1为了计算方便，对光滑L1损失进行了整形如：ASLdqd2l2-l13其中，该函数可以计算为：xy.1 f y-s 6 x

下载后可阅读完整内容，剩余1页未读，立即下载