农业中的辣椒物体检测的深度学习技术

178 浏览量更新于2023-12-06 收藏 3.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

农业中的人工智能5（2021）102通过先进的深度学习进行物体检测的无损热成像，用于机器人检测和辣椒收获Steven C.Hespeler，Hamidreza Nemati，Ehsan Dehghan-Niri智能结构与无损检测（ISNDE），新墨西哥州立大学土木工程系，拉斯克鲁塞斯，NM，美国a r t i c l e i nf o文章历史记录：收到2021年2021年5月11日收到修订版，2021年2021年5月15日网上发售保留字：深度学习You only look once（YOLO）v3物体检测辣椒水果a b s t r a c t深度学习已经在计算机视觉中用于目标检测近十年。机器人检测和收获的实时对象检测在这段时间内作为农业应用中高质量机器辅助的一种可能技术获得了关注。我们利用红辣椒在各种碎片、辣椒重叠和环境照明的环境中的RGB和热图像，训练该数据集，并比较对象检测方法。结果从实时和小于实时的对象检测模型。在目标检测精度和计算成本方面，比较了两种先进的深度学习算法，Mask-Regional Convolutional Neural Networks（Mask-RCNN）和You Only Look Once version 3（YOLOv 3）当使用YOLOv3架构时，总体训练平均精度（mAP）值为1.0。在自然环境中，来自该模型的大多数测试图像得分在97%至100%的置信水平范围内结果表明，YOLOv 3算法具有优于Mask-RCNN的能力，在辣椒数据集上的计算速度超过10倍然而，当图像中存在重碎片时，一些RGB测试图像导致低分类分数当使用热图像时，观察到实时分类分数的显著改善，特别是存在重我们发现并报告了一个热图像数据集的预测分数提高，其中YOLOv3在RGB图像上挣扎。结果表明，映射辣椒和植物/碎片之间的温度差异可以为实时对象检测提供重要特征，并且可以帮助提高预测的准确性，包括重碎片、变化的环境照明和辣椒重叠此外，用于实时机器人收获的成功热成像可以使收获期变得更有效，并在弱光情况下开辟收获机会。© 2021作者出版社：Elsevier B.V.我代表科爱通信公司，公司这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍新墨西哥辣椒（Capsicum annuum）因其轻微的辛辣、脆和烟熏味，在美国西南部地区广受欢迎有时被称为辣椒，新墨西哥州的辣椒是一种经济作物，每年收获约8000至10，000英亩，用于消费，加工成干香料或装饰品（串在里斯特拉上）（Bosland et al.， 1991年）。辣椒的农业生产是全世界消费最多的辛辣作物（Jiang等人，2018年）。在全球范围内，美国和其他国家的辣椒总产量与中国2019年的农业生产成就相比有所不足图 1显示了全球前11个国家的生产数量。自1994年以来，世界总产量和收获面积每年稳步从2009年到2019年，*通讯作者。电子邮件地址：niri@nmsu.edu（E. Dehghan-Niri）。作物每年增加1000万吨，从2800万吨增加到3800万吨（粮农组织，2019年）。图二是体现了全球化趋势。虽然辣椒的需求量有所增加，但收获产量仍有增长空间农业生产者价格（农作物在最初销售点的价格）并不表明生产的数量价值。虽然荷兰是总产量较小的国家之一，收获的土地最少，但在整个集团中，每公顷辣椒的销售点最高。表1显示了2019年的数据，显示了这些国家的产量、收获的土地面积、初始销售时的生产者价格以及每公顷的价格（粮农组织，2019年）。利用这些数据作为蓝图，土地收获较少的国家可以增加产量，以提高竞争力，并提高每公顷产量。我们的目标是阐明并提供对这个问题的见解用于机器人收获的非破坏性成像已经成为农业中帮助收获存在碎片的水果同时不伤害植物的有效工具（Gao等人， 2020年）。由于该任务的复杂性，一个有效的目标检测和检测算法是必要的机器人平台，用于辣椒https://doi.org/10.1016/j.aiia.2021.05.0032589-7217/© 2021作者。出版社：Elsevier B.V.我代表科爱通信公司，公司这是一篇CC BY-NC-ND许可证下的开放获取文章（http：creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表农业中的人工智能杂志主页：http://www.keaipublishing.com/en/journals/农业人工智能/S.C. Hespeler，H.Nemati和E.德甘-尼里农业人工103图1.一、2019年辣椒产量（粮农组织，2019年）。收获已经成功地使用近红外（NIR）高光谱成像研究了辣椒的非破坏性质量评估，以不伤害植物（Jiang等人， 2018年）。实时机器人收获是农业中具有一些挑战的有前途的发展（Kang等人，2020年）。这一领域的挑战来自复杂的机器任务，这些任务需要强大的计算能力、复杂的模型架构和非破坏性措施，机器检测水果的时候随着卷积神经网络（CNN）技术的进步，近年来目标检测性能迅速提高，是实时机器人收割的合适解决方案Gu等人通过广泛的文献展示了CNN的最新发展（Gu等人， 2018年）。这项调查突出了几项推动CNN应用扩展的改进。一个关键的发展是应用了几个新的激活功能，增加了模型的性能。一个非常有效的激活函数是矩形线性单元（ReLU）。从sigmoid函数到ReLU的过渡解决了著名的梯度消失问题，这阻碍了传统神经网络（NN）在大型数据集上的学习。ReLU可以抽象地表示为：a i、j、k最大值的1/4zi，j，k，01其中zi，j，k是位于（i，j）处的激活函数的输入其他变体包括Leaky ReLU（以及许多其他变体），ELU，Maxout和Probout。我们请读者参考以下参考文献，以深入分析CNN组件（Gu等人， 2018年）。热成像用于将特定物体的不可见辐射模式转换为可见光成像，以进行特征提取（Vadivambal和Jayas，2011年）。这种类型的成像可以在实时机器人采集期间用作非破坏性方法，因为它是非接触、非侵入性和快速的（Vadivambal和Jayas，2011）。我们相信，绘制辣椒和植物/碎片之间的温差可以为实时目标检测提供重要特征，并且可以帮助提高对重碎片、变化的环境照明和辣椒重叠的准确预测。此外，用于实时机器人收获的成功热成像可以使收获期变得更有效，并在晚上或低光情况下打开收获机会。图3突出了如何突出热成像可以提取功能比RGB图像。在自定义数据集上实现了用于对象检测的现代架构（一阶段和两阶段），以实时检测用于机器人收获的辣椒。在这项调查中，我们1）比较图二、辣椒收获面积（蓝色）（公顷）和辣椒产量（红色）（吨）（粮农组织，2019年）。表12019年辣椒数据（粮农组织，2019年）。国家产量（吨）收获面积（公顷）生产者价格（美元/吨）每公顷荷兰375,00015001177294，150.00美元突尼斯443,63220,103382八千四百二十五点五四美元美国624,98219,62794129，964.24美元阿尔及利亚675,16821,767643一万九千九百五十三点八六美元尼日利亚753,11699,71510778130.47美元埃及764,29240,4221272395.62美元西班牙1,402,38021,43092760，662.91美元印度尼西亚2,588,633300,3771206一万零三百八十八块九毛三土耳其2,625,66992,089432一万二千三百零八块七毛六墨西哥3,238,245149,57752511370.24美元中国19,007,248798,877748一万七千八百零一点五二美元S.C. Hespeler，H.Nemati和E.德甘-尼里农业人工104图3. （a）RGB图像，（b）热图像。RGB和热数据集上的图像特征，2）比较RGB数据集上用于定位和识别辣椒果实的两种现代对象检测技术，以及3）开发热成像技术，以使用YOLOv3改进具有高碎片、各种环境照明和重叠辣椒的图像上的对象检测2. 文献综述2.1. 对象检测物体检测具有丰富的文献历史，最近利用计算机视觉来识别物体在空间中的位置和物体文献通常接受对象检测的进展存在两个时代的符号;2014年之前的传统对象检测和2014年之后引入深度学习（DL）用于对象检测（Zou et al.，2019年）。在DL被用于目标检测之前，由于计算能力和可训练的图像表示，许多研究受到限制。我们请读者参考（Zou etal.， 2019年），对物体检测进行全面调查。2.1.1. 传统目标检测ViolaandJo nes（2001），采用Viola-Jones设计，目的是稳健快速和实时检测。在这项工作中，作者专注于简单的功能，而不是像素，以加快检测过程。这项研究作出了三项主要贡献1）Integral Image，它是一种使用中间图像表示进行快速矩形计算的方法; 2）一种基于AdaBoost的特征提取算法，通过组合一些特征来形成有效的分类器;3）一种级联分类方法，用于丢弃或传递可行的信息以进行进一步分析，最终提高检测性能。Viola和Jones（2004）通过将这些技术应用于面部识别来证明这种方法的Viola等人（2005），利用级联方法与AdaBoost一起用于基于规则系统的日益复杂的拒绝区域的移动人员检测。目标检测的另一个基石是引入Dalal和Triggs（2005）中提出的定向梯度（HOG）检测系统的组织图。在这项研究中，Dalal等人创建了一种利用边缘方向和梯度强度来确定图像外观的此任务是通过将窗口到细胞（空间区域），并结合局部直方图的梯度方向和边缘方向在每个像素。在计算HOG描述符之后，它们被馈送到线性支持向量机（SVM）用于分类目的。基于可变形零件的模型（ Deformable Part Based Model ，简称DEPM）是由Felzenszwalb et al.（2008），并建立了（Dalal和Triggs，2005）的架构。使用底层块，该模型通过每个1D像素内的直方图梯度幅度来建立HOG描述符。过滤器用于指示检测窗口中的权重学习是在PASCAL训练数据上用一个潜在的SVM完成的使用RISK，作者赢得了2007年，2008 年和 2009 年Pascal Visual Object Classes（ VOC ）检测挑战（Everingham et al.， 2007年）的报告。2.1.2. 用于对象检测的深度学习对于卷积神经网络（CNN）的全面调查，我们请读者参考（Gu etal.，2018年）。随着基于LeNet-5架构的AlexNet的引入，DL在2012年取得了显著的进步，只是具有更深的结构（Krizhevsky等人， 2012年）。基于两步的检测器检查输入（图像），应用区域建议，并检测对象。然后，这些检测到的对象被裁剪并由一个完全独立的网络处理以进行估计。两步法通常需要更多的计算时间，因为每个步骤都需要重新计算（总共三个）（Poirson等人，2016年）。通常，一级检测器网络划分区域，并同时在每个区域内应用具有概率的预测边界框图图4示出了两阶段（4a）和一阶段方法（4b）。2.1.3. CNN两阶段检测器Girshick等人（2014年）推出了区域CNN（R-CNN）。他们报告称，与VOC 2012上的最佳性能方法相比，平均精度平均值（mPA）指标（当时）有了大幅改进。它开始于通过选择性搜索提取大约2000个自下而上的区域提议（对象候选框）（Uijlings等人，2013年）。接下来，每个区域建议被重新缩放到固定的图像大小（227 × 227），并通过CNN在像ImageNet这样的图像数据库上用于模型训练（Deng etal.，2009）提取特征。最后，使用二进制SVM分类器来预测/检测每个区域内的S.C. Hespeler，H.Nemati和E.德甘-尼里农业人工105图四、两级/一级检测器（Poirson等人，（2016年）：（a）两阶段，（b）一阶段。图五、MaskR-CNN的头部架构（He等人， 2017年）的报告。图第六章 YOLO架构（Redmon等人， 2016年。Girshick（2015），通过简化学习过程对R-CNN进行了改进作者意识到，R-CNN是缓慢的，因为网络执行“每个对象提案的前向传递”。空间金字塔池化网络（SPP或SPPnet）是由He等人提出的。2015年，为了加快培训。 Gu等人（2018），利用SPP在微调期间更新所有网络层。 Ren等人（2015），S.C. Hespeler，H.Nemati和E.德甘-尼里农业人工106表2YOLO性能（Redmon等人，2016年）。实时检测器火车地图FPS100 Hz正弦波（Sadeghi和Forsyth，2014）200716.010030 Hz正弦波（Sadeghi和Forsyth，2014）200726.130快速YOLO2007+ 2012年52.7155Yolo2007+ 2012年63.445低于实时最快的速度（Yan等人， 2014年度）200730.415R-CNN减去R（Lenc和Vedaldi，2015）200753.56Fast R-CNN（Girshick，2015）2007+ 2012年70.00.5FasterR-CNN VGG-16（Ren等人，（2015年）2007+ 2012年73.27Faster R-CNN ZF（Ren等人，（2015年）2007+ 2012年62.118YOLO VGG-162007+ 2012年66.421图第七章 HOG过滤器：（a）水平内核，（b）垂直内核。同年对快速R-CNN设计进行了改进，使算法更接近实时检测速度。该版本成为第一个端到端且接近实时的对象检测器（Zou等人，2019年）。在第一阶段，区域建议网络（RPN）考虑候选边界框。在第二阶段中，使用来自每个候选数据的感兴趣区域（RoI）池化（RoIPool）来完成特征提取，其执行分类和边界框回归（Ren等人， 2015年）。MaskR-CNN是快速R-CNN架构的扩展，并为每个实例生成高质量的分割掩码，同时有效地检测图像中的对象（He等人，2017年）的报告。使用各种特征金字塔网络（FPN）框架，R-50-FPN、R-101-FPN、X-101-FPN和X-152-FPN，AP性能分别测量为40.8和70.4，用于增强检测和增强关键点结果。图 5详细介绍了该算法的头部架构，并重点介绍了对Faster R-CNN所做的确切改进。在这里，我们看到了应用于ResNet（左）和FPN主干的算法2.1.4. 基于CNN的单阶段检测器You Only Look Once（YOLO）是Redmon等人（2016）创建的实时检测系统，多年来进行了多次渐进式改进（Redmon和Farhadi，2017;Redmon和Farhadi，2018）。Bochkovskiyet al. （2020年）。最初的系统设计因只看一次图像而得名，因此将每个图像（输入）视为回归问题。与复杂的流水线R-CNN架构相比，这种简单性的改进可能是YOLO系统最重要的方面。该系统包括三个主要步骤。首先，将输入的大小调整为448 × 448。接下来，运行单个CNN最后，非最大抑制（NMS）技术试图纠正同一图像上的多YOLO架构由24个卷积层和2个全连接层组成图6显示了基本YOLO架构中每一层的细节。网络输出一个7 × 7 × 30的预测张量。2018年，Redmon et al.对网络设计进行了渐进式改进该版本由于更强大的设计而表现出卓越的准确性，并且比RetinaNet快3.8倍在发表时（2016年），YOLO系统实现的mPA是第二好的实时系统的两倍多，分别为63.4%和26.1%它还观察到整个图像，不像基于区域的架构。表2总结了YOLO与其他实时和非实时系统相比的性能（Redmon等人， 2016年）。YOLO性能的另一个关键方面是，与Fast R-CNN相比，YOLO的背景错误百分比较小，但定位错误百分比更大。DL，特别是CNN，已经被推到机器人收获研究领域，在农业应用中的阻力。该研究领域在2019年和2020年的研究激增（Naranjo-Torres等人， 2020年）。在Hameed et al.（2018），研究人员对研究人员调查的多种现代计算机视觉技术进行了批判性比较，以分类水果和蔬菜。在这项研究中，支持向量机（SVM），K-最近邻（KNN），决策树，人工神经网络（ANN）和CNN的各种水果和蔬菜分类。然而，Mask R-CNN和YOLOv 3方法在调查中没有进行评估Li等人（2019）回顾了浆果（主要是草莓和蓝莓）的无损光学技术。研究人员确定并审查了13种方法，其中之一是计算机视觉。该评论没有详细说明具体的计算机视觉技术;但是，提到了几项研究，详细说明计算机视觉是浆果分类的可行方法。研究人员指出，计算机视觉的一个主要问题是”2.2. 农业中的目标检测在过去的十年中，不同的目标检测方法已成功地应用于多种农业应用中。Hameed等人图八、Mask R-CNN框图。S.C. Hespeler，H.Nemati和E.德甘-尼里农业人工107图第九章YOLOv3框图。图10. RGB HOG图像：（a）原始RGB图像，（b）调整大小的RGB图像，（c）HOG RGB。强调了水果和蔬菜分类的复杂性具体来说，他们研究了超市自助结账系统中识别水果和蔬菜的问题（Hameed等人，2020年a）。作者通过迁移学习和集成方法将预训练的权重应用于GoogleNet和MobileNet的权重，以获得优化的平均权重。结果表明，这些预先训练的权重对模型产生了积极的影响，集成方法达到了比训练和测试数据集更高的精度测量。Hameed等人（2020 b），通过将渐进式水果和蔬菜分类器与CNN的基于AdaBoost的优化相结合，提出了一种针对超市水果和蔬菜分类问题的新技术。15类，每类1000个图像，水果和蔬菜被认为是训练。该方法首先通过Jenks Natural Breaks分类方法将水果和蔬菜粗略地从那里，这些类被实现到三个CNN（GoogleNet，MobileNet-v2和一个定制设计的网络），以进行更详细的分类。优化的AdaBoost CNN优于自定义CNN。使用AdaBoost优化的CNN的准确率范围从97.60%（脐橙）到99.87%（女士手指香蕉），所有类别的误差小于3%。自定义的15层CNN实现了80.13%（10个epoch）到93.97%（22个epoch）的测试精度范围。图十一岁图像的替代品。S.C. Hespeler，H.Nemati和E.德甘-尼里农业人工108图12个。热HOG图像：（a）原始热图像，（b）调整大小的热图像，（c）HOG热图像。最近的几项研究试图改进或测试现代物体检测方法，以使用实时机器人采集。Wan和Goudos（2020）利用改进的Faster R-CNN架构来检测机器人采摘应用中的水果（苹果、芒果、橙子）在调查中，作者报告了1）他们的模型如何在模型的训练阶段更新超参数，2）模型如何在高质量图像上增强数据，以及3）优化其Faster R-CNN模型的卷积层和池化具体来说，特征提取是使用CNN模型VGG-16完成的，使用13个卷积层，13个ReLu层和4个池化层。添加了两个损失函数来优化卷积层和池化层，允许参数在训练期间自动调整他们发现，自动调整参数可实现58 ms/图像的检测速度，mAP %为90.72. 这些结果与YOLO、YOLOv 2、YOLOv 3、Fast R-CNN和FasterR-CNN进行了比较，其中他们的模型优于YOLO，图13岁热图像的替代品。快速R-CNN，在检测速度和mAP%方面更快的R-CNN当作者将他们的数据集输入YOLOv 3时，他们实现了40 ms/图像的检测速度和90.03的mAP %因此，他们能够软化Faster R-CNN和YOLOv 3架构之间的性能差距。已经有研究关注于低收获率和如何实时提高采摘点准确性（Yu等人，2020年）。这项研究由Yu等人完成涉及产生装配在机器人收割机的伺服控制系统上的末端执行器这种机制有效地允许机器人发射和接收激光束，而不是实时测量深度距离提出了一种旋转的YOLO（R-YOLO），以改进YOLOv 3体系结构，使其与该机制兼容R-YOLO的一个亮点是在标记阶段旋转注释边界框并使用旋转参数α的过程。这个过程有助于水果采摘点的定位。他们报告的准确率和召回率分别为94.4%和93.4%在640 ×480的图像上，R-YOLO的平均计算速度为0.056 s。稳健有效的无损检测方法在农业机器人收获和农产品质量控制中起着至关重要的作用在整个文献中，已经实现了许多新的技术来完成这项任务。 Jiang等人（2018），采用近红外高光谱成像技术对辣椒进行无损质量评估。结合回归模型，近红外光谱用于评估辣椒的辣椒素浓度和水分此外，径向基函数神经网络（RBFNN）用于分类辛辣和非辛辣辣椒。研究表明，辣椒中辣椒碱和二氢辣椒碱辛辣度的分类准确度分别为98.7%和98.0%（全光谱和连续投影算法）。Gao等人（2020年）实施实时高光谱成像用于对水果成熟度进行分类的野外工作这项调查报告了作者创造的一种技术，S.C. Hespeler，H.Nemati和E.德甘-尼里农业人工109利用便携式高光谱成像仪来估计草莓的成熟度。基于前向SFS算法选择两个波长并馈送到SVM。最后，利用CNN对深层空间特征进行预测，预测准确率达到98.6%.3. 方法3.1. 图像表示基于视觉的水果检测是水果自动化和机器人采摘的重要组成部分然而，该技术也可以用于其他应用，例如疾病检测、成熟度检测、作物健康状态监测（Patel等人， 2011年）。在这项研究中的数据集被构造为热图像和RGB彩色图像来检测辣椒。为此，我们在生长期间监测了两种不同的辣椒植物第一个辣椒是生的，绿色的，第二个是成熟的。RGB图像是从传统的数码相机获得的，没有预处理，并保存在标准的JPEG文件格式。同时，用前视红外相机（FLIR A615）采集辣椒的热图像该相机具有高度准确性，易于设置和自动检测软件。它的灵敏度足以探测到小至50 mK的温度变化热像仪的光谱范围为7.5−14μ m，绝对热精度为±2°C或± 2%，在30 °C时的热灵敏度为0.05°该相机以每秒60帧的速度产生高达640 x 480分辨率的热图像。图14个。带掩膜的图像：（a）掩膜1，（b）掩膜2，（c）掩膜3，（d）掩膜4。S.C. Hespeler，H.Nemati和E.德甘-尼里农业人工110¼¼¼IoU0： 5FP<¼¼X轴yð Þ两台相机都安装在辣椒植物上方，固定距离为130 cm，背景为浅色。热成像相机完全由FLIR Tools控制;事实上，可以使用ResearchIR软件对单个图像进行预处理或后处理。使用焦距为13.1 mm的红外镜头，在三个月内每隔一天捕获112个热每天，从不同的方向为一株植物拍摄四张不同的图像一些图像是在户外环境和自然光下拍摄3.2. 性能度量与其他ML应用程序不同，对象检测分类不是二元的，如真或假。因此，所使用的性能指标已经针对这些确切的操作进行了定制。并集交集（IoU）给予用户测量边界框相对于大于用户识别阈值的真值框被预测得有多好的能力。换句话说，IoU是真值框和预测框之间的对象定位准确度的测量（Zou等人，2019年）。当量2define nes IoU：其中，TP为真阳性，FP为假阳性，FN为假阴性。真正的阳性是当模型正确分类对象检测时。当存在不正确的对象检测时，会出现误报。当图像中存在真实边界框并且模型无法检测到图像中的对象时，会发生假阴性。真阴性（TN）不被考虑用于此应用，因为它将正确地不标记图像的不具有真值边界框的部分。3.3. 目标检测模型使用LabelImg软件（tzutalin，2017）为每张图像生成注释文件Mask R-CNN 在 Conda 环境中实现，并使用 Python 3.6 ，TensorClow1.14和Keras进行操作2.24包装件.接下来，我们从（Abdulla，2017）中克隆了Github存储库Mask R-CNN。YOLOv3模型在GPU上使用CUDA 10.1版本V10.1.243计算该架构是从Bochkovskiy（2020）创建的Github存储库中克隆的。3.3.1. HOG在Python中的实现使用HOG方法的先决条件是所有图像必须IoU重叠区域联合区ð2Þ形状（128，64）的阵列。因此，所有图像都被丢弃，使用Python中的skimage调整大小工具进行转换（van der Walt等人，2014年）。HOG描述符通过对图像应用滤波器来工作在这里，我们测量的是Ground Truth Box和Predicted Box。在文献中，公认的阈值往往是0.5。那就是：垂直和水平梯度是用图1所示的核函数计算的。第七章幅度和方向由方程计算分别为5和6. IoU≥0：5TPgqg2g25因此，如果测量值等于或高于0.5，则对象将被完全识别。查准率和查全率被用作评估性能的指标我们在等式中定义了精确度和召回率3和4在下面。θ arctanggygxð6Þ精密TP公司简介召回TPTPFFN图15个。 Mask R-CNN预测框。ð3Þð4Þ3.3.2. 实施一阶段和两阶段检测模型我们从两阶段和一阶段检测器中选择了两个性能最好的算法来实现我们的数据集。准备好数据后，我们将测试/训练集分成20/80%，以尽可能多的图像进行训练，因为数据集很小。如第2.1.2节所述，Mask R-CNN使用FPN和ResNet 101主干。对于Mask R-CNN模型，我们首先加载边界框，然后为每个图像加载掩码。我们利用python工具来确保掩码正确地应用于数据集。然后，我们使用Abdulla（2017 ）提供的MaskRCNN函数定义并拟合模型。图图8描述了我们的图像数据集如何通过Mask R-CNN。对于我们的Mask R-CNN架构的实现，我们利用FPN进行特征提取，该特征提取是从ConvNet的金字塔特征分层系统中利用的（Lin等人， 2017年）的报告。为此，基于区域的对象检测器或感兴趣区域（RoI）池化从矩阵中提取特征RoI被指定为：2. pwh=224其中w和h分别是网络输入图像的宽度和高度，K0是目标水平。在第一阶段，区域提出了锚。然后在第二阶段预测对象类别。在第二阶段，不使用锚相反，进行ROIAlign以修复未对准（He等人，2017年）的报告。ROIAlign在像素级为每个对象生成掩码，而RoI分类分支用于预测类别（He等人， 2017年）的报告。结果见第4.2。YOLOv3由53个卷积层组成，其中包含一个带有ReLU激活函数的批处理归一化层。该模型不使用池。由于该模型不随图像大小而变化，S.C. Hespeler，H.Nemati和E.德甘-尼里农业人工111.Σ图像大小相似但不相同。特征图通过卷积层以步幅2进行下采样。图第9章介绍了我们的数据如何被实施到YOLOv3中的过程。一旦数据集准备好，YOLOv 3模型就会使用Darknet-53提取特征。在特征提取期间，创建三个特征矩阵，大小为1）52 × 52，2）26 × 26和3）13 × 13。这些特征矩阵被馈送到多尺度卷积检测器，其中特征通过多步卷积级联我们批处理并输入大小为（m，416，416，3）的图像，并输出标记为（pc，bx，by，bh，bw，c）的边界框边界框预测计算如下：bx<$σtxcxby<$σtycybw<$pwetwBhpheth其中，bx、by、bh和bw是在x、y处的边界框中心坐标以及预测框的宽度和高度tx，y，w，h是网络输出。对象得分被计算为对象在S形激活函数的边界框内的概率（0和1之间）我们在第4.3中报告所有发现。图十六岁Mask-RCNN的实际与预测图：（a）实际图图像1，（b）预测图图像1，（c）实际图图像2，（d）预测图图像2。S.C. Hespeler，H.Nemati和E.德甘-尼里农业人工1121/14. 结果和讨论本节提供了培训期间完成的所有实验的结果在这里，我们展示了在具有复杂背景和良好环境照明的环境中应用于辣椒数据集的某些技术的可行性第4.1详细介绍了HOG算法的结果，第4.2提供了Mask R-CNN架构的结果，第4.3显示了使用YOLOv 3架构进行实时检测的结果RGB数据集被考虑用于HOG、Mask R-CNN和YOLOv 3模型上的实验计算机视觉是一个高度研究的领域，有许多新的和尖端的技术。因此，术语有时会令人困惑。AP首先由VOC 2007引入（Everingham等人，2007），并将计算应用于标记集合内的每个图像我们遵循COCO对mAP术语的定义：AP是所有类别的平均值传统上，这被称为平均精度我们不区分AP和mAP（同样也不区分AR和mAR），并假设从上下文中可以清楚地看出差异（上下文中的公共对象（COCO）（2021））。因此，我们定义为：图10C中的方向。当绘制图中的归一化直方图时， 10 ℃时，存在HOG检测器识别整个植物的形状的视觉证据（强度），并且甚至证明与集中在原始图像中的辣椒的连接。直方图的梯度强度在视觉上表示为它们在来自图1中的颜色图的图像中的颜色增加。十一岁梯度值的范围从0到0.35，并可视化辣椒植物和辣椒的不同特征与图像的背景相比，胡椒和叶子的边缘具有较低的梯度值这些值接近于零（紫色），而胡椒的中心显示0.30和0.25之间的梯度背景显示的渐变值范围在0.20和0.35之间在这里，我们显示了辣椒在归一化直方图中的区域位置梯度图证明了HOG方法可以画出图1中的红辣椒。十一岁当我们移动到热图像时，HOG探测器似乎没有检测到辣椒的视觉证据图图12描绘了热图像的特征。特征提取过程用图1中的原始图像表示。 12 a，图中的调整大小的热图像。图12 b和图12 c中的梯度方向。12c图的梯度方向没有显示辣椒的不同区域，但它确实显示了整个植物的形状地图1N1/4N∑APi在图中，折射率的范围从0到0.25。 13并显示梯度从图的热图像的值。 12 a. 梯度值的曲线图没有显示出清晰的特征模式，其中，APi是图像i处的平均精度，N是图像的总数 mAP度量通常用作最终度量以比较所有对象类别的性能（Zou等人， 2019），我们使用它来评估Mask R-CNN和YOLOv 3模型的实验。4.1. HOG结果HOG方法允许视觉特征提取和比较，这可以在图1A和1B中看到。10、11、12和13。在本实验中使用HOG方法的目的是可视化辣椒的RGB和热图像之间的梯度方向和强度图 10，我们在图中显示了转换原始图像的过程。 10 a，将图中的图像放大。 10 b，最后绘制梯度梯度值在图中要小得多。 13与图相比 11（<0.1）。HOG算法是一种有效的技术来可视化如何在计算机视觉中表示特征图图11和图13通过梯度强度证明了当与热图像相比时，RGB图像具有更强的特征。4.2. Mask RCNN由于其能够产生高度准确的mAP响应，我们利用MaskR-CNN架构来分析和比较Mask R-CNN与YOLOv 3模型的结果。在训练之前，我们确保图像和掩码数组具有相同的宽度和高度。图 14显示了四个图像，其中掩模覆盖到加载的确认掩模图十七岁来自预先训练的YOLO权重的预测：（a）开箱即用的辣椒预测，（b）训练的辣椒预测。S.C. Hespeler，H.Nemati和E.德甘-尼里农业人工113正常例如图 14 d输出图像形状（881，562，3）和掩模形状（881，562，1）。我们使用以下工具：可视化.display_instance这个python工具用于调用图中的图。 15个。在这里，我们演示了这种特殊的架构，以检测辣椒在环境中的碎片的能力我们可以想象MaskR-CNN算法已经识别并定位了图像中的所有辣椒（具有不同的颜色），分配了预测边界框，并用适当的标签（辣椒）对其进行标记如3.2节所述，查准率和查全率是通过评估真值边界框和预测边界框来确定的。在RGB数据集上训练时，Mask R-CNN的训练mAP为0.872，测试mAP为0.896，每个测试图像的总计算时间为40.79秒图十八岁使用YOLOv3对验证数据集进行的其他预测：（a）预测测试图像2，（b）预测测试图像3，（c）预测测试图像4，（d）预测测试图像5。S.C. Hespeler，H.Nemati和E.德甘-尼里农业人工114图19号。通过YOLOv3对绿辣椒测试集的预测：（a）预测测试图像2，（b）预测测试图像3，（c）预测测试图像4。图20. 两阶段和一阶段算法的计算时间（秒）。图图16显示了测试期间辣椒的2个图像的真实和预测边界框。总体而言，Mask R-CNN模型似乎可以很好地放置预测框。图16b示出了该模型未能检测到（假阴性）被碎片覆盖的辣椒4.3. YOLOv3用于实时检测我们利用YOLOv3架构的实时应用，由于其高性能和快速的计算能力。我们不表3屏蔽R-CNN mAP值。RGB热火车测试火车测试0.8720.8960.3910.298S.C. Hespeler，H.Nemati和E.德甘-尼里农业人工115图21岁带掩膜的热图像：（a）掩膜1，（b）掩膜2，（c）掩膜3，（d）掩膜4。训练损失大约在第250个时期下降到2.0训练完成后，我们使用mAP性能指标评估模型训练和测试都导致100%的精确度（mAP），每个测试图像的计算时间为3.64秒使用chili数据集上的开箱即用的预训练权重和类进行初始测试图图17将辣椒的开箱即用相似度分数与训练完成后的辣椒图像的开箱即用相似度分数进行比较。图18显示附加测试图像的置信水平。如本文前面所述，置信度分数主要评估97和100%之间的测试图像作为“智利胡椒”的预定类别。置信度评分表明YOLOv3模型具有高精度。图中确实出现了碎片问题。 19 a）。在这里，我们可以看到，其中一个辣椒仅以33%的置信度被检测到，这表明在检测过程中可能存在障碍。实时机器人采集，环境中可能有密集的碎片。图图20比较了Mask-RCNN（红色）和YOLOv 3（蓝色）的计算能力。YOLOv3算法具有优于Mask-RCNN的能力，在辣椒数据集上的计算速度超过10倍。出于这个原因，我们相信YOLOv3算法将适用于收获机器人进行实时物体检测。YOLOv 3和Mask R-CNN在RGB和热图像上的计算速度相同以下部分报告了mAP值和比较两种模型与RGB和热数据集的分类性能在本节中，使用RGB数据集表明，当存在大量碎片和辣椒重叠时，预测的准确性会显著降低此外，变化的环境照明会妨碍基于RGB数据的检测算法的性能图22号。热掩模R-CNN的比较：（a）实际图，（b）预测图。S.C. Hespeler，H.Nemati和E.德甘-尼里农业人工116表4YOLOv3 mAP值。Mask R-CNN在我们演示的这一部分中的性能使我们怀疑将该模型用于热成像实时应用的可能性。然而，YOLOv3模型显示出有希望的结果。表4显示了YOLOv3架构的RGB和热mAP值从RGB到热性能略有下降;然而，与Mask R-CNN架构发生的下降相比，这种下降是可以接受的。图23岁使用YOLOv3对验证数据集进行热辣椒预测：（a）预测测试图像2，（b）预测测试图像3，（c）预测测试图像4，（d）预测测试图像5。在下面的部分中，将使用非破坏性热成像来解决这些问题，并突出显示与热数据集一起使用的Mask R-CNN和YOLOv 3模型的结果4.4. 热成像对RGB数据集进行的相同过程用于热数据集。80%的图像用于训练，20%用于测试。来自Mas

下载后可阅读完整内容，剩余1页未读，立即下载