田间棉铃的轻量级深度学习模型，实现高精度语义分割

53 浏览量更新于2023-12-06 收藏 4.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

农业中的人工智能8（2023）1田间棉铃语义分割的轻量级卷积神经网络模型Naseeb Singha，V.K.蒂瓦里角Biswasb，L.K.德鲁瓦河a农业和食品工程系，IIT Kharagpur，Kharagpur 721 302，印度b电子和电气通信工程系，IIT Kharagpur，Kharagpur 721 302，印度a r t i c l e i nf o文章历史记录：2022年12月30日收到2023年3月1日收到修订版，2023年在线预订2023年3月7日保留字：棉花语义分割卷积神经网络机器人收割图像分割深度学习a b s t r a c t棉铃的机器人收获将结合人工采摘和机械收获的优点对于机器人收获来说，具有最小误差的田间棉花分割是期望的，这是一项具有挑战性的任务。在本研究中，开发了三个轻量级的全卷积神经网络模型用于田间棉铃的语义分割模型1不包括任何残差或跳过连接，而模型2由残差连接和跳过连接组成，残差连接用于解决消失梯度问题，跳过连接用于特征连接。模型3以及剩余和跳过连接，由多种尺寸的过滤器组成研究了过滤器尺寸和脱落率的影响所提出的模型均能成功分割棉铃，棉花交联率（IoU）在88.0%以上模型2实现了91.03%的最高棉花IoU所提出的模型实现了F1分数和像素精度值分别大于95.0%和98.0%将开发的模型与现有的最先进的网络进行比较，即VGG 19，ResNet 18，Ef ficientNet-B1和InceptionV 3。尽管具有有限数量的可训练参数，但所提出的模型实现了93.84%、94.15%和94.65%的平均IoU（平均交并比），而使用最先进的网络获得的平均IoU值为95.39%、96.54%、96.40%和96.37%。与最先进的网络相比，所开发的模型的分割时间减少了52.0%所开发的轻量级模型对田间棉铃的分割速度快、精度高因此，所开发的模型可以部署到棉花收获机器人中，用于实时识别田间棉铃以进行收获。版权所有© 2023作者。出版社：Elsevier B.V.我代表科爱通信公司，公司这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1.一、我不想让你失望棉花（Gossypium hirsutumL.）对于发达国家和发展中国家的农民来说，棉花是一种重要的经济作物，并且目前在发达国家使用如摘穗机或摘锭机的机器收获，而在发展中国家则手工收获（Bakhsh等人， 2017年）。手工采摘棉铃具有某些优点，如更好地保存纤维特性、更少的垃圾含量和更高的收获效率，但由于农药残留会导致健康危害（Bakhsh等人，2016，2017; Memon等人，2019年），以及它是一个耗时和劳动密集型的工作。随着农业工人的减少以及不久的将来农业劳动力成本的增加（Mehta等人， 2019年），棉花的机械收获是必要的。但目前，棉花收获机是非选择性的类型，与人工手摘相比存在许多缺点。例如，垃圾含量增加三倍（Shukla等人，（2017年）*通讯作者。电子邮件地址：naseeb501@gmail.com（N. Singh）。这降低了纤维的质量（Tian等人， 2018年），必须使用落叶化学品（Snipes和Baskin，1994年），这增加了收获成本，由于重型机器在农田上的移动而导致土壤压实（Braun ackanddJoh nston，2014年），这降低了土壤水分和养分的使用效率（Colombi等人， 2018），具有较低的采摘效率（纺锤采摘器为85.0-90.0%）（Williford等人， 1994），以及收获期间较高的田间损失（Hughs等人， 2008）等。因此，手工收获棉花和使用现有的机器有其优点和缺点。使用收获机器人进行棉花收获可以是更好的替代方案，因为棉花收获机器人可以通过用机器代替人类来执行如由人类执行的棉花的选择性由于最近对农业自主平台的研究（ Raikwar 等， 2022; Roshanianfard 等人，2020; Zaidner 和Shapiro，2016），这非常适合自主农业机器人。在棉花收获机器人的研制中，首先要解决的是棉铃的田间检测问题，这是一个具有挑战性的课题https://doi.org/10.1016/j.aiia.2023.03.0012589-7217/© 2023作者。Elsevier B.V.代表KeAi Communications Co.提供出版服务，这是一篇CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表农业中的人工智能杂志主页：http://www.keaipublishing.com/en/journals/农业人工智能/N. Singh，V.K.特瓦里峰Biswas等人农业人工2表1研究人员提取的棉花识别特征提取的特征准确度参考颜色特征（YCbCr颜色空间）90.44%Liu等人，2011颜色特征（RGB颜色空间）88.09%Wangetal.， 2008空间特征88.0%Yeom等人，2018颜色特征（RGB和YCbCr颜色空间）91.05%Singh等人，2021颜色和空间特征84.60%Sun等人， 2019由于棉铃视觉特征的不均匀性、采收作业中光照条件的变化以及采收现场周围背景的复杂性，导致棉花识别中的误差。对于棉铃的分割，过去，许多研究人员使用各种图像处理技术，如表1所示提取颜色、形状和纹理特征，并将其用作单个基础或作为多个特征的组合但是，使用基于手工设计的方法提取的特征通常是低维的（Wang等人，2021年）。在复杂背景下，要在自然光照条件下以最小误差分割棉铃，需要提取棉铃的高维特征，这是目前传统图像分割方法的难点因此，需要在传统图像分割方法的基础上，采用一种新的方法对棉花图像进行自动提取高维特征。卷积神经网络是一种可以通过自学习特征自动提取高维特征的技术。使用这种卷积神经网络技术，许多研究人员取得了有希望的分类结果（Dyrmann等人， 2016; Jiang等人， 2019; Khanramaki等人，2021; Waheed等人， 2020; Xie等人，2021; Zhang等人，2019）以及语义分割（Azizi et al.， 2020年; Chen等人， 2020年; Kang等人，2021; Kestur等人，2019年; Tendon等人，2021; Zabawa等人，2020;Zou等人， 2021）的任务。对于分类任务，在卷积层的末尾，添加密集层，而对于语义分割，使用完全卷积神经网络，其中基于在卷积神经网络模型的训练期间学习的高特征将特定类别分配给每个像素。对于农业图像的语义分割，Tendon等人（2021），Zou等人（2021），Chen等人（2020），Azizi等人（2020）和Majeed等人。（2018）使用了完全卷积神经网络，并分别实现了94.25%，92.91%，89%，80.50%和59.0%的平均交集（平均IoU）值。关于卷积神经网络在棉花分割中的应用，过去，Liet al.（2017）和Li et al.（2016）在他们的研究中采用了完全卷积神经网络来识别田间棉铃，并分别实现了70.4%和73.5%的交集（IoU）得分使用卷积神经网络，Tedesco-Oliveira等人（2020）预测棉花产量的准确率为80.0%，而Singh等人（2020）预测棉花产量的准确率为80.0%。（2022）使用现有最先进的深度学习模型来区分棉花像素与天空，并实现了80.0%以上的IoU得分 CNN在棉花中的进一步应用包括预测棉纱强度（Zhenlong et al.，2018）和感染的棉花叶的鉴定（Yan等人， 2021年）。为了使棉花收获机器人实时工作，提高生产率和减少田间损失，必须具有最小错误的高识别率以及更短的收获时间目前，使用卷积神经网络的棉花分割的准确性低于80.0%（Li等人，2016年，2017年），因此，本研究旨在开发轻量级卷积神经网络（CNN）模型，该模型将能够以更高的准确度，最小的误差和相对较低的推理时间分割棉铃。开发的模型的性能进行了评估，在工会，F1分数，准确性，精确度和召回值的交集。为了进行综合评价，还将所开发的模型的性能与使用现有最先进的网络获得的棉花分割结果进行了比较本研究报告的主要贡献如下：1. 将低层和高层特征与各种过滤器尺寸相结合，以创建用于田间棉铃检测的神经网络模型，该模型可以部署在Raspberry Pi等小型单板计算机2. 讨论了卷积层中的丢包率以及滤波器大小对卷积神经网络性能的影响3. 各种模型的消融研究提供了深入了解模型修剪对其性能的影响本文的其余部分组织如下。在第2节中，图像数据集准备，CNN模型开发所遵循的方法，它们的训练以及用于CNN模型性能评估的质量标准。第3介绍了通过训练模型分割棉铃所获得的结果。最后，第四总结了本研究的发现2. MATERIALS和METHODS本节描述了图像采集、标记、预处理和增强过程。本节进一步描述了开发三种新的CNN架构所遵循的过程。开发的架构的训练过程进行了讨论，以及在本研究中使用的标准矩阵的解释开发的CNN模型的性能评估。2.1. 棉花图像采集哈里亚纳邦是印度北部的一个主要棉花种植邦（Seidu，2018），本研究中使用的棉花图像是从印度罗塔克地区Kharanti村的棉花田（ 29°01 ′30″N ， 76°27′12″E ）拍摄的。在自然光照条件下，用LogitechWebcamC270（0.90万像素）固定焦距为4.6mm，对角视场为55°的数码相机，采集了一周内收获棉桃的100幅RGB彩色图像（分辨率为480 × 640由于所捕获的棉田场景的距离和角度将基于安装在机器人臂上的视觉传感器的位置而变化，因此，对于本研究，为了使图像数据集异构且实用于所开发模型的现场应用，以与棉花植物的随机距离和角度捕获图像。2.2. 数据集构建2.2.1. 图像标记标记图像是其中每个像素被手动分配特定类别的图像，并且该过程被称为图像标记，如果开发的CNN用于语义分割任务，则该过程是训练CNN的基本先决条件在这项研究中，使用蔡司显微镜提供的注释应用程序“apeer”（apeer [WWW文档]，2021），对两类二进制分类进行图像标记，其中棉铃的像素被分配值2.2.2. 数据增强CNN的训练需要相当数量的标记图像（Zou等人，此外，为了使用CNN实现更好的语义预测，应该以最大的准确度执行图像标记，因此，图像的标记消耗大量的时间、人力等。因此，由于图像标记中的资源的限制，各种研究人员成功地实现了其中人工产生合成图像及其对应的标记图像的图像增强技术（Azizi等人，二○二○年;N. Singh，V.K.特瓦里峰Biswas等人农业人工3Chen等人， 2020年; Kang等人， 2021; Zou等人， 2021），并在语义分割任务中取得了令人印象深刻的准确性。先前的研究（Kang等人，2021年; Sun等人， 2021年; Tendon等人， 2021; Zabawa等人， 2020;Zou等人， 2021）已经表明，使用正确的数据增强技术，研究人员可以用有限数量的图像而不是更大的图像获得良好的结果。因此，为了增加用于CNN训练和验证的图像数据集的数量，本研究中实施了图像增强技术在100张捕获的图像中，随机拍摄90张图像，并将图像增强技术应用于每张图像。为了实现这一点，将具有随机值的图像从10°旋转到60°，水平移动100个像素，垂直移动100个像素，水平和垂直移动，在此基础上获得5个新的合成图像及其相应的标记图像图图1显示了增强的棉花图像和相应的掩码图像的样本。因此，用于CNN训练的棉花数据集由总共540个图像组成，其中405个图像（75%）用于CNN的训练，而剩余的135个图像（25%）用于验证目的。剩余的10张原始图像用于测试所提出的模型。2.3. 构建建议模型受各种最先进的卷积网络的启发，本研究设计了三种不同的自定义架构，以使用端到端全卷积网络识别棉铃。所有三种设计的架构都具有相同的基线，如下所示(a)除非指定，否则所有卷积都是使用步长为1的3 × 3滤波器大小来执行的，（b）所有最大池化操作都是使用步长为2的2 × 2滤波器大小来执行的，（c）所有转置卷积操作都是使用步长为2的2 × 2来执行的，（d）对于所有卷积层、转置卷积层和最大池化层，应用填充使得特征图的输出维度导致与输入特征图相同的维度在每个卷积层之后应用非线性激活函数，目的是从计算的特征图中提取非线性特征，以及提高所提出的卷积网络的准确性（Jarrett等人，2009年）。在本研究中，使用Nair和Hinton（2010）提出的ReLU激活函数，因为它导致更快的收敛（Glorot et al.， 2011; Krizhevsky等人， 2012），并且不遭受消失梯度问题。图1.一、增强的原始图像和相应的掩码图像的示例。N. Singh，V.K.特瓦里峰Biswas等人农业人工图二、CNN模型的概念图1（黄色框参见消融实验部分）。（对于本图例中颜色的解释，读者可以参考本文的网络版本。4ReLU激活函数仅保留计算出的特征图的正值，同时使负值等于零，并且在数学上可以由等式定义（一）.fxmaxx，01在每个模型的最后一层，使用soft-max激活函数在卷积神经网络的训练过程中，首先，需要为每一层提供初始权重，之后这些权重将在反向传播过程中迭代更新根据层的维度生成初始权重的过程称为权重初始化，这是网络收敛的重要操作（Kumar，2017），因为过大或过小的权重初始化可能分别导致梯度爆炸和消失问题（Bengio等人， 1994）在卷积网络的训练期间。在本研究中，ReLU激活功能用于神经层，因此，如He等人所推荐的。（2015）中，使用He初始化来初始化用于所提出的自定义模型的权重。在这项研究中提出的所有模型，基本上是由编码器和解码器部分。2.3.1. 构建模型1的卷积结构对于模型1，编码器部分中的每个卷积块由一个卷积层，然后是批量归一化和ReLU激活层组成在架构中连续包含两个这样的卷积块之后，添加最大池化层以降低空间维数。这种安排重复三次。在其末端部分，编码器由最大池化层和单个卷积块组成。解码器部分中的每个块由单个数量的转置卷积层、卷积层、批量归一化层和激活层组成，如前所述。解码器中的该解码器块使用2 × 2转置卷积对输入特征图进行上采样在架构中包含四个这样的块之后，在解码器的末尾，应用额外的1 × 1卷积以将特征图的深度减少到所需的类的数量，在本研究中为两个，即，背景和棉花类，并产生逐像素分割的图像。在编码器中的每个卷积块处，特征通道的数量逐渐增加，而在解码器中，在每个解码器块处，特征通道的数量逐渐减少所提出的模型1的架构如图所示。 2以及特征图的维度和滤波器的数量。2.3.2. 构建模型2的卷积结构在编码器中使用的池化操作不仅降低了特征图的空间维度，而且导致空间信息的消除（Ronneberger等人，2015）以及在上采样期间生成棋盘伪像（Sugawara等人，2019年）。受Ronneberger等人（2015）的启发，在提出的模型2和模型3中，使用跳过连接将特征从编码器传递到解码器，目的是重新获得空间信息。为此，编码器中的特征映射被逐通道地连接到解码器中相同维度的特征映射与模型1相比，模型2中的层增加以提高分割精度。但是，在架构中包含附加层可能会导致训练误差的增加，这是由于降级和消失梯度问题（He等人，2015年）。因此，在本研究中，可能的问题增加的训练错误已缓解使用剩余连接。使用剩余连接，两个层直接连接，同时跳过中间的一个或多个层图图3示出了用于模型2的架构中以减轻训练误差问题的残差块。在这种情况下，残差连接简单地卷积具有1 × 1内核大小的输入特征映射，其输出将被添加到另一个堆栈层的输出中，如图所示。 3.模型2的编码器部分包括三个卷积块、两个残差块和四个最大池化层。两个残差块被连续地添加在第一卷积块之后，如图1所示。四、最大池化层被放置在除了最后一个卷积块之外的每个卷积模型2的解码器部分由四个转置卷积层组成，每个转置卷积层使用跳过连接连接来自编码器的特征映射转置卷积和跳过特征的级联之后是残余块，并且这种布置在解码器中重复四次所提出的模型2的完整架构如图所示。4以及特征图的维度和滤波器的数量。2.3.3. 构建模型3的卷积结构实际上，在棉田中的机器人收获操作期间，视觉传感器将在不同的观察距离和角度处捕获棉铃，由于所述观察距离和角度，棉铃的空间布局以及规模将是随机的。如Li等人（2017）所述，与多实例棉铃（在图像中局部存在）相比，单实例棉铃（在图像中全局存在）更容易分割因此，在这种情况下，选择内核大小始终是一项艰巨的任务，因为对于现有的信息，更大的内核大小是首选N. Singh，V.K.特瓦里峰Biswas等人农业人工图四、CNN模型2的概念图（黄色框参见消融实验部分）。（对于本图例中颜色的解释，读者可以参考本文的网络版本。5图3. CNN模型2的概念残差块。图五、CNN模型的概念起始-残差块3.而对于图像中局部存在的信息，较小的核尺寸是优选的。因此，受Szegedyet al. （2014），如图所示的起始-残差块（IRB）。 5是在本研究中建立的，其中用三种不同大小的滤波器对输入进行卷积，即，1 ×1、3 × 3、5 × 5。最大池化操作也是用步长为2的3 × 3的核大小执行的值得注意的是，Lin等人提出的1 × 1卷积。（2014）在3 × 3和5 × 5卷积之前添加，以限制输入通道的数量，从而限制Inception-Residual块（IRB）的计算开销此外，在IRB中实现了捷径/剩余连接，以利用剩余连接的优势所有这些操作的输出都连接在一起，这就是IRB的输出IRB的输出作为下一层的输入模型3的编码器部分由三个卷积块组成，包括卷积，批量归一化和激活层连续，三个Inception-Residual块，和四个最大池层，如图所示。第六章解码器部分由四个转置卷积块组成，这些转置卷积块由转置卷积层、卷积层、批归一化层和激活层组成，来自编码器的特征图使用跳过连接串联到这些转置卷积块。完整的架构以及特征图的尺寸和滤波器的数量如图所示。第六章2.4. CNN模型的训练在所有采集的田间棉花图像中，10%的图像被单独保存用于测试开发的CNN模型，而剩余的90%用于创建合成图像，随后分别以75：25的比例用于训练和验证目的优化算法，学习率，epochs数，batchN. Singh，V.K.特瓦里峰Biswas等人农业人工6CC图第六章 CNN模型3的概念图。规模、损失函数和权重初始化是一些关键的超参数，需要在训练神经网络之前进行调整这些超参数的不适当选择可能导致较差的泛化性能（Xing等人，2018），过度拟合，过度训练时间，过度消耗计算资源（Xie et al.， 2021），并可能影响regularizationsignificantly（威尔逊和马丁内斯，2003）等。在过去，许多研究人员实现了Adam优化器（Bao 等人，2021; Gonzalez-Huitron 等人，2021; Waheed等人，2020），使用0.001的学习率（Gonzalez-Huitron等人， 2021; Kolhar和Jagtap，2021; Zabawa等人，2020），训练了一百个时期的模型（Abdalla等人， 2019年; Kolhar和Jagtap，2021年; Tendon等人，2021; Zou等人， 2021年），并在农业图像方面取得了令人印象深刻的成绩。因此，在本研究中，使用Adam优化器（Kingma和Ba，2017）作为优化算法对模型进行了100次训练，学习率为0.001，并按照Kandel和Castelli（Kandel和Castelli，2020）的建议小批量处理5张图像由于在训练数据集中由于棉花和背景像素之间的实质性像素比差距而存在较高的类别不平衡，所以训练模型的准确性可能不令人满意（Fujii等人， 2021 年）。为了处理类别不平衡问题，多个研究者（Badrinarayanan 等人， 2017; Ngugi 等人， 2020; Tang 等人，2020）成功地将骰子系数用作农业图像的语义分割任务中的损失函数。因此，在本研究中，骰子系数定义的方程。（2）在神经网络的训练中，采用损失2.5. 辍学率Dropout是一种正则化技术，用于通过在训练过程中随机丢弃激活单元来避免神经网络中的过度拟合。这种正则化技术在卷积网络的全连接层中被各种农业图像研究者成功地实现（ Khanramaki 等人， 2021;Rahman等人，2020; Waheed等人，2020; Xie等人，2021年）。You等人（2020）使用了DropBlock（Ghiasi等人， 2018 ）和Li et al.（2017）在卷积层之后添加了退出层，以避免为杂草检测和棉花分割而构建的神经网络的过度拟合。为了分析丢弃层对全卷积神经网络性能的影响，并得到丢弃率的最佳值，对卷积层中具有3 × 3的固定滤波器大小的模型进行了0%、10%、20%、30%和40%的丢弃率训练。除了退出率，所有其他超参数在训练过程中对每种情况保持不变。2.6. 过滤器尺寸卷积滤波器的大小确定在卷积层中从其提取信息的接收场的大小如果卷积滤波器的尺寸较小，则提取的特征将是高度局部的，而在较大滤波器尺寸的情况下，提取的特征将更具表现力（Szegedy等人， 2015年）。所捕获的图像中的田间棉铃在全球以及局部存在，较大的过滤器尺寸和较小的过滤器尺寸应该是优选的，骰子12× pi×qi损失¼-C c第一节没关系为了获得更好的性能，cqc其中，i =训练数据中的第i个样本; c =第c个类; p i=地面实况的一个热编码器; q i=第i个样本的类c的概率; n=1× 10 −6。在本研究中，使用名为Keras v2.4.0（Chollet，2015）的基于Python的开源深度学习应用程序接口，以及名为TensorFlow v2.6.1（TensorFlowDevelopers，2021）的开源Python库作为其后端，以构建所提出的模型。 Google Colaboratory （ Google Colaboratory ，2021）是一种基于云的在线笔记本电脑环境，用于训练从训练的CNN中，卷积层的最佳滤波器大小为实验性地选择为此，所提出的模型使用3、5和7的过滤器大小进行训练，同时保持其他超参数。表2软件和硬件规格。名称规格GPU 1xTesla K80，具有2496个CUDA核心，计算3.7，12 GBGDDR5 VRAMCPU 1个单核超线程至强处理器@2.3GhzRAM 25 GB可用提出的卷积神经网络使用可用的强大的硬件选项，如表2所述。编程语言PythonN. Singh，V.K.特瓦里峰Biswas等人农业人工7¼¼¼¼××1/1-在培训期间，每个案例都是如此选择导致CNN最佳性能的滤波器大小来构建模型。和召回度量到一个单一的参数，以更好地分析和定义的方程。（八）、2.7. 建筑烧蚀研究一个典型的卷积神经网络由数百万个训练节点组成，IoUiTPiTPiFNiFPið3Þ能够的参数（He等人，2015; Ronneberger等人，2015; Szegedy等人，2015），其中可能一些参数可能对网络的输出贡献微薄或可忽略，因此可以在不影响网络效率的情况下被移除（Molchanov是说1K-IoU<$k∑kIJj1piiK∑pjipiij1ð4Þ例如，2017年）。为了去除CNN的非执行参数，多个研究人员进行了消融实验（Adhikari等人， 2019; Bao等人， 2021; Xie等人， 2021; You等人， 2020）其中其中Pij表示被预测为类j的类i的像素的数量，k表示语义类的数量网络的某些组件/层被修剪。消融研究的目标是减少网络大小、计算开销、训练时间和推理时间，前提是网络的实际效率保持不变或无显著降低。在本研究中，消融实验进行了拟议的网络，以减少网络的规模和推理时间，同时保持网络的性能。在本研究中，神经网络的消融通过两种方式进行：（i）通过移动层数，以及（ii）通过改变过滤器的数量。像素精度iTPiTNiTPiFNiFPiTNi精密度iTPiTPiFPi召回iTPiTPið5Þð6Þð7Þ在模型中。在模型1中，从编码器，最后一个最大池化层和去除卷积块，而从解码器去除第一去卷积块从模型中删除的部分F1-分数i¼2精确度i召回率i精确度i召回率i 81是突出的黄色虚线图。二、本研究中将该消融模型称为模型v1.1在模型2中，从编码器中移除最后一个最大池化层和卷积块，而从解码器中移除第一个解卷积层、级联层和残差块。从模型2中移除的部分在图4中以黄色虚线突出显示。该消融模型称为模型v2.1。在模型3中，开始-残差块编号3（IRB 3）被一个卷积块层取代，并被称为模型v3.1。对于使用模型3的另一次消融，将IRB 2和IRB 3替换为每个IRB的单个卷积块，称为模型v3.2。关于通过滤波器数量进行的消融实验，对于每个模型及其变体，滤波器从图1和图2中所述的滤波器数量减少到80%、60%和40%。2、4和6。使用评估矩阵评估模型及其变体的性能，以在分割精度、网络大小和推理时间方面选择最佳模型2.8. 评价指标对于所提出的神经网络的性能评估和这些神经网络之间的比较，使用网络获得的分割结果使用众所周知的农业图像评估指标进行量化：F1分数（Chen et al.， 2021; Kestur等人， 2019年; Kolhar和Jagtap，2021年），交叉联合（IoU）（Sun等人， 2021; Zabawa等人，2020;Zou等人，2021），平均交叉-愈合（平均- IoU）（Long等人，2015年;Tendon等人， 2021年; Xu等人， 2020）、像素精度（Kestur等人，2019年; Kolhar和Jagtap，2021年; Tendon等人， 2021），精度（Kestur等人， 2019; Zabawa等人， 2020）和回忆（Chen等人，2020年; Tendon等人，2021; Zou等人，2021）指标。IoU度量定义为Eq.（3）测量预测图像和地面实况图像之间共有的像素数与两个图像上存在的像素总数的比率Mean-IoU是语义类上IoU分数的平均值，由等式定义（4）、像素精度由等式定义（5）测量被正确分类的像素的百分比对于给定的类i，精度度量可以被定义为类i的正确分类的像素在被分类为类i像素的总像素中的分数，而召回度量测量类i的正确分类的像素在地面实况图像中存在的类i的实际像素数量中的分数精确度和召回率指标由等式定义。（6）和（7）。F1分数结合了精度其中真阳性/真阴性（TPi/TNi）是被正确预测的属于类别i的像素，假阳性（FPi）是被预测为类别i像素但不属于类别i的像素，假阴性（FNi）是属于类别i但被错误地分类为另一类别的像素的像素2.9. 与最先进网络的比较考虑到卷积神经网络在分类任务中的成功，Long等人（2015）开发了第一个用于图像分割任务的端到端可训练的完全传统网络。后来，Ronneberger et al. （2015）开发了一种用于生物医学图像分割的新型CNN模型。他们提出的模型的架构主要由编码器和解码器部分组成，其中编码器从输入图像中学习低级特征，而解码器将这些学习的特征语义映射到与输入图像相同大小的图像像素随后，许多研究人员（Adhikari等人， 2019; Badrinarayanan等人， 2017; Kolhar和Jagtap，2021;Milioto等人，2018; Peng等人，2019）使用卷积编码器-解码器网络进行语义分割。视觉几何组（ VGG ）（ Simonyan 和 Zisserman ，2015）、ResNet（He等人， 2015）和InceptionV3（Szegedy等人，2015）网络在ImageNet数据集上分别实现了92.7%，93.3%和93.9%的前5名准确率（Deng et al.，2009），这证明了这些网络具有良好的特征提取能力，并且通常（Gao et al.，2020; Hecht等人，2020; Majeed等人，2018; Ou等人，2019; Panda等人，2022; Shah等人， 2022; Zou等人，2021）在为语义分割开发的各种CNN架构中用作骨干。本研究将所提出的模型与上述模型进行了比较，同时使用上述网络作为编码器骨干。为此，从这些CNN模型和类似于U-Net模型的架构中修剪出完全连接的密集层（Ronneberger等人， 2015年）使用上采样层构建。此外，不是通过随机初始化权重来开始训练过程，而是在ImageNet数据集上训练各个网络的权重（Deng et al.，2009），同时保持其他超参数不变，以训练研究中提出的模型。Tan和Le（2019）提出了一种名为Effi cientNet的新模型，通过平衡网络深度，宽度和分辨率来实现更好的性能对于农业图像，多个研究人员（Atila等人， 2021; Duong等人， 2020年; Yin等人， 2020; Zhang等人， 2020年）∑pN. Singh，V.K.特瓦里峰Biswas等人农业人工8图第七章辍学率对模型性能的影响。N. Singh，V.K.特瓦里峰Biswas等人农业人工9图八、过滤器尺寸对所提出模型性能的影响。N. Singh，V.K.特瓦里峰Biswas等人农业人工10通过在研究中实现Ef ficientNet系列的各种模型，取得了理想的效果。与其他现有的最先进模型相比，Ef ficientNet模型更小、更快（Tan和Le，2019），因此，为了评价的全面性，还将本研究中提出的轻量级模型与Ef ficientNet-B1模型进行了比较。3. 结果和讨论3.1. 丢弃率对卷积网络性能的影响比较了使用不同辍学率训练的模型的分割结果从图 7，可以观察到，随着辍学率的增加，所提出的模型的性能显着下降。平均IoU是评价语义分割模型性能的一个重要且常用的据观察，当脱落率从0%增加到40%，模型1、模型2和模型3的平均IoU值此外，当脱落率增加时，平均 IoU 值、 cotton-IoU （ Intersection- over-Union）、F1分数和像素准确度值也显著降低我们在这项研究中的分析表明，全卷积神经网络中存在的dropout层是无效的，可能会降低其整体性能。dropout技术失败的原因是所提出的模型完全是传统的神经网络，并且棉田图像具有很强的空间相关性，因此提取的特征图也是如此。由于特征图激活在空间上是相关的，因此，尽管一些随机激活单元从特征图中脱落，但信息仍然通过卷积层传播，并且全卷积神经网络对其性能没有显示出脱落的积极影响。Ghiasi等人（2018）和Tompson等人（2015）在各自的研究中也提到了类似的观察结果图第九章模型1及其变体评价矩阵的消融研究结果。N. Singh，V.K.特瓦里峰Biswas等人农业人工113.2. 滤波器大小对卷积网络性能的影响比较来自在卷积层中使用3、5和7的滤波器大小训练的模型的分割结果，以选择最佳滤波器大小。从图 8，可以观察到，在用不同的滤波器大小训练时，所提出的模型的性能之间存在不显著的差异。对于3、5和7的过滤器大小，模型1、模型2和模型3的平均IoU值边际变化，而计算开销增加了2.78倍，5.45倍（Szegedy等人， 2015年）用于5×5和7×7过滤器尺寸。此外，在F1评分、准确度和棉IoU值方面，也没有观察到有利于所提出模型的较大滤器尺寸的显著优势因此，在本研究的卷积神经网络中使用了3 × 3的滤波器大小3.3. 消融实验为了减少模型的大小和推理时间，对三个提出的模型进行了烧蚀实验，在第一种方法中，从网络中修剪组件，而在第二种方法中，在模型及其衍生变体中改变过滤器的数量。图图9、10和11分别示出了模型1、模型2和模型3的性能比较，模型1、模型2和模型3分别用如图9、10和11中提到的所提出的模型中使用的滤波器总数的100%、80%、60%和40%进行训练。2、4和6。100%的值表示过滤器的数量没有变化，而80%表示与图1A和1B中所述的过滤器数量相比，过滤器的数量减少了20%。2、4和6。还比较了所提出的模型和它们各自的具有不同数量的滤波器的变体之间的关系。Zou等人（2021）开发的卷积神经网络比U-net模型的性能高出1.78%，Chen等人（2021）的DeepLabv 3网络比U-net模型的性能高出0.7%，Kang等人（2021）的AM-DeepLabv 3网络比U-net模型的性能高出0.7%。（二零二一年）的IoU得分较Sub-pixel-DeepLabv 3+网络高出0. 77%。因此，本研究使用0.80%的阈值将IoU评分的变化分类为显著或不显著。如果IoU评分的变化大于1.0%，则仅认为该变化显著。图10. 根据模型2及其变体的评价矩阵得出的消融研究结果。N. Singh，V.K.特瓦里峰Biswas等人农业人工12图十一岁根据模型3及其变体的评价矩阵得出的消融研究结果。平均IoU是评价语义切分性能的最重要参数平均IoU得分的值，如图1A和1B中所观察到的。在模型1、模型2和模型3中，当过滤器数量减少60%时，9、10和11分别减少2.18%、4.98%和3.62%。对于100%滤器数量，在平均IoU评分中观察到模型1和模型v1.1之间的差异为3.7%，模型2和模型v2.1之间的差异为3.23%，模型3和模型v3.2之间的差异为3.22%在模型及其相应变体的精确度、召回率、F1评分、像素准确度和cotton-IoU评分方面也观察到类似的模式从Figs 从图9、图10和图11中，我们可以得出结论，要么从网络中删除层/组件的数量，要么减少过滤器的数量，模型及其相应变体的性能就会下降。除了分割精度外，推理时间也是模型评估中应考虑的重要参数因此，与棉花IoU评分一起，比较了模型的推理时间，如图所示。12个。从图中可以看出。12、对于过滤器数量为100%，与模型1相比，模型v1.1的cotton-IoU评分降低了7.13%，而推理时间降低了15.34%过滤器未减少的模型1与过滤器数量减少20%的模型1之间的比较显示，棉花IoU评分减少0.76%，而推断时间减少20.45%。通过将过滤器的数量减少到60%，推理时间将进一步减少到298 ms因此，选择滤波器数量少20%的模型1用于进一步微调。在具有100%过滤器的模型v2.1的情况下，与模型2相比，cotton-IoU评分降低6.44%，将过滤器未减少和过滤器数量减少20%的模型2进行比较，结果表明，棉花IoU评分降低了1.74%，这被认为是基于先前所述的0.80%阈值的显著变化因此，选择具有100%数量的滤波器的模型2用于进一步微调。过滤器数量没有减少的模型3与模型v3.1和模型v3.2的比较显示，N. Singh，V.K.特瓦里峰Biswas等人农业人工13图12个。模型及其变体在棉花IoU得分和推理时间方面的比较。N. Singh，V.K.特瓦里峰Biswas等人农业人工14图13岁最终选定和微调模型在评价矩阵方面的比较。棉花-IoU评分分别降低1.78%和6.04%，而推理时间分别降低11.9%过滤器数量没有减少的模型3与过滤器数量减少20%的模型3之间的比较显示，棉IoU得分减少了0.84%，而非10.53%。减少

下载后可阅读完整内容，剩余1页未读，立即下载