基于Ghost卷积和Transformer的葡萄病虫害诊断方法

39 浏览量更新于2024-01-17 收藏 2.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

~沙特国王大学学报虚反射-卷积启发式Transformer混合模型在葡萄病虫害诊断中的应用陆翔宇a，杨瑞a，周俊a，焦杰a，刘飞a，d，刘宇飞a，苏宝峰b，顾培文ca浙江大学生物系统工程与食品科学学院，浙江杭州310058b西北农林科技大学机械与电子工程学院，杨凌712100c宁夏大学农学院，银川750021d浙江大学流体动力与机电一体化国家重点实验室，杭州310058阿提奇莱因福奥文章历史记录：收到2021年2022年1月30日修订2022年3月4日接受2022年3月19日网上发售保留字：葡萄病害识别深度学习重影卷积TransformerA B S T R A C T病虫害是造成葡萄减产的主要因素。正确和及时地识别这些症状对葡萄园是必要的。然而，由于缺乏全局感受野，常用的CNN模型限制了其在具有复杂背景的叶片图像上的性能。本文提出了一种基于Ghost卷积和Transformer网络的葡萄叶片诊断方法。首先，收集了包含11个类别和12，615个图像的葡萄叶病虫害数据集，即GLDP12k。采用Ghost网络作为卷积骨干，以廉价的线性运算生成中间特征图。后面集成了具有多头自关注的Transformer编码器，以提取深层语义特征。然后我们得到Ghost启发的Transformer模型，即GeT。在分析了五个超参数后，优化的GeT从ImageNet中转移学习，提供了4.3%的准确度奖金。结果显示，GeT每秒180帧，重量1.16 M，准确率98.14%，超过其他型号，比MobilenetV3_large（97.7%）快1.7该研究表明，GeT模型是有效的，并提供了一个可选的基准田间葡萄叶片诊断。©2022作者（S）。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍农业是社会发展的基础，然而，由病虫害引起的全球粮食直接产量损失占农业生产损失的20 - 40%（Guptaet al.，2019; Tang等人， 2020年）。植物病虫害不仅影响收获产量，而且影响作物质量，甚至可能威胁人类健康（Savary et al.， 2019年）。对于葡萄产业而言，仅霜霉病一种病害就造成了巨大的产量损失，在大多数葡萄种植区，产量损失从5%到40%不等（IPPC秘书处，2021年）。因此，需要进行植物健康管理，*通讯作者。电子邮件地址： luxyzju@zju.edu.cn （ X.Lu ）， ryang@zju.edu.cn （ R.Yang ），11913016@zju.edu.cn（J. Zhou），0921191@zju.edu.cn（J.娇）fliu@zju.edu.cn（F.Liu），yufeiliu@zju.edu.cn（Y.Liu），bfs@nwsuaf.edu.cn（B.Su），nxu.edu.cn（P.Gu）。沙特国王大学负责同行审查制作和主办：Elsevier防止作物损失，提高生产力，促进粮食安全和保障（Ul Haq和Ijaz，2020年）。在此之前，重要的是要准确识别病原体和害虫的类型。尽管葡萄在病害或虫害胁迫下的症状主要在视觉上出现在叶片上，但很难从人类视觉上正确识别病害（Cruz et al.，2019年）。与包括DNA提取和PCR在内的昂贵且复杂的实验室鉴定相比，计算机视觉和机器学习技术可以为疾病和害虫诊断提供更好的解决方案（Iqbal等人，2018; Sharif等人，2018年），使现场实时葡萄病虫害诊断成为可能。基于计算机视觉技术的发展，许多研究者利用图像处理技术提取相应症状区域的纹理、形状、颜色等可见特征，以然后，机器学习方法用于进一步建模（Khan等人，2018年）。支持向量机（SVM）是一种常用的分类模型，其通常与局部二进制模式（LBP）相结合（ Barburiiceanu 等人， 2020 ）、区域分割（ Jaisakthi 等人，2019），分数阶Zernike矩（Kaur等人， 2019）和其他特征提取过程。在（Adeel等人， 2019），颜色，LBP和几何特征从局部https://doi.org/10.1016/j.jksuci.2022.03.0061319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comX. 卢河，巴西-地Yang，J.Zhou et al.沙特国王大学学报1756对比度降雾（LHCR）增强图像，支持向量机分类葡萄叶部病害。然而，总体准确率仅为94.1%，并且跨类别的性能并不稳健。此外，K-最近邻（KNN）（Hossain等人，2019）、K均值聚类（Kumari et al.，2019）和反向传播神经网络（BPNN）（Zhu等人，2020）是常用的植物叶部病害分类。尽管这些方法是可解释的，但是特征工程过程是复杂的并且主要依赖于手动构造（Chao等人，2021年）。由于最优特征提取方法的不一致性，导致不同类型任务的特征工程过程繁琐。更为严重的是，人工特征降维操作造成的信息损失是不可避免的，在后续的建模过程中将无法使用。因此，这些方法在现场环境中不够鲁棒，并且难以转移到其他任务中，这些方法在实践中尚未广泛使用。随着硬件计算能力的指数增长和机器学习算法的进步（Shah等人，2022）、深度学习（DL）模型（Yu等人，2021），尤其是卷积神经网络（CNN）（Hussain等人，2022年），已得到迅速发展并逐步应用于生产中，可实现对植物病害的更鲁棒、更可靠的识别例如，2021年）。在（Chao等人，2021）和（Chao等人，2020），提出了两种卷积网络SE_Xception和XDNet用于诊断苹果树主要病害，在包含5种病害的 ATLDs 数据集上的诊断准确率分别达到 98.82% 和 99.40% 。Ramcharan等人（2019）训练了一个物体检测模型SSD并将其部署在移动设备上，以识别木薯疾病的七种叶症状。该模型在测试集上的F1得分为0.79，在真实图像上的F1得分为0.54，这表明现场识别。Oppenheim等人（2019）使用简单的CNN网络将患病马铃薯块茎的图像分类为5个级别，在9：1的训练与测试分割比下实现了96%的测试准确度。AlexNet（ Krizhevsky等人，Pereira等人（2019 ）优化了DRGV（2012），并将其用于自动葡萄品种识别，在六种不同红葡萄品种的DRGV数据集上实现了77.3%的测试准确率。在（Mohanty等人，2016;Geetharamani和Pandian，2019; Khan等人， 2020; Hassan等人， 2021 ），在 Plant Village 数据集上训练和实施 CNN 模型（Mohanty等人，2016），其包括14种不同的植物物种和38种不同类别的患病或健康植物叶。由于CNN的端到端特征提取能力，所有四项研究的准确率都在98%以上。而在（Ferentinos，2018）中，采用了基于Plant Village和VGG模型的包含58个类别的扩展数据集，成功率为99.5%。在（Afifi等人，2020）、深度对抗度量学习方法和ResNet（He et al.，2016年），在工厂村进行了预培训。该模型对不同条件下采集的5种咖啡叶图像的分类准确率达到81%。值得注意的是，除了CNN 之外，引入了 Transformer 编码器来提取图像特征的 VisionTransformer （ ViT ）（ Dosovitskiy 等人， 2021 ）被 Hirani 等人（2021）用于检测植物病害。它在Plant Village上达到了98%的验证准确率，参数比CNN少，显示了Transformer网络的巨大潜力。更具体地说，在葡萄病虫害田间检测方面，研究了相当多的深度学习方法，包括葡萄藤黄化（Cruz et al.，2019）、黑腐病（Ji等人，2020）、蜘蛛螨（Gutierrez等人，2021）和营养不足（Thet et al.，2020年）。（Adeel等人，2020）利用Yager-entropy来选择AlexNet和ResNet生成的最佳特征，并应用最小二乘SVM对葡萄叶病进行分类。选择过程降低了时间复杂度，但也会导致误分类，来描述失去Liu等人（2020）提出了一种基于密集块从DenseNet（黄等例如，（2017年）和深MobileNets的可分离卷积（Howard等人， 2017）用于葡萄叶病的分类。对7类7669幅图像，其DICNN模型的识别准确率达到97.22%。在（Xie等人，2020），通过将Inception模块和SE块引入ResNet主干，提出了一种称为Faster DR-IACNN的疾病点检测模型。在包含四种葡萄叶病类别的GLDD数据集中，它达到了81.1%的平均精度（mAP），比Faster R-CNN高9.6%（Ren et al.，2015年）。虽然高精度是必要的，但对于资源有限的嵌入式设备，参数的数量和推理速度也至关重要。Tang等人（2020）改进了Shuf-fleNet（Ma等人，2018）通过应用SE块和扩展网络的宽度。在Plant Village数据集的葡萄部分上，该模型的测试准确率达到99.14%，4.2 MB.除了直接使用CNN模型进行葡萄叶诊断外，生成对抗网络（GAN）也是疾病分类的好方法（Zeng et al.，2021）、斑点检测（Zhou等人，2021）和用于数据增强的图像生成（Liu等人，2020年a、b）。虽然这些深度学习方法的结果比传统方法的结果更好，但大多数实验使用的是在实验室（包括Plant Village）收集的数据此外，许多情况下选择准确性作为唯一指标，忽略了深度学习模型的内存消耗和推理速度。更重要的是，卷积模型缺乏全局感受野和自我注意力来学习全局特征的长程归纳偏差（Huang et al.， 2021年）。因此，需要非常深的层来捕获全局信息，这是冗余且低效的。Transformer模型的自注意提供了长范围的相关整合，有利于植物病害表型分析。因此，本研究的主要目标是：1）通过集成轻量级Ghost卷积和Transformer的自注意力，构建一个快速准确的田间葡萄叶片病害诊断模型; 2）优化模型的结构和超参数，并通过多指标评价其性能;3）将其与最新的（SOTA）葡萄叶片诊断模型进行比较;4）通过可视化输入图像上的注意力地图来解释Transformer的自注意力本文的其余部分组织如下：第2节介绍了收集的数据集，并详细介绍了建议的幽灵启发Transformer（GeT）模型的原则和工作流程。在第3节中，我们比较了GeT和其他SOTA模型在数据集上的性能，并分析了GeT超参数的影响。第4节讨论了GeT的无偏性，并将Transformer的注意力地图可视化。在描述了局限性和相应的解决方案之后，我们在第5总结了本研究的贡献和未来的计划。2. 材料和方法2.1. 数据收集尽管有许多关于葡萄叶病的图像分类的研究，但除了植物村（可在：data.mendeley.com/datasets/tywbtsjrjv/1获得）之外，很少有公共数据集可用，植物村包括在室内收集的3种患病葡萄叶图像。对于面向田间的葡萄病害识别任务，该数据集是不够的。因此，在植物病理学专家的帮助下，我们收集了图像，并建立了一个葡萄叶病和害虫数据集，其中包含11个类别的12，615张图像（GLDP12k）除了来自Plant Village数据集的黑腐病、叶枯病和Esca样本外，其余超过三分之二的图像是使用手机相机和Sony-A6000数码相机在不同的葡萄园收集的。三种病叶X. 卢河，巴西-地Yang，J.Zhou et al.沙特国王大学学报1757FG对杭州市葡萄园的葡萄营养不良、霜霉病、褐斑病进行了图像采集。在银川市酿酒葡萄园中采集到葡萄白粉病和葡萄病毒病以及葡萄叶蝉和葡萄叶蝉两种害虫。有些图像只包含一个叶目标，有些包含两个或三个，有些甚至包含为了统一它们的大小和分辨率，我们在将每个样本转换为640x640像素之前对它们逐一进行标记和GLDP12k包含11类葡萄叶片，包括8种病害、2种害虫和健康型。它们如图所示。 1作为标记有bug的害虫类型。营养素缺乏的叶子霜霉病（英文缩写为mildew）的叶片上出现有角的淡黄色光晕，下表面也出现白色棉状生长。同样，叶片与白粉病（简称powd）得到黄色斑点病变之间的浅灰色或白色粉末的表面。在炭疽病引起的褐斑病中，密集的黄色斑点很明显。黑腐病、叶枯病和Esca的典型特征分别是叶片上的近圆形褐斑、暗褐色斑块和不规则褐斑。Colomerus Vitis（缩写为colom）生活在葡萄叶子的下面，导致叶子组织膨胀，产生水泡状的虫瘿。叶蝉在叶子的下侧取食，在叶子的上表面留下可见的白色斑点。混合感染多种病毒（简称病毒）导致卷叶和红斑。除了来自植物村数据集的黑腐病、叶枯病和Esca外，其他类别的照片都是在田间拍摄的。这些现场图像具有不同的光照条件和复杂的背景，这提高了进一步的实用性和鲁棒性训练模型从图2中我们可以看到的另一点是不平衡的数据分布。有缺陷的人只占3%，而健康的人占16%，是最低类别的五倍为了消除多数偏向偏倚，使用了类别权重技术，详见第2.3.4。2.2. 数据拆分和扩充数据分割应该在图像增强之前进行，以防止测试、验证和训练集之间的数据泄漏（Wen等人，2020年）。为了确保模型评价结果的可重现性和稳健性，使用了恒定随机种子2021和5倍交叉验证。将数据集分为5部分，每个部分依次保留用于测试，其余4/5用于训练和验证。整个数据的十分之一用于验证，因此训练，验证和测试的比例为7：1：2。为了避免训练阶段的过拟合，提高模型的鲁棒性，采用两种常用的图像处理方法对训练集进行扩充。在训练之前，每个图像都被水平或垂直翻转，因此用于训练的样本数量增加了四倍。2.3. 鬼卷积启发式Transformer（GeT）模型几项研究和实验已经证明了卷积和Transformer模型之间的互补性（Wu等人，2021年; Yuan等人，2021年）。在Transformer之前添加卷积操作，可以更轻松地提取低级信息。这是因为卷积运算具有固有的归纳偏差能力，如平移等方差和局部等方差。图1.一、11种葡萄叶片在GLDP12k中的图像表型（1）缺乏，（2）健康，（3）霜霉病，（4）白粉病，（5）褐斑病，（6）黑腐病，（7）叶枯病，（8）Esca，（9）ColomerusVitis（害虫），（10）叶蝉（害虫），（11）病毒。X. 卢河，巴西-地Yang，J.Zhou et al.沙特国王大学学报1758¼2fg¼ ¼×2fg ¼¼图二. 样品分发。ity（Dosovitskiy等人，2021年）。因此，在浅层模型中可以有效地学习低级信息，使补丁嵌入输入有意义（Wu等人， 2021年）。此外，由于补丁-主干的非常规大步长和大卷积核，纯Transformer模型的优化是不稳定的。虽然Transformer模型的稳定性可以通过将补丁主干改变为卷积主干来提高（Xiao等人， 2021年）。因此，组合卷积和Transformer模型可以利用两者的优点。在Ghost卷积和Transformer编码器的基础上，提出了一种轻量级的Ghost卷积启发式Transformer（GeT）模型，用于田间葡萄叶片诊断。在第 2.3.1 节和第 2.3.2 节中，介绍了 Ghost 卷积主干和Transformer编码器，并且在第2.3.3中详细描述了GeT的框架。2.3.1. 鬼卷积主干经过良好训练的深度神经网络通常包含丰富甚至冗余的特征映射，以保证对输入数据的全面理解。图图3显示了由CNN模型的第一卷积层生成的这些特征图，注释对中的一个特征图可以通过简单的变换近似于另一个。在此基础上，Han等人提出了Ghost模块。（2020a，b）以通过廉价操作（线性转变L）生成许多重影特征图。内在特征图首先通过卷积生成，然后增加L，如我们在图4a中所见。Ghost卷积的过程表示为：Y0¼Conv ptX;1残余连接对于stride = 1和零填充，输出大小（高度和宽度）与输入相同。如图4c所示，对于步幅为2的瓶颈，输出的大小减半，并且为了与此匹配，在捷径路径上实现下采样。基于Ghost瓶颈s1（简称G-bneck s1）和Ghost瓶颈s2（简称G-bneck s2），骨干网的构建如表所示。1 .一、架构和其他细节类似于GhostNet（Han et al.，2020 a，b），其遵循MobileNetV3的结构（Howard等人，2019年）。主干根据每个块的输入形状进行划分，每个块由Ghost瓶颈s1和s2组成。从阶段1到4，随着卷积层的加深，输出特征图的形状在高度和宽度上被挤压，而它们的维度被拉伸。每个特征图将被展平并嵌入到一个向量中，其中一个特征图的形状决定了向量的长度（向量信息容量），这对trans-former编码器至关重要。2.3.2. Transformer编码器受Transformer的启发（Vaswani等人，2017）在自然语言处理（NLP）、ViT（Dosovitskiy等人，2021），并在预训练后获得了比SOTA卷积网络更好的结果，显示了计算机视觉的巨大前景。ViT将图像分割并嵌入到矢量中，在分类器头前采用Transformer编码器进行特征提取. GeT模型中的特征细化部分采用了具有多头自关注特性的Transformer编码器。如图5a所示，编码器块由层归一化（LN）形成（Xiong等人，2020），然后是多头自我注意（MHSA）（Vaswani等人，2017年）和LN其次是多层感知器（MLP），两者都有残余连接。MLP块由两个完全连接的层组成，其间具有高斯误差线性单元（GeLU）非线性激活函数（Liu，2021）。值得注意的是，第一层将输入节点四倍，第二层将其压缩回与输入相同的大小。Transformer模型通常包括许多编码器块，并且块编号L指示编码器块的深度。Transformer。2.3.3. GeT框架GeT主要有三个部分：Ghost卷积骨干、Transformer编码器和分类头。图6显示了GeT的工作流程：Ghost卷积主干将输入图像转换为特征图，然后通过2d卷积调整特征图的数量和大小接下来，一个可学习的类标记和扁平化的特征图被嵌入了它们的位置。最后，对Transformer进行特征提取后，yi;jyi0;8μl;··· ;m;第1页Li;jyi0;8μl;· ··;m;·· ·;sð2Þ编码器，类令牌被送入分类头进行预测。表4中提供了GeT的示例架构。更具体地说，图像由堆叠的Ghost bot处理其中X 2 Rc×h×w是具有c个通道、h个高度和w个宽度的输入图像或特征图。科诺夫角是点对流（Howard等人， 201 7）具有m个核的操作，Y0 2Rh0×w0×m 是如表1所示，首先是时间表。采用从顶部到oi1; 2; 3; 4级的层（oi：输出级指数参见第2.3.1节）：。本征的Ly特征映射具有m个通道s，并且y0是第i个FEA。Gcoi×hoi×woi我在Y0中的真实地图。此外，Li;j是第j个线性变换，X ¼GX的;X2Rð3Þ生成重影特征图yi;j 基于yi0。其中X 2 R c × h × w是具有c个通道、h个高度的输入图像，值得注意的是，如图所示。 4 a，第一个操作是恒等式（j 1），nm s是输出通道的总数。与原始卷积层相比，Ghost模块的速度快了s倍。如图4b和c所示，两个Ghost瓶颈用于构建GeT的卷积骨干的不同阶段。这两个瓶颈都有两个Ghost模块，分别用于扩展和收缩特征图的维度以匹配w宽度;Goi是重影卷积主干;XG是输出fea。真图;coi 24; 40; 80; 160;hoi h= 2oi1;woi w= 2oi1是根据表1的输出特征图的通道数量和形状。然后，输出特征图XG通过一个普通的二维卷积层调整为XG0，XG0被展平为向量XF. 值得注意的是，卷积具有N个内核，并且内核步幅等于k。1/4。X. 卢河，巴西-地Yang，J.Zhou et al.沙特国王大学学报1759图3.第三章。由经过良好训练的卷积层生成的16个特征图的可视化，其中三个相似的特征图对用相同颜色的框进行注释nel size.我们将步幅（或大小）表示为补丁下采样率的P，并且P2f1，···;hoig是hoi：的除数表1GeT的幽灵卷积主干阶段输入大小运算符输出大小x0的 ¼Co nvXX02RN×。湖爱woi422G2 DG;GP×P-h × 3 Conv2d 3 × 3（h/2）×161（h/2）2×16 G-颈s1（h/2）2×16（h/2）2×16 G-颈s2（h/4）2×24XF¼FlattenXG0;XF2RN×D5其中N是一个常数，指示由2d卷积层生成的补丁的数量，以及（嵌入的）22（h/4）2×24 G-颈s1（h/4）2×24（h/4）2×24 G-颈s2（h/8）2×403（h/8）2×40 G-颈s1（h/8）2×40（h/8）2×40 G-颈s2（h/16）2×804（h/16）2×805* G-颈s1（h/16）2×80Transformer中的向量; Dh oi w oi=P 是每个向量的长度。（h/16）2×80 G-bneck s2（h/32）2×160接下来，额外的可学习类嵌入X类2R1×D，向量XF连同它们的编码块位置Epos2R<$N<$1<$×D图四、（a）Ghost模块、（b）Ghost瓶颈s1（步幅= 1）和（c）Ghost瓶颈s2（步幅= 2）的图示X. 卢河，巴西-地Yang，J.Zhou et al.沙特国王大学学报1760FGLLLL.. ΣΣ图五、Transformer编码器块（a）和MLP块（b）的结构（其中对于X 类，Epos为0）被打包为序列z0。然后z0被馈送到L深度Transformer编码器，该编码器由MHSA（多头自注意）、LN和MLP（多层感知器）形成：Z0½X类;XF]E位置;z02RN1×D6z0 1/4MHSAL NN N NZl-1NN NZl-1;zl1/4MLP LNz0z0;zl2R<$N<$1<$×D;l¼1· ··L···其中z是在Transformer编码器内部流动的序列，并且l是Transformer编码器块的层索引。GeT的末尾是一个全连接的Linear层Linear，用于分类：。我的朋友。L N. z0= 0;标签p<$Argma xfyg8其中y2RK是K类的预测概率，labelp是预测类的label，Argmax返回输入序列中最大值的索引。虽然已经采用了现有的模型修改工作的本质，关键参数的分析有助于了解它们的意义和对网络的影响。这些超参数将在第3.2中进一步检验和分析。2.3.4. 模型处理和拟合通过对上述各部分的描述，本节对GeT模型的工作流程进行了整合和形式化，并详细介绍了类加权损失函数。虽然图6显示了GeT的整体结构，但下面定义了几个符号，以使模型流程清晰。Ghost卷积主干表示为GCB·，中间补丁调整过程表示为PA·，类令牌和位置表示为图六、Transformer编码器的GeT模型和结构概述X. 卢河，巴西-地Yang，J.Zhou et al.沙特国王大学学报1761ð·Þð·ÞG.ΣLnBXGp× p¼PA XG×oi×oi×oi;P;Npp0FL0clsi=n i;i2Z1;···;K9n我损耗¼ -B卢什基岛俱乐部足球队日志softmax y0e;p¼c1BJF嵌入过程为EMB编码器，Transformer编码器块为TransEB，分类头为ClsHead。在此基础上，本文总结了GeT模型的形式化过程。并应用了动量为0.9的Adam优化器。根据预实验的收敛性，将具有预训练权重的模型的总训练时期设置为20。对于从头开始训练的模型，epoch设置为40，这需要更多的训练-迭代以收敛。对于现有模型，我们访问了算法1.葡萄叶部病害与害虫的GeT识别输入：{XB×c×h×w;oi;P;N;L;K}#B是批量大小，oi是Ghost骨干的输出阶段，K是类的数量，P和N分别是PA的下采样率和输出数量输出：{y K;label P} #葡萄病虫害的预测概率。1X B×coi×hoi×woi/4GCB X B×c×h×w;oi#参见等式（3）表1来自timm的训练有素的ImageNet权重而对于GeT模型，我们必须在ImageNet上对它们进行预训练，然后才能微调到GLDP12k。仅使用预训练数据集的训练和验证部分，批次大小设置为256。此外，为了在较低的分辨率下进行预训练，将输入大小减少到2882解决方案（Touvron等人， 2019年），以及补丁的不匹配通过2D插值处理，如（Dosovitskiy例如，2021年）。其他超参数，包括优化器和损失函数，与GLDP12k上的训练相同。20B×N×。湖爱和爱.B CHw2.5. 绩效评价3.0 B×N×。hoi×woiX B×N×D¼扁平XGpp#参见等式（5）、D<$hoi×woi为了公平地评估模型，成本和性能都应该被考虑在内。权重数用于说明4ZB×N1×D¼EM B。XB×N×D#参见等式（六）FLOP（每秒浮点运算）无法预测模型由于MAC（内存访问成本）和模型并行，5Z0ZB×N1×D;L#参见等式（七）6YB×K¼ClsHea d. hZ0iB×D;K#参见等式（八）7回报.YB×K;hArgma x.Y B×KiBGeT的可学习部分主要包括GCB层、TransEB块和ClsHead层。我们使用交叉熵损失函数在训练时优化模型如第2.1所述，样本分布极不平衡，因此在定义交叉熵损失函数时计算并应用类权重：Wlelism度（Ding等人，2021），之后测量FPS（每秒帧数）以指示实际推理速度，与（Steiner等人，2021年）。我们将500个随机张量输入到待处理模型中，并记录经过的时间，然后获得五次重复的平均fps。准确度和卡帕系数（Foody，2020）根据公式计算。（11）和（12），用于评估总体分类性能和每个类别的无偏性如前所述，对每个模型进行5次实验，产生5组结果，因此将在5次实验中计算平均准确度和Kappa系数以及标准差（std）准确度<$1Xfxiy111/11XX第1页ðiÞ.WJ.ðiÞΣΣp - -p的值1-pe0Pc编号ac×bcen×n其中K是类别数，ni是每个类别的样本数，B是前馈过程中的批量大小，log·和softmax·分别是对数和softmax函数2.4. 实验环境超参数为了满足密集型计算的需求，采用了一台配备两个RTX-2080 tiGPU和48 Gb RAM的服务器进行模型训练和测试。此外，还用RTX-2070计算机进行了模型推理速度测量和其它性能评价。在软件环境方面，我们在Windows 10上使用Python此外，GeT和其他现有模型的实现基于 PyTorch 框架和 PyTorch 图像模型（ timm ）（Wightman，2019）。为了确保重现性，所有随机过程都使用{2021}的随机种子。所有模型都在GLDP12k上进行了训练和测试，并进行了5倍交叉验证。在过拟合的情况下，保留验证集上性能最好的模型权重重复5次后，通过所有测试集的平均值测量最终性能。我们将批量大小设置为32，初始学习率为0.001，每5步衰减率为0.1，输入分辨率为3842，其中，是指示器函数输出1表示真，0表示假;n是输入的数量;fxi是输入xi的预测;yi是xi的真实值标签;cnum是类别的数量;ac是指表示实际C型样本的数量，而BC表示被预测为C型的样本的数量。3. 结果在GLDP12k数据集上，动态设计并进行了多组实验。首先，几个SOTA卷积模型被微调到GLDP12k，并且都具有可接受的精度，但是它们的权重大小或推理速度不够好。然后，我们测试了所提出的GeT模型，并在第3.2节中研究了5个超参数的影响，其中发现了小补丁下采样率（P）的好处以及Transformer的浅深度的未降低的精度。在比较了三个初始权重的影响后，我们在ImageNet上预训练了一个ViT和五个GeT模型（具有相同的设置），然后将它们微调为GLDP12k。结果显示，GeT在准确性、速度和权重大小方面都优于ViT和其他模型。K#21440;，并引用空间消费。对于时间消耗，由于理论ð10Þ卡帕角准确度;pð12Þ1/1X. 卢河，巴西-地Yang，J.Zhou et al.沙特国王大学学报表17621762¼¼¼¼ ¼ ¼ ¼¼¼¼≥¼现有模型在GLDP12k上的性能，有和没有预训练。型号名称重量（M）速度（FPS）Acc_fs. （%）Acc_pt. （%）ghostnet_100（Han等人，2020年a、b）3.926890.85295.799efficientnet_b0_ns（Tan和Le，2019）4.027788.20596.681mobilenetv3_large_100（Howard等人， 2019年度）4.2210489.67997.707rexnet_100（Han等人，2020年a、b）4.807090.93996.859densenet 121（Huang等人，（2017年）6.973994.61097.693resnet 18（He等人，（2016年）11.2020588.93497.8993.1. 现有模型在GLDP12k上的性能基于卷积的六个SOTA轻量级模型在GLDP12k上进行了训练和评估，如表2所示。我们将从头开始训练的模型的5倍平均测试集准确度表示为Acc_fs，将timm的准确度预训练权重表示为Acc_pt。这些模型直接从timm（Wightman，2019）及其公共权重导入。通过对预训练权重进行微调，所有模型的准确率（Acc_pt）均超过95%，最高resnet18接近98%。但是，resnet18的内存消耗太大。而在没有预训练权重的情况下，从头开始训练的模型的准确率（Acc_fs）下降，特别是对于res-net 18，其仅达到88.93%。同时，densenet121由于密集连接的优势，仍然获得了94.6%。但这大大降低了推理速度，内存消耗仍然太大。考虑到权重大小、速度和准确性，mobilenetv3_large_100是一个不错的选择，4.22 M权重，104 fps，并实现97.707%Acc_pt。3.2. GeT超参数分析对这五个参数的分析有助于理解它们的意义，对于构建一个鲁棒和稳定的模型是重要的。这些分析也可以为使用这种混合模型或类似领域的任务提供参考。在本节中，在没有转移学习的情况下，研究了GeT的五个重要超参数：oi（out index）是重影卷积的输出级; e表示Transformer的嵌入维度（即，第2.3节中描述的嵌入补丁的恒定数量N）; h是如第2.3.2节中描述的MHSA的头数，p是第2.3.3节中提到的补丁下采样率，d表示Transformer编码器块L的深度，如图2所示。六、默认情况下，这些参数为p8;d 8;e 168;oi 1;h 6，并且它们相应地以后缀形式出现在模型名称之后。五个变量太多而无法分析，因此如表3所示进行了一系列集中于oi;e;和h的混合实验。我们改变了{1，2，3，4}中的oi，{168，192}中的e，{3，6}中的h，并保持其他参数稳定，每组至少2个水平oi控制卷积层的深度（即提取特征的深度）以及馈送到Transformer块中的特征图的尺寸减小率。根据结果，具有oi2的模型比较小或较大的模型表现更好。这种适度的选择可以附加卷积的归纳偏差，同时保留丰富的原始信息供Transformer提取。此外，e与Transformer块的宽度直接相关，而h是MHSA的头数。更大的嵌入尺寸E168和更多的头部并没有提高模型的能力，因此保持了E168和H3。GeT在从头开始的条件下获得了比大多数现有模型更好的准确性然而，与表2所示的最佳密度121相比，性能差异仍然存在。我们曾认为这是从头开始训练的GeT模型的顶峰，直到更小的补丁下来-尝试了采样率和较浅的深度，这大大加快了GeT的速度，同时保持了相当的精度。如图7a所示，示出了关于调整补丁下采样率的结果组，并且都具有相同的趋势：具有小补丁下采样率（P）的模型得到更高的分数、更轻的权重和很少的速度衰减（参见图7a）。表 S1 ）。根据第 2.3 节中的 Dhoiwoi=P2 ，小 P导致大 D ，这决定了Transformer的输入向量的有效长度。P越小，丢失的信息越少，这是GeT的小补丁下采样率奖金的原因，类似于ViT的大补丁大小偏好（Steiner等人，2021年）。作为一种特殊情况，P1意味着用于嵌入的Transformer输入序列是通过直接平坦化来自Ghost卷积部分的输出特征图（由Co nv 1×1），并且每个特征图中的信息不被压缩。在图7a中另一个值得注意的点是在不同曲线的oi上，这与之前得出的结论类似，oi 1/42的青色线高于其他线。条件oi≤2;p1没有实验，因为N会变得太大（48 2 2304），大大减缓了训练时的误差反向传播。基于以上研究的超参数，我们主要测量了深度对小块下采样率的影响通过固定p = 1，oi = 3和p = 2，oi = 2，如图7所示。从四条折线的整体位置来看，再次证明了小P的好处。出乎意料的是，对于每一行，准确率并没有随着Transformer编码器块的削减而单调下降，而是保持在一个接近的水平，甚至在某些情况下有所增加。对于从头开始训练的模型，如表S2所示，GeT_p1_d1_oi3是最好的模型，准确率为94.388%，重量极轻，为0.51 M，速度快，为163FPS。总的来说，这表明所提出的轻量级GeT模型在GLDP12k分类任务上的优先级和效率。看起来很奇怪，根据表S2，微型GeT_p1_d1_oi3（如表4所示）在从头开始的条件下表现最好我们想看看卷积部分贡献了多少因此，Ghost_oi3是通过将Ghost卷积主干（在第4阶段之前）与全局平均池（GAP）层和后面的全连接（FC）头连接而构建的该超微型模型的性能（参见表S2）甚至比ghostnet_100更好，这表明图1中的深度模型更深。如果没有迁移学习，7 b可能会过拟合。但是Transformer块仍然是必要的，它可以在预训练后包含丰富的先验信息，这将在第3.3中进行验证。3.3. GeT模型公认的是，从大型数据集进行微调可以提高最终模型性能并加快其收敛速度（Steiner等人，2021年）。为了测试GeT在不同规模数据集上的迁移学习能力，我们在ImageNet和Plant Village上预训练了GeT模型，然后微调到GLDP12k。正如我们在图8中所看到的，三条折线是（a）验证集精度和（ b ）当在具有不同初始权重的 GLDP12k 上训练时模型GeT_p2_d3_oi2的交叉熵损失蓝色和X. 卢河，巴西-地Yang，J.Zhou et al.沙特国王大学学报1763表3对GeT的外指标（oi）、嵌入维数（e）和头数（h）进行了混合实验GeT模型调谐参数固定参数重量（M）速度（FPS）Acc_fs. （%）得到Oi = 1p = 8，d = 8，e = 168，h = 33.0215789.798GeT_oi2oi = 2p = 8，d = 8

下载后可阅读完整内容，剩余1页未读，立即下载