大规模数据集IP102：农产品害虫识别与对象检测

162 浏览量更新于2023-10-19 收藏 1.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8787IP102：一个用于害虫识别的吴晓萍1，迟展1，赖玉坤2，程明明1，杨巨峰11南开大学计算机科学学院天津2英国卡迪夫大学计算机科学与信息学院{xpwu95，chizhan nt}@ 163.com，LaiY4@cardiff.ac.uk，{cmm，yangjufeng}@nankai.edu.cn摘要害虫是影响农产品产量的主要因素之一.准确识别害虫有助于及时采取预防措施，以避免经济损失。然而，用于视觉分类任务的现有数据集主要集中在常见对象上，花和狗。这限制了强大的深度学习技术在农业领域等特定领域的应用。在本文中，我们收集了一个大规模的数据集命名为IP102害虫识别。具体来说，它包含了超过75，000张图像，属于102个类别，呈现出自然的长尾分布。此外，我们用边界框对大约19，000幅图像进行了注释，以进行对象检测。IP102有一个分级分类法，主要影响一种特定农产品的害虫被归入同一个上层类别。此外，我们在IP102数据集上进行了几个基线实验，包括手工制作和基于深度特征的分类方法。实验结果表明，该数据集存在类内、类间方差和数据不平衡等问题我们相信，我们的IP102将促进未来在实际虫害控制、细粒度视觉分类和不平衡学习领域的研究。我们在https://github.com/ xpwu95/IP 102上公开了数据集和预训练模型。1. 介绍已知昆虫害虫是对商业上重要的农作物造成损害的主要原因[8]。害虫分类在农业害虫预测预报中起着至关重要的作用，对粮食安全和农业经济稳定至关重要[10]。由于害虫种类繁多，且种类之间存在细微差异，害虫识别严重依赖农业专家的专业知识[1]，这意味着成本高且耗时长。*通讯作者图1. IP102数据集的示例图像。每张图片都是不同种类的害虫。消耗随着机器学习和计算机视觉技术的发展，害虫自动识别越来越受到人们的关注。大多数以前关于害虫识别的工作都可以通过传统的机器学习分类框架来描述，该框架由两个模块组成：（1）害虫图像的特征表示：一系列手工制作的功能，包括GIST [30]，SIFT [25]和SURF [3]等。来表示整个图像。(2) 机器学习分类器，包括支持向量机[4]和k近邻（KNN）分类器。这些基于特征的方法依赖于特征的仔细选择。如果从昆虫害虫图像中提取不完整或错误的特征，后续分类器可能无法区分类似的害虫物种。最近，深度学习实现了强大的特征学习，并在各种图像分类任务上实现了最先进的性能。众所周知的是ImageNet大规模视觉识别挑战赛（ILSVRC）[6]标志着深度学习快速发展的开始，表明大规模图像数据集在推动深度学习进步方面发挥着关键作用稻纵卷叶螟虎天牛绿盲蝽小石蒜玉米螟蛇属8788然而，到目前为止，昆虫害虫识别的深度学习方法仅限于小数据集，这些数据集只包含很少的样本或害虫种类。同时，现有的公共数据集中的害虫图像大多是在受控实验室环境下采集的，不能很好地满足真实野外环境下害虫识别的要求此外，昆虫害虫识别具有不同于现有对象或分类工作的自身特征具体而言，不同的害虫物种可能具有高度的外观相似性，同一物种可能具有不同的形态，包括卵，幼虫，蛹和成虫，即显著的类内差异和较大的物种间相似性。为了推进计算机视觉中害虫识别的研究，本文引入了一个新的大规模害虫数据集IP102。首先，我们使用常见的图像搜索引擎收集了超过30万张图像，这些图像被查询弱标记。接下来，志愿者会检查每张图片，以确保它与害虫有关然后，农业专家进一步检查并用类别标签或边界框注释图像。详细的数据集构建过程将在下面的部分中介绍最后，我们的IP102数据集覆盖了102种常见的农作物害虫，拥有超过75，000张图像。与目前文献中可用的害虫数据集相比，IP102具有更大的规模，这有利于基于深度学习的方法。我们的数据集还涉及其他几个特征。首先，属于相同类别的图像可以捕获相同类型的昆虫害虫的不同生长形式。这种多样性是唯一的害虫数据集，但被忽略了以前的数据集。此外，类别不平衡是昆虫害虫的特性，因为一些物种更容易被观察到。我们的数据集满足不平衡数据分布的特征，就像在现实世界中图1示出了害虫数据集的一些示例。为了验证我们提出的数据集的应用价值结果表明，该数据集具有挑战性，并为研究创造了新的机会。我们的贡献总结如下：• 据我们所知，我们建立了最大规模的害虫识别数据集，包括害虫分类和检测。整个数据集由提供给研究界。• 我们使用CNN和手工制作的功能对数据集进行了广泛的实验，并建立了每个作为未来研究的基线。我们还测试了几个国家的最先进的检测模型的IP 102的检测分裂希望能对害虫识别的研究起到一定的推动作用。2. 相关工作在本节中，我们介绍了害虫识别方法的相关工作，并回顾了现有的数据集。2.1. 害虫识别早期识别害虫有助于害虫防治和提高农产品质量和产量[35]。近年来，许多计算机辅助害虫识别系统[32，2]出现在视觉社区中。我们将它们分为两种类型：手工制作的方法和基于深度特征的方法。手工制作的功能，如SIFT [25]，HOG [5]等。在低级特征表示上表现良好（例如，颜色、边缘和纹理）。在早期，基于手工特征的方法是害虫识别的主要解决方案。Samanta等人[35]利用基于相关性的特征选择和人工神经网络对8种茶树害虫进行了诊断。在[28，32]中，SVM分类器被应用于识别叶子图像中的白色蚜虫，蚜虫和蓟马这些方法倾向于提取几个典型的手工特征来表示害虫，然后在类别较少的小数据集上进行评估。然而，现实生活中存在大量的虫害种类。设计用于识别多种害虫的特征提取器效率低、耗时长.此外，手工特征缺乏对高层语义信息的表示能力。最近，深度学习技术广泛吸引了研究人员的注意[18 ， 34 ， 24] 。深度卷积神经网络（ CNN ），如GoogleNet [39]和ResNet [13]在图像分类任务中表现出出色的性能。也有几项工作[23，2]充分应用CNN来解决害虫识别问题。Liu等[23]通过训练深度CNN对稻田害虫进行分类，其数据集包括12个类的约5，000个训练样本。Alfarisy等人[2]也可以使用CaffeNet [14]进行水稻害虫分类。此外，[7]实现了与深度CNN相当的结果（即，VGGNet [36]）基于生物启发方法。然而，评估的数据集很小，仅包含563个样本。总的来说，这些基于深度特征的工作缺乏足够的样本来优化CNN的大量超参数。为了促进进一步的科学研究和实际应用，我们应该解决类别和样本有限的问题。因此，我们收集了大规模的IP102数据集，其中包含102类害虫75，222个样本。2.2. 相关数据集发布了一些与害虫识别相关的小数据集，如[35，42，7]。它们中的大多数通常包含少于1，000个样本。例如，[40]收集的数据集仅由20个类中的200个样本组成8789稻田害虫分类。随后，提出了几个较大的数据集。Xie等人[44]提供了一个包含1，440个样本和24种常见田间作物害虫的然而，平均每个类只有60为了解决这个问题，[23，43，2]提出了一些总共包含超过4，500个样本的数据集，每个类别包含100个样本。然而，到目前为止，只有[43]的数据集可用。此外，该数据集中同类害虫图像的背景、物体姿态[43]高度相似，难以应对现实生活场景的复杂性。表2显示了这些相关数据集的详细信息。相比之下，我们的目的IP 102涵盖了实际应用中的102种常见害虫，并且是在野外构建的。此外，IP102数据集有75，222张图像，每个类的平均大小为737个样本。3. 我们的虫害数据集3.1. 数据收集注释我们通过以下四个阶段收集和注释IP 102数据集：1）分类系统建立; 2）图像采集; 3）初步数据过滤; 4）专业数据注释。3.1.1分类系统的建立我们建立了一个层次分类系统的IP102数据集。我们邀请了几位农业专家，讨论了日常生活中常见的害虫种类。最终获得了102个类，它们呈现出如图4所示的层次结构。基于遭受害虫的作物，为每种昆虫害虫分配上层类别（在下文中表示为超类别）。换句话说，每种昆虫害虫是某个超纲的下级纲（在下文中称为子类）。例如，水稻茎蛆的害虫破坏了水稻的作物，而水稻属于大田作物。因此，在IP102的分类系统中，稻茎蛆的亚纲具有水稻和大田作物的超纲。IP102数据集的详细结构将在以下数据集结构小节3.3中介绍。3.1.2图像采集我们利用互联网作为收集图像的主要来源，这被广泛用于构建数据集，如ImageNet [6]和Microsoft COCO[21]。第一个收集步骤依赖于常见的图像搜索引擎，包括Google、Flickr和Bing等。我们使用每个子类的英文名称和对应的同义词作为查询关键字。每个关键词只保留前2000个搜索结果. 然后我们从几个专业的农业和昆虫科学网站上搜索除了图像形式之外，（a1）（a2）（a3）（a4）（b1）（b2）（b3）（b4）图2.不同形式的害虫图像。红色虚线框表示不同形式的害虫，包含（a1）卵、（a2）幼虫、（a3）蛹和（a4）成虫，它们属于同一子类。蓝色虚线框包围的图像被丢弃，因为没有或有多个害虫类别。我们亦会收集有关昆虫的短片。从视频剪辑中，我们以每秒5帧的速度捕获图像。因此，我们为IP102数据集收集了超过300，0003.1.3初步数据过滤我们组织了6名志愿者对候选图像进行人工筛选。在数据过滤之前，他们接受三部分训练内容，即，1)农业专家对害虫的常识; 2）IP 102的分类系统; 3）害虫的不同形式。例如，Fig.图2显示了害虫的四种形态，包括卵、幼虫、蛹和成虫。尽管它们处于生命周期的不同阶段，但它们都会对农产品造成不同程度的损害。在初步数据过滤过程中，志愿者删除不包含或包含一种以上害虫类别的图像，如图2所示。然后，我们将过滤后的图像格式转换为JPEG，并删除重复或损坏的图像最后，我们有大约120，000张带有查询关键字弱标签的图像根据IP 102数据集的分类系统，指定了超类3.1.4专业数据标注农业专家的数据注释是最重要的环节。在IP102的分类系统中，受害虫危害的作物有8种对于每种作物，我们邀请了一位主要研究它的农业专家因此，我们总共邀请了8位农业专家对上一个过程中过滤的图像进行注释。我们建立了一个问题/回答（Q/A）系统方便注释。对于问答系统界面上显示的图像，专家需要回答该图像属于哪个类别。所述专业数据标注包括8790水稻玉米02eet5000400050004000500040003000300030002000200020001000100010000类别索引0类别索引0类别索引图3.IP102数据集在不同水平的样本数分布红色校准尾部在子图中划分为2个超类(b)在子图（c）中分别有8个超类表1.训练/验证/测试（表示为训练/验证/测试）在不同类别水平上设置IP 102数据集的分裂和不平衡比率（IR）。The‘Class’ indicates the The ‘FC’ and ‘EC’ denote the ﬁeld andeconomic crops,超类类列车验证测试IR图4. IP102数据集的分类。“功能界别”及“选举委员会”分别注明田地及经济作物。关于子类仅显示35个级别每个子类的完整列表可以在发布的IP102数据集中找到。独立和协同的注释。在独立注释阶段。每个农业专家只负责注释一种作物超类。例如，对于主要研究大米的专家，他需要用大米的超类来注释这些图像。在这种情况下，专家在Q/A系统中这些选项包括14个主要损害水稻作物的同部门害虫类别和一个“其他类别”是指图像不属于所关注的14种昆虫害虫类别或不包含或包含多于一种下一个阶段是协同注释。有固定的103个（即，102昆虫害虫类加1“其他类”）类别选项在Q/A系统中为每个专家。此外，这8位专家协同注释来自最后独立注释阶段的“其他类”图像。对于一幅图像，每个专家都需要对它进行注释，即，从103个选项中选择一个。最终的注释结果遵循严格的标准：IP102 102 45，095 7，508 22，619 80.8一幅图像只有在5位以上专家同意时才属于一个类别，否则将被删除。图像中害虫位置的检测也非常重要。它可以帮助农业专家或用户更好地找到害虫的具体位置（特别是那些在图像中不明显的害虫）。此外，现实世界的场景使得识别昆虫害虫变得复杂。当目标害虫不显著时，杂乱的背景可能会误导分类器，并且图像中存在多个害虫样本需要分别识别。现场的害虫因此，有效的害虫检测可以通过具有空间信息的样本感知识别来减轻现实场景的复杂性。它还可以通过去除不相关的背景特征来提高分类性能。考虑到标记边界框的难度和成本，我们从每个类中随机选择部分图像来形成对象定义的子集（（（一芒果aaaaIP1奇特鲁FCEC小麦VitisB苜蓿编号编号1713192531374349556167737985919710241020263543506073863325567788897102IP102ECFC编号1545601630398466418611741016278965199水稻145,0438432,5316.4玉米138,4041,3994,21227.9小麦92,0483401,0305.2甜菜82,6494411,33015.4苜蓿136,2301,0373,12310.7Vitis1610,5251,7525,27474.8柑橘194,3567252,19217.6芒果105,8409712,92761.7FC5724,6024,09812,34139.4EC4520,7213,44810,39380.88791表2.与现有害虫相关数据集的比较“类别”表示类别编号。The‘Avail’ indicates if the dataset “Y”和“N”分别数据集年份类别可用样本平均值Samanta等人[35]第三十五届20128N60976Wang等人[第四十二届]20129Y22525Venugoban等人[第四十届]201420N20010Xie等人[第四十四届]201524Y1,44060Liu等[23日]201612N5,136428Xie等人[四十三]201840Y4,500113Deng等[七]《中国日报》201810Y56356Alfarisy等人[二]《中国日报》201813N4,511347IP1022019102Y75,222737保护任务专家按照Pascal VOC的格式标记害虫的边界框[9]。3.2. 数据集拆分IP102数据集包含75，222张图像和102类昆虫害虫，但最小的类别只有71个样本。为了在IP102上获得更可靠的测试结果，测试集上的每个类别都应该有足够的样本。因此，我们大致遵循6：一比三。训练集、验证集和测试集在子类级别上进行划分。具体来说，IP102被分为45，095个训练图像，7，508个验证图像和22，619个测试图像用于分类任务。不同级别的详细划分见表1。每个集合的对应图像列表在IP102数据集中发布对于目标检测任务，总共有18， 983个注释图像。我们将这些包含边界框注释的图像分为15，178和3，798个图像，分别作为训练集和测试集3.3. 数据集结构IP102数据集具有分层结构，并且图1示出了IP102数据集。4显示了其详细的分类。根据害虫类主要危害的作物，每个子类被分配有一个超类。例如，朱砂叶螨（Tetranychus cinnbarinus，TC）的子类具有柑橘的超纲。8种作物（例如，稻、玉米和小麦）进一步被分组为两个超类（即，农作物和经济作物）。如柑橘属超级经济作物。此外，表1显示了不同超类水平中子类的数量分布。3.4. 与其他数据集的在表2中，我们将IP102与与昆虫害虫识别任务相关的几个现有数据集进行了比较。Com-与最大的数据集[23，43，2]相比，我们的数据集包含超过14倍的样本。关于类的多样性，最大和最小的数据集分别只有40和8个类。然而，在现实生活中有大量的害虫，我们的IP102包括102类。考虑到每个类别的平均样本数，IP102比那些比较的数据集至少多309个图像。除了统计上的区别，只有一半的数据集可用，只有[43]具有相对较大的规模。由于这些限制，大多数现有的数据集（例如，[40，44，7]）难以应用于实际应用。3.5. 多样性和困难不同生活史阶段的害虫对农产品的危害程度不同。因此，我们在数据收集和注释期间保留包含所有这些内容的图像。图图2（a1-a4）显示了IP 102中害虫的不同形态，包括卵、幼虫、蛹和成虫。对于分类模型，将它们分类到同一类别是困难的，因为难以提取判别特征。除生物多样性外，数据的不平衡性也不容忽视.如示于图图3中，三个子图展示了不同层次的数据集的不平衡分布，其中（a），（b）和（c）分别显示了102个子类，2个超类和8个超类的实例数量分布。具体而言，基于IP102数据集的层次标签系统，根据害虫类主要危害的作物将102个子类划分为8个超类，水稻和玉米，以及根据受损作物类型的2个超级类，即，大田作物和经济作物。不同层次之间的不平衡分布给不平衡的学习领域和层次标签的使用带来了挑战表1还示出了数据集具有高的不平衡比（IR）（即，高于9 IR[12]）在IP102的大多数超类水平不平衡的数据可能导致分类模型对那些具有相对更多训练样本的类学习有偏见的结果。4. 实验评价特征的选择通常在图像识别中起着重要的作用。为了全面评估IP102数据集，我们首先分别使用手工和深度特征评估分类性能。随后，我们评估了IP102子集上的几个对象检测框架4.1. 实验设置SVM分类器通过采用LIBLINEAR [11]使用one-vs-rest方案进行训练。KNN分类器的近邻数被设置为5。在训练深度网络时，我们通过一个Mini-8792#方法SVMKNN表3. SVM和KNN分类器在不同评估指标下对IP 102数据集的分类性能。表示被分为手工和深功能，分别。手工制作的功能CH9.73.22.50.312.012.918.214.215.08.316.815.8加博尔[29]8.53.93.60.512.114.222.014.916.59.120.019.2GIST [30]12.23.83.80.612.113.119.115.115.49.219.218.2SIFT [25]25.16.36.81.019.918.119.410.312.15.615.913.1分区资源中心[3]28.27.38.31.521.219.521.311.513.47.117.514.7LCH [38]7.25.04.70.911.113.121.614.716.18.319.016.8深度特征Alexnet [17]41.516.421.09.332.528.336.732.433.523.941.040.7[39]第三十九话45.825.830.416.041.940.536.831.733.023.341.640.7VGGNet [36]43.437.639.128.348.148.741.937.839.029.847.647.1ResNet [13]43.639.140.631.048.749.543.739.140.530.748.249.4批量随机梯度下降优化器，最小批量大小为64。学习率初始化为0。01，并以0的因子下降。每40个epoch 1个。权重衰减和动量参数设置为0。0005和0。9，分别。为了避免过度拟合，我们还使用了dropout [37]，设置为0。3.我们保持这些深度模型的基本架构不变，只将最后一个全连接层从1000更改为我们目标的类数分类。输入图像的大小固定为224× 224。基于深度特征的实验是使用PyTorch [31]并在具有12 GB板载内存的NVIDIA TitanX GPU上执行。4.2. 评估指标IP102具有不平衡的类分布。我们为分类任务采用了几个全面的指标，包括精确度，召回率，F-测量，G-均值和MAUC。精度（表示为Pre）描述了分类器不将阴性样本标记为阳性的能力。召回率（表示为Rec）表示为一个特定类找到所有阳性样本F1结合了精确度和召回率作为折衷。G-mean（表示为GM）评估类别敏感度，并表明多数和少数类别的平衡分类性能。微平均方案MAUC [15]定义为曲线下面积度量。对于目标检测任务，我们使用平均精度（ AP ）（IoU=[.50：.05：.95]）、AP.50（IoU=.50）和AP.75（IoU=.75）作为绩效评估指标。lou的定义是检测到的盒子和地面实况之间的联合上的交集。IoU的阈值越大，检测的难度就越大。表4.不同深度模型的分类性能'方法F1 GM接入一级GMSTACC街AlexNet [17]34.127.041.829.122.235.3[39]第三十九话32.721.343.527.011.340.2VGGNet [36]38.730.948.233.325.541.4ResNet [13]40.131.549.429.622.235.74.3. 手工要素的分类结果我们从IP102数据集中提取了几个手工制作的纹理和颜色特征，包括颜色直方图（CH），LCH [38]，Gabor [29]，GIST [30]，SIFT [25]，次区域资源中心[3]。然后，我们利用SVM和KNN分类器在手工特征上构建基线方法。表3显示了手工特征的分类性能。我们可以看到，与纹理（Gabor [29]）特征相比，颜色（CH）特征在大多数评估指标上表现不佳。这表明当害虫在野外出现时，纹理特征起着更重要的作用。如图1、大面积单调的背景颜色给害虫的颜色特征识别带来困难。最好的手工制作功能勉强达到19左右。使用SURF [3]特征和SVM分类器的准确率为5%主要原因是这些手工制作的特征既不能捕捉到害虫的全面信息，也不能消除真实环境中害虫图像中的噪声。此外，许多不同的害虫具有相似的外观，但传统的手工特征不足以捕捉细微的差异。IP102和预RecF1GMMAUCACC预RecF1GMMAUCACC8793之前的小规模数据集[19，44]也表明，IP 102具有很高的识别难度。4.4. 深度特征深度特征在图像识别中是有效的。在本节中，我们评估了IP 102数据集上最先进的深度卷积网络的性能，包括 AlexNet [17] ， GoogleNet [39] ， VGGNet- 16（VGGNet）[36]和ResNet-50（ResNet）[13]。所有网络都在ImageNet上进行了预训练[6]，表5.不同层次标签的分类性能。每行显示相应作物的子类超类预记录F1GMMAUC ACC水稻31.530.030.428.332.332.1玉米55.154.454.650.361.962.2小麦37.534.535.529.352.153.0甜菜51.649.550.445.362.062.2阿尔巴尼亚42.1 41.2 41.4 38.1 46.2 46.4然后在IP102数据集上进行微调。我们提取深层的恐惧-通过删除模型体系结构中的最后一层，从CNN中提取数据随后，我们利用这些深层特征来训练SVM和KNN分类器。表3显示了类-柑橘芒果78.2 76.3 77.1 74.9 86.869.6 68.5 68.8 65.2 76.6 76.675.8 74.7 75.1 72.3 89.0 89.0深度特征的分离性能根据ResNet-与其他三种型号相比，度量标准。因此，它可以更好地表示IP102的特征，即使其特征维度（2，048）小于VGGNet（4，096）。此外，一般来说，深度特征比基于手工特征的方法更好.这证明了深度模型的特征学习能力。然后，我们可以进一步看到KNN的整体性能特别是使用AlexNet功能，KNN结果在大多数指标上都优于SVM。它有40。7%的准确率与KNN，而只有28。SVM分类器的准确率为3%。此外，支持向量机的性能较差，仅为16. 4召回和9. 3%的G均值。这说明来自AlexNet的深度特征具有低灵敏度。表4显示了深度模型在不同评估指标上的softmax分类性能。请注意，ResNet在所有指标上都取得了最佳结果。49之间的巨大差距。4%的准确率和31。5%的G-mean表明我们的IP 102数据集的高度不平衡。分类模型偏向于具有大量样本的类别此外，最高精度为49.4%，说明了IP102的挑战。我们还从头开始训练深层模型，而无需在ImageNet上进行预训练。与微调预训练模型相比，结果要差得多，因为这些深度模型具有大量的超参数，并且可以很容易地过度拟合训练样本较少的类。4.5. 检测结果我们在IP102数据集上评估了几种最先进的对象检测方法。基于两个阶段的方法，包括 Faster R-CNN（FRCN）[34]和FPN [20]（利用FRCN作为骨干检测框架）。它们首先通过在特征图上滑动窗口来扫描潜在对象，然后对它们进行分类并回归相应的框坐标来检测对象。基于一个阶段的方法，包括SSD300 [22]，Refinedet [45]和YOLOv3 [33]直接回归类别和位置表6.目标检测方法不同IoU阈值下的ODS。方法骨干APAP. 50AP. 75[34]第三十四话VGG-1621.0547.8715.23FPN [20]ResNet-5028.1054.9323.30SSD300 [22]VGG-1621.4947.2116.57[45]第四十五话VGG-1622.8449.0116.82YOLOv3 [33]暗网-5325.6750.6421.79对于每个对象。表6中的检测性能显示了基于区域建议的两级检测器（FPN）相对于统一检测器（SSD 300、RefineDet和YOLOv3）的优越性。我们观察到，在深度网络中组合来自多个层（FPN和YOLOv3）的特征图对于对象大小的多尺度适应是有效的。4.6. 进一步分析在表5中，我们进一步评估了深度模型在每个超类上的性能。在我们提出的IP102数据集的层次结构中，每个子类被分配一个超类。每个超类是IP102的子集，其覆盖102种昆虫害虫的一部分。例如，对于超类超类的详细类分布如表1所示。我们选择ResNet [13]作为基本的CNN模型，它在最后一节中的IP102上表现最好。我们还报告了不平衡学习评估指标的分类结果，因为IP 102在超类级别的样本数量分布仍然不平衡，如图所示。3.从表5观察到，模型性能在8个超类之间变化。此外，表现最好的“芒果”与表现最差的“大米”之间的差距为56。9%的准确率。分类结果ECFC879494 0.987b）、GT：0排名1：1GT：92排名1：92（72.5%）GT：95排名1：95GT：9排名1：3GT：99排名1：99GT：3排名1：4GT：101排名1：101GT：3排名1：2214 0.995140.99 524 0.716.72124 024 0.93215 0.98448 0.97821 0.65510090801008070605040302010017131925313743495561677379859197 102类别索引6040200-20-40-60-80-100电话：+86-60-40-20 20 40 80100500-50-100-100-80-60-40-20020406080100图5.（a）ResNet在IP102的每个子类上的前1精度（b）和（c）IP 102上2D t-SNE [26]特征嵌入的可视化(b)ResNet从IP102微调，带有ImageNet预训练。(c)ResNet在IP102上从头开始训练。图6.“Mango”（上）和“Rice”（下）超类的ResNet分类结果样本顶行中的图像被正确分类，而底行中的图像被错误分类。在这两个超类上的图中示出。6.可见，芒果害虫至于“大米”，由于三个方面的原因，图像很容易被错误分类。首先，物体和背景的颜色是相似的.由于背景信息量大，害虫难以识别。第二，类内变化很大，如图所示. 2.这些害虫通常在其整个生命周期中对作物产生不同程度的影响，并且很难对它们进行正确分类，特别是在幼虫期。第三，不同种类的害虫往往相似，例如，亚洲三化螟和三化螟。因此，如图所示。7、害虫识别的困难也给检测工作带来了挑战。即使目标被准确地检测到，它也可能被错误分类。此外，在图5（a），我们展示了ResNet [13]在IP102的每个子类上的分类准确性结果。此外图5（b）和图。5（c）通过t-SNE可视化IP 102的特征嵌入[26]。我们可以看到，使用 ImageNet [17] 预训练模型，ResNet在特征空间中更好地区分不同的昆虫害虫。图7. IP102数据集上的样本检测结果。顶行示出了正确检测到的图像。下面一行显示了一些失败的情况，例如正确检测到但错误分类的右两个图像5. 结论在这项工作中，我们收集了一个大规模的数据集，命名为IP102，害虫识别，包括超过75000图像的102个物种。与以前的数据集相比，IP102符合真实环境中害虫分布的几个特征（例如，（1）阶级不平衡。同时，我们还评估了一些最先进的识别方法在我们的数据集。结果表明，目前的手工特征方法和深度特征方法还不能很好地处理害虫我们希望这项工作将有助于推进未来几个基本问题的研究，以及常见的对象分类和检测任务，如细粒度视觉分类和不平衡学习等。确认这项工作得到了国家自然科学基金委员会的支持（No. 61876094，61620106008，61572264），天津市自然科学基金（No. 18JCYBJC 15400、 18ZXZNGX00110、17JCJQJC 43700）、国家青年人才支持计划和模式识别国家实验室开放项目（NLPR）。a）、c）45 0.71695 0.727准确度（%）94 0.76294 0.8828795引用[1] H Al Hiary，S Bani Ahmad，M Reyalat，M Braik和ZAl- rahamneh。快速准确地检测和分类植物病害。国际计算机应用杂志，17（1）：31[2] Ahmad Arib Alfarisy，Quan Chen，and Minyi Guo.基于深度学习的水稻病虫害识别分类。在ICMAI，2018年。[3] 赫伯特·贝、丁尼·图伊特拉尔斯和吕克·范古尔。SURF：加速了强大的功能。在ECCV，2006年。[4] 科琳娜·科尔特斯和弗拉基米尔·瓦普尼克支持向量网络。Machine Learning，20（3）：273[5] Navneet Dalal和Bill Triggs。用于人体检测的定向梯度的直方图。在CVPR，2005年。[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。[7] 邓礼淼、王延江、韩忠志、虞仁世。基于仿生方法的害虫图像检测与识别研究。生物系统工程，169：139[8] Juan J Estruch ， Nadine B Carozzi ， Nalini Desai ，Nicholas B Duck，Gregory W Warren ，and Michael GKostrant.转基因植物：一种新兴的害虫控制方法。Nature Biotechnology，15（2）：137，1997.[9] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams ， John Winn ， and Andrew Zisserman.PascalVisual Object Classes （ VOC ） International Journal ofComputer Vision，88（2）：303[10] Fina Faithpraise，Philip Birch，Rupert Young，J Obu，Bassey Faithpraise，and Chris Chatwin.利用k-means聚类算法和对应滤波器实现植物害虫的自动检测和识别International Journal of Advanced Biotechnology andResearch，4（2）：189[11] 范荣恩、张凯威、谢卓瑞、王祥瑞、林志仁。LIBLINEAR ：用于大型线性分类的库。 Journal ofMachine Learning Research，9（Aug）：1871[12] 阿尔伯特·奥·费尔· 南德斯、萨尔·瓦多·加尔·奇亚、马·乔·德尔·耶稣和弗朗西斯科·埃雷拉。在不平衡数据集的框架中，基于语言模糊规则的分类系统的行为研究。Fuzzy Sets and Systems，159（18）：2378[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。[14] 杨庆贾、埃文·谢尔哈默、杰夫·多纳休、谢尔盖·卡拉耶夫、乔纳森·朗、罗斯·吉希克、塞尔吉奥·瓜达拉马和特雷弗·达雷尔。Caffe：用于快速特征嵌入的卷积架构在ACM MM，2014中。[15] 齐康、雷石、孟初舟、雪松王、吴齐迪、智威。基于距离的加权欠采样支持向量机及其在不平衡分类中的IEEE Transactions on Neural Networks and LearningSystems，29（9）：4152[16] Jonathan Krause，Michael Stark，Jia Deng，and Li Fei-Fei.用于细粒度分类的3D对象表示。在ICCV研讨会，2013。[17] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络进行Imagenet分类。NIPS，2012年。[18] Yann LeCun，Yoshua Bengio，and Geoffrey Hinton.深度学习Nature，521（7553）：436，2015.[19] YannLeCun，Le'onBottou，YoshuaBengio和PatrickHaffner。基于梯度的学习应用于文档识别。Proceedings of the IEEE，86（11）：2278[20] 林宗义、彼得·多尔、罗斯·格希克、何开明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR，2017年。[21] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。Microsoft COCO：上下文中的公用对象。2014年，在ECCV[22] Wei Liu，Dragomir Anguelov，Dumitru Erhan，ChristianSzegedy，Scott Reed，Cheng-Yang Fu，and Alexander CBerg. SSD：单次触发多盒探测器。在ECCV，2016年。[23] Ziyi Liu，Junfeng Gao，Guoguo Yang，Huan Zhang，and Yong He.使用显着图和深度卷积神经网络对稻田害虫进行定位和分类科学报告，6：20410，2016。[24] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。CVPR，2015。[25] 大卫·G·洛从尺度不变关键点中提取独特的图像特征。International Journal of Computer Vision，60（2）：91[26] Laurens van der Maaten和Geoffrey Hinton使用t-SNE可视化数据。 Journal of Machine Learning Research ， 9（Nov）：2579[27] Subhransu Maji 、 Es

下载后可阅读完整内容，剩余1页未读，立即下载