大规模谷物数据集：GrainSpace

166 浏览量更新于2023-10-25 收藏 21.45MB PDF 举报

领域自适应

大规模数据集

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

211160GrainSpace：一种用于细粒和领域自适应识别谷物的大规模数据集0Lei Fan 1 , 2 �† Yiwen Ding 1 � Dongdong Fan 1 Donglin Di 3 Maurice Pagnucco 2 Yang Song 20lei.fan1@unsw.edu.au { dingyiwen,fandongdong } @gaozhe.com.cn0didonglin@baidu.com morri@cse.unsw.edu.au yang.song1@unsw.edu.au 1 GaozheTechnology 2 The University of New South Wales 3 Baidu0摘要0谷物是人类饮食的重要组成部分，也是人们生活和国际贸易的重要商品。谷物外观检查（GAI）是谷物质量和谷物分级的关键步骤之一，用于适当的流通、储存和食品加工等。GAI通常由合格的检查员手工执行，借助一些手工工具。自动化的GAI有助于大大辅助检查员的工作，但由于缺乏数据集和任务的明确定义，其应用受到限制。在本文中，我们将GAI定义为三个普遍的计算机视觉任务：细粒度识别、领域自适应和超出分布识别。我们提供了一个大规模且公开可用的谷物数据集，名为GrainSpace。具体而言，我们构建了三种设备原型用于数据采集，总共有由专业检查员确定的525万张图像。这些谷物样本包括小麦、玉米和大米，采集自五个国家和30多个地区。我们还基于半监督学习和自监督学习技术开发了一个全面的基准。据我们所知，GrainSpace是第一个公开发布的用于谷物检查的数据集，https://github.com/hellodfan/GrainSpace。01. 引言0谷物是人类文明的基础，与我们的日常生活密不可分。根据2020年联合国粮食及农业组织的数据[1]，小麦、玉米和大米（见图1）这三种谷物几乎占据了全球谷物产量的90%。谷物测定是质量检验的关键部分。0� 相等贡献。† 在高哲技术实习时完成的工作。0图1. 小麦、玉米和大米谷粒的示例。0谷物分级是提供谷物流通、储存、加工和国际贸易的指导和措施。谷物测定的大部分工作包括化学分析和谷物外观检查（GAI）。化学分析通常使用各种仪器进行，但GAI仍需要借助一些手工工具（如筛子、分配器和天平）进行手工检查。在GAI中，一批测试样本由专业检查员以逐粒的方式进行表面检查。GAI可以确定多个指标，如杂质、破损谷物和培育品种[21]。以小麦谷物的GAI为例，检查60克（约1600粒谷物）然后手动分成预定义的组，需要3至5年经验的检查员25至30分钟。因此，开发自动化的GAI是非常可取的。在过去几年中，深度学习技术在许多计算机视觉应用中取得了显著的成功，如识别（ImageNet [37]）、检测（MS-COCO[26]）、分割（Cityscapes[9]）和视频理解（YouTube-8M[2]）。然而，将深度学习模型应用于GAI存在两个主要挑战。首先，需要深入了解GAI的领域知识，以将谷物测定问题转化为适当的计算机视觉任务。其次，开发基于深度学习的GAI方法需要覆盖全面代表的高质量数据集。211170谷物种类繁多。在我们的工作中，我们对谷物的特征进行了深入分析，并考虑了GAI的实际需求。我们将GAI分为三个基本的计算机视觉任务：细粒度识别、领域适应和超出分布识别。我们构建了三种能够高效捕捉谷物图像的设备原型。然后，我们构建了一个包含525万张关于三种谷物（小麦、玉米和稻谷）的大规模数据集，这些谷物来自五个国家和30多个地区。原始谷物样本经过九名检查员手工处理了四年多。此外，我们通过采用半监督学习和自监督学习等先进技术，在我们提出的数据集上开发了一个基准，以解决细粒度识别、领域适应和超出分布识别中的挑战。我们的实验结果表明，这些方法可以获得显著的改进，并使自动化GAI成为可能。我们的贡献总结如下：0•构建了一个大规模且公开可用的谷物数据集GrainSpace，包含525万张小麦、玉米和稻谷的图像。0•根据我们对GAI的深入分析，我们将与GAI相关的工作分为三个计算机视觉任务，包括细粒度识别、领域适应和超出分布识别。0•开发了一个初始基准来解决上述任务，并在GrainSpace上展示了有希望的性能。02. 相关工作0GAI提供了对谷物质量的首要评估，协助对谷物进行分级、清洁和分离。由于谷物的外观和物理特性变化很大，即使对于经过训练的检查员来说，GAI也容易出错。自动化GAI有很高的需求，可以极大地帮助检查员。然而，在构建自动化GAI时存在两个主要挑战：我们应该关注哪些与GAI相关的任务以及如何构建高质量的谷物数据集。与GAI相关的工作：通常，GAI用于提供各种谷物的准确分类和识别[45]。由于传感器技术和计算资源的限制，早期的研究[44,3]采用机器视觉根据统计信息（如颜色、形态或纹理变化）对五种小麦（大麦、燕麦、黑麦、小麦和硬质小麦）或杂质（石头、土壤和杂草）进行分类。一些研究人员利用神经网络识别水稻和小麦的品种。例如，Zapotoczny[48]和Golpour等人[14]分析谷物的纹理以对11个春季/冬季品种进行分类。0Guzman等人[15]和Shantaiya等人[39]开发了用于识别菲律宾五组大米和恰蒂斯加尔六个大米品种的算法。在本文中，我们全面分析了与GAI相关的任务，例如识别受压力、害虫和真菌损坏的谷物，然后我们将GAI分为三个计算机视觉任务：细粒度识别、领域适应和超出分布识别。谷物数据集：深度学习的进展已经彻底改变了医学分析[42]、自动驾驶[40]和农业[24]等多个现实世界领域。深度学习的成功主要归功于丰富的计算资源、精心设计的网络架构和大规模数据集。特别是高质量的数据集，如ImageNet [37]、Pascal VOC[11]、MS-COCO [26]、Cityscapes [9]和Kinetics[25]，对于许多计算机视觉任务非常重要，例如图像分类[18]、目标检测[35]、语义分割[29]和视频理解[12]。在过去的几年中，许多研究人员还研究了更多与行业相关的视觉任务，例如异常检测[5]、下水道检测[16]、食物识别[31]和营养估计[43]。然而，据我们所知，公开可用的谷物数据集很少。大多数先前的研究[46, 34,33]侧重于使用特定传感器（如高光谱成像）构建图像获取设备。在这项工作中，我们构建了三种设备原型：P600、G600和M600。P600和G600由工业相机、谷物支撑平台和照明源组成。M600基于智能手机，成本低廉，非常适合广泛部署。我们总共创建了525万张图像，原始谷物样本来自多个国家和地区，并由九名经过训练的检查员进行了仔细的手工预处理。03. GrainSpace0在本节中，我们将GAI作为与计算机视觉任务相关的三个挑战来介绍（见图2），并描述了设备原型以及数据处理（见图4）和数据分发的过程。请注意，更详细的描述已包含在补充材料中。03.1. 挑战0近几十年来，作为谷物鉴定的传统但至关重要的一部分，GAI通常是手动进行的。对于一批谷物样品中的每个颗粒，都要进行仔细检查。主要的检查工作集中在确定颗粒是否受损和不健全（DU），以及识别颗粒的亚型。根据ISO5527-Cereals[21]的规定，小麦颗粒可以分为正常和六种DU颗粒：镰刀菌和皱缩（F&S）颗粒，发芽NORMALFUSARIUM Grain(FM)SPROUTED Grain(SD)MOULDY Grain(MY)BROKEN Grain(BN)Grain ATTACKED byPESTS (AP)HEATED Grain(HD)MalisSQ545HFWCHNJZSY211180图2. GAI相关挑战的示意图：细粒度识别、领域自适应和超出分布识别。0表1. 正常和DU小麦颗粒的示例。0正常镰刀菌和皱缩颗粒（F&S）发芽颗粒（SD）0发霉颗粒（MY）破碎颗粒（BN）受害于害虫的颗粒（AP）黑点颗粒（BP）0表2. 正常和DU玉米颗粒的示例。0（SD）颗粒，发霉（MY）颗粒，破碎（BN）颗粒，受害于害虫的颗粒（AP）和黑点（BP）颗粒（见表1）。玉米颗粒也分为正常和六种DU颗粒类型：镰刀菌（FM）颗粒，SD颗粒，MY颗粒，BN颗粒，AP颗粒和加热（HD）颗粒（见表2）。在这些颗粒中，F&S，FM，MY和BP颗粒表示受镰刀菌或真菌等污染的颗粒的比例；SD，AP和HD颗粒对应于颗粒的营养含量。就稻谷而言，表3说明了8种亚型，其中Malis，SQ和545属于“泰国香米”，比其他种类的稻谷贵2到4倍。不同亚型的稻谷外观非常相似，但这些稻谷在营养含量、口感和最重要的部分-价格上可能存在很大差距。因此，识别稻谷的亚型是一项重要的GAI任务，特别是对于一些稀有的亚型。虽然亚型识别自然上是一个分类问题，但根据我们的实验研究，我们发现与此任务相关的挑战更多。在0表3. 八种稻谷颗粒的示例。0特别是我们需要解决细粒度识别、领域自适应和超出分布识别问题（见图2）。细粒度识别：同一物种的谷物通常在形状、颜色和纹理方面具有相似的外观特征。然而，正常和DU颗粒以及不同亚型之间存在一些微小但关键的差异。例如，小麦颗粒中的微小害虫孔仅为1×1毫米2（见表1）。为了有效区分这些细微差异，这就成为了一个细粒度视觉分类（FGVC）问题。FGVC通常应用于区分鸟类物种[4]和汽车型号[47]等。类似地，我们将DU颗粒和亚型识别形式化为FGVC任务。领域自适应：通常，由于地理和气候原因，不同国家或地区的谷物品种存在明显差异。这些差异不仅体现在颗粒的形状和大小上，还体现在纹理和颜色分布上。表1展示了两种具有不同颜色的正常小麦颗粒的示例。尽管存在这些差异，合格的检查员仍然可以获得正确的结果，因为谷物的显著特征明显可辨。这与领域自适应（DA）一致。DA的目标是在现有源领域训练的模型基础上提高目标领域的性能。以DU颗粒识别为例211190例如，在大多数情况下，只能获取来自某些地区（源域）的谷物样品，并且在源域上训练的模型可能会在来自未知地区（目标域）的一些谷物样品上进行测试。此外，由于我们建立和使用不同的设备原型来获取数据，不同原型之间的数据也可以看作是不同的域。分布外识别：GAI的一个关键但困难的任务之一是识别某些指定亚类型谷物的比例。大多数时候，食品工厂或储存设施只需要特定亚类型的谷物（例如“泰国香米”：Malis、SQ和545），但测试样本可能有其他亚类型的谷物。我们认为这种要求与分布外（OOD）识别有关。OOD，包括异常检测，旨在识别输入是否属于内部分布（感兴趣的）或不属于内部分布（外部分布）。预期的谷物亚类型可以被视为内部分布，而所有其他类型的谷物将被视为外部分布。类似地，DU-grain评估也可以被视为OOD识别。请注意，与常见的OOD任务相比，与GAI相关的OOD识别与细粒度识别混合在一起，更具挑战性，因为内部分布和外部分布数据之间的差异很小。03.2. 数据采集0为了构建谷物颗粒数据集，数据收集设备是必备的。我们打算设计设备来捕捉精确和真实的谷物颗粒照片。然而，在捕捉高质量的谷物颗粒图像方面存在两个挑战：1）为了捕捉谷物颗粒的整体外观信息，应该在谷物颗粒周围设置双重或多重摄像头，并以适当的角度设置。2）与自然物体（狗或建筑物等）相比，具有微小尺寸（通常小于8×8×4mm3）的谷物颗粒对环境（包括稳定性和照明条件等）造成巨大困难。原型：我们建立了三种设备原型：Professional-600（P600）、General-600（G600）和Mobile-600（M600）（见图3.a）。具体而言，P600主要由双工业相机、光源和一个用于自动供应谷物颗粒的传送带组成，G600由一个工业相机、光源和一个传送带组成，M600由一个手机和一个用于固定手机的支架组成。我们设计了一个机器人自动化机制来操作P600和G600，以实现更高的采样效率但也更高的复杂性，而M600需要手动放置谷物颗粒。在这些设备中，具有双摄像头的P600能够捕捉更大的有效感受野（ERF），但制造成本非常高，而只有一个摄像头的G600和M600只能捕捉到0图3.a）P600、G600和M600的原型和拍摄的照片；b）这些原型之间性能比较的雷达图。0ture一个谷物颗粒的单视图照片在适度的ERF下。我们在图3.b中比较这些设备原型的成本、ERF、可重复性、自动性和复杂性。数据处理：我们的目标是构建一个高质量的谷物颗粒数据集。然而，如果我们试图以颗粒为单位收集谷物图像，那将非常耗时且在现实世界中无法应用。因此，为了高效地获取数据，我们建立了一个基于我们的原型的数据处理过程（见图4）。具体而言，根据ISO24333-谷物采样[20]，检查员用镊子和筛子仔细挑出原始谷物样品（从粮仓或货船获得）中的各种杂质（外来物质和无机物等）和异种谷物。然后，没有杂质的谷物样品按照预定义的类别手动分成几组。对于每个特定的类别L，样品被批量发送到设备中以获取N个原始图像{I1 raw，...，IN raw}，其中每个Iraw包含许多共享相同类别L标签的谷物颗粒。然后从中裁剪出单个颗粒图像Ig。TotalR1−14P600216k3.4k3.4k3.4k3.4k3.4k3.4k20.4kG600756k12k12k12k12k12k12k72kM600127k1.7k1.7k1.7k1.7k1.7k1.7k10.2kR15−18P60040k0.8k36k1.8k1.2k5k4.2k49kG60040k0.8k36k5.5k3.5k5k4.2k55kM60028k0.6k6k1k1k2k0.4k11kR19−22P60049k0.6k27k0.6k0.8k5.2k7.4k41.6kG60047k0.6k36k1.8k2.5k5.2k7.4k53.5kM60018k0.6k2k0.3k0.7k1k0.7k5.3k211200图4. 数据获取概述。谷物颗粒被确定并分为预定义的类别。来自同一组的谷物颗粒共享相同的类别L，并被送入设备获取原始图像I raw。具有多个颗粒的I raw 经过处理生成多个以颗粒为单位的图像I g ，通过检测和对齐阶段。最后，检查员过滤掉质量低的图像。0我通过检测和对齐阶段进行原始图像的处理，其中引入了基于YOLOv5[23]的旋转不变的物体检测器，以定位具有不同方向的所有谷物颗粒。所有的I g与原始类别L配对作为真值。值得注意的是，由于G600或M600捕获的一些I g可能由于单摄像头视角而没有突出的特征，但我们仍然保留这些带有原始标签L的图像，因为我们希望探索先进计算机视觉方法的局限性。03.3. 数据分布0所有谷物样本均来自2017年至2021年期间的5个国家和30多个地区（详见补充材料）。表4显示了每种谷物的类别、地区、重量和谷物颗粒数量的详细信息。在这些样本中，小麦谷物样本（约150公斤，410万颗谷物颗粒）来自50吨小麦，其中160万颗谷物颗粒手动分为7个类别，250万颗未标记的谷物颗粒用于探索无监督方法。类似地，玉米谷物样本（约95公斤，30万颗谷物颗粒）来自50吨玉米，其中16万颗谷物颗粒分为7个类别，14万颗未标记的谷物颗粒也用于无监督方法。稻谷样本（约22公斤，82万颗谷物颗粒）来自0.8吨稻谷（8个亚型，每个亚型100公斤）。0表4. 原始小麦、玉米和稻谷的信息。0物种类别地区数量谷物颗粒重量0小麦 7 22 4,129k 150 kg 玉米 7 8 299k 95 kg 稻谷 8 8 820k22 kg0总体而言，GrainSpace共包含525万张图像，并且其分布情况如图5所示。为了避免潜在的伦理问题或隐私限制，我们擦除了真实的源信息，并采用RN作为数据匿名化的替代。小麦和玉米图像分为标记和未标记两组，分别对应于经过检查和未经检查的谷物颗粒。注意0所有谷物颗粒（包括未标记的颗粒）都经过检查员手动预处理（例如去除杂质），并且标记的颗粒进一步确定和分类为预定义的类别。0图5. GrainSpace的分布情况。0小麦：来自22个地区的所有小麦谷物颗粒根据地区信息分为3组，总共有4,129k张图像，其中包括1,638k张标记图像和2,491k张未标记图像。实际上，由于破损和不良（DU）小麦谷物的真实百分比在原始小麦谷物中占比不到2％，收集大量的DU小麦谷物非常费时费力。为了保持数据分布的平衡，我们尽力收集了111k、180.5k和26.5k张P600、G600和M600的DU小麦谷物图像（见表5）。0Table 5. 小麦谷物图像的详细统计数据。0地区设备正常破损和不良小麦谷物P60020k9k3.4k5k9k7k4.6k38kG60040k10k4k10k10k10k5.4k49.4kM6004k1k0.4k3k1k2k1.2k8.6kHNJZSYP60062k30k80k40k17k40k18k40kG60080k40k80k80k16k40k18k40kM60012k8k13k14k13k13k13k13kModelR1−14R15−18R19−22P600G600M600P600G600M600P600G600M600R50 [18]93.9%80.1%87.6%80.0%76.5%79.7%70.1%76.1%76.1%DCL [8]92.5%79.1%87.9%82.1%77.2%76.1%73.9%74.9%72.4%SwinT [27]56.5%39.2%64.0%49.8%58.5%43.9%44.0%51.3%53.4%211210玉米:所有玉米粒都是从8个区域采样得到的，总共包含159k和140k标记和未标记图像的299k张图像。考虑到DU玉米粒与小麦样本相似的稀缺性，我们尽力收集了38k、49.4k和8.6kDU玉米粒图像，分别使用P600、G600和M600（见表6）。0表6. 玉米谷粒图像的详细统计数据.0设备正常损坏和不良玉米粒0FM SD MY AP BN HD 总计0水稻:与小麦和玉米不同，与水稻相关的主要挑战是识别测试样本的子类型。我们分别从8个区域收集了8个亚型的水稻谷粒图像，总共包含327k、394k和99k张图像，分别由P600、G600和M600拍摄（见表7）。0表7. 水稻谷粒图像的详细统计数据.0设备水稻谷粒的类别04. 基准0在本节中，我们提出了一项全面评估先进计算机视觉技术的工作，作为未来 GrainSpace工作的初始基准。对于这些与GAI相关的挑战，我们采用了几种经典和最先进的方法，并引入了半监督和自监督学习技术。请注意，更详细的结果在补充材料中包含。04.1. 实验设置0在所有实验中，我们将每种类型的数据随机分为80％的训练集，10％的验证集和10％的测试集。我们采用PyTorch [32]作为实验框架，基于具有8个Nvidia RTX2080Ti的GPU平台。为了保持公平比较，所有模型都是从头开始训练，没有在其他数据集（例如ImageNet[37]）上进行预训练。由于数据分布严重不平衡，精确度和召回率都不能恰当地反映模型的性能。因此，我们选择宏F1分数作为实验测量指标。以小麦的细粒度识别为例，我们计算每个类别的N F1分数，通过对这些F1分数进行平均得到整体F1分数（ 10N � N n ( F 1 n ) ). 这0本节仅报告宏F1分数，更详细的信息请参阅补充材料。04.2. 细粒度识别0考虑到由不同原型捕获的小麦数据被分为三个区域组，我们基于ResNet50（R50）[18]，DCL [8]和SwinTransformer（SwinT）[27]进行了27个实验（见表8）。在这些方法中，R50是最经典的模型之一，DCL是一种先进的细粒度识别方法，而SwinT基于流行的Transformer技术。0表8. R50、DCL和SwinT在小麦数据上的性能: 区域 vs. 设备原型.0我们观察到R50和DCL（R50骨干）在所有区域和原型上都具有全面的优势，而SwinT在 R 1 − 14 (G600)，R 15 −18(P600和M600)等方面的性能崩溃。不令人满意的结果显示了 GrainSpace的潜在挑战，需要模型具备更高的泛化和适应能力。图6显示了基于DCL[8]模型的CAM技术[49]的一些可视化示例。为了简化实验设置并节省计算资源，后续实验主要基于R50作为骨干。接下来，我们在不考虑区域信息的情况下对小麦、玉米和水稻数据进行了15个实验（见表9），其中6个实验是使用G600和M600数据的组合，因为这些数据是通过单个相机拍摄的。我们观察到小麦实验的性能中等，但玉米和水稻获得了良好的结果，这意味着来自不同区域的小麦数据应该小心处理。使用G600和M600数据的组合，M600数据的性能严重下降，我们认为这主要是由于G600和M600之间的数据分布不平衡。此外，我们利用未标记的数据引入了半监督学习（MixMatch[6]）到小麦和玉米实验中。所有小麦实验都取得了显著的改进，但玉米组略有下降。我们认为不同的结果是由于标记和未标记数据的比例（小麦1:1.52，玉米1:0.88）以及未标记玉米数据的较小体积应该以更精细的方式使用。我们进一步引入自监督学习来探索未标记数据，并应用了MoCo[17]，这是一种基于对比学习的强大框架。我们在不考虑区域信息的情况下对小麦、玉米和水稻数据进行了45个实验（见表10）。根据常见的评估协议[17, 7]，我们评估了MethodR1−14R15−18R15−18R19−22R19−22R1−14MethodR15−18R1−14R19−22R15−18R1−14R19−22MCD [38]+9.6%, +4.7%, -4.5%-9.2%, +3.2%, -29.2%-25.7%, -13.7%, -13.8%MCC [22]+10.4%, -0.8%, -2.0%-12.5%, -3.0%, -20.4%-13.8%, -8.9%, -10.4%211220表9. 设备原型在小麦、玉米和稻谷数据上的性能。（+和-表示来自MixMatch[6]的结果）。0物种训练集测试集0P600 G600 M600 P600 G600 M6000小麦0� 68.5% +10.7% - - � - 63.5% +5.2% - � - - 59.4% +10.7%0� � - 63.4% +4.5% 14.8% +14.7%0玉米0� 94.0% -2.6% - - � - 86.6% -2.2% - � - - 82.8% -6.4%0� � - 85.3% -1.6% 33.8% +24.3%0稻谷0� 99.2% - - � - 98.9% - � - - 93.0% � � - 98.7% 26.8%0通过对从预训练模型提取的冻结特征进行线性探测，我们评估了半监督学习在这些任务中的潜力，其中使用不同比例的无标签数据训练了一个监督线性分类器。几乎所有实验表明，大比例的无标签数据和少量的有标签数据可以获得可比较的性能，这验证了自监督学习在这些任务中具有很高的潜力。0表10. MoCo [17]在小麦、玉米和稻谷数据上的设备原型性能。0物种训练集测试集有标签数据比例0P600 G600 M600 1% 10% 100%0小麦0� P600 57.4% 60.0% 56.7% � G600 65.3% 63.4% 61.9% �M600 31.6% 45.6% 45.5% � � G600 58.2% 60.2% 59.6% � �M600 37.3% 41.1% 38.7%0玉米0� P600 17.2% 52.7% 72.4% � G600 12.3% 52.4% 61.9% �M600 6.9% 10.5% 38.7% � � G600 19.1% 54.3% 62.8% � �M600 9.7% 44.1% 51.3%0稻谷0� P600 10.3% 44.2% 49.0% � G600 34.2% 54.5% 70.4% �M600 10.6% 16.2% 32.1% � � G600 37.9% 50.0% 76.8% � �M600 11.4% 44.2% 50.2%04.3. 领域自适应0在GrainSpace中，小麦数据的不同地区具有不同的外观，尽管DU颗粒共享共同特征，因此不同地区可以被视为不同的领域。我们采用了三种经典和先进的方法来评估领域自适应（DA）性能：CDAN [30]，MCD [38]和MCC[22]。在这些方法中，CDAN采用了两种调节策略，以保证模型的可区分性和可转移性，MCD试图通过最大化两个分类器之间的输出差异来对齐源域和目标域的分布，而MCC则试图最小化目标域中正确和模糊类别之间的类别混淆。0图6. 基于CAM的可视化示例（DCL [8]）。0由于小麦数据在不同地区和设备原型之间的外观差异，我们综合进行了72个实验，涵盖了每个地区和原型的所有组合（见表11）。几乎所有实验都获得了显著的降低，这可能归因于这些针对不同领域的常见对象（例如建筑物）设计的DA方法。然而，与具有显著对象的自然图像相比，不同地区之间小麦颗粒的差异虽小但明显。我们认为一个可能的解决方案是基于现有的DA技术，强制模型专注于局部信息。0表11. 小麦数据上DA方法的性能：地区 vs.设备原型（按照P600、G600、M600的顺序）。0仅来源 42.9%，18.9%，22.7% 52.9%，16.1%，46.2% 26.1%，33.4%，21.3%0CDAN [30] -15.4%，-1.6%，-8.4% -9.2%，+7.1%，-3.6% +8.3%，-9.5%，+12.6%0MCD [38] -22.9%，-8.6%，-10.8% -15.2%，+8.3%，-18.3% +0.9%，-12.3%，-1.6%0MCC [22] -11.1%，+1.9%，-7.2% -12.8%，+3.4%，-17.3% -0.5%，-12.4%，-0.3%0仅来源 17.6%，16.2%，22.6% 45.6%，26.6%，48.2% 46.7%，28.5%，26.6%0CDAN [30] +14.0%，+1.1%，+4.2% -4.7%，-4.9%，-8.8% -13.5%，-12.5%，-10.2%0此外，我们还对所有小麦、玉米和大米数据进行了另外72次DA实验，将设备原型视为不考虑区域信息的不同领域（见表12）。我们观察到，与仅源域实验相比，大多数DA实验在性能上取得了很大的改进，这验证了来自不同设备原型的数据有潜力共同使用以实现高性能。显然，在小麦数据上，G600和M600之间的适应结果大幅下降，我们仍在分析其潜在原因。04.4. 超出分布识别0在某些情况下，只有几种特定的稻谷类型被食品工厂接受和购买CDAN [30]+6.9%, +3.8%, +31.0%+0.2%, -9.2%, +5.0%+5.5%, +8.8%, +10.8%MCD [38]+2.9%, +5.8%, +4.9%+2.4%, +0.2%, -13.8%+6.1%, +8.8%, +9.4%MCC [22]+0.8%, +5.4%, +22.1%+0.2%, -1.0%, +7.1%+5.5%, +4.1%, +11.6%CDAN [30]+0.9%, +25.2%, +8.3%-10.2%, -2.2%, -15.0%+11.3%, +0.1%, +8.8%MCD [38]+0.1%, +27.5%, -16.4%-9.5%, +4.2%, -46.2%+10.8%, +1.0%, -1.7%MCC [22]+0.4%, +18.2%, -3.5%-7.4%, -0.5%, -16.5%+5.2%, -4.0%, +12.6%Deep SVDD [36]✓✓✓62.5%✓✓✓46.5%✓✓62.7%Rot [19]✓✓✓61.1%✓✓✓64.1%✓✓57.5%CSI [41]✓✓✓70.9%✓✓✓50.8%✓✓77.3%211230表12.设备原型在所有谷物数据上的DA方法性能（按小麦、玉米、大米排序）。0方法 P600 → G600 G600 → M600 M600 → P6000仅源域 11.6%, 21.5%, 8.7% 13.2%, 29.9%, 23.1% 6.6%, 13.2%, 4.5%0方法 G600 → P600 M600 → G600 P600 → M6000仅源域 12.1%, 7.6%, 27.1% 25.7%, 21.7%, 56.5% 4.4%, 17.9%, 11.3%0交易商，识别这些颗粒可以被视为超出分布（OOD）的识别。我们将特定类别的数据组合成单类数据集配置，并使用三种先进的方法（Deep SVDD [36]，Rot [19]和CSI[41]）在一个类上训练OOD模型。具体来说，DeepSVDD通过最小化包围数据表示的超球体的体积来训练模型，Rot利用自我监督来提高对接近分布的异常值的识别能力，而CSI将对比学习引入OOD问题中以学习更好的视觉表示。根据以前的研究[10, 19,41]，使用接收器操作特性曲线下的面积（AUROC）来评估OOD模型。AUROC值越大，性能越好，50％的值表示随机猜测。对于P600大米数据（G600和M600的结果包含在补充材料中），我们设置了9个OOD实验，其中包含三种数据配置（见表13），其中（Malis，SQ，545）属于“泰国香米”，（HF，WC，HN）具有相似的价格，（JZ，SY）来自同一个省份。我们观察到每种OOD方法在几种数据组合上都取得了中等结果，但所有实验结果都小于80％，这意味着还有很大的探索空间。0表13. P600大米数据上的OOD方法性能（ �表示此组属于内分布）。0方法 Malis SQ 545 HF WC HN JZ SY AUROC0此外，识别DU颗粒也可以被视为OOD识别。我们对P600小麦和玉米数据进行了12次OOD实验（见表14，G600和M600实验包含在补充材料中），其中（F＆S，MY，BP）或（FM，MY，HD）被分为一组，因为这些类型的DU颗粒对健康有害。在这些实验中，我们进行了评估-0在“有害效应”小麦和玉米组中，Rot和CSI分别达到了最高的68.5%和71.6%的性能，这些性能是可比较的，并证明将DU谷物识别视为OOD识别是可行的，更适合应用于实际应用中。0表14.OOD方法在P600小麦和玉米数据上的性能（�表示该组属于内分布）。0物种方法正常 F&S SD MY AP BN BP AUROC0小麦0Deep SVDD [36] � � � � 53.1% � � � 56.0%0Rot [19] � � � � 66.4% � � � 68.5 %0CSI [41] � � � � 70.3% � � � 60.2%0物种方法正常 FM SD MY AP BN HD AUROC0玉米0Deep SVDD [36] � � � � 69.2% � � � 43.1%0Rot [19] � � � � 66.2% � � � 67.8%0CSI [41] � � � � 60.5% � � � 71.6%05. 结论和未来工作0在我们的研究中,我们对GAI进行了深入分析，并将GAI制定为三个常见的计算机视觉任务：细粒度识别、领域自适应和超出分布识别。我们创建了一个公开可用的大规模谷物数据集：GrainSpace。为了数据采集，我们建立了三种设备原型，并建立了全面的数据处理流程。然后，我们收集了总共525万个谷物颗粒图像，其中包含4129k、299k和820k张小麦、玉米和大米的图像。GrainSpace中的原始谷物颗粒来自五个国家和四年的30多个地区。此外，我们在GrainSpace上开发了一个具有全面实验分析的基准。我们观察到，引入半监督学习和自监督学习等先进的计算机视觉技术可以显著改善性能。GAI的主要挑战是识别不同谷物颗粒之间的细微差异。由于谷物颗粒的多样性和多样性，模型应该对现有数据和未知谷物颗粒都具有泛化能力和适应性。一方面，UD谷物的数量远低于正常谷物，这可以看作是一个自然的长尾分类问题[28]。此外，在我们目前的工作中，杂质、额外物质和外来谷物是手动去除的，可以使用计算机视觉技术如开放集检测[13]等进行自动化。我们希望GrainSpace能够激发并吸引更多关注智能农业的发展，并相信计算机视觉技术可以改变与GAI相关的应用。[8] Yue Chen, Yalong Bai, Wei Zhang, and Tao Mei. Destructionand construction learning for ﬁne-grained image recognition.In CVPR, pages 5157–5166, 2019.[9] Marius Cordts, Mohamed Omran, Sebastian Ramos, et al.The cityscapes dataset for semantic urban scene understand-ing. In CVPR, pages 3213–3223, 2016.[10] Jesse Davis and Mark Goadrich. The relationship betweenPrecision-Recall and ROC curves. In ICML, pages 233–240,2006.[11] Mark Everingham, Luc Van Gool, Christopher KI Williams,John Winn, and Andrew Zisserman. The pascal visual objectclasses (VOC) challenge. IJCV, 88(2):303–338, 2010.[12] Christoph Feichtenhofer, Haoqi Fan, Jitendra Malik, andKaiming He. SlowFast networks for video recognition. InICCV, pages 6202–6211, 2019.[13] Chuanxing Geng, Sheng-jun Huang, and Songcan Chen. Re-cent advances in open set recognition: A survey. TPAMI,2020.[14] Iman Golpour, RA Chayjan, et al. Identiﬁcation and classi-ﬁcation of bulk paddy, brown, and white rice cultivars withcolour features extraction using image analysis and neuralnetwork. Czech Journal of Food Sciences, 32(3):280–287,2014.[15] Jose D Guzman, Engelbert K Peralta, et al. Classiﬁcationof philippine rice grains using machine vision and artiﬁcialneural networks. In World conference on Agricultural infor-mation and IT, volume 6, pages 41–48, 2008.[16] Joakim Bruslund Haurum and Thomas B Moeslund. Sewer-ML: A multi-label sewer defect classiﬁcation dataset andbenchmark. In CVPR, pages 13456–13467, 2021.[17] K

下载后可阅读完整内容，剩余1页未读，立即下载