金钻菠萝缺陷检测及自动注释的基于CycleGAN和YOLOv4方法

104 浏览量更新于2024-01-17 收藏 2.11MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于CycleGAN和YOLOv4陈思涵a，b，赖育伟a，b，郭忠伦c，罗杰毅c，林育松c，林燕荣c，康志祥a，b，蔡家骏aa台湾省新北市明基科技大学工业工程与管理系b台湾新北市明基科技大学人工智能数据科学中心c台湾新竹工业技术研究院仪器感测技术开发组阿提奇莱因福奥文章历史记录：接收日期：2022年2022年6月22日修订2022年7月20日接受2022年7月25日在线发布保留字：金钻菠萝缺陷检测自动注释CycleGANYOLOv4A B S T R A C T台湾产的金钻菠萝叶序较大，叶序间容易开裂。在早期，熟练的仓库工作人员检查表面状况，并通过人工目视检查挑出有缺陷的菠萝。然而，人工检查方法非常主观，容易产生误读，如杀伤不足或杀伤过度。为了提高金钻菠萝表面缺陷检测的质量它的战略优势是，我们只需要一个小的训练模型，其中田口方法用于确定马赛克图像增强的启动，以及周期一致性生成对抗网络（CycleGAN）图像增强的启动，以获得84.86%的最终平均精度（AP）。6.41每秒推理的帧数。实验结果表明，CycleGAN在模型训练策略中的贡献最大，这不仅是因为CycleGAN生成的伪缺陷丰富了缺陷种类，而且粘贴到原始位置后的补片与纹理更加吻合，并且补片可以进行自动标注。综上所述，CycleGAN有助于提高YOLOv4缺陷检测的性能。版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍台湾地处亚热带，适合种植菠萝，出产近20种菠萝。台湾农委会经过二十年的努力，成功培育出一个外观金黄色的凤梨（台农17号）。其叶序大小为1至2厘米，叶基部和叶尖有刺。台湾一直在推动农业技术应用于水果的精炼和以优质为支撑台湾*通讯作者。电子邮件地址：linyr@itri.org.tw（Y.- R. Lin）。沙特国王大学负责同行审查信息技术、光电和机械工业为机械化和智能化质量控制提供了有利条件，以保证水果质量和高价值农产品的一致性机械化和智能化质量控制的引入也有助于缓解农业劳动力不足的困境技术分级和管理可以减少人为错误，减少对实践经验的需求近年来，有关先进的无损检测方法的应用研究已经吸引了菠萝的焦点。这些无损检测技术包括计算机视觉系统、基于图像的技术、基于光谱的技术等，其中计算机视觉系统是发展较快的技术，它利用摄像机对菠萝进行拍摄，传感器提供的信息更丰富，应用范围更广。Kaewapichai等人（2007）设计了一个可应用于菠萝罐头工业的菠萝成熟度自动分级模型该模型由两部分组成。第一部分为叶序模型，描述了菠萝果的生长规律，描述了菠萝鳞片的螺旋排列第二部分是规模https://doi.org/10.1016/j.jksuci.2022.07.0181319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comS.- H. 陈玉-W. 赖角，澳-地L. Kuo等人沙特国王大学学报8042模型，其中包括规模的边界，内部区域和花瓣。该模型能准确地模拟菠萝表面纹理作为其分类特征。 Li等人（2010）已经将图像匹配应用于菠萝收获机器人上的双目视觉平台。该方法通过实时图像采集系统和快速分割得到左图像中的水果区域，然后利用加速鲁棒特征（SURF）对左图像和右图像中的水果区域进行快速 Moonrinta等人（2010）提出了一个农场实时菠萝缺陷检测框架。该方法采用Harris、尺度不变特征变换（SIFT）和SURF进行特征提取和描述。该方法首先使用支持向量机进行特征分类，然后使用二值大目标跟踪进行水果区域跟踪，最后使用运动和椭球估计进行三维重建。其优点是该方法可用于菠萝作物制图和产量预测。Abu Bakar等人（2013）使用数码单反相机（DSLR）拍摄菠萝。根据RGB和HSI彩色图对图像特征进行分割，并以此作为模糊逻辑区分未成熟、成熟和完全成熟的菠萝。Angel等人（2015）提出了一种自动评估Perolera菠萝成熟度的机制。该方法首先采用Otsu自动阈值分割法对菠萝果实进行分割，然后利用HSV颜色空间的色调和饱和度作为特征，采用改进的基本序贯算法（BSAS）对菠萝果实的成熟度进行分级。Suksawat和Komkum（2015）使用相机和称重传感器拍摄菠萝的图像并测量其重量。首先，他们消除了噪音，并捕获了菠萝的边缘来计算大小。然后，他们建立了20个模糊规则的基础上的大小和重量，创造一个工具，菠萝质量分级。Nawawi和Ismail（2017）开发了一种在种植园现场分割菠萝果实的方法。该方法首先利用色调值去除地面和天空，然后利用自适应红蓝色度（ARB）和椭圆Hough变换将菠萝果实从树叶等不必要的背景中分割出来。Nawawi等人（2018）使用级联对象检测器来检测图像中菠萝的位置。然后，他们使用色调值，ARB和归一化差异指数（NDI）来去除地面，天空和其他不需要的背景。最后，他们通过卷积神经网络（CNN）从ARB和NDI中选择了最佳分割图像。Dittakan等人（2018）提出了一种对Pattavia菠萝质量进行分级的机制。他们通过灰度转换，局部二进制模式（LBP）进行特征提取，并使用8种机器学习算法实现分类器。的文献讨论上述建议的研究基于计算机视觉系统的菠萝主要集中于确定菠萝的成熟状态、菠萝在种植园中的位置以及菠萝的分级但目前对菠萝表面缺陷检测的研究还相对较少.目前台湾进口的自动化传送带、水果分级机，不仅价格昂贵，而且缺乏弹性与适应性。许多机器由于用户体验不佳而被废弃多年，因此工人们检查过程是基于巩固中心的员工的经验，使用视觉检查或敲击作为菠萝的第一选择然后，菠萝的质量根据其大小和重量进行分级。人工检测需要熟练的检测人员，这将消耗大量的时间和精力。由于每个检验员的检验时间不固定，检验员的检验标准也不可能完全一致，所以检验结果往往不能反映菠萝的实际质量。由于传统的检测方法过于依赖人工，质量不稳定，自动化检测逐渐成为缺陷检测的主流对于检测算法的设计，深度学习技术享有更高的偏好，因为它们易于使用，并且它们不需要手动描述特征，并且它们对相似对象具有适应性。所提出的金钻菠萝表面缺陷检测系统包括深度学习算法、模型训练策略优化过程以及图像采集设备和水果传输机构的集成拟议系统的贡献如下。1. 将金钻菠萝的图像采集装置和传输机构集成在一起：该系统采用多角度自动光学检测（AOI）照明技术，以避免阴影，获得最佳的金钻菠萝表面图像。此外，该系统采用滚筒式传输，在传输线上方的阻力装置可以用来翻转水果在传输过程中。这样，可以通过重复的图像捕获来获得来自多个视角的金钻菠萝图像。2. 介绍用于检测嵌入在金钻菠萝上的缺陷的深度学习算法：在过去，大多数菠萝检测文献使用来自一系列数字图像处理（DIP）程序的手工特征来检测缺陷。本研究使用Bochkovskiy等人（2020）提出的You Only Look Once Version 4（YOLOv4）作为基础模型。在开始训练模型时，我们只需要图像的注释文件和待检测对象的坐标位置和类别。该模型使用CNN作为骨干来自动提取特征，因此在模型训练之前不需要人力进行特征工程。训练后的模型不仅具有较高的预测性能，而且推理速度快。此外，它还可以检测小或致密缺陷。实验中开发的系统可以在一秒钟内完成至少一个金钻菠萝表面缺陷的检测任务。3. 使用循环一致性生成对抗网络（CycleGAN）进行高级图像增强和自动标注：由于图像训练的数量有限，除了传统的图像增强方法外，本研究还尝试使用Zhu et al.（2017）提到的CycleGAN来增加图像数量并提高缺陷的多样性。因此，该模型可以学习更多的特征，提高其检测缺陷的能力。此外，一系列的DIP程序被用来开发一个自动标注程序的伪缺陷图像，节省了人工标注所花费的时间。4. 采用田口方法自动确定模型训练策略的组合：本研究采用田口（1987）提出的实验设计（DOE）方法，对正交表实验进行系统分析，确定关键因素和水平，从而得出模型训练策略的最优组合。减少实验次数有助于缩短深度学习模型所需的冗长训练过程。除第一章外，本文共分四个部分。第二章是文献综述，总结了CNN图像分类和目标检测在农产品缺陷检测中的应用现状，接着回顾了各个GAN图像增强及其在农产品缺陷检测中的应用。S.- H. 陈玉-W. 赖角，澳-地L. Kuo等人沙特国王大学学报8043××××农产品检验第三章是方法论，介绍了图像采集与传输机制的硬件架构、CycleGAN和自动标注技术以及YOLOv4模型。第四章给出了实验结果。除了对不同目标检测方法的模型抽查进行比较外，还对YOLOv4模型的模型训练策略给出了田口方法的建议。最后给出了缺陷检测结果并进行了分析。最后一章对本研究进行了总结2. 文献综述近年来，CNN在各个领域得到了广泛的应用，在缺陷检测方面的我们已经看到越来越多的CNN应用发表在期刊上，涵盖金属、纺织、半导体、运输等行业（Kim等人，2019年; Chen等人，2020年;Park等人，2021;Chen和Tsai，2021）;农业也不例外，这是本研究的主要关注点。本章除了回顾CNN应用于农产品或其表面缺陷分类或检测的文献外，还回顾了GAN结合CNN等深度学习技术在农产品缺陷分类或检测中的2.1. 基于CNN的目标检测在农产品检测中的应用在农业行业中，关于CNN应用于农产品检测和表面缺陷检测的文献是主要的其目的是确定农产品本身或表面缺陷的位置和大小，并确定其所属的类别缺陷检测是近年来缺陷检测领域最受关注的课题之一主流工具包括快速区域卷积神经网络（RCNN）、单次激发多盒检测器（SSD）和YOLO等。物体检测对农业的贡献之一是帮助作物定位，并促进自动收割机器人的后续安装，以及在复杂环境中估计农业产量另一个贡献是缺陷检测，它控制了农产品的质量。Siddiqi（2019）比较了SSD-MobileNet和微小YOLOv 2在金苹果表面病变检测上的能力。图像集包括通过拍摄缺陷而获得的244个图像，并且在实验中不进行图像增强实验表明，当 IOU 为 0.5 时， SSD-MobileNet的平均精度（AP）达到87.8%，高于微型YOLOv 2的72.5% Fu等（2020）已经使用YOLOv4来检测香蕉树上的香蕉束，并且图像集由1164个图像组成。试验表明，YOLOv4比YOLOv3更能适应不同手数、小串、不同遮挡方式、不同光照条件、不同成熟度和不同仰角变化。AP可达99.95%。Wu等人（2020）在嵌入式系统中使用修剪后的YOLOv4模型来检测三棵苹果树（富士、红爱和加拉）的开花，以估计它们的数量。图像采集时间为上午8点至晚上8点，共采集了2,230张图像。此模型的输入图像大小为416 416。本文提出的主要改进是使用批量归一化层的伽马系数来确定每个通道在特征图中的贡献，作为修剪的标准结果表明，YOLOv4算法对光源具有很强的适应性，裁剪后的图像平均精度（mAP）模型的准确率高于97%，检测速度可达每秒72.33帧（FPS）。Wan和Goudos（2020）应用改进的更快RCNN来检测苹果、芒果、橙子和估计产量，为自动收获铺平了道路。实验者使用了2,441张水果图片，100 100在水果360数据集中作为图像集。直方图均衡化增强了对比度，减少了光照效果，增加了图像数量;此外，代表实验进行了旋转和水平翻转等图像增强方法。文章中提出的改进是在卷积层和池化层中添加正则化项。与其他目标检测方法相比，该方法的性能更好，mAP可达90.72%。Lim等人（2020）试图检测猕猴桃花，以方便机器人的授粉操作。该数据集收集并训练了1451幅大小为1920 - 1080的彩色图像。分析结果表明，传统的图像增强方法对模型的性能没有帮助，而以Inception-v2为主干的RCNN对不同光照强度和花成熟度的适应性更强（F1得分82%，FPS 190.29）。Liu等人（2020）使用YOLO-Tomato检测西红柿的实验收集一总为966416 416图像，并使用传统的图像增强方法，如水平翻转，缩放和裁剪。YOLO-Tomato基于YOLOv 3架构，增加了密集块并将其改为预测圆，其AP为高达96.40%。Gong等人（2021）使用YOLOv4估计小麦穗的数量，并将空间金字塔池化替换为双空间金字塔池化，该结构增加了接收场。从GWHD数据库中获取小麦穗的总共3，432个图像，并且在完成图像增强过程（诸如剪切、裁剪、模糊和翻转）之后执行模型训练。与其他目标检测方法相比，该方法的性能更好，其mAP可以达到94.5%。与图像分类和实例分割相比，对象检测是目前深度学习领域最流行的解决方案。主要原因是目标检测具有较高的项目成功率，易于补丁级标注，可接受的模型训练时间长度，以及多类别目标位置和大小的反馈。2.2. 基于GAN的图像增强技术在农产品检测中的应用由Goodfellow等人在2014年提出，生成对抗网络（GAN）由生成器和搜索器组成。生成器首先从图像数据集中随机地选择真实图像，然后在整个随机数向量中生成伪图像。然后根据真实图像的特征，对伪图像进行真伪鉴别.随着鉴别器的能力逐渐增强，鉴别器可以更好地鉴别真实图像和伪图像，从而迫使生成器生成更“真实”的伪图像，并且最终生成器可以生成难以与真实图像区分的伪图像。通过两个网络之间对抗性学习过程的不断训练，将创建更好的生成模型从Gui et al.（2020）的文献综述中我们知道，在短短几年的时间里，人们对GAN进行了广泛的研究，提出了数百种GAN模型，并在各个领域得到了应用。在缺陷检测领域，GAN模型自2018年问世以来，也为图像增强技术提供了一种新的、先进的图像生成方法。除了增加训练图像的数目之外，产生伪缺陷图像的方法还S.- H. 陈玉-W. 赖角，澳-地L. Kuo等人沙特国王大学学报8044×××××增加了缺陷模式的多样性，从而提高了模型的预测性能，并减少了训练过程中的过拟合问题。目前，GAN模型在农业领域的应用还不多见。成功的GAN模型，如深度卷积生成对抗网络（DCGAN），CycleGAN和边界平衡生成对抗网络（BEGAN），可以将原始的深度学习方法与适当的缺陷分类和缺陷检测模型集成在一起。正如预期的那样，预测性能提高到一个更高的水平。如果在生成伪图像后辅以自动标注算法，这些模型可以更好地工作;同时，它们还可以与传统的图像增强技术相结合。Tian等人（2019）使用CycleGAN生成苹果炭疽病的伪图像，并在苹果表面进行图像增强和缺陷检测。该研究首先通过颜色、亮度和角度转换进行图像增强，然后使用CycleGAN将健康苹果转换为感染苹果，将图像集增强了5倍。接下来，将原始图像尺寸放大2倍，并输入到以DenseNet为骨干的YOLOv3模型中进行炭疽病检测。实验结果表明，该方法在F1得分和IOU方面优于更快的RCNN和原始YOLOv3，表明CycleGAN在进行图像增强时可以改善上述两个指标。Wu等人（2020）使用DCGAN生成具有伪病害的马铃薯叶的图像，以进行约3倍的图像增强。将叶片图像输入VGGNet，叶子的状态。结果表明，与DCGAN相结合的VGGNet的分类精度高于BEGAN和传统的图像增强方法。Cap等人（2020）使用CycleGAN生成受疾病感染的假黄瓜叶，用于执行图像增强。由于将整个图像输入CycleGAN生成的伪图像背景非常不真实，因此本研究首先使用ResNet与Grad-CAM技术切割叶片，仅为切割的叶片生成病害种类。因此，该过程不需要注释。结果表明，使用CycleGAN，特别是LeafGAN，有助于提高分类器的性能。Luo等人（2020）使用YOLOv 3- Dense检测松果。对包含松果的包围盒进行裁剪，通过BEGAN生成大小为64 × 64的伪松果，并将其粘贴回图像中，使图像集扩大了2倍。此外，还采用了饱和度和亮度扰动、旋转、镜面翻转等传统的图像增强方法。该模型的改进包括在主干中引入密集块，增加yoloblock，并在损失函数中使用距离交集（DIRECT）来衡量预测框与地面真实值之间的差异。该方法的F1评分达到92.3%。根据我们对文献的观察，以上所述，目前GAN模型主要应用于几何形状简单、纹理规则且不均匀、背景类型均匀的图像，而对于内容复杂的图像，GAN似乎而且，GAN生成高分辨率图像的能力仍然不足，因此输入图像的尺寸不能太大。以Tian等人（2019）生成的苹果图像模糊或失真，图像背景非常粗糙和不真实。Cap等人研究中的图像。（2020）从黄瓜叶、茎、地面和杂草抑制垫拍摄。生成的黄瓜叶的背景颜色也被扭曲。Wu等人使用的图像集。（2020）为299大小的马铃薯叶299.自从土豆的叶子已经被摘下来了，而且图片不是现场拍摄的，我们只看到了一个纯水泥的背景。因此，生成的伪图像通常看起来相当真实。在策略方面，Luo等人。（2020）提出了一种有吸引力的方法，其中松果补丁的大小固定在64 64，GAN模型的研究重点集中在生成视觉效果更好的小尺寸伪松果图像上。3. 研究方法本研究的总体过程如图1所示。菠萝仓库的员工在收集新鲜菠萝后，挑选出表面有缺陷的菠萝并将其放置在托盘中，然后使用内置设备自动从各种角度拍摄菠萝的图像。然后，对菠萝表面缺陷进行人工标注，并设计了基于YOLOv4的缺陷检测算法。在建模过程中，田口方法被用来自动确定最佳的策略配置文件，从各种技术，可以提高检测性能的缺陷检测。3.1. 硬件结构为了能够稳定地获取不同角度下的椭球体表面图像，我们搭建了一个如图2（a）所示的椭球体表面图像采集与传输系统。该系统主要由CCD工业摄像机、球型光源、传送带、夹具等组成。如图2（b）所示，CCD工业相机型号DALSA c2590放置在夹具上方65 cm处，捕获的图像分辨率为2592 × 2048。圆顶型光源是由10个白色荧光灯组成的半圆形阵列被检物体在夹具上的各个角度所形成的弧形均匀地接受照明，使得图像中物体的边缘不会太暗或不清晰。橡胶制成的夹具是放置金钻菠萝的地方，通过自动控制，夹具可以顺时针旋转。由于CCD和镜头位于夹具上方，因此在其下方放置了不反光的黑布;当白色荧光灯点亮时，黑色背景可以抑制可能发生的反射。不仅如此，要拍摄的金钻菠萝是那些颜色已经变成75%的菠萝，其中大部分都有表面开裂的缺陷如图2（c）所示，裂纹缺陷主要出现在叶序之间，外观上看像一个黑色的浅孔3.2. 缺陷手册注释由图2（b）所示的机制拍摄的菠萝表面图像为了定义每个图像的中心坐标、边界框的长度和宽度以及缺陷类别的标签，在注释完成后，每个图像生成具有相同文件名但不同扩展名的注释文档（参见图10）。3）。标注过程可以通过使用labelImg工具箱来完成，该工具箱可以记录实验人员感兴趣的对象的类和坐标，并最终生成可扩展标记语言（XML）标注文件。S.- H. 陈玉-W. 赖角，澳-地L. Kuo等人沙特国王大学学报8045（Fig. 1.研究流程图(a)（c）第（1）款图二. 金钻菠萝表面缺陷检测系统的硬件结构。S.- H. 陈玉-W. 赖角，澳-地L. Kuo等人沙特国王大学学报8046图三. 金钻菠萝缺陷的手工标注。3.3. 用于裂纹缺陷检测的YOLO使用神经网络直接从图像中预测该模型已经从YOLOv1发展到YOLOv5，以其检测速度快，小而密集的目标检测的优点而闻名在YOLOv4模型的训练过程中，有几种策略可能会影响预测性能。战略的定义如下：1. 马赛克图像增强：该方法随机选择四张图像并执行随机裁剪和拼贴。通过修改拼贴图像的真实信息，得到对应拼贴图像的标注文件。拼贴图像相当于将这些图像传递到模型中进行学习。它允许模型学习如何以比通常更小的规模识别对象，并减少了对小批量的巨大需求，提高了检测微小缺陷的能力。2. CycleGAN图像增强：CycleGAN在正常叶序之间的间隙中生成伪裂纹缺陷，并自动生成相应的注释文件。除了增加训练图像的数量外，还有助于缺陷的多样性，提高了模型的泛化能力。执行循环GAN的过程如图4所示。我们不仅为源域（无缺陷）和目标域（缺陷）分别创建了生成器，生成准真伪图像，而且还对伪像进行了运算，以区分真伪图像。此外，我们还介绍了圈的一致性和恒等式.循环一致性的主要目的是防止两个发生器之间的矛盾，希望两个发生器可以在生成图像身份是为了保持输入图像的颜色组成。换句话说，非缺陷图像和由Gdefectiv e？无缺陷的图像应尽可能相似;因此，有缺陷的图像与G无缺陷的图像生成的图像一样。有缺陷的; 生成者和被生成者将构成对抗性损失，循环一致性将构成循环一致性损失，同一性将构成同一性损失。这些的总和成为CycleGAN的总损失函数，如Zhu等人所解释的。（2017年）。金钻菠萝的表面纹理是弱均匀的。因此，所产生的缺陷不适合以随机方式粘回到水果的表面这些补丁很难与周围的纹理匹配，边缘连接点在视觉上不连贯，这对训练模型不利。这就是为什么这项研究选择不选择GAN或DCGAN等过去经常用于生成缺陷的方法。只有CycleGAN生成的补丁可以保存要转换的图像中的色调和CycleGAN模型训练完成后，在操作中我们随机剪切图像的大小，然后将其整形为64 × 64个无缺陷的补丁，并将它们输入G无缺陷的e？缺陷以生成相应的伪缺陷补丁。然后，我们再次将伪缺陷补丁的大小重新塑造回其原始大小，并将其重新粘贴回其原始位置。在生成过程中，由于伪缺陷的位置、宽度和高度已经已知，因此可以自动生成标注文件。3. 背景去除：在图2（b）所示机制的限制下，图像中的金钻菠萝只占屏幕的三分之一左右，其余的大黑背景、滚筒和树叶对检测缺陷没有帮助。如果我们把身体的主体提取出来S.- H. 陈玉-W. 赖角，澳-地L. Kuo等人沙特国王大学学报8047×× ××× × × × ×××× × × × ×××××× × × × ××图四、黄金钻石菠萝表面无缺陷和有缺陷补丁的转换过程如果我们提前使用lotaxy，我们可以在YOLOv4的608 608输入图像中看到更高分辨率的缺陷去除背景的方法是一系列的DIP工艺。图像灰度化后，自动进行二值化与Ostu阈值。叶序的灰度值较高，可作为前景。接下来，使用连通组件标记（CCL）分离出面积最大的连通对象，并切出最小边界框覆盖的范围请注意，如果我们选择不删除背景，我们只需要调用原始的手动注释的XML。如果我们选择去除背景，我们不仅剪切并保存了叶序补丁，而且我们还根据叶序最小边界框左上角的坐标转换4. 类标签平滑：一种改变类标签赋值方式的技术。通常情况下，包围盒的正确分类表示为一个热向量。但是当模型的预测变得过于确定并且值接近1时，可能会出现错误，过拟合，并且其他样本预测的复杂性可能会以某种方式被忽略。因此，在一个热向量中给予标签编码值一点误差容限可能是合理的。例如，选择0.9表示正确的类，这可能会提高模型的泛化能力。5. 定制锚箱尺寸：YOLOv4的9个锚框默认从COCO数据集计算，其大小为12 16，19 36，40 28，36 75，76 55，72 146，142一百一十，一百九十二243和459401.然而，这组锚框的大小可能不适合于用户的自定义图像集。如果锚框的大小与目标物体的大小不同，可能会影响模型的检测效果。在这种情况下，我们使用kmeans聚类代替默认大小，对训练集的边界框进行聚类，并自动生成一组9个更适合图像集的锚框，这可能有助于检测效果。这里，定制锚框的大小根据背景是否被移除而改变。在不去除背景的情况下，kmeans推荐的锚框尺寸为7× 11，7× 16，9十，九十四，十一十二，十一十七，十三十，十七18和16 28.当背景被移除时，锚框的推荐尺寸被放大到17二十一，十八14,24三十一，二十五十六、二十七二十二，二十八三十九，三十三十八，三十六26和4541由于分辨率增加。6. 热身阶段：它冻结了一些先前层的权重，并通过Adam算法仅调整最后几个卷积层的权重。这里Adam算法的学习率是一个很小的值0.001。在获得稳定的损失值后，我们得到一个可用的模型，然后开始训练过程中的微调阶段。我们解冻所有层，并将Adam算法的学习率微调到更小的值0.00001继续训练，从而达到权重微调的目的。7. 学习率余弦退火：损失函数可能是多模态的，除了全局最小值，还有多个局部最小值。当执行YOLOv4训练时，梯度下降法容易陷入局部最小值的谬误。在这种情况下，我们可能会通过突然提升学习率来跳出局部最小值，找到通往全局最小值的路径。在训练YOLOv4的过程中，可以采用上述的一些策略事实上，没有一个单一的战略概况已被证明是最好的。最佳策略配置文件取决于图像集本身的条件。为了系统地进行模型训练策略配置文件的实验，我们以模型训练策略为因子，引入不同的水平，并将验证图像集的AP设置为因变量。因此，可以制定指定经营实体程序，以确定各种因素和水平的概况。由于测试每个模型训练策略轮廓需要很长时间，为了提高效率，本研究采用田口方法减少实验次数。与全因子实验不同，Tagu-chi方法不能找到模型训练策略的最佳配置文件;然而，它可以用最少的实验次数找到近似最佳的解决方案。此外，本研究选择AP作为田口方法的响应。在检测出缺陷后，根据检测结果的差异，S.- H. 陈玉-W. 赖角，澳-地L. Kuo等人沙特国王大学学报8048联系我们我验证图像集中的预测框和地面实况框。接下来，选择11次召回下的平均精度来近似曲线下面积（即AP），如Eq. （1）：AP1最大精度111r2f0; 0： 1;; 1： 0g回忆≥r该方法采用信噪比（S/N）越大越好（LTB）准则，最大化验证图像集的AP我们根据等式计算每个处理的S/N（2）、取各因子在各水平的S/N的平均值，最后输出主效应图。通过观察每个因子的主效应图中的正斜率或负斜率来确定模型训练策略的概况在这里，我们使用模型训练策略，在主效应图中使用正斜率。战略，进行了最后，我们使用这组因素再次训练YOLOv4优化模型，以显示其推理效果。本研究中使用的计算设备是Intel（R）Core（TM）i5- 9400 FCPU@2.90 GHz，RAM 64 GB，NVIDIAGeForce RTX2080 Ti 11G，编程环境为Python。4.1. 图像集我们选择金钻菠萝作为研究对象。图像由图2（b）中所示的设备捕获，每60度拍摄一张图像。单果重1400 ~ 1600 g。菠萝的形状和长度在每张图片中可能略有不同。结果，总共拍摄了725张因为注释非常耗时，仅选择225幅图像作为训练S=N¼ -10·log. X代表我1=AP2师！ð2Þ样本，其余图像用于测试和测量所提出的模型的性能。为了使图像更加多样化，本研究使用了图像增强技术（参见其中rep表示重复实验的次数4. 实验结果与讨论本章首先介绍了数据集，并演示了伪图像的生成过程。接下来，我们展示了抽查实验，合理选择YOLOv4作为主要缺陷检测方法。在此之后，田口方法，其中发挥了至关重要的作用，优化组合的模型列车-在子部分3.3中引入CycleGAN）以生成伪缺陷图像集和自动注释的XML文件。4.2. 通过CycleGAN获得的生成伪裂纹缺陷的结果为了通过CycleGAN生成伪缺陷，在实验中一方面，非缺陷贴片表1CycleGAN的培训过程迭代次数非缺陷非缺陷到缺陷重构非缺陷到非缺陷重构缺陷150100200300400500S.- H. 陈玉-W. 赖角，澳-地L. Kuo等人沙特国王大学学报8049图五. 伪裂纹缺陷。表2各种缺陷补丁和真实缺陷补丁之间的FID分数在伪缺陷被贴回之后没有不合适的感觉。在培训过程中，作者记录了与源比较真实缺陷补丁CycleGAN生成的DCGAN生成的伪缺陷片不同迭代次数下的原始面片、转换面片和重构面片，如表1所示。当迭代次数为1或50时，模型的性能真实缺陷补丁353.21 403.15不好，我们发现两个域的转换图像和重建图像非常模糊，有斑点，只有轮廓像原始图像。直到第200次被用作源域。从无缺陷的菠萝图像，我们随机选择了540块斑块，宽度范围从15到105像素，高度范围从17到88像素。另一方面，缺陷块作为目标域。从第3.2部分所述的手动注释中，我们随机选择了364个斑块，其宽度范围为16至83像素，高度范围为20至105像素。在实验中，我们在CycleGAN中引入了一致性损失函数。它不仅保持了原始图像的颜色和背景，而且允许非缺陷补丁生成具有现有色调和纹理的伪缺陷顺便说一句，斑块开始改善，但对比度仍然不足，色调较暗。该模型在第500次迭代时停止训练，此时已经建立了补丁转换的样式，并且叶序间隙已经转换为开裂，反之亦然。换句话说，重建的补丁与原始补丁非常相似。在CycleGAN训练完成后，将非缺陷补丁馈送到非缺陷到缺陷生成器中以获得对应的伪缺陷补丁。因为CycleGAN强调保持原始图像的颜色和背景结构，所以伪缺陷块可以被粘贴回它们的原始图像。表3不同数据集的抽查性能比较度量模型真实训练图像的一半所有真实训练图像将训练图像集加倍，伪图像FPS培训时间（小时）验证AP（%）培训时间（小时）验证AP（%）培训时间（小时）验证AP（%）Faster RCNN0.4617.990.7953.551.0565.454.70SSD5120.1812.730.3627.050.7846.407.06YOLOv40.363.640.5864.730.9882.496.41S.- H. 陈玉-W. 赖角，澳-地L. Kuo等人沙特国王大学学报8050最终的地方和适合他们的纹理上下文和准备他们的自动注释文件。在图5中，伪裂纹自然地嵌入在金钻菠萝的表面上。这些伪缺陷具有逼真性和不同的形状、大小和数量，增加了训练图像的数量，使缺陷多样化，因此YOLOv4可以学习更丰富的缺陷外观，从而提高模型接下来，作者评估了CycleGAN生成的伪缺陷的模拟。使用的指数是Heusel等人（2017）提出的Frechet Inception距离（FID）。与仅评估生成图像分布的Inception score（IS）不同，FID使用Inception v3特征向量提取器比较生成图像的分布和用于训练生成器的真实图像的分布。的公式如下：FID1/4kl-1k2变送器X=X-2。XX0：53将真实图像集和伪图像集的矩阵分别代入Inception- v3生成k1×2048和k2×2048矩阵，然后分别取列平均值得到lr和lg。继续，计算-根据lr和lg，最后，获取FID得分FID评分和图像质量已被证明高度相关。较低的FID分数表示较好的图像质量，较高的FID分数表示生成的图像可能包含随机噪声，这会使图像模糊和失真，并影响其质量。在计算FID分数时，为了测量CycleGAN的伪缺陷生成质量，作者从真实图像集和生成图像集中随机选择了200个补丁真实图像块和生成的图像块从手动标注和自动标注生成的XML文件的边界框中获取信息。我们故意将采样边界框的大小加倍。通过这样做，不仅可以提高rg2R G R G可以测量伪缺陷，而且可以测量伪缺陷的程度。伪缺陷与相邻颜色和纹理的匹配可能是一致的。其中l是均值向量，R是其中，r表示真实图像集，并且g表示生成的图像集。步骤：首先，输入k1和k2图像更强调，更强调。此外，DCGAN用于产生伪缺陷（Radford等人，2015年），其FID评分表4这七个因素被两个水平交叉。因子镶嵌图像增强CycleGAN图像增强背景去除类标号平滑自定义锚框尺寸加热阶段学习率余弦退火1级关闭关闭关闭关闭关闭关闭关闭2级对对对对对对对图六、平均S/N比的主效应图S.- H. 陈玉-W. 赖角，澳-地L. Kuo等人沙特国王大学学报8051图7.第一次会议。不同方法的缺陷检测结果（a1）-（g1）原始图像;（a2）-（g2）来自更快RCNN的结果;（a3）-（g3）来自SSD 512的结果;（a4）-（g4）来自原始YOLOV 4的结果;（a5）-（g5）来自优化YOLOV 4的结果。也通过与上述相同的取样实验计算，这使得可以比较CycleGAN和DCGAN产生伪缺陷的能力此外，作者从真实缺陷图像中采样两个聚类，并计算这两个聚类的真实缺陷块的FID分数作为参考基准。上述取样实验均随机重复5次，参照不更换取样。计算每个实验的FID分数，实验结果示于表2中。真实缺陷补丁之间的平均FID评分为353.21，这与其理想下限（0）相差甚远。然而，它可以作为衡量S.- H. 陈玉-W. 赖角，澳-地L. Kuo等人沙特国王大学学报8052产生的缺陷。从表2中，我们发现由CycleGAN和DCGAN生成的伪缺陷补丁的FID分数分别为403.15和433.84，在它们与真实缺陷补丁之间。也就是说，CycleGAN生成的伪缺陷补丁在粘贴回菠萝表面时更加4.3. 车型抽查分析在这里，我们对模型进行了抽查，以初步确认哪种目标检测模型更适合检测金钻菠萝表面缺陷的任务，并初步确认CycleGAN图像参数化是否能够提高检测性能。候选模型集是更快的RCNN，SSD512和YOLOv4，候选数据集是真实训练图像的一半，所有真实训练图像和训练图像集的两倍。首先，所有有缺陷的图像都被随机混洗。然后，我们从训练集中取出225张图像，并选择10%的图像作为验证数据集。在抽查过程中，没有修改每个模型训练策略的设置，只关注模型间验证集的表3显示了抽查结果。就处理时间而言，SSD512和YOLOv4显示了单级检测网络的优势。模型训练收敛时间不到1小时，推理速度超过6FPS。相比之下，更快的RCNN需要更多的时间来训练模型，推理速度也很慢。就预测性能而言，YOLOv4具有更好的预测能力，除了一半的情况，的真实训练图像进行训练，其验证数据集的最高AP达到82.49%。这是因为大多数裂纹缺陷只占金钻菠萝表面积的很小比例，这突出了YOLOv 40 s检测小物体的能力。此外，从表3中还可以发现，当训练图像的数量从一半增加一倍时，各种方法的验证数据集的AP都得到了显著提高。当训练数据集与CycleGAN生成的伪图像加倍时，各种方法的验证数据集的AP进一步提高。在训练图像数量有限的情况下，本实验提供了使用CycleGAN生成伪训练图像的理论基础。以训练时间、FPS和AP成绩为指标，考虑到验证数据集，我们决定使用YOLOv4和CycleGAN对金丝桃菠萝进行表面缺陷检测，具有训练时间短，平均推理速度快，预测性能高等优点。4.4. 模型训练策略剖面的优化过程及推理基于上一节的初步测试结果，本节继续借用田口方法对YOLOv4进行各种模型训练策略配置文件的优化过程。如3.4节所述，模型训练策略包括七个因素：马赛克图像增强、CycleGAN图像增强、背景去除、类标签平滑、学习锚框大小、操作预热阶段和学习率余弦退火。如表4所示，每个因素有两个水平（封闭/开放）;通过田口方法使用了7个两水平正交表（L 8）。这意味着正交表总共有八个模型训练策略组合，称为处理。在实验中，每个处理重复两次。在田口方法的过程中，YOLOv4的输入或输出根据每个处理给出的模型训练策略配置文件设置。训练完成后，记录每个轮廓对应的验证AP，并以越大越好的方式将其转换为信噪比（S/N）。最终绘制了每个模型训练策略的平均S/N的主效应图，如图6所示。我们看到马赛克图像增强、CycleGAN图像增强和背景移除的折线图都是正斜率，这意味着当这些模型训练策略打开时，YOLOv4表现得更好。其中CycleGAN图像增强效果最强。由于Taguchi方法推荐的策略配置文件未包含在8组处理中，因此我们根据其建议重新训练YOLOv4，优化的YOLOv4的验证AP达到90.94%。我们还尝试仔细优化更快的RCNN和SSD 512，相关验证

下载后可阅读完整内容，剩余1页未读，立即下载