深度学习计算机视觉用于机器人拆卸和维修的CRS检测模型性能分析

194 浏览量更新于2023-12-18 收藏 1.2MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

阵列12（2021）100094深度学习计算机视觉用于机器人拆卸和维修应用DanielP. 作者声明：John M. 放大图片作者：DiFilippo b，MusaK. 朱阿内a罗德岛大学，金斯敦RI，美国b约翰逊威尔士大学，普罗维登斯RI，美国A R T I C L E I N F O关键词：螺纹检测YOLO机器人拆卸机器人维修深度学习A B S T R A C T紧固件检测是基于计算机视觉的机器人拆卸和维修应用的必要步骤。深度学习（DL）提供了一种强大的方法来创建能够泛化的CV模型to diverse不同visual视觉environments环境.这种DL CV系统依赖于调整输入分辨率和小批量参数来满足检测应用的需求。本文提供了一种确定输入分辨率和小批量大小之间的最佳折衷的方法，以确定最高性能的十字槽螺钉（CRS）检测，同时利用最大的图形处理单元资源。选择Tiny- You Only LookOnce v2（Tiny-YOLO v2）DL对象检测系统来评估该方法。Tiny-YOLO v2用于解决电子设备中非常常见的CRS检测的专门任务。本文中使用的CRS检测方法是为了奠定基础的工作，多类紧固件检测，因为该方法是不依赖于类型或数量的对象类。手动收集900张分辨率为12.3 MPx的图像的原始数据集并进行注释以用于训练。另外三个不同的数据集，每个90张图像手动收集和注释用于测试。结果发现，在所有三个测试数据集测试的七个模型中，1664 x 1664像素的输入分辨率与16的小批量大小配对产生了最高的平均精度（AP）。这个模特得了AP在第一个测试数据集上为92.60%，第二个测试数据集上为99.20%，第三个测试数据集上为98.39%。1. 介绍电子垃圾是一个日益严重的问题。仅在2019年，全球就产生了5360万公吨的电子废物;然而，只有约17. 4%被正式回收。它据估计，到2030年，每年产生的电子废物将增加到7400万吨，每年增加近200万吨 [1]的文件。一半以上在发达国家收集回收的电子废物被送往发展中国家进行处理，而发展中国家的健康和安全法规没有得到执行，并且使用危险的电子废物回收方法[2]。处置电子废物的方法包括破坏性、半破坏性和非破坏性拆卸方法。破坏性拆解方法包括通过粉碎或冶金过程（水力或火法）销毁产品，以回收有价值的资源。当拆卸的目标是回收或再利用产品的零件时，非破坏性方法更有用。然而，非破坏性拆卸通常需要由训练有素的工人执行，由于工资和安全性，这可能是昂贵的[3]。机器人拆卸提供了一种有效的非破坏性方法来分解电子废物。这种方法可用于目标是以安全的方式重新使用零件或拆卸含有危险材料的零件的情况[4，5]。许多产品，如笔记本电脑、手机和电动汽车电池，都有外壳，外壳用紧固件固定在一起，在无损拆卸过程中必须松开紧固件。为了充分实现自动拆卸的潜力，有必要实施能够自动识别和定位这些外壳上的这些螺钉的计算机视觉（CV）系统[6]。机器人维修是CV紧固件检测的另一个关键应用。2013年，空间碎片的数量达到300万公斤，并继续增加。这些碎片对未来空间任务的安全构成严重威胁[7]。美国宇航局建议，退役的卫星应该在任务完成后25年内降低轨道并重新进入或将轨道提高到墓地区域以减少空间碎片的积累，但由于重大的技术挑战，∗通讯作者。电子邮件地址：danbrogan7@my.uri.edu（D. P. Brogan），Nicholas. jwu.edu（N.M.DiFilippo），jouaneh@uri.edu（M.K.Jouaneh）。网址：https://github.com/Dan-Brogan/Cross-Recessed-Screw_Deep-Learning-Datasets（D.P. Brogan）。https://doi.org/10.1016/j.array.2021.100094接收日期：2021年6月21日;接收日期：2021年8月20日;接受日期：2021年9月16日2021年9月23日网上发售2590-0056/© 2021作者。爱思唯尔公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表阵列期刊主页：www.elsevier.com/locate/arrayD.P. Brogan等人阵列12（2021）1000942与之相关的费用[8]。机器人服务可以延长现有卫星的寿命，而无需发送更多的替代品。因此，有必要开发在轨卫星服务机器人，以增加人造卫星的寿命[9]。CV可用于帮助机器人维修任务检测重要的机械特征，如紧固件和对接环。在这个应用程序中，照明和摄像头方向是高度可变的，深度学习为在这种可变环境中进行广义预测提供了一种可能的解决方案。机器人在卫星服务任务中特别有用，因为派遣人类的成本要高得多[10]。自动拆卸和维修机器人都需要CV系统来检测（分类和定位）紧固件和其他物体这样就可以用合适的工具来接合它们。本文评估了十字槽螺钉（CRS），一种常见的紧固件在电子产品中使用的检测。许多物体检测系统的目标是检测大型物体，如车辆和人[11]。在检测大型物体时，具有高输入分辨率并不重要，因为它们通常占据帧的大部分。在这种情况下，通常希望使用较低的输入层分辨率，因为它们可以以牺牲一些平均精度（AP）为代价来实现更快的检测速度[12]。探测CRS和其他小物体的挑战是，它们通常占据由于它们的尺寸，框架的相对小的部分。当由低分辨率输入层处理时，关于螺钉外观的重要视觉信息深度学习（DL）对象检测系统的训练和测试通常高度依赖于可用的图形处理单元（GPU）资源。神经网络（NN）中隐藏层的数量、输入层分辨率和小批量大小都取决于可用的GPU资源。对于给定的GPU，找到这三个参数的最佳平衡可能具有挑战性，特别是对于检测小物体。选择Tiny-You Only Look Once v2（Tiny-YOLO v2）DL对象检测系统进行评估，因为YOLO v2在文献中被高度记录为广泛使用的最先进的对象检测系统[12Tiny- YOLO v2使用Darkflow [13]设置，Darknet的Tensorflow翻译[18]。 YOLO v2有32个隐藏层，而Tiny-YOLOv2有16个隐藏层。使用Tiny-YOLO v2，因此可以在一个具有32 GB RAM的NVidia Tesla V100GPU的限制内以合理的小批量大小评估更高清晰度的输入层。本文提供了一种确定输入分辨率和小批量大小之间的最佳折衷的方法，以确定CRS检测的最高性能，同时利用最大的GPU资源。本文中使用的方法定义在编号并显示使用上述GPU工作，用于使用Tiny-YOLO v2进行CRS检测1. 确定给定GPU在默认小批量大小下可以支持的最高输入分辨率。• 注意：如果GPU无法支持默认mini-batch大小的至少高清晰度（1280 x 720像素），则可能需要功能更强大的GPU2. 选择几个高于和低于默认值的均匀间隔的小批量大小，并确定每个大小的最大相应输入分辨率。3. 获取图像的训练和测试数据集，其分辨率等于或大于上一步骤中4. 使用本文讨论的离散学习率衰减方法在每个输入分辨率/小批量配置下训练一个模型。5. 评估每个训练模型在指示所需操作状态的图像6. 选择性能最高的型号用于现场。1.1. 相关工作1.1.1. 物体识别任务最近，深度学习方法已应用于所有CV应用领域，如图像分类[19，20]，对象识别[21目标检测的目标是正确地对目标进行分类，并预测目标在图像[29]目标检测研究主要使用深度卷积神经网络（DCNN），这是一种前馈类型的神经网络，其工作原理是尝试使用卷积函数匹配图像中的特征[30]。Wei等人。[31]比较了图像处理和深度学习技术在检测铁路轨道紧固件缺失或断裂环节缺陷方面的有效性。比较了四种方法：经典图像处理，基于密集尺度不变特征变换（SIFT）的分类，基于VGG 16 DCNN的分类，以及基于快速区域卷积神经网络（R-CNN）的分类。Dense-SIFT方法的平均AP（mAP）得分最高，为99.26%，但图像处理时间最慢更快的R-CNN获得了97.90%的第二高 mAP，最快的图像处理时间为每张图像0.23秒。K. Zhang等人。[32]将注意力机制应用于自定义CNN，使他们的模型对前景像素更敏感以提高煤炭加工中异物的检测。他们的模型正确识别了测试集中97%的异物并将图像调整为416 × 416像素，批量大小为4，用于训练。低分辨率对于他们的应用效果很好，因为关注的异物占据了帧的相当大的一部分。小批量似乎工作得很好，因为可能的异物存在很大的变化，因此希望避免过度归一化模型以保持其对这种变化的敏感性Y. Zhang等人[33]研究了深度学习模型如何识别螺栓是否松动或拧紧以监测结构的健康状况（例如，随着时间的推移而松动的螺栓）。在测试中，螺栓被松开到不同的高度，模型能够检测到仅松开0.5厘米的螺栓总体而言，该模型能够实现95.03%的mAP。Wang，Li和Zhang [34]创造了一种建筑垃圾回收机器人，能够检测松动的钉子和螺丝。他们的视觉系统使用了Faster R-CNN，他们的模型在钉子和螺钉的测试数据集上实现了89.10%的mAP。Li，Zhao和Pan [35]在四个隐藏层网络中使用Fisher准则来获得织物中缺陷的位置和分类。他们的模型在测试数据集上的检测率（DR）超过90%，其中DR是正确检测到缺陷样本的比例特别是YOLO框架已经导致了许多有前途的应用程序的开发[5，14，36 Ding等人[36]开发了一种新型无人机（UAV），能够进行半自动空中钻孔和旋拧。他们的设计使用了YOLO v3 CV系统在钻孔和旋拧过程中实时检测目标并保持对准。使用600张不同角度和距离的目标图像的自定义数据集来训练YOLO v3模型，实验成功证明了高精度的空中钻孔和拧紧。Zheng等人[37]提出了一个包含13，000张无人机飞行场景图像的数据集，并评估了八种不同的DL CV系统在无人机检测上的性能。他们的研究评估了 RetinaNet ， Single Shot Detector ， YOLO v3 ， FeaturePyramid Network，Faster R-CNN，Refinedet，Grid R-CNN和Cascade R-CNN DL CV系统。每个系统都使用70%的数据集进行训练，剩下的30%用于测试。YOLO v3实现了72.3%的AP，介于性能最低的Refinedet（69.5%）和性能最高的Grid R-CNN（82.4%）之间。他们报告说，在所有八个系统中，Grid R-CNN的图像处理时间最慢，为157 ms，而YOLO v3的图像处理时间最快，为32 ms。D.P. Brogan等人阵列12（2021）1000943��Chen等人[14]使用由超分辨率CNN（SRCNN）和YOLO v3组成的检测管道来检测来自UAV检查图像的电气部件。他们使用SRCNN来增强模糊图像的分辨率，然后将其发送到YOLO v3进行检测，并且能够通过其检测管道实现93.60%的mAPYildiz和Wörgötter [5]研究了几种用于硬盘驱动器中螺钉检测的DL方法。他们评估的第一种方法使用Hough变换来检测作为螺钉候选者的圆。螺钉候选者被发送到分类器，该分类器预测这些候选者的类别和位置。他们的最佳模型使用了InceptionV3和Xception分类器所做预测的加权决策。该模型在其测试数据集上的AP为80.23%。他们将这些结果与使用YOLO v3训练的模型进行了比较，该模型在测试数据集中的AP为66.47%1.1.2. 迁移学习与神经网络迁移学习是一种将训练附加到预训练模型上以使其重新用于所需应用程序的方法。在许多问题中出现的一个常见问题是有限的训练数据，因为获取和注释新训练数据的成本[39]。使用YOLO网络的各种应用程序，例如对象检测[40，41]和医疗问题诊断[42Li等人[16]介绍了一种基于迁移学习和样本增强的方法，使用少量训练样本，能够对87.5%的对象进行分类。他们首先使用来自PASCALVisual Object Classes（VOC）数据集的不相关样本数据和Tiny-YOLO v2初始化训练权重，然后使用Tiny-YOLO v2网络进一步训练数据。迁移学习可以用来改善模型的检测结果。Raza和Hong [41]设计了一个使用YOLO v3的计算机视觉模型，用于监测海洋生态系统中的鱼类。他们使用了一种迁移学习方法，该方法在ImageNet数据集的120万个样本上进行了预训练。通过结合迁移学习方法以及其他一些改进技术，他们能够将mAP提高4.13%。 Montalbo等人[42]开发了一种可以检测三种类型脑肿瘤的模型，并使用了Tiny-YOLO v4和COCO数据集的预训练权重。他们实现了93.14%的mAP，优于其他试图使用不同深度学习网络检测脑肿瘤的研究。1.1.3. 拆卸时自动检测螺钉在诸如机器人拆卸的应用中，自动螺钉松解是机器人可以执行的重要任务。机器人已经执行装配操作的螺钉紧固[45，46]，并且已经有许多研究详细介绍了用于紧固应用的机器人系统[47，48]和末端执行器[49在这些装配应用中，当预先知道螺钉位置时，可以使用夹具和柔顺装置来实现正确的螺钉对准。当事先不知道螺钉位置时，如拆卸操作的典型情况[38，52]，可以使用视觉系统以确定螺钉位置[45]。Gil等人。[53]使用各种计算机视觉技术，如Douglas-Peucker算法，自适应阈值，Canny边缘检测和模板匹配的区域检测，以识别螺钉和其他组件（盖子，电线，电池等）等特征。在电子设备上创建一个机器人系统来执行灾难性的任务。Bdwidi等人还设计了一个工作站，可以自动拆卸电动汽车电机。他们使用了能够提供深度数据、特征点检测器（如自动拆卸过程中可能出现的不确定性。作者报告说，该系统使用计算机视觉自动确定螺钉的位置，高数量的假阳性（82.83%）和假阴性（35.78%）检测。假阳性检测将导致冗余的切割操作，并且需要人为干预以进行拆卸。Wegener等人。[6]提出了一种人工辅助机器人工作站的概念，用于拆卸电动汽车电池，其中紧固件检测是机器人的主要任务。他们研究了紧固件检测的三种方法：使用计算机辅助设计（CAD）数据库，物理演示螺钉的位置，以及CV算法。他们确定，回收商通常无法访问详细的CAD数据库，并且物理演示过于耗时，因此使这些方法不切实际。使用CV算法的最后一个他们的模型只能正确检测测试数据集中50%的螺钉DiFilippo和Jouaneh [4]开发了一种自动化机器人拆卸系统，该系统结合了CV和力传感，可从笔记本电脑背面拆卸螺钉。该系统包括两个网络摄像头、一个微软Kinect传感器和一个带有驱动传感器（SE）螺丝刀的3轴腕式机器人。一旦将笔记本电脑放置在工作区上，头顶上的网络摄像头就使用霍夫圆变换将圆识别为螺钉然后，机器人将移动到这些圆圈的位置，并使用连接到机器人末端执行器的网络摄像头然后SE螺丝刀将通过尝试移除它来测试圆圈是否是螺钉。如果检测到螺钉，则机器人移除螺钉，如果没有检测到螺钉，则机器人将移动到下一个圆圈位置。事实证明，这一过程十分耗时。通过使用Soar认知架构[56]，螺钉位置可以在第一次通过后存储在语义记忆中，从而减少螺钉在随后的通过中的去除时间。即便如此，循环时间为6.5s。本文基于他们之前的工作，提出了一种优化的基于DLTiny-YOLO v2的CV系统，该系统可以以超过3帧每秒（FPS）的速度处理高分辨率图像。该方法的图像处理速度不依赖于每个图像中的螺钉/螺钉状物体2. tiny-YOLO v2物体检测系统Tiny-YOLO v2是YOLO v2的轻量级版本，衍生自原始的YOLO对象检测系统[12]。 YOLO、YOLO v2和Tiny-YOLO v2是可应用于实时应用的高性能DL对象检测系统。 YOLO与其他对象检测系统的独特之处在于，它使用单个NN同时预测边界框和对象类Tiny-YOLO v2有1个输入层，9个卷积层和6个最大池化层。未修改的Tiny-YOLO v2输入层将图像大小调整为416 x 416像素，其中输出被传递到卷积层进行特征提取。最大池化用于降低卷积层输出的维度YOLO将图像划分为S x S网格，其中每个网格单元预测具有相应置信度分数的B边界框。置信度C表示对象被包围在边界框中的概率，并表示为：哈里斯检测器，然后多个优化步骤，以确定螺丝钉和删除假阳性。使用这些类型的��=（一）分类器的缺点在于它们可能严重依赖于照明并且需要受控的照明环境。Vongbonyung等人[54，55]设计了一种机器人系统，可以学习动作并修改它们以进行切割以拆卸显示器。该系统还能够处理其中交集大于并集（IOU）定义为检测和地面实况边界框的重叠区域除以它们的并集形成的区域。的图形表示的IOU显示在图。1.一、D.P. Brogan等人阵列12（2021）1000944Fig. 1. 并度量上交的图形表示。表1Tiny-YOLO v2型号配置。型号小批量输入分辨率A 8 2368 x 2368B 12 1920 x 1920C 16 1664 x 1664D 20 1472 x 1472E 24 1344 x 1344F 28 1248 x 1248G 32 1184 x 11843. 训练方法输入分辨率和小批量大小是直接影响深度NN性能输入分辨率在Tiny-YOLO v2网络的第一层中定义。在这一层中，任何大小的图像都可以被网络接受，并根据网络配置指定的输入分辨率调整大小在本文中，指定了高清晰度（像素密度等于或大于1280 x 720）输入分辨率在此过程中保持原始纵横比更高的输入分辨率允许网络处理更高分辨率的图像。在每一步（梯度更新），模型都会根据一小批图像的归一化训练损失结果更新其权重。训练损失报告模型的预测与每个步骤结束时训练数据集的地面真实值之间的误差。更高的小批量大小允许更规范化的学习，而更小的小批量大小可能会在报告的训练损失中引起噪声输入分辨率和小批量大小都取决于GPU内存分配的可用性。因此，需要确定这两个参数之间的最佳折衷。使用输入分辨率和小批量大小的不同组合来训练总共七个模型，以确定最佳训练条件。选择这些组合是为了代表小批量和分离度的广泛合理组合，从中应出现报告AP的趋势。表1显示了每个模型的输入分辨率/小批量配对。Tiny-YOLO v2的默认小批量大小为16，并且在从默认小批量值的一半（8）到默认小批量值的两倍（32）的四个小批量的均匀间隔的步骤中探索高于和低于该默认值的小批量大小。每个模型的小批量大小都与相应的输入分辨率配对，以充分利用GPU的资源。这些输入分辨率值是通过试错过程确定的，该过程找到对于给定的批处理大小不会产生内存错误的最高输入分辨率。输入分辨率被选择为正方形，以保持对一个图像方向无偏置，因为输入图像可以是横向或纵向方向。应该注意的是，Tiny-YOLO v2的输入分辨率可以具有矩形尺寸。所有数据集均使用Google Pixel 12.3 MPx（3036 x 4048像素）相机手动收集，以保持均匀的高分辨率。Tiny- YOLO v2在训练和测试期间自动将这些图像的大小调整为指定的输入分辨率。因此，期望以与指定的输入分辨率相同或高于指定的输入分辨率的图像分辨率开始，使得可以保持最大的视觉信息手动为每张图像生成包含螺钉位置和分类的地面实况文件。Tiny-YOLO v2使用这些地面实况文件通过将螺钉的位置和分类与相应图像相关联来训练模型。测试过程还需要这些地面实况图像，因为它们与检测结果进行比较以确定AP。训练数据集由900张带有嵌入式CRS的通用电子和硬件图像组成。此数据集中的对象包括笔记本电脑、计算机塔、硬盘驱动器、示波器、电源和其他各种硬件。由于对象的多样性，该数据集包含CRS的许多变体。这900张图像是在高度可变的环境中拍摄的，具有各种照明条件和与物体的距离（距离物体表面约4至8英寸）。该数据集预期具有高度可变性，因为假设这种可变性将提高模型的泛化能力。图2示出了所包括的图像的样本。在这一套。由于900张图像的训练数据集相对较小，因此采用类似于[16]中讨论的每个模型都从 [18] 中的 Tiny-YOLO v2 Visual Objects Classes（VOC）权重文件中进行训练，该文件已在VOC [11]数据集上进行了预训练。通过验证集来评估模型在给定训练迭代下的泛化能力。确认集将被称为测试集A，其中包含90个嵌入CRS的硬件图像测试集A中的图像不存在于训练数据集中，用于在整个训练过程中衡量模型的性能培训完成后，在第4节中记录测试集A上每个模型的最终性能结果。每个模型的训练方法如下。使用离散学习率衰减方法在测试集A上获得最佳AP。学习率是一个参数，它决定了在每次训练迭代之后，响应于模型预测和地面实况之间的报告误差，应用于模型图图3显示了每个训练模型的学习率进展方法。该方法首先需要以5e-5的高学习速率训练模型，直到在测试集A上达到该学习速率的最大可达到AP。然后，模型继续以2 e-6的降低的学习速率进行训练，直到在测试集A上达到针对该降低的学习速率的最大可达到AP。为了确定高学习率和降低的学习率的最大AP，在发生损失收敛的情况下执行验证测试最终的训练模型是这个过程的结果。图4（a）显示了所有七个模型的训练损失曲线的整体视图。所有损失曲线都遵循相同的趋势，但具有较高输入分辨率的模型往往会以更大的损失值初始化。这种更高的损失可能与从更高分辨率的图像中学习更多有关。更高分辨率的图像固有地包含更多的信息，因此初始训练损失随着输入分辨率的增加而增加具有更高分辨率的模型通常也需要更多的步骤来训练;然而，这一趋势并没有完全遵循图图4（b）显示了所有七个模型的训练损失开始收敛的放大视图。如前所述，批量较小的模型往往会在报告的训练损失中引起更多的噪音。这在图中清楚地表示。4（b），因为模型A具有最低的批量大小并且显示出最多的噪声，而模型G具有最高的批量大小并且显示出平滑的曲线。所有七个模型一致地以增加初始损失值的顺序收敛。虽然这在整体视图中似乎可以忽略不计，但在放大视图中确认此行为是有帮助的，因为预计较高的初始损失值应该需要更长的时间才能收敛。D.P. Brogan等人阵列12（2021）1000945图二. 用于训练每个模型的图像样本。图3.第三章。在整个训练过程中，每个模型的学习率进展。图四、在步骤上报告训练损失。（a）在整个培训过程中对每个模式的总体看法（b）每个模型的初始收敛性的放大视图4. 测试结果和讨论每个模型在三个不同的数据集上进行测试;测试集A，B和C.作者选择使这些测试集之间的视觉环境（照明、CRS相对于整体框架的尺寸、距离和摄像机角度）相同，以捕获该视觉系统在标称操作期间可能遇到的可能条件的广泛代表性。因此，作者认为没有必要做一个系统的调查模型的性能作为视觉环境的功能。每个测试数据集由训练数据集之外的90个新图像组成。表2提供了每个测试集的CRS总数、描述和样本图像测试集A也用于训练验证，由具有嵌入式CRS的通用硬件的图像组成。该测试集评估模型对训练数据集中发现的当给定特定任务时，评估模型的性能是有用的，它们不是主要训练遇到的。测试集B和C提供两个不同的专门任务。测试集B评价模型在笔记本电脑和测试集上执行CRS检测的能力C评估其在盒装电子设备（如电源、电动工具和示波器）上执行CRS检测的能力。AP度量用于评估每个模型的性能。AP计算在[ 11 ]中定义的单个类的单调递减的精确率-召回率曲线下的面积供参考，图。图5显示了与表3相似的信息，但以视觉格式显示了模型C在测试集A上的精确度-召回率曲线。可以为所有测试集（A、B、C）上的所有模型（A-G）构建类似的图。IOU用于区分真阳性（TP）和假阳性（FP）。 TP被定义为具有正确分类的预测，IOU超过50%。FP被定义为使用IOU的检测低于50%。由Cartucho、Ventura和D.P. Brogan等人阵列12（2021）1000946表2测试集描述。图五. 测试集A上CRS检测的模型CVeloso [17]用于绘制AP并生成地面实况边界框上的检测表3显示了每个型号在测试集A、B和C上的AP、TP、FP、网络初始化时间、总预测时间和FPS。网络初始化时间是Tiny-YOLO v2设置网络进行测试所需的时间。总预测时间是将整个数据集通过网络，同时为每个图像依次生成检测输出文件所花费的时间。FPS定义为通过网络的图像数量除以总预测时间。报告的网络初始化时间和总预测时间是每个模型五次试验的平均结果。这些结果被平均以解释GPU在计算时间上的轻微变化。对于给定的训练模型，AP、TP和FP将始终保持不变，因为在测试期间，模型的权重和输入图像像素都不会Model C在所有三个测试集上的AP得分最高表4显示了代表模型C在所有三个测试集上的性能的图像样本。检测显示为标有“CRS”的绿色或红色框，代表十字槽螺钉。与每个检测相关联的地面实况框以蓝色显示。绿框代表TP，红框代表FP。试验组A共包含164枚螺钉。模型C正确预测了152个螺钉，但仅预测了1个FP。这表明模型C更有可能错过TP，而不是在测试集A中分配FP。如表4所示，模型C在以下情况下表现非常好：表3测试集A、B和C的结果模型测试集AAP TP FP网络总帧数Init. time（s）预测时间（s）每秒142 2 10.053 49.576 1.815B 92.44% 154 4 10.052 42.014 2.142C 92.60% 152 1 10.047 35.507 2.535D 90.41% 151 4 10.022 32.989 2.728东91.74% 153 8 10.057 30.193 2.981146 4 10.039 28.915G 83.66% 141 10 10.047 28.720 3.134模型测试集BAP TP FP网络总帧数Init. time（s）预测时间（s）每秒A 90.44% 120 4 10.084 49.869 1.805B 98.88% 130 4 10.042 41.722 2.157C 99.20% 130 2 10.045 35.541 2.532D 95.01% 125 2 10.066 31.892 2.822东93.54% 123 4 10.058 30.599 2.941法国92.01% 121 2 10.072 28.610 3.146G 93.50% 123 4 10.016 28.470 3.161模型测试集CAP TP FP网络总帧数Init. time（s）预测时间（s）每秒A 84.82% 170 1 10.090 48.901 1.840B 90.50% 181 0 10.090 40.497 2.222C 98.39% 197 1 10.081 34.244 2.628D 94.42% 189 2 10.048 30.033 2.997东91.21% 183 7 10.048 29.393 3.0622019 - 06 - 28 00：00：00G 90.10% 181 10 10.053 27.577 3.264呈现出混合了螺丝和螺丝状物体的图像格栅、连接器和孔通常在外观上是螺钉状的，并且对于经典CV技术来说可能是困难如图所示，本文中使用的表4中右上角的图片显示了测试集A中预测的唯一FP型号C，它是电子设备外壳中的圆形外壳。模型C在测试集A上获得了92.60%的AP，平均速度为2.535 FPS。这一结果再次肯定了使用DL技术进行紧固件检测的价值，因为它们在优化时可以表现出高性能和速度。试验组B共包含131枚螺钉。模型C正确预测了130个螺钉，而仅预测了2个FP。两个FP病例如表4中的中间和中右图片所示，其中模型将电源连接器和另一个圆形特征误认为螺钉。尽管如此，模型C在呈现包含不包含螺钉的孔的图像时是稳健的。Model C在测试中获得了99.20%的AP设置B，平均速度为2.532 FPS。试验组C共包含200枚螺钉。模型C正确预测了197个螺钉，而仅预测了1个FP。FP情况如表4的右下图所示，其中模型确实在边界框中包围CRS;但是，IOU小于50%，这导致FP。模型C在测试集上的AP评分为98.39%C，平均速度为2.628 FPS。这些结果表明，模型C是高度鲁棒的，当给定的专门任务的CRS检测盒装电子产品。图6显示了所有三个测试集上所有七种输入分辨率的FPS。对于所有测试集，平均FPS随着输入分辨率的增加而降低。这是预期的，因为需要更多的计算来评估更高分辨率的图像。测试集A、B和C的FPS曲线几乎相同，并且遵循相同的轨迹。两条曲线之间的微小变化可以归因于GPU处理速度的轻微不一致。应该注意的是，使用经典技术所花费的CV时间取决于图像中螺钉和螺钉状物体的数量[4，56]。图 6个节目，即使三个不同的D.P. Brogan等人阵列12（2021）1000947表4模型C检测到来自测试集A、B和C的输出图像。* 某些图像已旋转90度，以更好地适应表格，因为测试集包含两个肖像风景图像。与先前结果的比较可以在表5中找到，其中本文描述的工作被称为Tiny-YOLO v2（模型C）。在检测准确性方面，Wegener等人[6]使用了HaarCascade分类器，但只能检测到50%的螺钉。 Vongbunyong等人[54，55]也使用了Haar分类器，并报告能够检测到超过80%的螺钉[54]，但他们也指出了大量的假阳性螺钉检测（82.32% ）和假阴性螺钉检测（35.78%）[55]。Yildiz和Wörgötter [5]报告说，他们的自定义深度学习模型能够在与66.47%的YOLO v3相比，测试数据集能够做到。DiFilippo和Jouaneh [56]使用轮廓和斑点检测测试了多台笔记本电脑，检测的准确性基于笔记本电脑的颜色和视觉系统设置。该系统在较轻的笔记本电脑上表现最好，检测到86.7%的螺钉，最快的计算机视觉时间为每个螺钉6.5秒。对于外壳较暗的笔记本电脑，正确识别的螺钉百分比下降。工作见图6。所有测试的图像处理速度报告为输入分辨率的函数集.数据集与不同数量的螺丝和螺丝样对象进行评估，CV时间几乎完全取决于输入分辨率。这表明，使用较少螺钉的图像可能会在与使用许多螺钉的图像相同的时间内进行图图7a示出了AP与小批量大小，图7b示出了AP与小批量大小。图7b）示出了AP与输入分辨率的关系，图7c）示出了作为输入分辨率和小批量大小的函数的在测试集A、B和C上评分的AP的3D图。模型在测试集B上得分最高，可能是因为它具有最小的对象种类。模型在测试集A上得分最低，可能是因为它包含了最多的对象。所有三个测试集的一般AP曲线这表明本文所用的方法产生了该配置在CRS检测任务的几种变化在本文中得到的结果表明，从以前的工作中，无论是在时间检测螺钉或螺钉检测精度的结果，已报告的改进。这项工作本文提出的模型具有更高的百分比，因为最佳训练模型（模型C）在测试集A上的AP为92.60%，在测试集B上为99.20%，在测试集C上为98.39%。它也比之前报告检测螺钉所需时间的系统更快[4，55]，因为处理一个帧大约需要0.4秒。5. 结论总之，紧固件检测是基于CV的机器人拆卸和维修应用的必要步骤。使用DL进行此任务提供了几个优势，经典的CV技术，包括更高的检测速度和性能。紧固件通常占据图像的一小部分，因此使用高分辨率NN在检测图像时捕获最大细节。对于给定的NN，需要找到输入分辨率和小批量大小之间的最佳折衷，因为这两个参数都取决于可用的GPU资源。本文提出了一种方法，以确定最佳的输入分辨率和小批量大小的CRS检测，同时利用最大的GPU资源之间的比较。一个最佳的妥协为NVIDIA特斯拉V100 GPU与32 GB的RAM被发现与小批量大小为16和输入分辨率为1664 × 1664像素。在这个D.P. Brogan等人阵列12（2021）1000948图第七章（a）AP与所有测试集的小批量（b）AP与所有测试集的输入分辨率（c）AP报告为所有测试集的输入分辨率和小批量大小的函数表5螺钉检测与先前结果的比较作者准确度（%）检测时间（s）Wegener等人[6] 50个未报告Vongbunyong等人[54，55]>80 [54] 2.6082.32（假阳性）[55]35.78（假阴性）[55]Yildiz和Wörgötter [5] 80.23（自定义DCNN）未报告66.47（YOLO v3）迪菲利波和Jouaneh [4] 86.7（轻型笔记本电脑-最佳参数）6.7Tiny-YOLO v2（型号C）92.6（测试集A）0.499.20（试验组B）98.39（测试集C）配置中，型号C在测试集A、B和C上的AP得分分别为92.60%、99.20%和98.39%。本文模型的局限性必须牺牲FPS来获得如此高的输入分辨率。虽然比经典的CV技术快得多，但本文中最快的模型仅运行约3FPS。这些来自最佳性能模型的结果表明，与文献中提出的先前模型和方法相比，准确性和检测时间有所改善。另一个限制是为了检测螺钉而手动创建训练数据集所花费的前期时间。除非公开可用，否则从业者必须为其特定应用生成自己的训练数据集。出于这个原因，作者创建了一个公开可用的存储库，其中包含本文中使用的手动生成的数据集。可以通过以下链接访问存储库：https://github.com/Dan-Brogan/Cross-Recessed-Screw_Deep-Learning-Datasets。未来的工作应该包括训练一个单一的Tiny-YOLO v2网络来检测多种类型的螺钉，甚至是电子产品上常见的其他有用功能。多类检测的一些考虑因素包括对多个对象类的额外训练数据的要求，并且mAP度量应该用于代替AP来评估性能。假设本文中使用的方法适用于任何GPU;然而，需要进一步的工作来研究这一假设。未来的工作还应该调查这个CV系统集成到一个机器人测试床。CRediT作者贡献声明Daniel P. Brogan：方法论，资金获取，数据处理，形式分析，软件，可视化，写作-原始草稿。尼古拉斯·M项目管理，监督，构思，撰写评论编辑&. 穆萨湾Jouaneh：项目管理，监督，概念化，写作-评论编辑&.竞合利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作致谢第一作者要感谢美国宇航局罗得岛州-土地空间赠款（RISG）财团，美国支持他的工作，这个项目NASA RISG财团提供独立于影响研究设计的财政支持;收集，分析和解释数据;撰写报告;或决定提交文章出版。我们还要感谢Harrison Decker和Indrani Mandal提供了进入罗德岛大学的机会AI实验室GPU计算资源。引用[1]Forti V，Baldé CP，Kuehr R，Bel G. 2020年全球电子废物监测。Tech.代表，波恩/ 日内瓦 / 鹿特丹：联合国大学，国际通讯。联合国际固体废物协会（ISWA）;2020年。[2]作者： Sthiannopkao S， Wong MH. 处理电子废物发达和发展 -ingcountries ： Initiatives， practices ， and consequences.科学总环境 2013;463：1147-53。[3]崔J，福斯伯格E.废弃电子电气设备的机械回收：综述。 J Hazard Mater2003;99（3）：243-63.[4]DiFilippo NM，Jouaneh

下载后可阅读完整内容，剩余1页未读，立即下载