智能系统：利用深度学习算法自动处理车辆损伤评估的应用

108 浏览量更新于2023-12-10 收藏 1.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

智能系统与应用18（2023）200192使用增强的深度的学习算法Jihad Qaddour*，Syeda Ayesha Siddiqa伊利诺伊州立大学信息技术学院，美国A R T I C L EI N FO保留字：车辆损伤评估深度学习实例分割，Mask R-CNN，目标检测，迁移学习A B S T R A C T由于补贴企业花费的成本与必须报销的准确数量之间的差异，索赔泄漏每年给保险公司造成数百万美元的损失。因此，处理索赔以确定和分类汽车损害需要时间，对保险提供商来说成本高昂。在本文中，我们使用一种改进的Mask R-CNN方法，该方法具有显著的对象检测研究优势，可以自动检测，识别和分类交通事故中的汽车损坏部位。检测和标记图像在一辆损坏的汽车上，我们使用了深度学习、迁移学习、Mask R-CNN和实例分割的组合。此外，一个基于网络的自动索赔估计器可以接受用户的照片，并自动确定损坏的位置和程度。此外，三种不同的预训练模型，即Inception ResNetV 2，VGG-16和VGG-19，用于帮助快速收敛。最后，比较性能评估采用了几个评估指标，如精确度，召回率，F1分数，准确度，损失函数和基于三个预训练模型的混淆矩阵。实验结果表明，该方法不仅识别损坏的车辆，但也定位他们，并确定其严重程度，实现了研究的目标，自动定位和分类汽车损坏。根据数据，使用Mask-RCNN和预训练的Inception ResNetV 2在所有检测，定位和严重损坏性能类别中都优于其他模型。1. 介绍处理用于识别和分类汽车损坏的索赔对于保险提供商来说是耗时且昂贵的。此外，糟糕的决策、欺诈和处理使保险公司损失了数百万美元。因此，他们是第一个投资AI（人工智能），增加自动化和其他技术的公司。（N. Dhieb等人， 2019年）。此外，津贴公司花费的成本与必须支付的准确成本之间的差异被称为索赔泄漏（Wassel，2018），这使车辆保险公司花费了大量资金，并导致客户服务差。AI和DL（深度学习）算法被设计用于辅助许多领域，例如机器人（Sünderhauf等人， 2018;Ka'roly等人， 2020）、医学科学（Bhatt等人， 2021）和计算机视觉（Kim &Lee，2019）。许多深度学习工具也被用来帮助应对保险行业的几个困难（Singh等人，2019），如数据分析（王&旭，2018），欺诈发现（Gomes等人，2021）、风险缓解（Kim等人， 2022）和自动化索赔过程（Waqas等人，2020年）。DL技术还可用于防止索赔泄漏，并使提供视觉检查和验证的索赔过程（Imaam等人， 2021年）。如Supraja和Saritha（2017）所述，AI已经成功地证明了检测涉嫌共谋的欺诈行为的有效性水平。另一方面，一些研究人员致力于构建与自动视觉识别相关的服务，为保险公司提供不同的解决方案，以发现和检测车辆损坏。Patil等人（2017）提出的研究使用深度学习的方法来发现汽车的损坏（N。Dhieb等人，2019年）。卷积神经网络（CNN）、以视觉几何组-16（VGG 16）表示为条件的传递信息以及以通过微调开发的预训练框架为条件的复杂度自动编码器是解决这个问题的三种方法。尽管如此，先前的研究仅限于确定车辆损坏，而没有提供额外的细节。此外，由于它对过拟合特别敏感，因此无法评估损坏的严重程度或精确定位（Simonyan&Zisserman，2014）。其他领域已经着眼于损伤检测和可视化。例如，用于无人机* 通讯作者。电子邮件地址：jqaddou@ilstu.edu（J.Qaddour），asyeda1@ilstu.edu（S.A.Siddiqa）。https://doi.org/10.1016/j.iswa.2023.200192接收日期：2022年10月22日;接收日期：2023年1月7日;接受日期：2023年2023年3月8日网上发售2667-3053/© 2023作者。爱思唯尔有限公司出版这是CC BY许可下的开放获取文章（http://creativecommons.org/licenses/by/4.0/）。可在ScienceDirect上获得目录列表智能系统及其应用杂志主页：www.journals.elsevier.com/intelligent-systems-with-applicationsJ. Qaddour和S.A. 西迪卡智能系统与应用18（2023）2001922Attari等人（2017年）给出了用于亵渎测量的无人机（无人机）。引入了一个融合的深度学习管道来检测结构，然后对此类结构的细粒度损伤进行分类。Alfarrarjeh等人（2018）创建了一个道路损坏检测和街道监控系统，其中使用一个名为You Only Look Once（YOLO）的预训练模型，使用预训练模型YOLO将几个道路损坏类别识别为图像中的可识别对象。然而，其准确度和精确度要差得多，但不失为一种快速的方法.此外，当涉及图像分类时，存在与DL模型的应用相关联的一些挑战，因为模型必须在大量图像上训练，以便获得非常高的性能和精度。首先，很难获得大量公开的受损汽车图像。其次，给定大量训练数据，DL将需要大量处理资源来训练模型。模型的训练过程也需要时间。第三，诸如CNN的DL模型将具有大量必须调整的参数和超参数在本文中，我们使用CNN，迁移学习和增强的Mask-R-CNN通过自动检测器检测，定位和分类汽车损坏的严重程度。与早期的研究不同，我们的方法不仅可以找到损坏，还可以自动确定其严重程度，并将其设想在车辆的图片上，主要是指定车辆损坏程度的严重程度。我们混合了DL，迁移学习，Mask R-CNN和实例分割来识别和分类受损车辆的图像。此外，我们开发了一个Web应用程序，使用损坏车辆的照片进行自动检测和分类估计。此外，为了实现快速收敛，三种不同的预训练模型，即inception ResNetV2（Szegedy et al.，2017）、VGG-16和VGG-19（Simonyan Zisserman，2014&）。最后，采用三个预先训练的模型，比较性能评估精度，召回率，F1分数，准确率，损失函数，和混淆矩阵。此外，我们使用改进的Mask R-CNN来自动检测交通事故中的汽车损坏区域，这在物体识别和交通领域具有重要的研究价值和广泛的应用场景。因此，我们将迁移学习、Mask R-CNN和实例分割方法相结合，以更好地进行特征学习和损伤识别，从而对受损车辆的图像进行定位、识别和分类。以下是我们的逐点贡献：使用受损车辆的图像，我们提出了一种新的模型，该模型结合了混合DL、迁移学习、Mask R-CNN和实例分割，以识别、分类和评估事故的严重程度。还使用精确度、召回率、F1分数、准确度、混淆矩阵和损失函数使用三种不同的预训练模型进行比较分析，即，VGG-16、VGG-19和Inception ResNetV 2。研究结果表明，预训练的Inception ResNetV 2模型在所有检测，定位和严重损坏性能类别中击败了VGG-16和VGG-19模型。最后，我们开发了基于Web的自动索赔估计器，使用最佳预训练模型与增强的Mask R-CNN集成索赔估计器可以接受用户在交通现场事故中的照片，并自动确定损坏的位置和程度。论文的结构安排如下：第二是相关研究.第三介绍了汽车损伤识别的框架在第4节中，我们提出了一个性能评估和分析的实验结果。在第5中，介绍了基于Web的自动索赔估算器第六节最后给出结论。2. 相关工作由于与车辆识别、分割和跟踪相关的极端多个问题&研究人员研究了各种基于计算机视觉和图像处理的技术，以实现车辆识别、分割和损坏检测。以下各小节将讨论其中一些工作2.1. 使用传统图像处理方法的图像处理通常包括许多变换和提取特征，以及针对诸如车辆检测和车辆损坏的各种应用而研究的分析技术。流行的方法之一包括HOG（有向梯度直方图），其与k-最近邻（KNN）算法流水线化（Putra等人，2020），以达到84%的准确度水平与线性支持向量机（SVM），得到一个2.57%的错误，在颜色空间的酒吧，显示压缩视频可能会导致几个误导性的指导方针。Son等人（2019年）的研究提出了一种相关性过滤器，首先利用Canny变换检测车辆，然后利用Hough变换提取斑块和车道，然后进行相关性分析，以获得96.4%的准确度（Yuan等人，2019），其使用类平方误差的改进版本来知道目标车辆的位置。然后，使用Adaboost分类器进行类似于HAAR的特征分析，以进行检测验证并与传统方法进行比较。然而，在他们的分析中，损失图显示了测试损失和训练损失之间的差距，表明存在过拟合问题。此外，在Choudhury等人（2017）;Haselhoff和Kummert（2009）;Al Mamun和Deb（2019）的研究中，研究了HAAR特征，然后使用机器学习分类器进行了其他特征提取，如卡尔曼滤波器和三角形特征2.2. 使用深度学习方法进行AlexNet（Krizhevsky等人，2017）除了ImageNet的竞争之外，还允许使用CNN来检测对象。根据PASCAL VOC 2012数据集的趋势，各种工具，如R-FCN，R-CNN（Ren等人，2015）和Fast R-CNN（Girshick等人， 2014年; Gir-shick &Fast，2015年）使用独特的卷积层配置与填充层的混合物，通过利用选择性研究来寻找区域建议，但它被证明是缓慢的。因此，提出了RPN（区域建议网络）来响应单阶段检测器方法，如几个 YOLO 版本（ Redmon 等人， 2015 ）和（ Redmon &Farhadi ，2018）。此外，其主要目的是通过在一个步骤中为预期项目创建边界框和锚框来Gong等人（2020）中升级的YOLOV3用于评估用于检测车辆的热捕获，获得78.77%的mAP（Kaushik等人，2020年）。此外，分割方法包括Mask R-CNN和Fast-RCNN车辆检测。Mittal等人（2020年）的研究给出了一个升级的R-CNN模型，该模型可以快速检测车辆并忽略重复检测问题，重型车辆的F1分数为85.7%，轻型车辆的F1分数为75%。使用预训练的单次激发MultiBoX探测器（SSD）模型（Liu等人， 2016年），使用Caffe框架实现，其实现了81.2%的mAP，用于可见光和红外图像的组合，然后进行自定义捕获。 Wang et al. （2019）介绍了使用LiDAR传感器的点云和YOLO V3算法检测车辆的方法，准确率为70.58%。此外，（Wang etal.， 2019）研究表明，使用LiDAR传感器和YOLO V3算法在KITTI数据集上检测车辆的准确率为70.58%（Wang等人， 2019年）。另一方面，在赵等的研究。（2019）想要实现····J. Qaddour和S.A. 西迪卡智能系统与应用18（2023）2001923Fig. 1. 说明建立用于分析车辆损坏的管道的流程图。在夜间图像中检测物体，而不需要对目标捕获的地面实况进行注释，因此他们考虑使用GAN（生成对抗网络）进行无监督训练的方法进行图像到图像转换，以将注释的日光图片转换为夜间图片，而不改变汽车位置。然后，而不是仅仅使用上述集合中的一个，更快的R-CNN模型被认为是使用合并的图像数据集进行训练，从而产生88%的高mAP结果。因此，与当前文献相比，我们建议的使用Inception ResNetV2预训练模型的混合模型获得了更好的自动结果，精度为89.13，命中率为0.98，灵敏度为0.91，准确度为92%。除了计算机视觉方法之外，还存在一些基于传感器的方法，例如，一种用于持续时间的车载系统和方法，3.1.2. 研究目的在本节中，我们将解释我们的目标任务，这些任务分为四个步骤（Kyu&Woraratpanya，2020）。这四项任务及其成果如下：任务1：识别图像，这是一辆车还是不是？任务2：找出汽车的损坏部分，这是一辆损坏的汽车或没有？任务3：对受损部位进行分类，受损部位是在车的前部、后部还是侧面• 任务4：对汽车受损部分的严重程度进行损伤3.1.3. 系统的系统流交换学习测试配置如图所示。 1是什么在没有固定到车辆上的情况下进行事故检测，并在事故检测过程中使用方法（2022年）;系统-我们雇用。作为高光提取器，在Patil等人中使用预先准备的模型。（ 2017年）。我们的框架包括4个阶段和3个模型，sh_Accident_Detection_and_Notification（2022）.此外，为了进一步增强汽车业务，正在开发用于检测汽车损坏的各种新的自动化方式（Patil等人，2017年;基于深度学习的汽车行业汽车损坏分类&检测，2022年;van Ruitenbeek &Bhulai，2022年;汽车保险行业的数字化转型：汽车损坏评估的简化识别，2022年; Madheswari等人，2022;为什么用机器学习估计汽车损坏很难，在线提供，2022; Ahmad等人，2022年;自动车辆损坏检测与图像，2022年）。此外，对于潜水员协助以防止道路事故，还提出了使用深度学习的自动化系统，例如Jaikishore等人的工作。（Neelam Jaikishore等人， 2022年）。3. 拟议方法我们建议的自动索赔损坏估计器的框架分为几个步骤。下一小节将更详细地介绍：3.1. 损伤检测与分类本文提出了一种利用受损车辆的多幅图像对车辆损伤进行检测、识别、局部化和分类的技术。为了获得所需的结果，使用了深度学习CNN和来自几个预训练骨干模型的迁移学习方法。图1描述了我们建议的技术工作流程：每个都基于三个不同数据集之一数据集1：包括完成任务2的两个类，损坏或未损坏的汽车。数据集2：包括用于完成任务3的三个类，损坏位置是从前面、侧面或后面。数据集3：包括完成任务4的三个类别，损害是轻微，中度或严重然后我们选择一个预训练的模型; VGG-16，VGG-19（Simonyan&Zisserman，2014）或Inception ResNetV 2（Szegedy et al.， 2017年）。更准确地说，第一阶段决定了汽车是否存在。然后，汽车基于作为图像上传或从现有数据库导出的输入数据。在第二阶段，在选择和测试模型之后，我们使用数据集1创建模型1，以确定汽车是否损坏。在第三步骤期间，将利用具有数据集2的名为模型2的生成和训练的模型最后，在最后一步中，我们使用数据集3估计汽车受损部分的严重程度，称为模型3。图1描绘了上述阶段的流程图及其细节。该流程图将有助于分析系统工作的概述，即汽车······J. Qaddour和S.A. 西迪卡智能系统与应用18（2023）2001924图二. 许多类型的车辆的插图，无论是损坏和未损坏。有线贯穿表明许多类型的损害。保险杠凹痕，各种形式的擦伤，玻璃破碎，和损坏的头灯都是可能的.3.1.4. 数据集我们从我们的即时社区单独收集ImageNet上可用的图像，因为受损汽车数据集的可用数据库稀缺。在这项研究中，我们使用了两个数据集：第一个包括汽车和其他物体的照片，第二个包括受损和未受损车辆的照片第二个数据集将损坏的严重程度分为三类：“显著”，其涉及损坏车辆的总数;“中等”，其涉及大的凹痕或划痕;以及“轻微”，其涉及小的凹痕或划痕。图2描述了我们收集的各种类型的受损和未受损车辆的训练和测试数据集的样本。此外，我们还着眼于数据的增加，综合扩大和改变的数据集，放宽其公差和提高其性能的过拟合问题在训练时。我们倾向于应用翻转变换、缩放、维度移位和随机旋转来改变生成的数据（N。Dhieb等人，2019年）。3.1.5. 数据增强已经发现，增加具有相对修改的照片的数据集增加了分类器的推测执行。因此，数据集被人为增加。多次例如，主观变化（20和80度之间）与水平翻转改变相结合。数据集被随机分为80%和20%，其中80%用于训练，20%用于测试。3.1.6. 损害程度对于汽车损坏程度，有三种情况需要考虑。根据Libertymutual.com（一个保险网站），损害赔偿分类如下（ Harshani Vidanage ，2017&）。• 轻微的损坏：比如前灯上的划痕或者汽车引擎盖上的小凹痕中度损坏：汽车引擎盖/引擎盖、挡泥板或车门上的大凹痕。• 严重损坏：包括轴断裂、部件全部损坏、弯曲或扭曲的框架，以及汽车安全气囊的破坏图2描绘了来自每个类别的测试图像。由于类之间的巨大相似性，底层的任务是非无关紧要的。因为恶作剧只覆盖了图像的有限部分，所以新的策略工作变得更加动态地令人不快。3.1.7. 迁移学习迁移学习是基于使用以前获得的知识来快速和/或更好地澄清类似工作的概念。它是针对微小的标记数据集的最成功的策略之一，其中预训练的模型为指定的图像提取不同的特征，同时确保过拟合的风险较低。我们使用三种不同的预训练骨干模型，VGG-16、VGG-19（Simonyan&Zisserman，2014）和Inception ResNetV 2（Szegedy等人，2017），其在许多其他中公开可用。我们利用上述三个预训练模型来提取特征，并使用预训练模型的权重来应用于我们表示的目标任务。传统的机器学习技术专注于从一开始就学习和训练单个任务，同时从源分配中传递信息提取属性和可接受的知识，并将其隐含到目标任务中。当源域和目标域相似时，知识转移会提高目标任务的绩效。因此，预训练模型3.1.8. 模型参数设置要成功地从图像中检测、定位和分类汽车损坏，必须解决两个重要问题（Abdulla，2017）：i）高类间相似性，ii）图像姿态及其方向。我们使用特征提取器，即，通过另一个神经网络的预训练模型来分类和检测损坏的图像我们将使用一个CNN，它由572层组成，并在超过100万张ImageNet图像上训练，Inception ResnetV2（王旭，&2018）。为了实现我们的目标，我们添加了两个神经网络，Softmax和池化层，以及一个丢弃层来提高性能图3.第三章。用于损伤检测和分类的模型架构。·J. Qaddour和S.A. 西迪卡智能系统与应用18（2023）2001925××× × × ×××××并限制过拟合问题，如图3所示。我们训练最后两个神经网络层，并冻结所有其他权重，以避免长时间训练。为了提高模型的性能并减少过拟合，使用了正则化等因素。由于迁移学习和CNN等技术在训练阶段耗时较少，因此我们使用这种学习策略在更短的时间内获得最佳参数。我们提出了三种不同的预训练模型 VGG-16 、 VGG-19 （ Simonyan&Zisserman，2014）和Inception-ResnetV 2（Szegedy et al.，2017），预训练模型的详细信息在即将到来的主干部分中给出。3.2. 解构功能化与期待在这方面，我们提出了改进的Mask R-CNN和材料识别，分类和肢解方法来发现和描绘车辆图像中的损坏（He等人， 2017年）。Mask R-CNN是Faster R-CNN的改进（Ren et al.，2015），其中添加第三分支以输出对象掩码。此外，使用RoIAlign程序代替RoI池来创建实例分割掩码以获得更好的准确性。如示于图 Mask R-CNN包括一个用于分类和边界框预测的完全连接的神经网络，以及另一个用于提取实例分割掩码的完全连接的CNN。3.2.1. 骨干网在Mask R-CNN模型中，骨干网络是一个CNN，它被用作属性提取，很少有属性从组成表面检索，而渴望的特征则从随后的层次中连根拔起。此外，当图像通过主干网络时，它们被处理以提取特征图。它通常在ImageNet上进行预训练（Russakovsky et al.，2015）（Krizhevsky等人，2017年）。因此，主干被用作特征提取器，它为您提供输入的特征映射表示。在本文中，我们使用了三种不同的主干模型，包括VGG-16，VGG-19（Simonyan Zisserman，&2014）和Inception-ResNetV 2 [19]，从输入图像中提取不同的特征图。预训练模型的细节在以下小节中给出：A) VGG16：VGG-16 是由 Simonyan 提出的网络（ Simonyan Zisserman ，2014&）。它由三个连接层和13个卷积层组成，该网络使用非常小的卷积滤波器，如3 3和2 2，其中还包括1.38亿的参数。VGG-16模型在ImageNet数据集上的测试准确率达到92.7%，并在2014年ILSVRC挑战赛中获得图像分类和对象定位相关任务的第一名和第二名，错误率分别为25.32%和7.32%因此，VGG-16是最广泛使用的目标检测架构之一。B) VGG19：Simonyan（Simonyan Zisserman，2014&）升级了VGG-16的更深版本，称为VGG-19，基于之前的版本，作为一个19层，进一步由三个连接层和 16 个卷积层组成，并激活了 ReLU 。 VGG-19 的一些结构是（Simonyan Zisserman，2014&）：第一和第二卷积隐藏层使用64个特征核过滤器第三和第四卷积隐藏层使用124个特征核滤波器，并且输出从2242243到5656128.第五到第八卷积隐藏层使用256特征内核过滤器。9到6x 10卷积隐藏层使用512特征核滤波器。17和18个完全连接的隐藏层有4096个ReLU节点。第十九层（最后一个卷积层）有1000个softmax节点。我们使用了预训练的VGG-16和VGG-19模型，它们似乎之前已经在诸如 ImageNet 的大规模基准数据集上训练过（ Russakovsky 等人，2015），作为一个预训练的模型来执行图像分类任务，并拥有准确的权重，通过迁移学习来暗示我们的骨干模型，以减少我们模型的训练时间。C) Inception-ResNet-V2：Inception-ResNet-V2 [19]模型是ResNet-V2模型的一个适配，它是一个将图像分类为1000个对象类别的卷积神经网络。构建在inception家族架构上的架构，具有164层深度，并使用ImageNet数据库在数百万张图像上进行训练（Russakovsky等人，2015），将导致更低的错误率，并且可以在维度和路径方面实现更大的复杂性。另一方面，这个标准是由一个被称为“初始单元”的对象组成的，在不同的阶段，一系列的复杂性被完成，最后积累结果。起始位点执行互连关联，同时使用1 1卷积忽略传染性维度，其由使用5 5 以及33个过滤器。然后，整个层进入纵横比缩减以产生11卷积。该模型已经在ImageNet数据集中的超过一百万张图像上进行了3.2.2. 区域建议网络RPN被称为CNN，其中骨干网络的属性被用作输入来预测锚点的位置（前地或背景）。RPN采用由特征金字塔网络（FPN）生成的不同尺寸的特征图，并从与目标对象尺寸相关的不同特征金字塔级别提取ROI的特征。因此，样本网络的结构可以在不增加处理量的情况下进行调整，从而在保持速度和准确性的同时显著提高了较小对象的识别能力。在这种情况下，一个滑动窗口遍历地图创建了一个锚点的集合，这些锚点具有不同的比例和尺度，可以用来预测一个对象是在背景中还是在前面。我们采用非最大值抑制（NMS）的方法与0.7交集超过联盟（IOU）的标准，以减少冗余，因为锚重叠。3.2.3. 感兴趣区域对齐（ROI对齐）由于RPN边界框细化过程，RoI部分可能具有不同的尺寸。必须关联RoI属性以保持与RoIAlign相似的维度，旨在使用Mask R-CNN建立正确的掩码。更快的R-CNN利用RoIPool技术来离散化属性图，并在ROI和撤回属性之间建立不对齐，而He等人。（He等人，2017）介绍了RoIAlign技术，该技术利用双线性插值（Wang &Yang，2008）来分析贡献的正确价值，从而可以积累。因此，使用Faster R-CNN增强了Mask R-CNN，并将ROI池层转换为兴趣区域对齐层（RoIAlign）。通过应用双线性插值将空间信息保持在特征图上。RoIAlign是感兴趣区域的对齐层，与RoIPool的不同之处在于它绕过了量化阶段并且无法覆盖RoI边界。而是利用双线性插值计算每个单元中样本点图 4号蓝色实线显示卷积后的5× 5特征图，······J. Qaddour和S.A. 西迪卡智能系统与应用18（2023）2001926见图4。 RoI对齐示意图（Zhang等人， 2020年）。图五、 Mask R-CNN损伤检测和分类模型架构。红线显示了与图中所示的特征图RoI相对应的特征较小块。小块被分类为具有较少量化边界的两个小块，然后它被进一步分类为四个小块，这次没有量化边界。中心点被认为是4个坐标点，如蓝点所示。之后，使用平均池化或最大池化操作使用双线性插值来计算所有位置的值（Zhang等人，2020年）。3.2.4. Mask RCNN和损失函数改进He等人（He等人，2017）通过为每个感兴趣区域（RoI）添加一个分支来预测分割掩码，扩展了Faster RCNN，称为Mask R-CNN。一个微小的全卷积网络（FCN）被添加到每个感兴趣区域（RoI）作为掩码分支，预计一个piX el乘piX el分割掩码[66]。Mask R-CNN将Faster R-CNN扩展到pi X el级别的图像分割，如He et al. （2017年）。其概念是将分类预测和piX el级掩蔽函数分离。除了现有的分类和定位分支之外，还引入了基于Faster R-CNN架构的第三个分支来预测对象掩码。如图5的最后一个图所示，掩码分支是一个薄的全连接网络（FCN），它被添加到每个RoI并预测一个piX el乘piX el的分割掩码。使用全卷积N/W（FCN）进行语义分割。FCN通过将每个场piX el按piX el（a）分类，在边界框的对象周围生成掩码（在我们的唯一感兴趣的对象）。Mask R-CNN是Faster R-CNN的一个简单，不复杂的补充，它以每秒5帧的速度运行。由于piX el分割需要比边界框更细粒度的对齐，Mask R-CNN增强了RoI池化层（名为“RoI Align层”），使其更容易，更准确地将RoI映射到原始图像区域。它利用与Faster R-CNN类似的架构进行对象检测。Mask R-CNN利用RoI对齐而不是RoI池化，使像素能够保持ROI并防止数据丢失。还采用了从上到下搜索所有FPN并建议可能包含伪影的区域的RPN。它采用锚点，锚点是一组预定义的位置框，并且基于输入的各个锚点的大小被赋予地面实况组和边界框。RPN为每个锚点生成2个输出：锚点类型和边界框X参数。锚类可以是前台类或影子类。Faster R-CNN有一个名为RoI Pooling的模块，与Mask R-CNN不同。根据Mask R-CNN开发人员的说法，RoIPool的特征图区域与原始图片区域有些错位。这会导致错误，因为图像的像素级的图像分割需要准确性。采用RoIAlign方法对函数映射进行采样，然后进行双线性插值实例分割是一个复杂的问题，两个独立的图像任务，例如对象检测和语义分割（Lin等人， 2014年）。更快的R-CNN和Mask R-CNN采用J. Qaddour和S.A. 西迪卡智能系统与应用18（2023）2001927≥+≥=（）=∑=掩码=ij（）下一页A组B组XyWH包括对象的区域这些物体可能是用于掩码预测的额外分支，其与当前两个分支并行，如图5中的最后曲线图所示。Mask-RCNN表1实际和预测分类的参数。预测分类以及边界BOX回归损失。类别预测与分类分支相关联，但分类损失与总人口（P+N）阳性预测（PP）阴性预测（NP）类地面真理。Mask R-CNN损失损失（He等人，2017年）对每个采样的ROI为：实际分类阳性（P）TP（真阳性）FN（假阴性）L=Lcls+Lbox+Lmask（1）阴性（N）FP（假阳性）TN（真阴性）L表示总训练损失，L cls表示分类损失，L box表示边界框X损失，L mask表示掩码损失，我们可以扩展等式的前两项。（1）如下：Lcls+Lbox=Lcls（p，u）+λ[u≥1]Lloc（tu，v）（2）其中，u是具有地面实况类的每个训练ROI的标签，v是每个RoI的标签，具有地面实况边界回归目标;tu=（tu，tu，tu，tu），指定尺度不变平移和对数空间和分割掩模。MASK-RCNN的工作不同于传统的图像分类模型。例如，如果我们观察图5，MASK-RCNN首先提取特征以产生激活图，然后，模型被划分为两个子模块，即区域建议网络和ROI对齐。RPN（区域建议网络）的目的是对每个图像执行一次，以提供一组区域建议。区域建议是特征图相对于u类的高度/宽度偏移; pp0，p1，.，p n 表示N 1个类别上的概率分布; [u 1]表示当u1和0否则。对于bounding-boX回归，损失定义为：Lloc（tu，u）=ΣsmoothL1。（3）第（1）款汽车在我们的案例中分类器预测边界框以及在阶段1中生成的每个建议区域的对象类。每个建议的区域可以有不同的大小，但网络中完全链接的层需要一组大小向量来生成预测。这些建议区域的大小通过ROI池或我i∈x，y，w，h其中，smoothL（x）={0. 5 x2如果|X|<1（四）RoIAlign技术。因此，RoIAlign层它为每个ROI创建一个掩码，通过piX el分割受损的汽车图像piX el该模块将给定的汽车图像1|X|-0. 5其他随后，在最后一步中，训练CNN模型以将如果回归目标是无界的，方程。(4)消除了敏感性。方程中的超参数λ(2)控制两个任务损失之间的平衡。在大多数实验中使用λ 1。通过取RoI上所有像素的平均交叉熵来计算L掩码，如下所示：损害的严重程度为轻度、中度或重度。该CNN模型基于预训练的VGG16，VGG 19和Inception-ResNetV 2。因此，作为深度学习的一个很好的实际应用，所有这些模块都与提供一个完全自动化的汽车损坏评估相关联。上面还给出了所提出的框架的简单伪代码4. 结果和讨论L1m21≤i，j≥m[y ij log（a ij）+.1-y ij）log.1-a（j）]（5）在这一部分中，我们研究了我们的研究结果，并提供了适当的前-伊日1（1+e-xi）（六）平层和分析。此外，本节还介绍了用于评价拟议工作的评估措施。此外，模型的所有参数都被微调到最佳值。的1（1+e-bi）（七）4.1. 评估指标其中yij是大小为mxm的区域的真实掩码中的单元i，j的标签;aij是针对地面实况类N学习的掩码中的相同单元的预测值。此外，xi和bi分别是正RoI中第i个分量的预测值和真实值（Gir-shick，2015）。在总结核心端点的基础上，重点研究了大目标定位信息的优化问题。重点是对小目标的类别预测的优化。为了提高损失函数中尺度目标检测分支的检测精度，必须引入不同的4.1.1. 逐层模型架构建议的模型表1示出了实际和预测分类的参数，并且用于评估模型性能的对象检测和分类的最常见度量如下：A) Intersection over Union（IoU）：它是预测分割的预测图A和图B地面实况之间的相交面积除以A和B两者的总和（并集）的度量，范围在[0和1]之间。IoU=AB（8）IoU的平均值被定义为所有类的平均IoU的部分。第一和第二模块旨在确定所提供的图像是否包含汽车以及汽车是否=J. Qaddour和S.A. 西迪卡智能系统与应用18（2023）2001928=+=B) 精确度、召回率、F1分数和准确度：可以通过以下方式为每个类以及聚合级别损坏这是可能的，因为预先训练的卷积神经网络（CNN）由VGG16，VGG 19和Inception-ResNetV 2组成。的PTPTP+FP（九）VGG 16、VGG 19和Inception-ResNetV 2的第一层提取视觉特征，产生被称为激活图的细化和缩小的特征图。这些特征被传输到完全连接的层（也称为密集层），然后通过S形激活来确定汽车是否损坏。在检测到汽车中的损坏之后，我们将图像传输到MASK-RCNN，以定位汽车损坏的区域，其形式为边界框X在公式中，FP是检测为阴性样品的ve个样品的数量（Zhao等人，2019年）。灵敏度，命中率，或召回率计算使用方程。（十）：RTP（10）TP+ FN在上面的等式中，TP涉及+ve个样本的数量，J. Qaddour和S.A. 西迪卡智能系统与应用18（2023）2001929+-P+ R表2损坏严重度分类的性能。损伤检测性能损伤定位性能损坏严重度性能度量精确回忆F1-（%）评分准确度（%）精确回忆F1-（%）评分准确度（%）精确回忆F1-（%）评分准确度（%）ResnetV2见图6。 VGG 16、VGG 19和Inception-ResNetV 2的混淆矩阵。被正确地测试，并且FN涉及作为ve个样本测试的ve个样本的数量（Zhao等人，2019年）。准确度使用Eq. （十一）、Inception-ResNetV 2、VGG-16和VGG 19，并将相同的训练和测试数据馈送到预训练模型，该模型将使用100个epoch。A=TPTP+ TN公司简介（十一）4.2.1. 拟议的深度学习模型的定量性能表2显示了损坏识别、位置和类似地，F1分数由下式给出：F1-评分=2 ×P x R（十二）三个预训练模型之间的严重性分类。提出的索赔损坏估计模型已被引入到分类，检测和可视化损坏的车辆。此外，我们还使用了四个F1-Score被称为调和均值（平均值），它是精确度和召回率的组合度量，如公式（12）所示。4.2. 性能评价和实验结果分析在本节中，我们评估了所提出的深度学习技术检测、识别、分类和描绘车辆损坏的能力。在这项研究中，我们将使用三种不同的骨干预训练模型，评估不同迁移学习模型性能的不同指标：精确度、召回率（灵敏度）、F1分数（调和平均值）和准确度。这些标准越高，我们的模型就越好。如表2所示，我们发现预训练模型Inception-ResNetV 2在检测，定位和严重损坏性能的所有类别中均优于VGG-16和VGG-19。Inception-ResNetV 2的检测准确率为92%，定位准确率为85%，严重损坏准确率为80%。使用Intercept-ResNetV 2预训练模型进行损伤定位更有效，与其他VGG-16和VGG-19相比，其精度为80.4%，VGG-1683.50.970.8990.474.330.760.748365.660.670.6677VGG-1986.090.950.9091.0970.660.740.718266.330.670.6678盗梦空间-89.130.980.919280.40.800.788567.120.700.7080J. Qaddour和S.A. 西迪卡智能系统与应用18（2023）20019210图第七章（i）VGG 16、（ii）VGG 19和（iii）Inception-ResNetV 2的损失函数的演变。70.66%。此外，VGG-16和VGG-19模型在损伤严重度分类准确度方面表现不佳，准确度分别为77%和78%，而Inception-ResNetV 2模型的准确度为80%。在所有任务中，Inception-ResNetV 2的结果都击败了其他两个模型。4.2.2. 混淆矩阵我们还使用三种不同的预训练模型（a）VGG-16，（b）VGG-19和（c）Incept ResNetV 2计算混淆矩阵，如图6所示。本文中使用的各种迁移学习模型的性能评估使用三种不同的度量标准：精确度，召回率和F1分数。具有更高指标的模型是最好的模型。混淆矩阵得出以下各项的正常预测值：J. Qaddour和S.A. 西迪卡智能系统与应用18（2023）20019210见图8

下载后可阅读完整内容，剩余1页未读，立即下载