没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报用于对象检测和识别的显著性引导的Faster-RCNN(SGFr-RCNN)模型Vipul SharmaMir,Roohie Naaz Mir印度斯利那加国家理工学院计算机科学工程系阿提奇莱因福奥文章历史记录:收到2019年2019年9月20日修订2019年9月21日接受在线预订2019年保留字:更快的RCNN对象检测识别适应度函数显着性卷积边界框ROI池化A B S T R A C T近年来,基于目标检测和识别的应用在各种实时和离线应用中被广泛采用。基于计算机视觉的自动学习方法由于其显著的学习特性可以显著提高检测性能而受到研究者的极大深度和卷积神经网络的进步提高了基于识别和检测的应用程序的效率。然而,提高检测精度,减少检测误差,检测出异物仍是一个难题。在这项工作中,我们专注于这些问题,并提出了一个基于Faster-RCNN的模型,该模型利用显着性检测,建议生成和边界框回归,以便更好地检测损失函数。所建议的方法被称为显着性驱动的更快的RCNN模型,用于使用计算机视觉方法 的 对 象 检 测 和 识 别 ( SGFr-RCNN ) 。 使 用 数 据 集 ( PASCAL VOC 2007 , PASCAL VOC 2012CAMO_UOW)评估建议策略的性能,并与当前方法的平均精度进行对比对比研究表明,相对于目前的方法,所建议的策略的结果©2019作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍在现实世界中,图像数据的数量正在迅速增长,其增长率也是如此。最近,Infotrends发布了一项研究,显示在2016年,相机和移动终端用户拍摄了超过1.1万亿张图像(InfoTrends InfoBlog,2019),根据这项研究,这一数字将增加到1.4万亿张到2020年这些图像中的大多数现在存储在云服务器中,并在互联网上发布。同样,另一项研究表明,超过18 亿张图片已上传到Facebook和Instagram等社交平台(Firstpost,2019)。另一方面,还安装了几个其他摄像机,用于各种任务,如交通监控和视觉监控等。这种类型的图像数据广泛用于各种实时应用,如视觉监控,对象识别,*通讯作者。电子邮件地址:vipul_1phd17@nitsri.net(五)Sharma),naaz310@nitsri.net(R.N. Mir)。沙特国王大学负责同行审查使用计算机视觉技术进行识别、检测和分类。为了自动管理这些数据,图像内容信息对于更好地理解数字图像内容起着重要作用。在计算机视觉应用领域,目标检测被认为是最重要的任务之一,它可以显着提高基于计算机视觉的应用,如目标跟踪,车牌识别等的性能。为了开发完整的图像理解模型,目标检测,定位和分类是主要目标,其中对象检测由各种子任务组成,诸如面部检测(Ohn-Bar和Trivedi,2016)、足检测、跟踪(Dollar等人,2012)、&骨架检测(Bai等人,2009年)。Fig. 1.图1(a)显示了图1(b)中的目标分类、图1(b)中的定位和图1(c)中的检测之间的图形差异。对于图像理解的任务,图像内容信息是一个有用的范例,它可以弥合图像像素信息和人类对相同图像的理解之间的语义鸿沟。对于这种语义差距分析,对象检测是一种有前途的技术,其为各种计算机视觉任务(诸如面部识别)提供对不同图像和视频的语义理解(Yang等人,2002),人群行为检测(Meidel等人,2009)、图像分类(Harzallah等人, 2009)和自动驾驶车辆(Chen等人, 2017年)等。https://doi.org/10.1016/j.jksuci.2019.09.0121319-1578/©2019作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com小行星1688Sharma,R.N. Mir/Journal of King Saud University- Computer and Information Sciences 34(2022)1687- 1699Fig. 1. 图像分类、目标定位和检测的表示。由于图像的复杂性和图像中存在的多个对象类别,对象检测是一项具有挑战性的任务一般来说,目标识别技术可以分为自顶向下、自底向上和两者结合三大根据自顶向下方法的概念,通常它使用训练过程来对类特定的特征进行建模并定义配置(Zhang等人,2008年; Vidhya和Itti,2006年)。除此之外,自底向上方法基于边缘和片段从输入图像的低级或中级开始计算特征(Goferman等人,2010;Harel等人,2007年)。自上而下的方法遭受更多的误报,因为特征是在本地提取和匹配的。同样,自下而上的方法需要有效的分割技术。因此,开发了第三种方法,它结合了自上而下和自下而上的方法,以保持分割的一致性,并最大限度地减少分组任务。最近,引入了几种基于计算机视觉系统的对象检测模型,诸如深度显著性(Li等人,2016)、可缩放对象检测(Erhan等人, 2014)和Pvanet(Kim等人,这些系统遭受各种问题,诸如视点变化、遮挡、姿态变化和照明条件,这增加了定位的复杂性。通常,目标检测和定位用于识别目标,并且在给定图像中定位所识别的目标并找到其对应的类别是目标分类的子任务。基于这些任务,传统的目标检测过程分为三个主要类别,如区域检测,特征提取和分类。区域检测过程用于识别要应用对象检测方案的感兴趣区域。特征提取阶段提取特征以获得关于识别区域中存在的对象的语义和视觉信息。在 文 献中 存 在 若 干 特征 提 取 过 程 ,诸 如 SIFT (Alhwarin 等 人 ,2008 ) 、 Haar 特 征 ( Lienhart 和 Maydt , 2002 ) 和 HoG 特 征(Geismann和Schneider,2008)。然而,由于光照变化和背景复杂性,设计所有类型的对象的鲁棒特征提取是一项繁琐的任务。除此之外,需要对象分类模型来区分对象类别以执行对象的视觉识别。传统的目标检测和识别方法是基于局部特征的,学习能力较差。在这些方法中,使用滑动窗口模型生成边界框,这提供了不准确和低效的结果,并且这些方法基于局部特征并且遵循较差的学习架构,因此不能有效地缓解语义间隙。近年来,由于卷积神经网络的成功,目标检测性能有了显著提高(CNN)在计算机视觉领域的应用。当前技术采用CNN用于对象检测和各种其他实时应用,诸如R-CNN(Szegedy等人,2015)、深度CNN ( Simonyan 和 Zisserman , 2014; He 等 人 , 2016; Ioffe 和Szegedy,2015)、深度神经网络(DNN)和DeepID(Ouyang等人,2015年)。与现有技术相比,DNN和CNN是最有效的对象检测解决方案,因为这些模型具有可以有效学习特征的深层架构,而且这些模型中的学习算法更鲁棒,不需要任何手动特征设计模型。类似地,CNN的其他变体(诸如R-CNN)通过分类和边界框回归任务的组合优化来提供出色的性能(Kang等人,2017),Fast R-CNN利用额外的子网络来生成区域建议,类似地,YOLO方法使用固定网格回归(Redmon等人,2016年,用于物体检测。这些方法在目标检测和识别方面都取得了显著的进步。如之前所讨论的,这些技术广泛用于各种应用,诸如面部检测、识别、自动驾驶、监视系统、行人检测等。这些技术实现了更好的性能,但输出的可变维度是一个主要问题,这可能会降低训练性能,因为机器学习任务需要固定的输入和输出维度进行训练。根据应用,在准确度和系统性能因此,实现鲁棒的性能和复杂性是需要解决的关键组成部分类似地,由于对象前景和图像背景纹理相似并且因此难以识别前景对象,因此被隐藏的对象也降低了性能(Babaee等人, 2018年)。可以通过应用诸如 subSENSE ( St-Charles 等人, 2015年)。过去提出了几种技术来使用运动分割方法从视频序列中分割隐藏 对 象 , 但 是 对 于 图 像 中 的 隐 藏 对 象 检 测 进 行 了 较 少 的 工 作(Singh,2013)。1.1. 问题定义在多种在线和离线应用中,通常采用基于计算机视觉的方法。最近,基于深度学习(包括深度神经网络、深度信念网络、递归神经网络和卷积神经网络)的系统已经增强了计算机视觉应用的精度。另一方面,基于图像的目标的检测和分类是一个繁琐的工作,吸引了研究界,因为他们的各种应用。基于卷积神经网络的方案被提出来解决这个问题,但检测和识别的准确性是一个关键问题。此外,识别诉Sharma,R.N. Mir/Journal of King Saud University- Computer and Information Sciences 34(2022)1687-16991689存储对象的存储也是一个严重的问题,会降低效率。被捕获的对象具有可比较的背景和前景,并且姿态和照明条件的差异导致检测模块额外地更复杂。1.2. 工作贡献在这项工作中,我们使用基于计算机视觉的系统,专注于对象检测和识别。过去已经描述了几种方法,但是很难达到识别和识别所需的精度。此外,由于其困难的复杂性,隐藏对象检测受到了研究界的巨大吸引力。我们提出了一种新的策略,基于显着性检测,Faster-RCNN模型和几代目标检测的建议来解决这个问题。该方法使用显着性检测方法的建议生成,而边界框回归和损失计算后检测对象。最后,一个基于CNN的训练策略的对象识别集成。所提出的方法被称为显着性引导的快速RCNN的对象检测和识别。1.3. 款组织其余的手稿组织如下:第2节介绍了有关目标检测和识别的最新技术的简要文献综述,第3节提出了建议的解决方案,实验研究和比较分析是在第4节,最后,第5节提出了结论性意见。2. 文献调查本节简要讨论了目标检测和识别的最新技术。根据Bottou等人(2014)提出的研究,视觉对象检测的任务可以大致分为三种方法,例如 局 部 特 征 提 取 , 其 中 实 现 局 部 图 像 特 征 提 取 模 型 ( 即 HoG ,SIFT),然后构建分类器以稍后检测项目。第二类考虑可变形零件模型技术(Yang和Ramanan,2011; Felzenszwalb等人,2008),其中适当的方法给出关于可用于训练目的的物品的组件的位置数据。类似地,第三类称为卷积神经网络(CNN),其中图像特征由连续的特征向量基于卷积神经网络的系统在这一领域发挥着重要作用,这就是为什么我们主要集中在基于CNN的方法上。传统方法基于深度神经网络Szegedy等人(2013)提供了一种深度学习模型,其中神经网络直接实现为使用五种不同类型的网络训练过程来识别对象位置。类似地,Brody等人(2013)还创建了一种基于DNN的策略以及滑动窗口方法来创建有效的边界框,以证明神经网络训练也可以用于检测指定输入图像中的对象,而不是对象分类。基于此前提创建了若干应用,例如交通标志检测&识别(Yihui et al.,2013)、人类认知和人类行为的认知(Jiet al.,2013年)等。Girshick等人(2014)推出了一种新方法来解决低级和高级图像特征的复杂性,称为卷积神经网络(CNN),它以自下而上的方式实现对象定位和分割。在训练过程中,如果训练数据非常少,则应用有监督的预训练和特定领域的微调来提高检测性能。根据Zhang等人(2014)的研究,由于细粒度分类较差,对象外观的区分可能会降低效率。然而,姿态归一化被用来解决这个问题,但这些方法需要边界框假设。为了解决这些问题,Zhang 等人(2014)的作者提供了一种基于自底向上策略的区域建议方法,使用深度卷积,其中学习方法仍然是主要任务。在该策略中,考虑了整体对象和部分检测器,并在姿态归一化的帮助下实现了一种学习方法,以定义细粒度的类别。 Bottou等人(2014)考虑了具有五个卷积和四个全连接层的全监督架构,并且假设输入以固定大小的补丁提供。为了适应这种架构,作者提供了一个弱监督学习系统,其中全连接层被认为可以处理任意大小的图像,接下来,在最大池化层的帮助下,识别高分对象位置,最后应用成本函数对图像中的多个对象进行建模。区域建议方案和基于区域的卷积神经网络(R-CNN)在检测和识别对象方面得到了研究界的极大关注。CNN的计算复杂度通过共享图二. 目标检测和识别框架。小行星1690 Sharma,R.N. Mir/Journal of King Saud University- Computer and Information Sciences 34(2022)1687- 1699整个地区的建议。Fast R-CNN(Girshick,2015)近年来作为一种有前途的对象检测替代方案出现 Ren等人(2015)集中在区域建议网络(RPN),其中计算全图像卷积并与区域建议共享。这些建议使用Fast R-CNN模型进行训练,以校准具有固定建议的对象检测此外,该方案Zhang et al.(2016)提出了一种CNN模型,该模型具有两个用于检测和识别的子网络。根据检测模型,语义部分候选人产生自上而下的方式,并在识别任务期间,部分层被生成用于从检测到的部分的特征提取 Redmon等人(2016)提出了一种用于对象检测和识别的实时模型。在这项工作中,对象检测问题制定了一个回归问题的边界框和类的概率,确定使用单一的神经网络在一个评估。同样,Kang等人(2018),Ren等人(2017),Shen和Xue(2014),Hariharan等人(2017),(2014)提出了T-CNN用于视频序列的实时对象检测。传统的技术不能提取完整的时间和上下文信息的视频,这可能导致性能下降。因此,开发了一种基于tubelets的方案,其中使用CNN获得并训练时间和上下文信息。3. 该模型在本节中,我们提出了使用基于CNN的架构进行对象检测和识别的解决方案。首先,我们考虑对象之后,使用卷积层,实现CNN模型以产生激活图。在下一阶段,我们计算分层特征映射并建立统一的特征空间,称为显著特征,利用最大池化和去卷积过程生成显著特征,基于这些过程,开发ROI池化模型来生成映射的图像特征。在此特征图图像的帮助下,我们使用区域建议生成技术来执行建议生成,然而,由于背景区域响应和边缘响应,初始生成的区域此外,基于显著性的分割应用于提取感兴趣区域(region ofinterest)的特征提取。该ROI包含相应的类别和分辨率信息,以确保检测质量。因此,我们应用区域提案细化来改进提案生成过程,最后,表1本文中使用的符号。使用的参数符号输入图像I超图G超图顶点和边V,E超图顶点显著性HS最终显著性PS显著度d逐像素邻接顶点邻域Nvi边界框b箱的宽度和高度w,h损耗L分类损失L类Bounding box lossLBBox Box Box shapeidentification lossLshape Class KROI分辨率m全连接层Fc预测矩阵x标签L图三. 图像显著性检测诉Sharma,R.N. Mir/Journal of King Saud University- Computer and Information Sciences 34(2022)1687-16991691目标检测模块完成检测任务。一个完整的流程所提出的方法是描绘图。 二、完整的检测方法分为分割和检测两个阶段,给出图像上的语义映射和边界框,为后续阶段的识别提供帮助。随后,对这些输出进行处理,以实现边界框和框区域的原始估计其可能被认为是要分割的区域。在下一阶段,这些边界框被处理为原始猜测并馈送到CNN,CNN提供图像建议,最后提供图像中所有可访问对象的数据。在识别项目后,实现包围盒回归模型,以减少包围盒误差,最后应用识别过程。见图4。 图片来自PASCAL VOC 2007数据集。图五. 图片来自PASCAL VOC 2012数据集。1/4fg¼. .ΣΣX我ð ÞJ0;否则小行星1692Sharma,R.N. Mir/Journal of King Saud University- Computer and Information Sciences 34(2022)1687- 16993.1. 显著性检测本节介绍显著性检测建模,以提取关于显著区域的语义数据。在某些情况下,主要对象是隐藏的,因此在这项工作中,我们集中精力提取显着性数据,即使是隐藏的图像。因此,建议的显着性模型有助于提高检测精度,即使隐藏的对象也存在于图像中。在这项工作中,显著性检测进行纹理数据评估,可以进一步用于检测显著项目,如图所示。3.第三章。根据所提出的策略,采用基于图论的超图建模方法来识别显著性。超图建模提供超像素信息,以提供关于内部和外部像素一致性的综合数据。让我们考虑输入图像I在超图中被建模为其中Vi表示图像超像素I的顶点集v i ,E表示超图的子集,V的集合为Ue2EV。表1显示了本文中使用的符号列表。在该过程中,首先应用超像素分割,然后通过多尺度聚类对超像素集团集中的超像素进行分组。因为在多尺度聚类中,所建立的聚类团具有普遍的视觉特征,其中可比较的超像素被分组在一起,这被认为是所生成的超图的超边缘。 超边缘被认为是一个高阶上下文,这是有用的显着性检测。显著性检测问题在这里被转换为基于超像素上下文的超图中的显著顶点和超边的检测,因为两个超像素之间的更大的同现倾向于共享更多可比较的视觉特性。超图构造采用了Zhang et al.(2018);然而,我们扩展了超图模型用于显著区域检测。与边和顶点连接的超图被描绘为矩阵,当量(一).H¼ Hvi;ejjV j×jEj1该矩阵表示为:H. v; e. 1;ifvi2 e jð2Þ在这个矩阵的帮助下,超图中任何顶点的显著性可以表示为:HSviHvi;efe3e2E其中fE有助于将所获得的显著性信息编码在超边缘E上。显着性度量可以定义为:PSviXdvi;vjXHvi;eYede4vj2Nvie2fvi;vjj其中Nv i 表示顶点v i的邻域h;d∈vi;vj∈表示成对边的显著度,I e表示成对邻接度。使用这种方法,e获取输入图像的显着图,稍后由快速R-CNN模型使用 图 3展示了显著性检测方法的一些示例结果。3.2. 区域建议生成和边界框回归Kang等人(2018)最近提交了一项针对对象检测的调查,发现ConvNet在预先计算的特征图上提供了更好的效率。基于这些假设,我们使用ConvNet模型来生成命题。该模型使用ROI池化层、Conv层和完全链接层。该网络为每个候选框生成不同大小和比例的候选框表2使用PASCAL VOC 2012数据集,在平均精密度(mAP)方面采用最新技术水平对拟定技术(SGFr-RCNN)进行性能分析飞机68.171.876.879.684.984.284.174.669.782.88585.583.477.9777886.32技术R-CNN(Girshick等人, 2014年度)R-CNN BB(Girshick等人,2014)R-CNN VGG(Girshick等人,2014年度)R-CNN VGG BB(Girshick等人, 2014年度)Fast R-CNN(Girshick,2015)HyperNet VGG(Redmon等人,2016)HyperNet SP(Redmon等人,Feature Edit(Shen and Xue,2014)SDS(Hariharan等人,2014)NoC(Ren等人,( 2017年)MR_CNN S CNN(Gidaris and Komodakis,2015)MR CNN(Gidaris and Komodakis,2015)Fast R-CNN + YOLO(Redmon等人,2016)NUS_NIN(Redmon等人,( 2016年)YOLO(Redmon等人,(2016年)鸟46.15256.661.974.373.673.354.448.571.671.576.673.562.657.761.378.4自行车63.865.870.972.779.878.578.369.158.47979.682.978.573.167.274.281.28船29.434.137.541.253.955.655.539.128.352.353.357.855.839.538.345.759.9瓶27.932.636.941.949.853.753.633.128.253.787.762.743.443.322.742.764.28车576063.666.475.979.879.662.757.56973.977.273.166.455.966.875.3总线56.659.662.965.977.578.778.665.261.374.17679.479.169.168.368.281.2猫65.969.881.184.688.587.787.569.770.884.984.686.689.478.981.480.286.9椅子26.527.635.738.545.649.649.530.824.146.950.55549.439.136.240.657.1牛48.75264.367.277.174.974.95650.774.374.379.175.568.160.87082.21表39.541.743.946.755.352.152.144.635.953.161.762.2575048.549.863.1狗66.269.680.48286.98685.67064.98585.58787.577.277.27987.75马57.361.371.674.881.781.781.664.459.181.379.983.480.971.372.374.585.2人53.257.86065.279.681.881.660.257.172.276.478.974.764.763.56476.28姆比凯65.468.3747680.983.383.271.165.879.581.784.78176.171.377.983.21羊54.557.863.465.472.673.573.261.358.872.46973.471.566.952.267.975.7植物26.229.630.835.640.148.648.433.32638.94145.341.838.428.935.346.3沙发38.140.95254.260.959.459.346.438.659.561.265.868.556.254.855.770.3火车50.659.363.567.481.279.979.761.758.976.777.780.382.166.973.968.783.2地图49.6353.2859.2362.3770.471.41571.2656.27550.69568.76570.7373.8970.66562.4257.94363.15574.6055电视51.654.158.760.361.565.765.657.850.768.172.17467.262.750.862.668.2.Σ.ΣðÞ诉Sharma,R.N. Mir/Journal of King Saud University- Computer and Information Sciences 34(2022)1687-16991693输入图像。ROI池应用于大小为w×h的每个框。d¼gx-bx;d1/4。gy-by;d1/4log. gw/g;d¼log. gh5池化层包括两个额外的层,其中第一层x用于在特征立方体和其他层中编码ROI数据bwybhwbwh bh将特征立方体编码为特征向量。在创建区域建议后,一些建议的区域彼此非常重叠,这可能导致识别和识别的冗余。我们提出了一个回归模型来解决这个问题。对于给定的图像I,其中(x,y)表示像素,边界框b包含四个坐标,如b/4bx;by;bw;bh。根据回归过程,形成回归函数,该回归函数被用于为了在目标边界上回归当前边界框B框g中,该回归函数被给出为fx;b。这可以通过最小化的L1损失功能给定作为L locfx i;b i基于对的位置,的距离向量D/dx;dy;dw;dh可以定义为:此外,我们计算边界框的交集IoU,如果它重叠高于给定的阈值,那么重叠的框将被丢弃。在这项工作中,我们认为重叠限制为0.7,这有助于减少图像中不需要3.3. CNN检测模型在这项工作中,我们主要集中在使用基于计算机视觉的方法进行对象识别和分割。提出了目标分割模块,并将其用于目标识别见图6。 目标检测和识别。Lx; cj1i 1i我××其中M xi;ci1/4log第一章小行星1694Sharma,R.N. Mir/Journal of King Saud University- Computer and Information Sciences 34(2022)1687- 1699战略建议的架构是使用快速RCNN和边界框的显著区域检测和类标记的标准的快速R-CNN模型分为两个主要阶段,首先,区域建议网络用于生成边界框,然后,快速R-CNN,特征提取,候选框,分类和边界框回归被引入。同样,我们也接受两阶段模型以及该策略中的满意度计算。第一阶段在此任务中也保持相同,即实现区域建议网络,而在第二阶段中,计算每个形状的对象类、边界框和二进制实例。定义了损失函数对每个ROI期间的培训过程其中Lclass表示分类损失,LBBOX表示边界框损失,并且Lshape表示形状识别损失。在这个阶段,形状分支亲-显示每个RoI的Km2输出,该RoI编码分辨率为m × m的K个二进制掩码,K个类中的每个类一个掩码。为此,我们应用每像素S形,并将L形定义为平均二进制交叉熵损失。对于与地面实况类k相关联的RoI;L形状仅在第k个掩码上定义(其他掩码输出不会导致损失)。我们对L形的定义允许网络为每个类生成掩码,而不会在类之间进行竞争;我们依赖于专用的分类分支来预测用于选择输出掩码的类标签这将掩码和类预测解耦。在这种策略中,我们为每个类生成形状,并可以基于此形状评估来预测分类所生成的形状编码输入图像的空间布局;类标签和边界框通过全连接层Fc变换为特征向量,其中可以获得所生成形状的显著性形状掩模使用FCN模型来预测,并且分支与空间布局一起被保留在这种方法中,输入图像包括可变的空间尺寸,并且还提供不同的形状和分割。每个分割区域由预期的类标签和二进制掩码组成。3.4.训练过程在本节中,我们将介绍用于建议的对象检测和识别方案的训练方法区域建议生成网络被教导,而分割和检测任务是使用预先训练的FCN-8和Pascal VOC数据集的Fast R-CNN来执行的如上所述,通过分割方法处理每个图像,并产生部分形状掩模这些遮罩提供关于输入图像中的完整对象的数据。该方法的最终结果作为识别对象的掩模来实现,所述掩模在逐像素对数损失函数的帮助下与地面实况进行比较,所述损失函数可以计算为:XEXNM.xj;cjB.Jj.cjxj其中,X表示当前批次的预测矩阵,并且该矩阵表示为,W H B;W表示空间宽度,H表示空间高度,并且B表示批次中的图像的总数,c是包含所有当前图像的矩阵。图像标签,xj表示第j个图像的第i个像素预测,cj我我是第j个图像的第i个像素标签,N表示图像中的像素总数。为了知道参数,损失函数的值通过学习方案反向传播,其中基于动量和权重衰减选择梯度。表3使用PASCAL VOC 2007数据集,在平均精密度(mAP)方面采用最新技术水平对拟定技术(SGFr-RCNN)进行性能分析技术Leo(Zhu等人,2010)CMO(Li等人,(2011年)INRIA2009(Sun等人,( 2016年)UoC2010(Sun等人,( 2016年)Det-Cls(Song等人,2011)Oxford(Vedaldi等人,2009)NLPR(Zhang等人,2011)Ver.5(Girshick等人,自行车55.861.845.661.558.747.859.862.264.362.471.22飞机29.431.535.131.238.637.636.736.64138.956.66鸟9.412.410.911.91815.311.812.115.116.526.39船14.318.11217.418.715.317.517.619.522.7瓶28.627.723.22731.821.926.328.73332.2总线4451.542.149.153.650.749.854.657.954.863.55猫21.324.81923.130.63020.425.527.83442.1车51.359.850.959.65650.658.260.463.260.968.22椅子2023.7182323.517.322.921.123.225.438.88牛19.327.231.526.331.1332725.628.233.436.02表25.230.717.224.936.622.524.326.629.134.239.22狗12.513.717.612.920.921.515.214.616.92026.39马50.460.549.660.162.651.228.260.963.763.871.89姆比凯38.451.143.15147.945.549.250.753.855.163.33植物15.114.218.913.418.812.413.514.318.318.624.58人36.643.62143.241.223.344.644.747.145.755.21羊19.719.627.318.823.523.921.421.528.130.436.87沙发25.138.524.736.241.828.534.938.242.242.649.55火车36.849.129.949.153.645.347.549.353.151.459.81电视39.344.339.74345.348.542.343.649.347.856.29地图29.62535.1928.86534.13537.6432.10532.57535.4438.7439.5447.39625.38四十二点三十六ð6Þ诉Sharma,R.N. Mir/Journal of King Saud University- Computer and Information Sciences 34(2022)1687-169916954. 结果和讨论在这一节中,我们提出了使用建议的方法进行实验研究,并与当前的方法所获得的性能进行了对比。建议的模型使用MATLAB仿真工具实现。我们考虑了PASCAL VOC 2012,PASCAL VOC 2007和CAMO_UOW三个数据集进行实验研究4.1. PASCAL VOC数据集Pascal Visual Object Classes挑战赛于2005年启动,后来该数据集的最新版本是PASCAL VOC 2012,其中共有2913张图像,每张图像都有可变大小,这些图像总共包含6929个对象。来自该数据集的样本图像如图所示。 四、该数据集包括20个不同类别的各种图像,包括:航空见图7。 PASCAL VOC 2007数据集的MAP性能。见图8。 PASCAL VOC 2012数据集的MAP性能。N1/4;1/4小行星1696Sharma,R.N. Mir/Journal of King Saud University- Computer and Information Sciences 34(2022)1687- 1699飞机,自行车,船,公共汽车,鸟,瓶子,猫,汽车,牛,椅子和狗,餐桌,马,摩托车,人,盆栽植物,羊,沙发,电视屏幕和火车。该数据集包含每个图像的真实数据预期的结果,而召回提供了在所有地面事实中正确发现多少实例的度量。精确度和召回率值可以计算为:包含输入图像的分割区域、场景分割、以及指定对象类、边界框和其他数据的每个项目的注释。这个地面实况数据是PTpRTpTp FpTpFnð7Þ用于测量目标检测和识别方法的效率。同样,我们使用PASCAL2007数据集,并在其上应用所提出的对象检测和训练模型。4.2. Pascal VOC 2007PASCAL VOC 2007数据集共包括20个类,共9963张图像,包含24640个项目。完整的数据集是分为分别为2501、2510和4592张图像。这些信息包括不同的大小,角度,照明,外观和姿态,因此在此数据集中检测和分类对象是困难的工作来自该数据集的样本图像如图所示。 五、4.3. 性能测量建议模型的效率使用平均精度(MAP)度量计算。该指标基于数据集中每个类别的准确率-召回率曲线进行评估。在这个过程中,首先计算精确度-召回率曲线,然后计算曲线下面积,最后计算平均精确度,以获得每个类别的平均精确度为了产生P-R曲线,首先将分割结果与地面实况进行对比,并且如果IoU大于阈值,则分割输出和地面实况共享同一类。对所有的图像进行该方法,最后计算查准率和查全率精度提供了测量,有多少图像是正确的,其中P表示精确度,R表示召回率,Tp表示真位置。Fp表示假阳性,即分段结果与地面实况之一匹配,Fn表示假阴性地面实况对象,没有匹配结果。 基于这些精确度- 召回值,给定类的平均精度可以计算为:AP<$X½Rn-Rn-1]·maxPn8n1其中AP表示平均精度,N是精度-召回生成点的总数,R是召回,P是精度点。所提出的方法的性能是衡量的平均平均精度。Mean averageprecision是所有类别的平均精度。这是一个测量参数,它定义了任何给定查询图像的模型质量4.4. PASCAL VOC 2012性能在本节中,我们将介绍PASCAL VOC 2012数据集的性能分析,并比较使用最先进技术获得的性能。表2显示了每个类别的相对成就。表2表明,所建议的策略实现了MAP效率为74.60,这本身就是对象检测和识别的显著改进该研究表明,当与RCNN(Girshick etal., 2014)、Fast R-CNN(Girshick,2015)、HyperNet VGG(Redmon等人, 2016年),MR CNN(Gidaris和见图9。 从数据库中获得的摄影帧:背景帧,摄影帧和对象地面实况。nPn诉Sharma,R.N. Mir/Journal of King Saud University- Computer and Information Sciences 34(2022)1687-16991697Komodakis,2015)和R-CNN VGG(Girshick等人,2014)tech-niques。检测和识别的结果如图所示。 六、4.5. PASCAL VOC 2007性能同样,我们使用PASCAL VOC 2007数据集评估所建议方法的效率。该数据集的对象检测的相对效率如表3所示。根据表3中获得的结果,所建议的策略在平均精度方面实现了更好的效率。与NLPR,Ver.5相比,该策略的效率分别提高了19.86%、22.34%、33.73%和45.49%。分别是MOCO和CLOD。mAP性能提供在图1A和1B中。图7和图8示出了所建议的策略相对于最先进的模型的增强的效率。4.6. 摄像机目标检测性能为了演示伪装目标检测输出,我们考虑了来自CAMO UOW数据集的6个实时捕获场景(Li等人,2018年)。该数据集的样本图像帧如图9所示。前景和背景营造出
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功