没有合适的资源?快使用搜索试试~ 我知道了~
面向现实世界的大规模X射线违禁物品检测及其数据集
5412面向现实世界的违禁物品检测:大规模X射线基准王伯英1,2,张立波1,2,3 *,文龙银4,刘祥龙5,吴彦军11计算机科学中国科学院软件研究所,中国北京2中国科学院大学,中国北京3中国科学院大学杭州高等研究院,中国杭州4JD FinanceAmerica Corporation,Mountain View,CA,USA5北京航空航天大学,中国{boying2018,libo,iscas.ac.cnlongyin.wen.cv @ gmail.comxlliu@nlsde.buaa.edu.cn摘要由于各种因素,包括类内方差,类不平衡和遮挡,使用计算机视觉技术的自动安全检查在现实世界中是一项具有挑战性的任务由于缺乏大规模的数据集,以往的方法大多难以解决违禁物品故意隐藏在杂乱物体中的情况,限制了其在现实场景中的应用对于现实世界的违禁物品检测,我们收集了一个大规模的数据集,命名为PIDray,它涵盖了各种情况下,在现实世界的场景中的违禁物品检测,特别是故意隐藏的物品。经过大量的努力,我们的数据集包含47,677张X射线图像中的12种据我们所知,这是迄今为止最大的同时,我们设计了选择性密集注意力网络(SDANet)来构建强基线,它由密集注意力模块和依赖细化模块组成。密集注意力模块由空间和通道密集注意力组成,用于学习鉴别特征以提高性能。依赖关系细化模块用于利用多尺度特征的依赖关系。在所收集的PIDray数据集上进行的大量实验表明,所提出的方法每-*通讯作者(libo@iscas.ac.cn)。本工作得到了中国科学院前沿科学重点研究项目(批准号:200000000)的资助。国家自然科学基金,批准号:61807033和腾讯优图实验室。 张立波获得了中国科学院青年创新促进会(2020111)和中国科学院杰出青年科学家项目的资 助 。 PIDray 数 据 集 可 在 https://github.com/bywang2018/security-dataset上获得。图1.自然图像(左)和X射线图像(右)之间的比较与现有技术的方法相比是有利的,特别是用于检测故意隐藏的物品。1. 介绍安全检查是根据设定的标准检查资产并评估安全系统和访问控制以确保安全的过程,这对于发现各种情况下的任何潜在风险非常重要,例如公共交通和敏感部门。在实践中,检查员需要监视由安全检查机获取的扫描X射线图像,以发现违禁物品,例如枪支、弹药、爆炸物、腐蚀性物质、有毒和放射性物质。然而,检查人员很难准确有效地定位隐藏在杂乱物体中的违禁物品,这对安全构成了很大的威胁。近年来,由于深度学习和计算机视觉技术的实质性发展[31,24,34,14,13,16,3],对违禁物品的自动安全检查成为可能。安检员可以快速识别出禁止的地点和类别5413依赖于计算机视觉技术的项目。计算机视觉中的大多数先前的对象检测算法被设计为检测自然图像中的对象,这对于X射线图像中的检测不是最佳的。此外,X射线具有很强的穿透力,物体中不同的材料对X射线的吸收程度不同,从而产生不同的颜色。同时,X射线中的遮挡物和被遮挡物体的轮廓被混合在一起。如图1所示,与自然图像相比,X射线图像具有非常不同的物体和背景的外观和边缘,这给X射线检测的外观建模带来了新的挑战。为了促进X射线图像中违禁物品检测的发展,最近的一些尝试致力于构建安全检查基准枪棍子弹打火机刀式喷雾器扳手锤钳子和剪刀移动电源手铐[25、1、2、26、36]。然而,它们中的大多数不能满足现实世界应用的要求,原因有三个。(1)现有数据集仅包含少量和极少数类别的违禁物品(例如刀、枪和剪刀)。例如,一些常见的违禁物品,如移动电源、打火机、喷雾器等,就不在此列。(2)一些真实世界场景需要基于对口罩和违禁物品类别的准确预测的高安全级别。先前数据集中的图像级或边界框级注释不足以在这种情况下训练算法。(3)检测隐藏在杂乱物体中的违禁物品是安全检查中最重要的挑战之一。然而,由于缺乏涵盖此类病例的全面数据集,因此很少有研究朝着这一目标为此,我们收集了一个大规模的违禁物品检测数据集(PIDray)对现实世界的应用。我们的PIDray数据集涵盖了X射线图像中12种常见的违禁物品。图2中示出了具有注释的一些示例图像,其中每个图像包含至少一个具有边界框和掩码注释的禁止项。值得注意的是,为了更好地使用,测试集被分成三个子集,即,容易,困难和隐藏。隐藏子集集中在故意隐藏在凌乱对象中的禁止物品(例如,,通过绕线更改项目形状)。据我们所知,这是迄今为止检测违禁物品的最大同 时 , 我 们 还 提 出 了 选 择 性 密 集 注 意 网 络(SDANet)来构建一个强基线,它由两个模块组成,即:、密集注意模块和依赖细化模块。密集注意模块利用空间和通道两种注意机制来挖掘区分特征,有效地定位隐藏在杂乱物体中的故意禁止物品。依赖性细化模块的构造是为了利用多尺度特征之间的依赖性在所提出的数据集上进行的大量实验表明,我们的方法与最先进的方法相比表现良好特别是,我们的SDANet达到1。5%和图2.PIDray数据集中包含12个类别的示例图像违禁物品。为每个图像提供图像级和实例级注释。为了清楚起见,我们为每个图像显示一个类别。1 .一、相比Cascade Mask R-CNN [5],在隐藏子集上的对象检测和实例分割方面分别有3%的AP改进本工作的主要贡献总结如下。(1)针对现实世界场景中的违禁物品检测,我们提出了一个大规模的基准,即。,PIDray,由总共47,677个据我们所知,这是迄今为止最大的X射线违禁物品检测数据集。同时,这是针对故意将违禁物品隐藏在凌乱物品中的案件的第一个基准。(2)提出了选择性稠密注意网络,该网络由稠密注意模块和依赖细化模块组成。密集注意模块用于捕获空间和通道方向的鉴别特征,依赖性细化模块用于利用多尺度特征之间的(3)在所提出的数据集上进行了大量的实验,以验证所提出的方法相比,国家的最先进的方法的有效性。2. 相关工作2.1. 禁止物品基准当X射线穿过物体时,由于其强穿透力,不同的材料对X射线的吸收程度不同因此,不同的材料在X射线图像中显示不同的颜色。这种能力使得难以检测重叠数据。此外,自然图像带来的困难仍然存在,包括类内差异,数据不平衡和遮挡。为了推进鲁棒的违禁物品检测方法,以前的作品收集了一些数据集。[25]提出了一个名为GDXray的公共数据集,用于无损检测。GDXray5414表1.数据集统计数据与现有X射线基准的比较 C、O和I分别表示分类、对象检测和S、A和R分别代表地铁、机场和火车站数据集年类图像注释类型场景应用可用性总禁止图像Bbox 掩模GDXray [25]Dbf6 [1]Dbf3 [2]Liu等人 [21日][26]第二十六话OPIXray [36]201520172018201920192020363665八、一百五十一万一千六百二十七七千六百零三三十二、二百五十三1, 059,231八千八百八十五八千一百五十一万一千六百二十七七千六百零三一万二千六百八十三八九二九八千八百八十五CCCCCCCC房RealRealRealReal合成---SSAC+OC+OC +O C+ OC+OC××C×C我们202112四十七六百七十七四十七六百七十七CCC房S+A+RC+O+IC包含三类违禁物品:枪手里剑和剃须刀片由于几乎没有复杂的背景和重叠,因此很容易识别或检测该数据集中的对象。 与GDXray相比,Dbf6 [1]、Dbf3[2]和OPIXray [36]包含复杂的背景和重叠数据,但是图像的数量和违禁物品的数量仍然不足。最近,[21]构建了一个包含32,253张X射线图像的数据集,其中其中12,683个图像包括违禁物品。此数据集包含6种物品,但没有一种是严格禁止的,如手机,雨伞,电脑和钥匙。 [26]发布大规模安检基准命名为SIXray,其中包含1,059,231个具有图像级注释的X射线图像。但是,数据集中包含禁止项的图像较少(即,仅为0。84%)。此外,数据集包含6类违禁物品,但实际上只有5类被标注。与上述数据集不同,我们提出了一个新的大规模安全检查基准,包含超过47k的图像与违禁物品和12个类别的违禁物品与像素级注释。对于现实世界的应用,我们专注于检测故意隐藏的违禁物品。2.2. 对象检测目标检测是计算机视觉领域的基本任务之一。现代物体检测器通常分为两组:两级和一级检测器。两级检测器。R-CNN [10]是最早表明CNN可以显着提高检测性能的作品之一。但是,每个区域提案在RCNN中都是单独处理的,非常耗时。Fast-RCNN[9]提出了ROI池化层,它可以从完整图像的特征图中为每个建议提取固定大小的特征Faster R-CNN [31]引入了RPN网络来取代选择性搜索,这激发了大量后续工作。例如,FPN [18]将低分辨率要素与高分辨率要素通过自上而下的路径和横向连接。Mask R-CNN [11]在Faster-RCNN [31]的基础上增加了一个掩码分支,通过多任务学习来提高检测性能。Cascade R-CNN [4]将经典的级联架构应用于Faster R-CNN [31]。Libra R-CNN[27]开发了一个简单有效的框架来消除检测训练过程中的不平衡。单级检测器。OverFeat [32]是第一个基于深度学习的单阶段检测器之一。在此之后,提出了不同的一级目标检测器,包括SSD [24],DSSD [8]和YOLO系列[28,29,30]。RetinaNet[19]大大提高了一级探测器的精度,使一级探测器超越二级探测器成为可能。最近,无锚点方法通过使用关键点来表示对象,包括CornerNet [15],CenterNet [6]和FCOS [34],引起了研究人员的广泛关注。这些方法消除了对锚的需要并提供了简化的检测框架。2.3. 注意机制近年来,注意机制已被广泛应用于神经机器翻译、图像字幕、视觉问答等领域。注意机制的本质是模仿人类的视觉注意,能够从大量的信息中快速过滤出有鉴别力的为了获得更多的区别性信息,已经提出了各种注意机制。SENet [12]提出了挤压和激励模块来建模通道之间的相互依赖性。CBAM [37]对特征的通道间关系和空间间关系进行非本地网络[35]可以直接捕获任意两个位置的远程依赖性,其计算输入特征图中所有位置的特征的加权和作为某个位置的响应由于许多以前的工作[18,22]显示了多尺度5415特征融合的重要性,我们认为这是解决违禁物品检测问题的关键技术。在X射线图像中,物体的许多重要细节丢失,例如纹理和外观信息。5416系列 19000∼图3.建议的PIDray数据集中具有不同难度级别的测试集示例。从上到下,难度逐渐增加。第而且,物体的轮廓重叠,也给检测带来了很大的挑战。多尺度特征融合考虑了具有丰富细节信息的低层和具有丰富语义信息的高层,能够更好地检测违禁物品。因此,我们提出了一个选择性密集注意网络。特别地,我们学习在通道间和像素间位置处跨不同阶段的特征图之间的关系。3. PIDray数据集在本节中,我们将提供构建的PIDray数据集的详细信息,包括数据收集、注释和统计信息。3.1. 数据收集PIDray数据集是在不同的场景(如机场,地铁站和火车站)中收集的,我们被允许放置安全检查机器。我们招募了不介意在数据集中展示他们的软件包的志愿者我们使用来自不同制造商的3台安检机来收集X射线数据。不同机器生成的图像在物体和背景的大小和颜色上有一定的差异。在将包裹发送到安全检查机器之后,机器将通过检测图像的空白部分来一般来说,图像高度是固定的,而图像宽度取决于被扫描的包装的尺寸。完整的收集过程如下:当图4. PIDray数据集的类分布。蓝色条表示PIDray数据集中每个类的数量。表2. PIDray数据集的统计信息。测试模式火车容易硬隐藏计数二十九四百五十七9,482三千七百三十三五千零五总四十七六百七十七携带。同时保存了物体的粗糙区域,使后续的标注工作能够顺利进行。数据集中定义的违禁物品共有12类,即枪、刀、扳手、钳子、剪刀、锤子、手铐、警棍、喷雾器、移动电源、打火机和子弹。为了保持多样性,我们准备2每种违禁物品15例。我们花了三个多月的时间为PIDray数据集收集了总共47,677张图像最后,分布数据集中的每个类别在图4中总结。所有图像均以PNG格式存储。3.2. 数据注释我们招募了一些志愿者来注释收集到的数据。为了使他们能够更快、更准确地从X光图像中识别违禁物品,组织了一些我们首先组织了5个卷,从数据集中过滤出不包含违禁物品的图像。同时,他们还需要标注图像级标签,这可以方便后期的标注工作。在标注方面,我们组织了10多名志愿者使用labelme工具1对我们的数据集进行了为期两个月的标注。每张图片的标注时间约为3分钟,每位志愿者每天标注图片的时间约为10个在注释过程中,我们标记每个对象的边界框和分割掩码。需要一个人进行安全检查,我们随机他或她在包裹中预先准备的违禁物品1http://labelme.csail.mit.edu/Release3.0/800070006000500040003000200010000隐藏硬容易指挥子弹枪锤手铐刀轻钳子Powerbank剪刀喷雾器扳手5417跳过连接列车组密集注意机制(一)博硬件×1×1convC×HW博士C/r×1×1convC×1×1convC×H×W(c)第(1)款RSDA博士RSDA博士RSDA博士RSDA博士RSDA博士选择性密集注意依赖求精元素求和选择性通道注意卷积运算重缩放运算元素矩阵图5.网络架构。(a)提出的选择性密集注意力网络的整体架构。(b)选择性密集注意模块。(c)依赖关系细化模块。instance.经过多轮的双重检查,错误被尽可能地减少。最后,我们为每个图像生成高质量的注释。3.3. 数据统计据我们所知,PIDray数据集是迄今为止最大的它包含47,677张图像和12类违禁物品。 如表2所示,我们将这些图像分为29,457张(大约60%)和18,220张(剩余40%)图像,分别作为训练集和测试此外,根据违禁项检测的难易程度,我们将测试集分为三个子集,即:,容易,困难和隐藏。具体地,简单模式意味着测试集中的图像仅包含一个禁止项。硬模式表示测试集中的图像包含多个禁止项。隐藏模式表示测试集中的图像包含故意隐藏的禁止项。如图3所示,我们在测试集中提供了几个不同难度级别的示例4. 选择性密集注意网络如上所述,以前的工作通常采用特征金字塔[18]来利用网络中的多尺度特征图,其专注于仅在相邻层中融合特征。在此之后,简洁的头部(例如简单的卷积层)被应用在池化特征网格上以预测实例的边界框和掩码。然而,在复杂的场景中,物体的尺度变化会影响表演效果我们的目标是了解基于自顶向下特征金字塔结构的多尺度特征图的重要性[18]。在本节中,我们 将 详 细 介 绍 所 提 出 的 选 择 性 密 集 注 意 力 网 络(SDANet)的体系结构和组件4.1. 网络架构如图5(a)所示,在特征金字塔之后,我们的网络通过以下两个关键步骤进一步充分利用多尺度特征图:1)通过两个选择性注意模块融合来自不同层的信息。2)通过依赖细化模块增强融合特征。SCASDASSA(b)第(1)款SDARSCASSAconv金字塔特征骨干FPNRPN5418Σ=联系 我们i=1我i=1我×我×ni=1ΣΣ·--请注意,这两个步骤是在每个层中的特征图上执行的在组合原始地图和增强地图两者之后,多尺度表示被馈送到区域提议网络(RPN)中以用于最终预测。受[17]工作的启发,我们提出了两个选择性注意力模块,分别提取金字塔中不同特征图的通道方向和空间方向注意力,包括选择性通道方向注意力模块(SCA)和选择性空间注意力模块(SSA)。如图5(b)所示,金字塔中的每个特征图分别被馈送到SCA和SSA中。在第i层,通过两个模块之后的特征的元素求和来计算输出增强特征我...FCC×1FCC×1GAP FC全局平均池化FCC×1FC C×1FCC×1功能映射SCA映射图6.选择性通道注意模块(SCA)的图示。补充SCA和SSA模块,我们首先通过元素操作融合不同层中的特征,即、ConvConv高×宽高×宽Xi=1Xi. 因此,我们实现了全局语义表示-最大池化Max不同地图之间的关系。注意,我们调整多级特征X1的大小,,Xn的第i层特征的比例相同,然后将它们馈送到两个模块中。然后,我们通过聚合具有各种关注度的特征图来获得增强的特征,其详细描述为特征图CAvg平均合并ConvConvConv高×宽高×宽高×宽SSA地图如下4.2. 选择性通道式注意如图6所示,我们采用全局平均池化(GAP)层来基于基本特征来获得全局信道信息。 之后,我们使用全连接(FC)层通过减少通道维度(例如,,从256到128)。此外,通过增加FC层和softmax操作,自适应地获得不同特征映射的通道方向注意力权重ωcn.最后,en-增强的特征图V_C由每层上的注意力权重获得,即,VC=nωc·Xi.4.3. 选择性空间注意如图7所示,我们在特征图X上使用平均池化和最大池化操作两者来生成两个不同的空间连续描述符,即:e. 、Avg(X),Max(X).给出级联的context描述。tors,我们可以通过添加来获得空间注意力权重卷积层和每层的softmax操作。最后,通过每层上的注意力权重来获得特征图VS,即,VS(x,y)=nωs(x,y)Xi(x,y),其中(x,y)表示特征图中像素的索引。4.4. 依赖关系细化在获得具有通道和空间注意力的聚合特征后,我们开发了依赖关系细化(DR)模块以生成更具区分性的特征图。非局部表示[35]可以有效地捕获长程依赖关系,这进一步提高了图7.选择性空间注意模块(SSA)精度如图5(c)所示,我们首先聚合全局上下文特征,然后在不同渠道之间建立关系。最后,通过融合模块将全局上下文特征融合到所有位置的特征中。5. 实验我们进行了广泛的实验PIDray数据集比较所提出的方法与几个国家的最先进的算法。然后,烧蚀研究是用来显示在我们的方法中所提出的模块的有效性。最后,在一般检测数据集上验证了该方法的有效性5.1. 实现细节我们采用的MMDetection工具包2来实现我们的方法,这是在一台机器上执行两个NVIDIA特斯拉V100卡。我们的方法在Pytorch中实现。为了公平比较,所有比较的方法都在训练集上训练,并在PIDray数据集的测试集上进行评估。所提出的SDANet基于CascadeMask-RCNN [5],其中ResNet-101网络用作主干。根据我们的统计,我们数据集中图像的平均分辨率约为500五百块 因此,我们将图像的大小调整为500 500用于比较检测器以进行公平比较。的整个网络用动量为0的随机梯度下降(SGD)算法训练。9和0的权重衰减。0001 初始学习率被设置为0。02和2https://github.com/open-mmlab/mmdetection5419表3.建议的PIDray数据集上的评价结果COCO mmAP(%)用于评价所有方法的性能方法骨干检测AP分段AP容易硬隐藏整体容易硬隐藏整体FCOSResNet-101-FPN61岁851岁7三十七550块3----RetinaNetResNet-101-FPN61岁852岁2四十651岁5----Faster R-CNNResNet-101-FPN63岁3五十七2四十二1五十四2----Libra R-CNNResNet-101-FPN六十四7五十八8四十二955. 5----Mask R-CNNResNet-101-FPN六十四7五十九0四十三855. 8五十七650块2三十五2四十七7SSD512VGG1668岁1五十八9四十五7五十七6----级联R-CNNResNet-101-FPN69岁。362. 8四十八0六十岁。0----级联掩码R-CNNResNet-101-FPN七十9六十四0四十八061岁0五十九251岁5三十六1四十八9SDANet(我们的)ResNet-101-FPN71.264.249.561.659.952.037.449.8级联掩码R-CNNResNet-101-BiFPN68岁061岁1四十六岁。9五十八7五十八0四十九8三十五3四十七7级联掩码R-CNNResNet-101-PAFPN七十463岁4四十六岁。7六十岁。2五十九251岁4三十五0四十八5级联掩码R-CNNResNet-101-FPN七十9六十四0四十八061岁0五十九251岁5三十六1四十八9SDANet(我们的)ResNet-101-FPN71.264.249.561.659.952.037.449.8表4.各种设计的有效性。所有模型都在PIDray训练子集上训练,并在PIDray隐藏测试集上测试。准确度由“检测AP/分段AP”指示SCASSA博士APAP50AP75APSAR1AR10AR100ARSC四十八0/36。1四十八3/36562. 7/58。963岁5/59。3五十四0/404五十四3/41。2五十七0/435五十七2/43。9五十六0/429五十六2/43。4五十七6/44。0五十七9/44。4五十七6/44。0五十七9/44。4五十七6/44。0五十七9/44。4C四十八3/36263岁2/59。6五十四6/401五十七4/43。8五十六6/43。3五十八1/44。3五十八1/44。3五十八1/44。3CC四十八9/36。763岁8/60。055. 4/408五十八3/443五十七4/43。8五十九3/450五十九3/450五十九3/450CCC四十九5/37。4六十四5/60。655.7/42。2五十八5/44。8五十七2/44。1五十九5/45。5五十九5/45。5五十九5/45。5批量大小被设置为2。除非另有说明,否则实验中涉及的其他参数遵循MMdetection的设置5.2. 评估指标根据MS COCO[20]的评估指标,我们使用AP和AR指标在我们的PIDray数据集上评估了比较方法的性能。分数是多个交集对并集(IoU)的平均值。值得注意的是,我们在0. 50和0的情况。九十五具体地,AP得分是所有10个AP得分的平均值。IoU阈值和所有12个类别。为了更好地评估模型,我们查看各种数据分割。 AP 50和AP 75评分在IoU = 0时计算。50且IoU =0。分别为75。请注意,许多违禁物品都很小(面积<322)在PIDray数据集中,这是由ARS度量评估。此外,AR分数是给定固定数量的检测(例如,检测)的最大召回率。、1、10、100),平均超过12个类别和10个IoU。5.3. 总体评价如表3所示,我们首先将我们的方法与一些最先进的对象检测器进行比较。可以看出,我们的SDANet在PIDray数据集中的所有子集方面实现了最佳性能。例如,与最大的竞争对手Cascade Mask R-CNN [5]相比,我们的方法实现了1. 5%和1. 3%的AP增益的两个子任务的隐藏测试集,这表明效果-5420所提出的选择性密集注意力模块的有效性。如图8所示,我们的方法比Cascade Mask R-CNN [5]实现了更高的视觉结果表明,SDANet可以有效地检测违禁物品,特别是那些被故意隐藏。为了验证所提出的选择性密集注意方案的有效性,我们将我们的方法与以前的多尺度特征融合策略进行了比较,包括FPN [18],PAFPN [23]和BiFPN [33]。FPN [18]提供自上而下的途径融合多尺度特征,而PAFPN [23]在FPN之上添加了额外的自下而上的途径。BiFPN [33]是加权双向特征金字塔网络,其允许容易且快速的多尺度特征融合。如表3所示,我们的方法优于现有的多尺度特征融合策略。我们推测,这归因于两个原因。首先,两个选择性注意模块可以密集地聚合多层语义信息。其次,依赖关系细化模块可以进一步捕获不同特征图之间的长程依赖关系实验结果表明,该方法能有效地检测出有意隐藏的数据。5.4. 消融研究由于这项工作的重点是检测被故意隐藏的违禁物品,我们进行消融研究,以分析所提出的模块对隐藏的PIDray数据集的测试集的影响如表4所示,我们报告了5421指挥棒枪锤轻喷雾器剪刀指挥棒枪锤轻图8.所提出的SDANet方法与级联掩码R-CNN之间的比较[5]。GT表示Ground-truth,Cascade表示Cascade Mask R-CNN生成的结果,Ours表示SDANet生成的结果。表5.依赖细化(DR)和其他注意机制在隐藏测试集上的比较。方法检测AP分段AP我们不带DR48.9 36.7+SE49.1 36.7+CBAM47.0 35.8+Dr49.5 37.4表6. MS COCO和PASCAL VOC检测数据集的评价结果。方法MS CocoPascal VOC基线42.981.5SDANet43.582.5当我们在基线Cascade Mask R-CNN [5]中逐个添加模块时,我们的SDANet得到了改进。首先,选择性通道式注意模块将基线方法改进了0。3%检测AP和0. 4%节段性AP。然后,性能以0. 6%检测AP和0. 2%的分割AP。最后,依赖细化模块贡献0。6%和0。在检测AP和分段AP方面分别提高7%我们还比较了依赖细化模块与现有的注意力机制(例如:SE和CBAM)。表5显示了所有模型的结果。结果表明,DR在检测自由隐藏项方面具有明显的优势5.5. 通用检测数据集最后,我们还进行了一些实验,一般的检测数据集上的自然图像SDANet的有效性进行评估。 实验使用MS COCO[20]和PASCAL VOC[7],它们是自然图像检测领域中众所周 知 的 数 据 集 。 实 验 结 果 示 于 表 6 中 。 我 们 遵 循MMDetection 中 的 训 练 和 测 试 管 道 与 基 线 方 法(Cascade Mask R-CNN)相比,我们在MS COCO和PASCAL VOC上分别实现了0.6 AP和 1.0 AP增益。实验结果表明,该方法不仅适用于违禁物品的检测,而且在一般情况下也是有效的。6. 结论在本文中,我们构建了一个具有挑战性的数据集(即PIDray)的违禁物品检测,特别是处理的情况下,违禁物品隐藏在其他对象。PIDray是迄今为止我们所知的最大的违禁物品检测数据集。此外,所有图像都用实例的边界框和掩码进行注释。为了学习多尺度特征图的重要性,我们提出了选择性密集注意网络。在PIDray数据集上的实验证明了该方法的优越性我们希望建议的数据集将帮助社区建立一个统一的平台,以评估违禁物品检测方法走向实际应用。对于未来的工作,我们计划扩展当前的数据集,以包括更多的图像以及更丰富的注释进行全面的评价。确认我们要感谢Ruyi Ji,Jiaying Li,Xu Wang和其他人在数据收集和注释方面的帮助。指挥棒喷雾器轻指挥棒GT我们级联5422引用[1] Samet Akcay和Toby P Breckon. X射线行李安全图像中基于区域的目标检测策略的评估。在ICIP,第1337-1341页,2017年。二、三[2] Samet Akcay , Mikolaj E Kundegorski , Chris GWillcocks,and Toby P Breckon.使用深度卷积神经网络架构进行X射线行李安全图像中的对象分类和检测。IEEETransactionsonInformationForensicsandSecurity,13(9):2203-2215,2018。二、三[3] Yuanqiang Cai , Dawei Du , Libo Zhang , LongyinWen,Weiqiang Wang,Yanjun Wu,and Siwei Lyu.用于无人机目标检测和计数的制导注意网络。在ACMMM,第709-717页,2020中。1[4] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade r-cnn:深入研究高质量的对象检测。在CVPR中,第6154- 6162页,2018年。3[5] 赵伟蔡和努诺·瓦斯康塞洛斯。Cascade R-CNN:高质量的 对 象 检 测 和 实 例 分 割 。 CoRR, abs/1906.09756 ,2019。二、六、七、八[6] 段凯文,白松,谢灵犀,齐红刚,黄庆明,田奇.Centernet:用于对象检测的关键点三元组。在ICCV,第6569-6578页,2019年。3[7] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉对象类(voc)的挑战。国际计算机视觉杂志,第303-338页,2010年。8[8] Cheng-Yang Fu , Wei Liu , Ananth Ranga , AmbrishTyagi,and Alexander C Berg. Dssd:解卷积单次激发探测器。arXiv预印本arXiv:1701.06659,2017。3[9] 罗斯·格希克。快速R-CNN。在ICCV,第14403[10] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。在CVPR中,第5803[11] KaimingHe , GeorgiaGkioxari , PiotrDolla'r ,andRossGir-shick.面具R-CNN。在ICCV,第2961-2969页,2017年。3[12] 杰虎,李申,孙刚。挤压-激发网络。在CVPR中,第7132-7141页,2018年。3[13] Ruyi Ji , Dawei Du , Libo Zhang , Longyin Wen ,Yanjun Wu,Chen Zhao,Feiyue Huang,and Siwei Lyu.学习语义神经树用于人类句法分析。在ECCV,第205-221页,2020年。1[14] Ruyi Ji , Longyin Wen , Libo Zhang , Dawei Du ,Yanjun Wu , Chen Zhao , Xianglong Liu , and FeiyueHuang.用于细粒度视觉分类的注意力卷积二元神经树在CVPR中,第10465-10474页,2020年。1[15] 黑律和贾登。Cornernet:将对象检测为成对的关键点。参见ECCV,第734-750页,2018年。3[16] Congcong Li,Dawei Du,Libo Zhang,Longyin Wen,Tiejian Luo,Yanjun Wu,and Pengfei Zhu.用于无监督域适应的空间注意力金字塔网络。在ECCV,第481-497页1[17] 李翔、王文海、胡小林、杨剑。选择性内核网络。在CVPR中,第510-519页,2019年。65423[18] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉.用于对象检测的特征金字塔网络。在CVPR中,第2117-2125页,2017年。三、五、七[19] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在ICCV,第2980-2988页3[20] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。在ECCV,第740-755页,2014中。七、八[21] 刘金义,冷家旭,刘颖。基于深度卷积神经网络的x射线行李安全图像目标检测器。在2019年IEEE人工智能工具国际会议上。3[22] 刘舒,陆琪,秦海防,石建平,贾佳雅。用于实例分段的路径聚合网络。在CVPR中,第8759-8768页,2018年。3[23] 刘舒,陆琪,秦海防,石建平,贾佳雅。用于实例分段的路径聚合网络。在CVPR中,第8759-8768页,2018年。7[24] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy,Scott Reed,Cheng-Yang Fu,andAlexander C Berg. Ssd:单发多盒探测器。在ECCV,第21-37页,2016年。第1、3条[25] Domingo Mery 、 Vladimir Riffo 、 Uwe Zscherpel 、GermanMondrago'n 、 Iva'nLillo 、 IreneZuccar 、HansLobel和 Miguel Carrasco。Gdxray:无损检测用X射 线 图 像 数 据 库 。 Journal of NondestructiveEvaluation,34(4):42,2015. 二、三[26] 苗彩静,谢灵犀,方婉,苏迟,刘红叶,焦建斌,叶启祥。Sixray:一种大规模安检X射线基准,用于在重叠图像中发现违禁物品。在CVPR中,第2119-2128页,2019年。二、三[27] Jiangmiao Pang , Kai Chen , Jianping Shi , HuajunFeng,Wanli Ouyang,and Dahua Lin.天秤座r-cnn:目标检测的平衡学习。在CVPR,第821- 830页,2019年。3[28] Joseph Redmon,Santosh Divvala,Ross Girshick,andAli Farhadi.你只看一次:统一的实时对象检测。在CVPR,第779-788页,2016年。3[29] 约瑟夫·雷德蒙和阿里·法哈迪Yolo9000:更好,更快,更强。在CVPR中,第7263-7271页,2017年。3[30] 约瑟夫·雷德蒙和阿里·法哈迪Yolov3:一个渐进的改进。arXiv预印本arXiv:1804.02767,2018。3[31] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn : 利 用 区 域 建 议 网 络 进 行 实 时 目 标 检 测 。 在NeurIPS,第91-99页,2015中。第1、3条[32] PierreSermanet , Da vidEigen , XiangZhang , MichaeülMath-ieu,Rob Fergus,and Yann LeCun.Overfeat:使用卷积网络集成识别、定位和检测。arXiv预印本arXiv:1312.6229,2013。3[33] Mingxing Tan , Ruoming Pang , and Quoc V. 乐Efficient- det:可扩展且高效的对象检测。在CVPR中,第10778-10787页,2020年。7[34] Zhi Tian , ChunhuaShen , Hao Chen , and Tong He.Fcos:完全卷积的一阶段对象检测。在ICCV,第9627-9636页,2019年。第1、3条5424[35] 王晓龙,Ross Girshick,Abhinav Gupta,和Kaiming He.非局部神经网络。在CVPR中,第7794- 7803页,2018年。三、六[36] Yanlu Wei,Renshuai Tao,Zhangjie Wu,Yuqing Ma,Libo Zhang,and Xianglong Liu.禁止阻塞-限制项检测:X射线安全检查基准标记和去遮挡注意模块。arXiv预印本arXiv:2004.08656,2020。二、三[37] Sanghyun Woo,Jongchan Park,Joon-Young Lee,andIn So Kweon. Cbam:卷积块注意模块。在ECCV,第3-19页,2018年。3
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功