没有合适的资源?快使用搜索试试~ 我知道了~
2119SIXray:大规模安检X射线重叠图像违禁品发现基准CaijingMiao,Qixiang Ye中国科学院大学美国约翰霍普金斯大学金山云华为诺亚§鹏程实验室{miaocaijing16,wanfang13}@ mails.ucas.ac.cn,198808xc@gmail.com{suchi,liuhongye}@ kingsoft.com,{jiaojb,qxye}@ ucas.ac.cn摘要在本文中,我们提出了一个大规模的数据集,并建立了一个基线的违禁物品发现的安全检查X射线图像。我们的数据集名为SIXray,由1,059,231张X射线图像组成,其中手动注释了6类8,929个违禁物品。它提出重叠图像数据是一个全新的挑战,同时与现有数据集具有相同的属性,包括复杂但无意义的上下文和类不平衡。我们提出了一种名为类平衡的高-枪刀扳手钳子剪刀锤负精细化(精细化)来处理这些困难。该算法假设每个输入图像都是从混合分布中采样的,并且深度网络需要迭代过程来准确地推断图像内容。为了加速,我们将反向连接插入到不同的网络骨干,提供高级视觉提示以辅助中级功能。此外,类平衡的损失函数的设计,以最大限度地减轻容易负样本引入的噪声。我们用不同比例的阳性/阴性样品对SIX射线进行了评价。与基线相比,SVM具有更好的区分对象的能力,特别是使用中级特征,这提供了使用弱监督方法实现精确对象定位的可能性。特别是在正训练样本较少的情况下,神经网络的优势更加明显,这表明了其在实际安全检测中的潜在应用。11. 介绍安全检查在保护公共空间免受恐怖主义等安全威胁方面发挥着至关重要的作用。随着大城市人口的增长和公共交通枢纽的人群密度,成为叶启祥为通讯作者。1数据和代码:https://github.com/MeioJane/SIXray。图1.所呈现的SIXray数据集中的示例图像,包含六类违禁物品。挑战包括对象比例和视角的巨大变化、对象重叠和复杂背景(请放大以了解详细信息)。快速、自动和准确地识别X射线扫描图像中的违禁物品越来越重要。近年来,深度学习的快速发展[19],特别是卷积神经网络,为图像处理和视觉理解带来了发展,包括发现和识别X射线图像中的物体[23] [27] [24]。与自然图像和其他X射线扫描不同[36],安全检查通常处理行李或行李箱,其中物体随机堆叠并且彼此严重重叠。因此,在扫描的图像中,感兴趣的对象可能与任意和无意义的杂波混合,因此甚至可以被人类检查员忽略,图。1.一、为了给这一领域的研究提供一个公共基准,在本文中,我们提出了一个名为安全检查X射线(SIXray)的数据集,它比用于违禁物品发现的最大图像集大100倍,即。,GDXray数据集中的行李组[25]。SIXray包含超过一百万张X射线图像,其中只有不到1%的图像具有阳性标记(即,,禁止的项目有注释)。它模拟了类似于真实世界场景的测试环境,检查人员经常将目标对准这些场景2120cn,cnn=1前景违禁物品背景图2. X射线图像由一组重叠的图像组成,每个图像都是透明的。(最好是彩色的)。在识别以非常低的频率出现的违禁物品(例如,,千分之一)。不像GDXray只包含简单背景中的灰度图像,我们的数据集更具挑战性。尽管彩色X射线扫描仪为不同的材料赋予了不同的颜色,但集装箱中的物体在规模、视角和风格上往往有相当大的差异,而违禁物品可能与任意数量和类型的安全物品混合和重叠,如图所示。1.一、我们将这个问题公式化为一个优化任务,该任务提供了一个数据集D={(xn,y∈N)}N,旨在最小化地面-地面之间的预期损失函数真理与预言|y− f(xn; θ)|二、在此,Xn表示Im。我们用不同比例的Six射线测量阳性/阴性样本2.与多个基准(即:不同的网络骨干,证明了使用高级线索来辅助中级特征的有效性。此外,我们验证了添加类平衡损失项的必要性,因为我们在不太平衡的训练数据上观察到了更显著的改进。最后但并非最不重要的是,我们在测试集中的边界框级别提供禁止项的注释,并应用类激活映射(CAM)算法[39]作为弱监督对象定位的基线。这项工作的主要贡献是双重的。(1)本研究为今后的视觉任务研究提供了一个基准。(2)提出了一种基于层次结构的分类方法,该方法集成了多层次的视觉线索,并在层次结构中实现了类的平衡。2. 相关工作•X射线图像和基准X射线图像是通过用X射线照射物体并根据其光谱吸收率用伪彩色渲染来捕获的。因此,在X射线图像中,由相同材料制成的物体被赋予非常年龄数据,yn是C维向量,每个索引表示在xn中是否存在特定类。基于这个框架,我们指出了自然图像和X射线图像之间的明显区别。自然图像xn总是可以划分为区域,每个区域包含因此,只能从分布P(x)中采样一个类cn|cn)。然而,X射线图像通常由一组重叠的图像组成,其提供了多类标记为y=(C维),可以使用混合物配制,相似的颜色,例如金属通常以蓝色显示,而不可穿透的物体通常以红色显示。此外,X射线与自然图像之间最显著的区别在于对象重叠,因为X射线通常应用于某些对象可能严重遮挡其他对象的场景,例如。在行李箱中,个人物品经常被随机堆放。这一特性给计算机视觉算法带来了新的挑战,而传统的困难,nΣ真实分布xn=y·xn,c其中xn,c是采样的关系持续存在,例如,尺度和视点方差,类内方差和类间相似性等。正如广泛观察到的那样,从隐藏分布P(x |c),如图所示。3 .第三章。我们在深度神经网络的背景下提出了一种方法来处理这种复杂的情况。关键思想是结合两个信息来源,即使用中级特征xn(最经常从混合分布中采样)以确定高级语义yn,并且通过参考yn中包含的信息来从xn中重新过滤不相关的信息。为此,我们制定了高层的监管信号成倒逼网络连接。为了缓解数据不平衡,我们引入了一个基于这个层次的损失平衡术语。这导致了一个完整的管道,名 为 类 平 衡 的 结 构 化 修 饰 ( class balanced archicalrefinement,简写为BARF)。由于yn是不可观测的,在优化中需要迭代过程,这在实践中在计算上是昂贵的。为了加速,我们关闭迭代,以便在单位时间内处理更多的训练数据。在测试中,它融合了来自不同阶段的视觉信息,以提高识别精度,但在计算中仍然有效。在其他对象本地化基准测试中,如PascalVOC [9]和MS-COCO [21]。研究人员设计了许多工作来处理这些困难,并在它们之后接近有前途的商业价值[1] [10] [26] [30] [34]。但不幸的是,很少有X射线数据集已公布的研究目的。最近发布的基准GDXray [25]包含三大类违禁物品,包括枪、手里剑和剃须刀片。然而,GDXray中的图像具有很少的背景杂波和重叠,因此,重新识别这些图像和/或检测其中的对象变得相当容易。 此外,相对少量的阴性样本(不包含违禁物品的图像)在训练和测试阶段都简化了算法。ChestXray 8 [36]是一个用于医学影像分析的大型胸部X射线语料库2在本文中,至少有一个禁止项目的图像被称为2121姐与我们的场景不同,这些图像中的对象很少相互重叠。•X射线图像和基准目标识别的研究领域已经成为计算机领域的主流。由深度学习方法驱动。 随着大规模数据集[18]和强大的计算资源的可用性,研究人员能够设计和优化非常深的神经网络[18] [31] [16] [4] [13] [14],以分层的方式学习视觉模式。在每个图像可以包含多于一个对象的场景中,通常存在两种类型的定位方法。第一个SIX射线数据集(1,059,231)阳性(8,929)负枪刀扳手钳子剪刀锤3,131 1,9432,1993,961983601,050,302表1. SIXray数据集的类分布。还有一个锤子类,有60个项目,但由于样品数量少而没有使用。2000 20 40 60 80 100 120 140 160 180角度一种是在图像级别上工作,该级别为每个类别产生一个分数,指示其存在或不存在[39]。第二个则在对象级别上工作,并为每个对象生成一个边界框和一个类标签,15010050002 4 6纵横比15010050005区域10104[12] [11] [29] [28][29] 前一种- ten遇到了多对象分类和训练数据不平衡的问题[36],对此,二进制交叉熵(BCE)损失[5]以及类平衡技术[36][15]已被发现。另一方面,第二种类型通常基于管道,首先提取图像中的一些建议[12] [11] [29],然后确定每个建议的类别。本文研究图像级识别,因为训练数据中缺少每个对象的注释,而我们的方法具有对象级定位的能力。 这与弱监督对象定位的研究有关[3] [6] [33],或者使用自上而下的类激活[8] [7] [40]。也有关于在多实例学习框架中制定对象定位的努力,其中卷积滤波器充当激活特征图上感兴趣区域的检测器[3] [37] [33][35]。在X射线图像中的物体识别的背景下,研究人员意识到这些图像通常包含较少的纹理信息,但形状信息更具区分力。因此,在视觉词袋模型的时代[34] [2],设计有效和高效的手工功能的主题被深入探讨[30] [26]。随着深度学习成为优化复杂函数的标准工具,研究人员开始将其应用于为X射线图像表示提取紧凑的视觉特征[1],或者对X射线图像上的预训练模型进行微调,以便可以借用从自然图像中学到的知识。本文主要研究第二种方法。3. SIXray基准3.1. 数据采集我 们 收 集 了 一 个 名 为 Security Inspection X-ray(SIXray)的数据集,它总共包含1,059,231张X射线图像,比现有的唯一一个公共数据集大100多倍图3.SIX射线测试集中物体视角、长宽比和面积的分布用于相同目的的lic数据集,即,GDXray数据集的行李组[25]。这些图像是从几个地铁站收集的,原始元数据表明是否存在违禁物品。常见的违禁物品有枪、刀、扳手、钳子、剪刀和锤子六类。在我们的实验中没有使用仅具有60个样本的锤类。这些对象的分布与真实世界的场景一致,其中与阴性样本相比,阳性样本要少得多。此数据集的统计数据显示在选项卡中。1.一、每个图像都由安全检查机器扫描,该机器为不同材料制成的物体分配不同的颜色。所有图像均已存储JPEG格式,平均大小为100K像素。为了研究训练数据不平衡带来的影响,我们构建了该数据集的三个子集,分别命名为SIXray10,SIXray100和SIXray1000,数字表示阴性样本与阳性样本的比例。在SIXray 10和SIXray 100中,所有8,929正图像包括在内,正好有10×,100×负图像。SIXray100的分布与真实世界场景非常接近。最大限度地探索我 们的 算 法处 理 数据 不 平衡 的 能力 ,我 们构 建SIXray1000数据集时,每类只随机选择1000张正像,但将它们与所有1050302张负像混合。每个子集又分为训练集和测试集,训练集包含80%的图像,测试集包含20%的图像(训练图像与测试图像之比为4:1)。在整个数据集上,我们使用人类安全检查员提供的图像级注释,即是否存在每种类型的违禁物品。此外,在测试集上,我们手动为每个禁止项添加一个边界框,以评估对象定位的性能。角度纵横比#实例区域#实例#实例2122nnnnnnnnnnnnn3.2. 数据集属性SIXray数据集有几个属性,这给视觉识别带来了困难。首先,这些图像大多是从个人行李的X射线扫描中获得的,例如袋子或手提箱,其中物品通常随机堆叠。当这些物品通过X射线扫描时,穿透特性使得甚至可以看到图像中的遮挡物品。这导致了这个数据集最重要的特性,我们称之为重叠。第二,违禁物品可能以不同的尺度、观点、风格甚至亚型出现,所有这些都会引起相当大的类内变异,增加识别的难度,图3。第三,图像可能非常杂乱,但几乎不可能为所有对象分配,特别是那些具有明确类别标签的非禁止对象穿透假设,每个图像可以写为:ΣCxn<$yn,c·xn,c,xn,c<$Pc. (一)c=1这个公式当然是不准确的,因为我们忽略了对象之间的重叠关系以及对象被堆叠的顺序,但是它用作重叠如何影响图像数据的近似公式。我们的目标是学习判别函数yn=f(xn;θ)来预测图像标签。因为感兴趣的对象可能以各种尺度出现为了认识和为了进一步检测它,一个流行的选择[17] [20]是结合多阶段视觉信息。在这里,我们简单地考虑从L个不同层提取的特征向量,其表示为x(l)。一个常规的解决方案是训练一个类-因此,有噪音来自一组开放的对象,这使得它很难期待出现在后面的东西。n在每一层之外,y(l)=h(l).x(l);x(l)Σ,使用地面区域。第四也是最后一点,如上所述,地面实况信号y作为监督。在测试阶段,正面图像(至少有一个违禁物品)仅限OC-n(l)(升)我们融合所有yn作为最终输出,即,yn=1yn .cupy是这个数据集的一小部分。 如果没有特殊待遇-然而,训练阶段很容易偏向否定类,因为简单地猜测否定标签会产生足够高的准确性。这对训练稳定性提出了挑战。然而,我们注意到该模型的一个重大弱点,来自渗透假设,即:,等式(1),应用于中级特征3.也就是说,每个x(l)是从不同采样的子图像的组成耳鼻喉科类,包括那些不感兴趣的项目,因此在下面的部分中,我们介绍了我们的方法,考虑到这些特性,特别是第一个h(l)x(l);x(l)可能会分心。一个合理的想法是第四个属性是这个数据集特有对x(l)进行优化,去掉这些无关的信息。这4. 我们的方法n由函数g(l)实现.x(l),yn(l);τ(l)Σ,其中共享4.1. 动机和表述如前所述,一个重要的特征,与xn的维数相同。总结这些缺点,帐篷产生以下优化问题:ΣLX射线图像的特点在于物体重叠彼此的关系 请注意,重叠与OC不同。θ,θ,τ=arg minEx∈Dθ,θ,τ,的。L(l),其中(2)l=1μ m,后面的物体是不可见的。作为X-光线可穿透,前方和后方的物体都可见,L(l)=Ly,h(l)x(l);(l)、(3)形象这被称为渗透假设,基于此,我们使用混合模型来制定这些数据。x(l)=g.(l) x(l),yn;τΣ(l)和(4)假设数据集中出现C类可能的项,索引集为{1,2,.,C}。其中,C类被认为是禁止的,例如。在Sixrayyn=1 ΣLL·l=1h(l).x(l);(l)Σ.(五)数据集,C′=5。在不失一般性的情况下,我们给它们分配类索引1,2,...,C′. 令数据集D包含N个图像。对于每个输入图像xn,我们的目标是获得每个xn的C维向量yn,每个维度中yn,c是0或1,1表示指定的违禁物品存在于该图像中,0表示指定的亦然 注意,y的地面真值只存在于这里L{·,·}是一个损失函数,稍后将详细讨论.上面的公式定义了一个递归模型,其中即使在训练阶段也无法观察到y n。优化的标准方法涉及迭代,其中我们从D和任何yn(在训练过程中,yn总是具有C′维)采样的x n开始。 第一个C′′n维由地面实况和其他C-C提供第一个C2123其他方面,而其他人仍然没有观察到。为了获得xn的数学公式,我们假设它由C个子图像xn,c组成,每个子图像对应于一个指定的类c,并且从一个.条件分布Pc= P(x |c). 然后基于3等式(1)最适合中级特征,因为低级特征(例如,原始图像像素)通常在很大程度上受到小噪声的影响.它正在学习类条件分布Pc=P(x|C.遭受A更高的难度。同样,最后一层(例如,,载有类别─具体的logits)不太可能是等式(1)中的可加性21241WL WL1WL1yL yL1yL-1XLXL+1个XLxln+上采样n间隙l+1凹的乘二进制g(单x钳子n上采样n间隙赫勒尔河xlnn间隙Hl1层次细化类平衡损耗繁殖2011年万美l l nnnnnnnnnnnnnnn,x n;τ,并且xn 被发送到hxn;伊什特尔2019年10月11日图4.所提出的类平衡分层细化(class-balanced hierarchical refinement,简称hierarchical refinement)方法的整体架构(最佳颜色)。网络主干f(xn; θ)显示在最左边的列上,从中选择L层作为特征提取器。为了简单起见,(l)(l−1)我们举个例子。L=3。每一个x{\displaystylex}n,l>1,被上采样,并且c {\displaystyle c} 0。与hxn连接并馈送到一个细化函数中,模拟x<$(l−1)=gx(l−1)(l)(l−1)(l−1)(l−1)(l−1)(l−1)汇集类别平衡损失建立在相同的层次结构上,在该层次结构上,使用高级线索过滤出中级负样本维度可以随机初始化)我们首先计算l=1,2,…L−1。 这就是说,g.x(l),ynΣ(l)重新-x(l),并使用它来计算第一个。Σn.Σ由g放置x(l),x(l+1);n(l). 然而,x(l)仍然可以y(l)= h(l)x(l);x(l)n n n. 在每一轮比赛中,我们-n.以间接方式从y n获得监控信号,普泰恩 用它来计算g(l)x(l),yn;τ(l)使得即通过几个中间步骤。它被命名为“神庙”-x(l)更新为x(l)。在该过程中,参数f(l)化学精炼策略。nn实施细节如图所示。 4.第一章我们和τ(l)相应地用地面实况y更新,梯度反向传播该迭代继续直到收敛或达到最大轮数4。4.2. 分层精化从x(L)x(L)开始,从顶层开始的特征e。 它与位于前一级x(L-1),如果nec e,则在前一级之前对其进行上采样。萨尔河 然后,将所关联的特征馈送到g(L−1) x(L−1),x(L);τ(L−1)生成x<$(L−1)。 这然而,在实践中,上述公式具有两个ma-nn n主要缺点第一个问题是基因的不准确Erat iv emodels.我们期望模型g(l)(·)消除该过程继续,直到获得x∈(l)。 g(L−1)(·)表示对x(L)进行上采样,并将其馈送到具有x(L−1)的函数中。(l)n nxn中对应于非目标的分量每个x∈(l),l=1,2, . . . ,L,被发送到对应的类yn. 这越来越困难,尤其是当n分类器h(l) .Σx(l);(l)得到y(l)。 所有y(l)都是断言的--x(l)远离y。 因此,我们假设x(l)仅n n nnnn从比y近得多的x(l +1)接收监控信号,而x(l +1)继续从x(l +2)接收信息,并且该过程继续,直到到达yn。在实现中,这意味着反向连接仅出现在相邻特征层之间。此处为异常发生在最后一个特征层x(L),它通过分类器h(L)(·)连接到y n。由于该分类器已经提供了直接超验我们忽略yn和x(L)之间的连接,留下x(l)和x(l+1)之间总共L − 1个连接,老化到最终输出,并由Y监督。第二个缺点是迭代优化的缓慢。 为了加速,我们关闭迭代,情况xn∈ D只向前传播和向后传播一次,更新后的参数θ、τ(l)和τ(l)直接应用于从D采样的另一个情况。 这可以理解为D上的随机梯度下降。 实际上,这使我们能够在同一时期内采样更多数据时间,从而提高培训效率。4.3. 类平衡损耗n n4这里有一些旁注。 人们普遍认为,深度网络能够拟合从一类分布中采样的训练数据,例如。、每个样本只包含类cn中的一个对象,因此xn是从Pcn中采样的。在这种情况下,作为独热向量的yn相对容易估计,因此不需要迭代这就是为什么网络在GDXray数据集中产生了令人满意的性能[25],其中大多数图像仅包含一个对象。在这里,我们研究损失函数的影响,即。,Eqn(3),在训练过程中。 在这个特殊的问题上,即,禁止物品发现,存在少得多的正训练样本(至少一个禁止物品是 标签) 比 负 一个。这 会定期损失函数,例如欧几里得损失L{y_n,y_n}=分类。GAP表示全球平均值2125nn点击次数+未命中次数nnnnnn|2和二进制交叉进入(BCE)损失|2andtheBinaryCross-Entro p y(BCE)loss我们评估两个图像级分类平均值,nL{y},y}=−Σ关于我们Σ定位精度和对象级定位精度,nnnlogyn+(1−y n)log(1−yn)效率较低,因为网络可能严重偏向于否定的例子(因为简单地猜测所有训练样本都是否定的会导致非常低的损失函数),因此,召回率变得相当低。一个合理的解决方案是稍微改变损失函数,以便等效地减少负训练数据的数量[36]。在这里,我们将这种方法结合到分层细化的背景下,再次利用高级监督来指导中级功能。所提出的损失函数适用于小批量B超D.对于每种情况xn和yn,我们定义了几个阶段,先前,每一个都产生特征x(l),随后是预测y(l)。我们添加一个二进制权重向量,表示为w(l),衡量y(l)中的每个类是否对损失函数有贡献因此,等式(3)变为:第二个目标,我们手动标记所有违禁物品,测 试 图 像 中 的 边 界 框 。 对 于 图 像 分 类 , 我 们 在PascalVOC图像分类任务[9]中应用评估指标,该任务单独适用于每个类别-所有测试图像均根据包含指定对象的置信度进行排名,并计算平均精度(mAP)。对于对象定位,我们遵循[38]来计算指向定位的精度。如果最大响应的像素落在指定对象的地面实况边界框之一内,则计数命中,否则计数未命中。因此,每个类别具有通过以下公式计算的定位精度:点 击次数对于这两个任务,我们还报告了整体性能,即所有五个类的平均值我们研究了五种流行的主干,包括34层、50层和101层的ResNets[13], Inception-v3 [32],L(l)=w( l)·E.y,y(l)Σ、(6)和121层的DenseNet 我们遵循惯例无无无无无无无.Σ。Σ来设置所有这些网络,并且对每个它们使用L= 3-其中Ey,y(l)是损失向量,Ey,y(l) =最终决议(例如,,在ResNets中,28×28,14×14和7×7)n.ΣΣnn-ylogy(l)+(1 −y)log1 −y(l),以及用作特征。当然可以增加L无无无无无无无注意逐元素乘法。对于每个y(l),仍然需要定义w(l)。 最高通过添加更多的特征,但在实践中,我们发现L= 3足以提供补充信息。n n在第(L)级中,w(L)直接测量是否必须考虑y(l)这个条件变量对于每个带有正标签的类总是为真,而对于带有负标签的类,只有当预测小于固定阈值ε时才为真。的每一个中在较低的级别中,如果上述判断返回真,则考虑类,并且所有较高的级别都支持这一点-换句话说,如果类在某个级别被关闭,则在每个较低的级别中将永远不会考虑它。 这是基于这样的假设,即高级特征在确定哪些类存在以及哪些类不存在时更可靠,而低级特征可能由于各种原因而产生假阳性。用等式(6)代替等式(3)给出了完整的类平衡分层精化(Class- Balanced Hierarchical Refinement,简称EQN)方法。在在训练过程中,每个L(1)被单独计算并平均用于梯度反向传播。在测试阶段,所有y(1)5. 实验5.1. 设置和基线我们使用所有三个子集,即SIXray10,SIXray100和SIXray1000,以评估不同的方法。在每个子集中,所有模型在80%的训练数据上进行优化,并在剩余的20%的测试数据上进行评估。这些数据分割是随机的,但对所有竞争对手都是一致的。5.2. 产品类别:定量结果我们首先调查总体(五个类别的平均值)图像分类结果,这些结果汇总在表中。二、在所有网络骨干以及所有不同子集中,、SIXray10、SIXray100和SIXray1000。我们观察到,在更深的网络中,网络性能更好,这也在实验中观察到,例如。,在Inception-v3和DenseNet之上,相对于SIXRay 1000的绝对提升为8。22%,9。08%正确率。接下来,我们分别观察五种类型的物体的不同阶级的人,获得的利益是不同的。以DenseNet为例。当它的目标是找到枪时,分类性能并没有在所有子集中得到提高,而我们观察到所有其他类别都有显着的收益,特别是对于剪刀,准确性提高了30%。从表1中可以看出,剪刀的训练样本是所有五个禁止项目中最少的,因此基线在训练阶段存在显著偏差。通过引入监督的非结构性信号,它在很大程度上消除了这种偏见。最后,我们研究了不同子集上的数据不平衡问题。回想一下,负图像与正图像的比率分别为10、100和1000。从图5中,我们可以看到,性能增益随着数据不平衡而上升,如第2节中所分析的。5.4,来自我们对阶级平衡的特殊处理。2126方法枪刀扳手钳子剪刀是说ResNet34 [13]89岁。7183岁06七十二05八十五4678岁75五十六4262.48三十49十六岁4783岁5055.24十四岁2452岁99十六岁147 .第一次会议。1274岁8352岁74三十三岁。26ResNet34+网络87岁1681.96七十三。3587岁17七十七。70六十岁。46六十四31三十六8523岁72八十五79六十四56十七岁9861岁58十四岁49十八岁19七十七。2055.11三十八岁。74ResNet50 [13]九十6484.7574岁1987岁82七十七。92五十九8263岁6228岁49十六岁0384.8050块53十六岁59五十七3519号。39二、87七十六。8552岁22三十三岁。90ResNet50+87岁5582岁64七十三。4386岁。3879岁。6061岁3269岁。1241岁19十八岁88八十五72五十八0212个。32六十岁。91二十七岁8919号。03七十七。94五十七87三十七00ResNet101 [13]87岁6582岁83七十六。0484.26七十六。1663岁5369岁。33三十五59十三岁65八十五29五十四82十五岁57六十岁。3920块6311个国家。28七十七。38五十四01三十六01ResNet101+网络八十五4583岁2575.3887岁21七十七。53六十四80七十一23四十二02十五岁2788岁2868岁0119号。02六十四68三十二33十六岁2179岁。37六十岁。63三十八岁。14[32]第三十二话九十0581.1875.5283岁80七十七。28五十六3368岁11三十二47二十四岁0184.4566岁。89十六岁75五十八66二十二岁6320块72七十七。01五十六09三十八岁。67Inception-v3+88岁9079岁。22七十六。9187岁23七十三。4861岁2969岁。47三十七2029岁6086岁。3769岁。0119号。11六十五5031岁81四十七5679岁。49五十八15四十六岁。89DenseNet [14]87岁3683岁2375.0087岁71七十七。24六十五55六十四15三十七7223岁5787岁6362.69十八岁09五十九95二十四岁89十四岁18七十七。36五十七1539岁28DenseNet+网络87岁0582岁0674岁87八十五8978岁75七十一23七十47四十三2229岁7988岁3466岁。7521岁5766岁。0728岁8044.2779岁。56五十九92四十八36表2.SIXray子集的分类平均精密度(%)(每个单元格,从左到右:SIXray 10、SIXray 100、SIXray 1000)。方法枪刀扳手钳子剪刀是说ResNet34 [13]七十一6050块62五十三9351岁2855.38三十八岁。97四十三32二十六岁74二十二岁4668岁88三十四54十三岁69二十二岁167 .第一次会议。95六、8251岁45三十五05二十七岁17ResNet34+网络75.62六十岁。19七十4155.3863岁08二十六岁1552岁41三十五83三十七97五十八44五十三70二十五1019号。320的情况。00二、2752岁23四十二56三十二38ResNet50 [13]63岁89四十七53四十二32五十七4452岁82四十八72四十九7328岁3419号。7968岁8839岁8519号。77十七岁051 .一、70二、8451岁40三十四05二十六岁69ResNet50+68岁83五十七72六十岁。67五十八46四十九23三十七44五十四0141岁18二十二岁46七十七。04四十九9120块91十五岁91十五岁34十三岁64五十四85四十二6731岁02ResNet101 [13]七十三。77七十三。15七十41六十五13六十四10六十岁。0028岁34二十五13十五岁5162.2431岁50十四岁0721岁0211个国家。36五、6850块1041岁05三十三岁。13ResNet101+网络八十8679岁。3279岁。03七十三。8569岁。2361岁5452岁41二十七岁8121岁939 .第九条。30四十八39十七岁11四十34六、2519号。3251岁35四十六岁。2039岁78[32]第三十二话79岁。94六十四81七十一1675.38六十五6452岁31五十九36四十117 .第一次会议。49五十九58三十二83十八岁63四十34二十六岁141 .一、7062.92四十五91三十26Inception-v3+78岁7067岁59七十三。4174岁3663岁0841岁5452岁4123岁5323岁53五十九96五十四277 .第一次会议。6052岁2739岁2011个国家。3663岁54四十九5331岁49DenseNet [14]74岁38七十一60五十八05七十一2862.05五十六92五十九89二十四岁60二十六岁20七十一5455.6020块53三十五239 .第九条。6611个国家。3662.4644.70三十四61DenseNet+网络79岁。78岁40七十六。七十六。62.56五十七95五十九3641岁7139岁04七十二4963岁7639岁92四十34五、11五、68六十五6250块31四十三872127密集密集−10017892表3.SIX射线子集上的定位准确度(%)(每个单元格,从左到右:SIX射线10、SIX射线100、SIX射线1000)。分类8070605040定位605040GT密集型密集+密集3010 1001,000负-正比率分类3010 100 1,000负-正比率定位807060504010 1001,000负-正比率60504030100 1,000负-正比率图5.在具有较大正负比的子集中,重复性的总体精度增益变得更显著5.3. 本地化:定量结果为了验证分类不会过度调整图像分类,我们将类激活图(CAM)[39](一种用于对象定位的弱监督方法)附加在不同阶段提取的特征之上。CAM为每个类别单独生成一个热图,并在每个热图上生成。我们首先将地图重新缩放到原始图像大小。如果跨尺度的最大响应落在指定对象的其中一个地面实况边界框内,则预测位置被认为是有效的定位。选项卡. 3总结了国产化的结果。基于DenseNet的网络比DenseNet高5倍。61%(50. 31%对44。70%)。26%(43. 87%对34。61%)关于SIXRAY1000特别是, 扳手类的课程,图6.通过基于DenseNet的目标定位实例,说明了DenseNet在复杂背景和重叠图像中的有效性(best以颜色观看)。SIXray 1000,Inception-v3+ RAID的性能比Inception-v3高16。04%(23. 53%比7. 49%)。同样,我们观察到更深的网络(产生更强大的功能)和更大的负对正比率的显着准确性增益。更多的定位结果如图2所示。六、Incep−v3Incep−v3+Incep−v3Incep−v3+密集密集+密集地图地图精度精度扳手剪刀刀钳子枪21285.4. 消融研究在这一部分中,我们分别研究了高级精炼和类平衡损失带来的影响。所有的实验都是在三个子集的SIX射线,其中有不同比例的阴性-阳性样本。结果总结见表。4.第一章首先,我们研究了层次细化的性能,即网络中的反向连接。可以看出,自上而下的细化(ResNet34+HR)将分类和定位精度提高了约1%和6%。SIXray100上的52%,以及3。15%和2。百分之十三在SIXray1000上。我们注意到ResNet34+HR的表现优于ResNet34+H , 直 接 结 合 层 次 信 息 的 方 式 , 因 为ResNet34+HR允许用高级语义线索来细化低级特征。其 次 , 我 们 研 究 了 不 同 损 失 函 数 的 影 响 。ResNet34+CH采用设计的类平衡损耗,将分类和定位精度提高了1。00%,3。77%的SIXray100,和3。09%,3。44%在SIXray1000上。通过将等级细化与类平衡损失,ResNet34+ ESTA进一步提高了+2的分类和定位精度。37%和+7。51%的SIXray100,和+5。48%+5 SIXray 1000上的11%,超过基线。这显示了类平衡在不平衡场景中的有用性。并行计算以相对少量的额外计算实现精度增益。例如,ResNet34要求7. 68毫秒处理每个测试图像,ResNet34-EXP需要8. 28毫秒,均在Tesla V100 GPU上测试。也就是说,需要7。81%的额外时间5.5. ILSVRC 2012分类最后但并非最不重要的是,我们评估ILSVRC 2012,一个大规模的图像分类数据集上。这是为了观察递归如何推广到自然图像数据,前提是它在重叠图像数据上实现了显著的准确性增益。ILSVRC 2012是ImageNet数据库的一个流行子集,它有1000个类,每个类都包含WordNet中定义良好的概念。有1. 3M训练图像和50K验证图像,两者都大致均匀地分布在所有类中。我们遵循标准的训练和测试流程,包括模型初始化、数据扩充、学习率衰减等策略。由于ILSVRC2012不是一个不平衡的数据集,我们关闭了为此目的设计的损失函数基于ResNet18的最大误差为27。01%[13],比基线略低0. 87%(27. 01%对27. 88%)。此外,基于ResNet50 [ 13 ]的预测的前1和前5错误为22。00%,6。百分之二十二比基线低0。85%(22.00%对22。85%,0。49%(6. 22%比6。71%)。这种轻微但持续的准确性增益提供了双重信息。再-方法SIXray 10SIXray100SIXray1000ResNet3474.83 51.45 52.74 35.05 33.26 27.17ResNet34+H74.43 49.91 53.59 38.70 34.78 28.68ResNet34+CH76.28 48.01 54.59 42.47 37.87 32.12ResNet34+HR75.87 50.19 53.72 41.57 36.41 29.30ResNet34+网络 77.20 52.23 55.11 42.56 38.74 32.38表4.使用不同选项(细化方法、损失函数等)对SIX射线子集进行分类和定位准确度(%)。)的CHR。它的主干是ResNet34。有关不同选项的解释,请参见第10节中的主要文本5.4在我们的方法中,对中级特征进行高级监督的熟练连接不与自然图像相关联,尽管它与重叠图像数据更好地对齐。考虑到额外的计算成本几乎可以忽略不计,值得研究其在自然图像域中的扩展。6. 结论在本文中,我们研究了X射线扫描图像中的违禁物品发现,这是一个很有前途的应用在工业上,但仍然很少在计算机视觉研究。为了促进这一领域的研究,我们提出了SIXray,这是一个由超过一百万张X射线图像组成的大规模数据集,所有这些图像都是在真实世界的场景中捕获的,因此覆盖了复杂的场景。我们手动标注了6种类型和20,000多个违禁物品,这至少是现有数据集的100在方法上,我们将X射线图像表示为几个子图像的重叠,因此从混合分布中采样。出于过滤无关信息的动机,我们提出了一种算法,以分层和迭代的方式细化中级特征。在实践中,我们关闭迭代,以近似但有效的方式优化网络权重。在层次结构的基础上,还建立了一个新的损失函数
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功