没有合适的资源?快使用搜索试试~ 我知道了~
12283ETHSeg:一个用于X射线废物检测邱凌腾1,2,3熊 张阳1,2王旭豪2,3刘肯坤2李一涵2陈冠英1,2韩晓光1,2*崔曙光1,2,31香港中文大学未来网络智能研究院-2香港中文大学深圳理工学院3深圳大数据摘要包装垃圾的垃圾检测是垃圾处理流程中的重要先前的方法依赖于人工视觉检查或基于RGB图像的检查算法,需要昂贵的准备过程(例如,打开袋子并散布废物)。此外,被遮挡的项目很可能被遗漏. X射线具有很强的穿透力,可以穿透袋子和重叠的物体,我们建议使用X射线图像有效地进行废物检查,而无需打开袋子。我们在智能废物检测的X射线图像中引入了一个新的实例级废物分割问题,并贡献了一个由5,038张X射线图像(共30,881个废物项目)组成的真实数据集,具有高质量的注释(即,浪费类别、对象框和实例级掩码)作为该问题的基准。由于现有的分割方法主要是针对自然图像设计的,并且不能利用X射线废物图像的特性(例如,重遮挡和穿透效应),我们提出了一种新的实例分割方法,明确考虑这些图像特征。具体来说,我们的方法采用了一个容易到硬的反汇编策略,使用高置信度预测来指导高度重叠的对象的分割,和一个全局结构引导模块,以更好地捕捉复杂的轮廓信息的穿透效应。大量的实验证明了所提出的方法的有效性我们的数据集在WIXRayNet上发布。1. 介绍当今世界,人们产生的垃圾数量越来越多,这导致了巨大的废物压力*通讯作者,hanxiaoguang@cuhk.edu.cn图1. X射线机(左)扫描封闭的废物袋,生成相应的X射线图像(中)。从该图像中可以清楚地看到所包含的废物。右边的图是我们的方法对这个X射线图像的实例级掩模预测(最好用彩色显示)处置不当的废物处置会对我们的生态系统带来不可逆转的灾难,包括气候变暖、土壤污染、海洋污染等。为了减少废物量增加所带来的有害影响,迫切需要制定有效的废物妥善处置解决方案在废物处理流程中,包装垃圾的检查是非常重要的一步,因为它可以识别袋中废物的类别和位置,为后续过程提供有用的信息过去,废物检查通常是由人力人员手工完成这种与未知废物的密切接触增加了人类工人的健康风险为了提高效率并减少人类与有害废物的接触,一些研究人员提出使用计算机视觉方法(例如,物体检测)以使用RGB图像识别错放的废物物品[11,28,34,40]。然而,手动方法和基于RGB图像的方法都需要打开垃圾袋并且将废物物品很好地散布,这带来了昂贵的准备过程。此外,这些方法不太可能识别严重闭塞的废物物品。幸运的是,我们观察到X射线具有很强的穿透力,即使完全被遮挡或掩埋,12284如图1所示,X射线扫描可以很好地成像。与自然图像相比,X射线图像具有明显的特征(见表1)。1)。首先,由于不同的材料以不同的程度吸收X射线,X射线图像中的颜色指示相应区域的厚度和材料类型。第二,即使被遮挡,也能很好地保留所有物体的边缘信息。这些良好的特性使其能够从单个X射线图像检查包装废物中的所有废物项目,而无需打开袋子。这一观察促使我们使用X射线图像有效地执行废物处理,从而可以简化整个废物处理管道。在这项工作中,我们引入了一个新的问题,实例级的废物分割的X射线图像,以促进智能废物inspection。尽管存在一些使用X射线图像进行物体检查的现有方法[1,2,27,48,45],但它们主要集中于安全检查,其中目标是检测隐藏在普通物体中的违禁物品相比之下,我们的目标是预测X射线图像中每个废物的废物类别和像素级掩模,以实现更细粒度的检查。由于没有现成的数据集,我们贡献了第一个高质量的X射线废物检测数据集在校园社区,命名为废物检测X射线数据集(WIXray),为这个问题。根据目前的废弃物处理场景[29],我们将常见的废弃物分为十二类,即塑料瓶、易拉罐、汽车吨、玻璃瓶、棍棒、餐具、食品垃圾、加热垫、干燥剂、餐盒、电池和灯泡。我们的数据集包含5,038个带注释的X射线图像,每个图像包含6个。平均13个标记实例。带注释的X射线图像样本见图。二、由于X射线图像的成像机制与自然图像有很大的不同,因此直接应用为自然图像设计的现有方法[19]会导致性能下降。因此,我们提出了一个易于维护的实例分割网络(ETHSeg)的X射线检测。首先,我们的方法采用了一个简单到困难的拆卸策略,使用高置信度的实例预测,以指导分割的困难的情况下,在高度重叠的地区。其次,引入了全局结构引导模块,以更好地捕捉掩模预测的复杂全局轮廓信息。我们精心设计的ETHSeg实现了更高的X射线废物实例分割精度。本工作的主要贡献如下:• 本文提出了一种新的X射线图像的实例级废料分割任务,以促进废料智能检测算法的发展。• 我们贡献了一个具有高质量边界框和实例掩码注释的X射线图像数据集,作为废物检查的基准尽最大据我们所知,这是这个问题的第一个标记的X射线数据集。• 我们提出了一种新的实例分割方法,该方法明确考虑了X射线图像的遮挡和穿透效应,以实现准确的掩模预测。大量的实验验证了我们的方法的有效性。2. 相关工作全球每天产生数百万吨的城市垃圾,对公众健康和环境构成巨大威胁。然而,在过去的十年中,废物检查仍然主要是手动完成的,这是低效的且劳动密集型的[31]。为了减少人类在废物分类过程中与有毒废物的接触,已经有一些研究旨在使用RGB相机检测废物物体[11,28,34,40]。然而,这些方法要求待检测的废弃物在摄像机的视野中可见。因此,我们建议利用X射线扫描来处理这个问题。X射线图像数据集X射线具有很强的穿透力,使被遮挡的物体在图像中可见。这种穿透能力已被几种计算机视觉方法所利用,这些方法将X射线图像或视频作为输入[18,49,52,13,10,6,3,39,50,2,27]。比如说,Akcay等人[2]对X射线行李安检图像进行图像分类和检测。Aurelia等人[6]提供了一个大型胸部X射线数据集,带有多标签注释报告。然而,现有的方法大多集中在安检和医学影像分析上,尚未探索X射线废物检查的研究。这促使我们推出第一个用于废物检查的X射线数据集。实例检测和分割现有的检测和分割方法主要是针对自然图像设计的。在过去的十年中,两阶段方法首先变得流行。Mask R-CNN [19]为Faster R-CNN [38]检测器引入了一个完全卷积的掩码头,这是一种经典的基于锚点的两阶段检测方法。自R-CNN [17,16,38,7,30,51,42]的工作以来,这种检测方法流已经在两阶段对象检测中占据了很长一段时间的主导地位。QueryInst [14]提出以统一的方式通过查询进行检测和分割,这扩展了Sparse R-CNN [42]的查询方法。对于一阶段方法,OverFeat [41]是第一种深度学习的检测方法,之后提出了许多杰出的一阶段对象检测方法(例如,SSD [25]和YOLO系列[35,36,37,4])。许多单阶段实例段-12285站框架[5,43,46,47]建立在这些一级检测框架之上,以有利的推理速度实现可比的结果。最近,无锚方法由于其时间效率和ROI独立性而引起广泛关注[21,21,44,8,43]。检测的代表性工作是FCOS[44] 。 Blend- Mask [8] 将 混 合 器 模 块 添 加 到 FCOS[44],结合自上而下的bbox注意力和自下而上的分割信息。CondInst [43]用动态实例感知网络取代了基于RoI的固定掩码分支,并提高了性能和推理时间。尽管它们在自然图像上取得了成功,但在满足X射线图像时,它们的表现不如非模态实例分割除了常见的模态实例分割方法,如[19],非模态实例分割也被探索用于处理遮挡情况。Li和Malik [22]提出了基于迭代边界盒扩展的第一种解决方案。ORCNN [15]提出了一种基于ROI的多任务架构,可以同时预测非模态掩码、可见掩码和遮挡掩码。Qi等人[32]构建了一个新的数据集,称为KINS与非模态注释,并提出了非模态分段网络(AmodalSegmenta- tion Network,缩写为NNN)与多级编码(MLC),以提高性能。BCNet [20]建立了一个双层框架,其中顶部GCN层检测遮挡物,底部GCN层推断遮挡物。其中,BCNet是与我们最相关的方法,但它是为自然图像而设计的,其中对象的遮挡部分相比之下,对于我们的问题,被遮挡的物体仍然可以存在于X射线图像中利用这一特点,我们提出了我们的非模态实例分割方法的X射线图像。3. WIXray数据集由于没有现有的X射线图像数据集用于学习废物检查,我们引入了第一个具有高质量注释的X射线图像数据集,以用作实例级废物分割的基准数据集。这个数据集是在我们的校园社区收集的,大约有8000名居民。3.1. 包装废物收集废弃物类别根据目前的废弃物处置情况,我们将生活废弃物分为四大类十二类:可回收(塑料瓶、罐头、纸箱、玻璃瓶、棍棒及餐具)、食品废弃物(食品废弃物)、残留物(加热垫、干燥剂及餐盒)及有害物(电池及灯泡)。每个类别的样本X射线图像如图所示. 二、图2. WIXray数据集中的废品示例。每个废物类别都提供了实例级标签。表1.不同废物类别在X射线下的特性颜色轮廓材料废物类别绿色轮廓清晰玻璃(深绿色)玻璃瓶纸板(浅绿色)纸箱蓝色轮廓清晰金属罐,电池,加热垫,干燥剂橙色统一形状不透明生物体食品废弃物轮廓清晰透明性塑料或木材塑料瓶,餐盒,餐具,棍子为增加数据集的多样性,我们从不同的社区废物回收站收集包装垃圾对于数据集中一些不平衡的类别,特别是危险废物,我们将预先准备好的特定类型的废物随机放入废物袋中,以增加相应的物品数量。3.2. X射线图像注释X射线图像特征在X射线图像中,不同的材料具有不同的吸收X射线的能力,导致不同的图像特征,如表1中所述。1,并在图2中可视化。例如,一些类别的废物具有鲁棒的颜色特征,而其他类别的废物仅保留少数边缘特征。图像标注我们为每个实例标记了边界框和实例分割掩码,由于X射线图像具有很强的穿透效果,我们可以从单个视图中看到重叠的对象,这使得我们的数据集与传统图像有本质的不同。而不是12286×∈∈×表2.建议的WIXray数据集的统计数据。塑料瓶可以可回收废物纸箱玻璃瓶棒餐具食物垃圾食品废弃物残余废物加热垫干燥剂MealBox危险废物电池灯泡总列车组2,9001,2982,0247453,2714928,2002364386,0041,09340427,105测试集40518726597510701,1213055826121533,740总3,3051,4852,2898423,7815629,3212664936,8301,21445730,845仅标记实例的未遮挡区域[24],我们注释了其完整形状,无论它们是否被遮挡,因为每个对象都可以在X射线图像中完全看到由于大多数人不清楚不同类型生活垃圾的X射线图像特征,因此对X射线图像进行标注是一项具有挑战性的工作我们招募了一些环境保护志愿者来标记收集的数据。一开始,我们的研究人员仔细注释了使用labelme工具1拍摄前800张X射线图像,其中打开废物袋进行目视检查。请注意,这800张图像是通过目视比较X射线图像和打开废物袋后的废物来标记的。这800张X光图像作为参考,帮助注释者了解不同类别的特征。 确保标签质量,每个标签结果都经过至少两名检查员的仔细3.3. 数据集统计数据总体而言,我们的WIXray包含5,038张X射线图像和30,881个废物实例,涵盖12种常见废物类别。选项卡. 2总结了引入的数据集的统计数据。与现有的用于安全防护的X射线数据集[45]不同,这些数据集只标注了一些禁止的物体,我们密集地标记了图片中的常见废物。平均而言,我们的数据集包含6个。每个图像13个标记实例,这显著大于2。HiXray数据集的27个实例[45]。每个图像的实例数越大,表明遮挡和上下文信息越多,使我们的数据集对于训练和评估更有价值。我们数据集中的图像以分辨率为450 - 450的PNG格式存储,并分为4,433个用于训练,605个用于测试。我们使用这个数据集作为训练和评估X射线废物实例分割的基准。收集和标记这张高质量的X光片需要半年的时间废物检验数据集,我们将公布这一数据集,以方便未来对这一问题的研究。4. 该方法现有的实例分割方法[19]通常针对自然图像设计,没有考虑X射线废图像的图像特征,导致性能下降。在这一节中,我们介绍一部小说,1https://github.com/wkentaro/labelme框架,命名为易维护实例分割网络(ETHSeg),以利用穿透效应和遮挡效应,并采用两种有效的设计进行实例级浪费分割(见图2)。(3)第三章。首先,我们的方法explanation结合了一个全球结构指导模块在图像特征提取,以帮助编码的全球轮廓上下文。其次,我们提出了一个容易到困难的拆卸策略,以帮助分割的遮挡区域中的困难的例子4.1. 每个实例BCNet [20]是一种最先进的自上而下的实例分割方法,其明确考虑双层GCN结构的对象虽然BCNet在自然图像基准测试中取得了令人印象深刻的结果(例如,COCO [24]),直接将其应用于我们的X射线数据集会导致不满意的结果,这是由于反渗透效应和严重闭塞。我们的方法是建立在BCNet之上的,但是有两个实质性的改进(即,全局结构引导模块和从易到难的分解策略)。双层卷积网络(BCNet)BCNet由三个部分组成:(a)用于图像特征提取的FPN骨干[23];(b)FCOS检测器,用于预测对象边界框作为实例建议;(c)用于实例分割的双层GCN结构。 给定输入特征XR(HW)×C,双层结构中的GCN可以表示为:Z=σ(AXW)+X,(1)A=softmax(F(X,X)),(2)F(X,X)=θ(X)<$(X)T,(3)其中Z是更新的特征,AR(HW)×(HW)是自注意力映射,W是可学习的输出变换映射,σ是具有ReLU的归一化层。F测量两个节点Xi和Xj之间的点积相似性,其中θ和θ是由11卷积实现的可训练变换。BCNet中的第一个GCN层采用ROI特征Xroi作为输入以产生更新的特征Z0,并推断遮挡物的轮廓和掩模。然后将更新后的要素添加到ROI要素12287Xf=Xroi+Z0作为输入12288{1}|}联系我们简单和硬设置硬设置容易设置输入全球等高线热图骨干全球结构指南输出硬段ConvMAG转换面罩头���ℎROI Align28 × 28权重共享14 × 14 × 256面罩头ROI Align简单的28 × 2814 × 14 × 256Easy-SegETHSeg建模⊗1⊕⊗softmax⊙MGA⊗矩阵乘法⊕逐元素添加Hadamard乘积FPN-模块FCOS探测器图3.简单到困难的实例分割网络(ETHSeg)。首先,我们通过主干提取图像特征,并预测由全局结构指导监督的全局轮廓热图。其次,我们采用FCOS检测头,通过简单和硬集的搜索,获得容易集和硬集。最后,我们的ETHSeg建模采用了一种由易到难的反汇编策略来进行掩码预测。左上角的图表说明了面具引导注意力(MGA)的细节。对于第二GCN层预测被遮挡者的轮廓和掩模(即,目标)。BCNet的更多细节可以在[20]中找到。全局结构引导BCNet将ROI-Align提取的特征裁剪为分割头的输入,预测掩模和轮廓,并对ROI区域进行掩模和轮廓的然而,这种监督过于局部化,无法帮助网络捕捉高度重叠区域中不同实例之间的复杂关系。这对于X射线图像尤其如此,因为穿透效果带来更多轮廓。因此,我们设计了一个全局结构引导模块,可以很容易地插入到任何现有的自顶向下的方法中,通过多任务学习提取全局轮廓上下文来指导ROI区域的如图3所示,我们将低分辨率特征图上采样为高分辨率特征图,并预测多尺度全局轮廓热图Jii=1,2,3.灵感来自人类的姿势估计方法[33],地面实况等高线图Ji表示为具有以方差为σ的轮廓点为中心的高斯分布的热图。 由于全局等值线图包含不同实例之间的重叠信息,网络中的引导模块有利于提取全局语义特征来区分重叠对象。4.2. 从易到难的拆卸在X射线图像实例分割中,“硬”实例通常是与杂乱区域中的多个其他对象重叠的对象。受人类执行实例分割的方式的启发,其中容易区分)的实例,然后分割的困难的,我们提出了一种新的容易到困难的拆卸策略来模拟这一过程。我们的方法首先将对象边界框分成简单和困难的集合,然后利用从简单实例中提取的掩模来帮助预测高度遮挡的实例。给定边界框集B=B0,B1,. . .,BNRN×5,其中N是NMS处理的边界框的数量。Bi=[c x,c y,w,h,s]是从对象检测器检测到的框,其中(c x,cy)是中心坐标,w和h是宽度和高度,并且s是预测置信度。 根据每个包围盒的预测得分,我们首先将包围盒集B分成两部分,即具有Ne个包围盒的高置信度集合Beasy和具有(Nh)的低置信度集合Bhard.12289eΣLLLLL--⊙--H--H箱.在得到两组盒子后,我们的目标是利用容易的集合来产生有用的信息,以指导对难的盒子的分割。请注意,我们已经尝试在实现中将框集分成三个所以我们根据经验将盒子组分为两组。由于高置信度集中的边界框通常会产生良好的分割结果,因此我们首先预测所有易集中的盒子,记为Me={Mi|i=0,1,. - 是的- 是的,N e},使用分段头Gs:Mi=Gs(Zi),(4)通过我们的掩码引导的注意力,硬集可以使用从简单掩码构建的相似性矩阵来提升他们的注意力图,从而提高硬集的预测精度。4.3. 损失函数现在可以计算ETHSeg的目标函数。首先,由于其无锚效率,我们采用FCOS [44]作为对象检测器,并且检测LDetect的损失函数定义为[44]L检测=L回归+L中心+L类。(10)二、分段网络的损失函数L型面罩由三部分组成:e e我我我Ze=σ(AXeW)+Xe,(5)其中Ze是GCN层更新的特征,Xi是L掩模=λ1Le+λ2Lh+λ3L热图,(11)Le=L Occulder(Me)+L Occludee(Me),(12)容易集中的第i个框的ROI特征,并且A是如等式2中定义的自我注意力图。(二)、注意,BCNet的双层GCN结构作用于单个ROI特征,其中来自遮挡物分支的特征被添加回ROI特征以帮助遮挡物分支的预测。然而,在我们的情况下,从易集和难集提取的特征属于不同的ROI,使得特征的直接求和不实用。在这项工作中,我们建议使用估计的面具信息,从容易的集合,以提高自我注意力地图预测面具的硬集。具体地,我们首先根据它们的ROI坐标将这些预测的掩模Me转换回输入图像空间,并且经由逐元素最大化操作将它们合并成单个掩模P蒙版P是一个软蒙版,每个值表示像素位置包含对象实例的概率。由于该掩码为简单实例的位置提供了强有力的信息,我们提出了一个掩码引导的注意力来指导硬实例的分割。对于硬集合Xj中的第j个框的ROI特征,Lh=LOcculder(Mh)+LOccludee(Mh),(13)3L热图=LMSE(Ji,Ji),(14)i=1其中,ei和h表示容易和困难边界框集合的分割损失,并且热图监督全局轮廓热图的预测。每个ROI中遮挡物(Occulder)和被遮挡物(Occludee)的分割损失与BCNet中的相同[20]。λ1、λ2和λ3是平衡损失函数的超参数,根据经验将其调整为0。五一0,0。5使用训练集。最后,整个实例分割框架可以通过多任务损失函数L定义的端到端方式进行训练:L=λL检测+L掩模,( 15)其中λ = 1。0是减肥。我们在掩模PH得到像素对齐的5. 实验对Xj掩码Pj。而《易经》中的“卦”,则是“卦”。罚款为HAg=softmax(F(Xj,Xj)<$As)),(6)在本节中,我们将我们的方法与我们的基准数据集上现有的5.1. 实现细节As=1+Pj(Pj)T,(7)哪里表示Hadamard乘积,As是类似的-一个概率矩阵,其元素表示两个节点包含对象的概率。最后,硬集Mh={Mj|j =e12290全局结构引导模块给定分辨率为800的图像,骨干网络和FPN将提取五个不同的特征图P 3,P 4,P 5,P6,P 7,高度和宽度分别为100,50,25,13,7。[44]详情请见。我们首先一步一步地对Pi进行上采样,以获得尺寸-0、1、. -是的- 是的,Nh}可以计算为hsion作为Pi+1,并将它们连接为更新后的Pi+1,我从3到5。接下来,我们利用更新后的Pi+1,Mj=Gs(Zj),(8)获得相应的全局等高线图Ji。水疗-全局等值线图的大小为输入的四分之一Zj= σ(AgXjW)+Xj.(九)h h h图像大小。12291表3.检测和实例分割结果建议WIXray。方法骨干检测AP分段AP整体AP50AP75整体AP50AP75更快的R-CNN [38]ResNet-101-FPN43.4662.4048.17---Cascade R-CNN [7]ResNet-101-FPN46.3063.8450.55---稀疏R-CNN [42]ResNet-101-FPN48.8564.8854.42---[19]第十九话ResNet-101-FPN45.3263.8750.0342.8659.7147.13级联掩码R-CNN [7]ResNet-101-FPN46.8664.1852.4943.9760.4447.64ORCNN [15]ResNet-101-FPN42.3257.5347.8937.7052.5142.74QueryInst [14]ResNet-101-FPN48.2364.4853.2644.3461.0349.05SSD [25]VGG-1636.4858.8440.46---[37]第三十七话暗网-5339.5760.8044.76---[44]第四十四话ResNet-101-FPN48.3966.8052.20---SOLOv 2 [47]ResNet-101-FPN---44.3961.3248.83Yolact [5]ResNet-101-FPN37.6559.8740.0336.1855.1238.26BlendMask [8]ResNet-101-FPN47.3863.7251.7743.6159.6246.55[43]第四十三话ResNet-101-FPN47.7264.4251.9343.7760.1047.68BCNet [20]ResNet-101-FPN48.4565.6352.0545.1161.3249.20ETHSeg(我们的)ResNet-101-FPN48.7366.6853.3246.85(+1.74)63.22(+1.90)50.95(+1.91)这表明FCOS [44]是在BCNet(https://github.com/lkeab/BCNet)的设置下训练的训练在对象检测器方面,我们遵循FCOS [44]中建议的训练策略 为了训练我们的分割头,我们选择预测分数和IOU大于0的地面实况框和对象提案。05和0。三是我们的建议。用于从易到难分组的阈值设置为0。六十五检测器和分割网络都可以作为典型的自顶向下方法进行端到端训练。采用带有动量的SGD算法训练15K次迭代1K次热身迭代。我们将批量大小设置为16初始学习率为0。01.学习率由0的因子集来降低。1在7K和12K迭代中。用于生成地面实况全局等高线图的方差σ被设置为8。推理在推理过程中,我们最多保留50个由FCOS生成的预测得分大于0的提案框。3,0。6NMS阈值。接下来,根据我们的从易到难的反汇编策略,我们首先预测易集的掩码,然后使用这些掩码来指导硬集的掩码预测。5.2. 结果和比较我们采用MMDetection工具包[9]来实现现有的实例分割方法进行比较。为了确保公平比较,所有比较方法都使用ResNet-101-FPN作为主干,并从COCO预训练模型初始化我们使用SGD和AdamW在我们的数据集的训练集上训练这些方法[26]。我们还试图评估现有的非模态实例分割方法(例如,ORCNN [15])在我们的数据集上。请注意,我们的数据集并不完全适合amodal表4.使用相同检测结果的不同变体模型的实例分割结果。模型APAP50AP75来自ETHSeg的45.5362.3849.95BCNet +全球结构指南45.98(+0.45)62.6549.96BCNet +易到难的反汇编46.12(+0.59)62.0051.02ETHSeg46.85(+1.32)63.2250.95这是因为重叠的废物可能被X射线穿透,并且不能推断出明显的遮挡顺序我们用一个简单的假设修改了我们的数据集,即较小的对象遮挡了较大的对象。如Tab.所示3,我们将我们的方法与WIXray数据集上最先进的物体探测器进行了我们可以发现,我们的ETHSeg在所有评估指标上都优于具体来说,我们的方法通过分别以2.98和2.51分割AP的性能优于级联掩码R-CNN[19]和QueryInst[14]来说明其有效性与单阶段实例分割方法相比,在相同的检测器下,我们的方法比BCNet方法提高了1。74分段AP。可视化结果如图4所示。很明显,由于我们巧妙的设计,我们的方法能够更准确地检测遮挡对象5.3. 消融研究我们进行了一系列的消融研究,以验证我们的全球结构指导模块的有效性和从易到难的拆卸策略在我们的框架。12292塑料瓶餐盒可以纸箱玻璃瓶棒餐具食品废弃物加热垫干燥剂灯泡电池图4.在建议的WIXray数据集上对实例分割进行定性比较。遮罩颜色指示废料类别,边界线仅用于标识实例轮廓。选项卡. 4给出了使用相同检测结果的四种不同模型的定量比较:1)BCNet; 2)具有全局结构指导模块; 3)使用由易到难的反汇编策略; 4)我们的整个框架。与原BCNet相比,增加全局结构引导模块有助于提高包围盒检测和掩码预测。该模块将测试集上的掩码AP从45提高到45。53比45九十八此外,将我们的从易到难的反汇编策略整合到BCNet有效提高了低机密提案的掩码预测能力,将掩码AP提高到46. 12个。最后,在BCNet中加入了由易到难的反汇编策略和全局结构引导模块,使反汇编结果更加准确。与基线(即,BCNet),我们的ETHSeg实现了1. 32AP用于实例分段。6. 结论我们已经引入了一个新的问题,实例级的废物分割的X射线图像,这使得准确的废物检查,而无需打开废物袋。然后,我们创建了一个具有高质量标注的X射线图像数据集,作为学习实例级浪费细分针对现有的自然图像物体分割方法不能很好地处理X射线图像中存在的穿透效应和严重遮挡的问题,提出了一种新的方法ETHSeg,该方法显式地考虑了这些图像特征,以达到更好的分割效果。我们的基准数据集上的实验结果清楚地证明了我们的方法的有效性。尽管X射线废物检查已显示出有希望的结果,但我们的工作有以下局限性。首先,我们依靠X射线的穿透作用进行废物检查。然而,具有低密度材料的物体在X射线图像中看起来是低对比度或透明的,使得难以检查这些物体。其次,我们的方法在分割小物体时仍然有困难。致谢本工作得到国家重点研发计划项目(编号:2018 YFB 1800800)、河套深港科技合作区基础研究项目(编号:HZQB-KCZYZ-2021067)感谢Chaoyue Duan等人在数据集收集方面的贡献以及中大深圳ITSO的高性能计算服务。输入Ground TruthCascade Mask R-CNNCondInstBCNetETHSeg12293引用[1] S. Akcay和T. P. Breckon. x射线行李安全图像中基于区域 的 目 标 检 测 策 略 2017 年IEEE 图 像 处 理 国 际 会 议(ICIP),第1337-1341页IEEE,2017年。[2] S. Akcay,M. E.昆代戈尔斯基角G. Willcocks和T. P.Breckon.使用深度卷积神经网络架构进行x射线行李安全 图 像 中 的 对 象 分 类 和 检 测 。 IEEE transactions oninformationforensics and security,13(9):2203[3] N. Andriyanov , A. K. Volkov , A. K. Volkov , A.Gladkikh和S.丹尼洛夫在有限的计算资源内进行航空安全 的自 动 x 射 线图 像 分析 在 IOP Conference Series :Materials Science and Engineering,第862卷,第052009页中。IOP出版社,2020年。[4] A. 博 奇 科 夫 斯 基 角 , 俄 - 地 Y. Wang 和 H.- Y. M. 辽Yolov4:目标检测的最佳速度和准确性。arXiv预印本arXiv:2004.10934,2020。[5] D.博利亚角Zhou,F. Xiao和Y. J·李Yolact:实时实例分割.在IEEE/CVF计算机视觉国际会议论文集,第9157-9166页[6] A. Buberg,A. Pertusa,J. M. Salinas和M.去伊格莱西亚-去吧。Padchest:具有多标签注释报告的大型胸部X射线图像数据集医学图像分析,66:101797,2020。[7] Z. Cai和N.瓦斯康塞洛斯Cascade r-cnn:深入研究高质量的对象检测。在IEEE计算机视觉和模式识别会议论文集,第6154-6162页[8] H. Chen,K.太阳,Z.田角,澳-地沈,Y. Huang和Y.燕.Blendmask:自上而下与自下而上相结合,例如分割。在IEEE/CVF计算机视觉和模式识别会议论文集,第8573-8581页,2020年。[9]K.作者:Chen,J. Wang,J. Pang,Y. Cao,Y. Xiong,X. Li,S. 孙先生,W. 冯,Z. Liu,J. Xu,Z. Zhang,L. 程角,澳-地朱T.成角,澳-地Zhao,B. Li,X.卢河,巴西-地Zhu,Y.Wu,J. 戴,J. Wang , J. 施 , W 。 欧 阳 C.C. Loy 和 D. 是 林 书MMDetection:开放mmlab检测工具箱和基准测试。arXiv预印本arXiv:1906.07155,2019。[10] X.陈建,李玉. Zhang, Y. Lu和S.刘某基于深度学习方法的x射线图像自动特征提取用于骨龄测定。未来一代计算机系统,110:795[11] Y.楚角,澳-地Huang,X.谢湾,加-地谭,S. Kamal和X.雄用于废物分类和回收的多层混合深度学习方法计算智能和神经科学,2018,2018。[12] J. L.多明戈和M.纳达尔生活垃圾堆肥设施:人类健康风险的审查。国际环境,35(2):382[13] W. Du,H.Shen,J.Fu,G.Zhang和Q.他外基于深度学习的汽车铸铝件x射线图像缺陷检测方法改进NDT EInternational,107:102144,2019。[14] Y. Fang,S.Yang,X.Wang,Y.Li,C.Fang,Y.尚湾,澳-地Feng和W.刘某实例作为查询。IEEE/CVF计算机视觉国际会议论文集,第6910-6919页,2021年[15] P. 福尔曼河 Ko ¨ nig,P. Härtinge r,M. 克洛斯特曼,以及T. 博特格河学习看到不可见的信息:端到端可训练的非模态实例分割。2019年IEEE计算机视觉应用冬季会议(WACV),第1328-1336页。IEEE,2019。[16] R. 娘 娘 腔 。 快 速 R-CNN 。 在 Proceedings of the IEEEinternational conference on computer vision , 第 1440-1448页,2015中。[17] R.作者:J.达雷尔和J·马利克丰富的特征层次结构,用于准确的对象检测和语义分割。在IEEE计算机视觉和模式识别会议论文集,第580-587页,2014年。[18] S. Hassantabar,M. Ahmadi和A.沙里菲基于肺部x射线图像的卷积神经网络方法诊断和检测covid-19患者的感染组织。混沌,孤子分形,140:110170,2020。[19] K. 他,G. Gkioxari,P. Doll a'r 和R. 娘娘腔。 面具r-cnn。在IEEE计算机视觉国际会议论文集,第2961-2969页[20] L. Ke,Y.-W. Tai和C.-K. 唐具有重叠双层的深度遮挡感知在IEEE/CVF计算机视觉和模式识别会议论文集,第4019-4028页,2021年[21] H. Law和J. Deng. Cornernet:将对象检测为成对的关键点。在欧洲计算机视觉会议(ECCV)的会议记录中,第734-750页[22] K.李和J·马利克。非模态实例分割。欧洲计算机视觉会议,第677-693页。施普林格,2016年。[23] T.- Y. Lin,P.多尔河格希克角他,B.Hariharan和S.贝隆吉用于对象检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集,第2117-2125页[24] T.- Y. 林,M。迈尔,S。贝隆吉,J.Hays,P.Perona,D.Ra-manan , P.Dolla'r 和 C.L. 齐 特 尼 克Microsoftcoco : 上下 文中 的通 用对 象。2014 年, 在ECCV[25] W. Liu,L.安格洛夫,D。埃尔汉角塞格迪,S。里德角,澳-地Y. Fu和A. C.伯格。Ssd:单发多盒探测器。欧洲计算机视觉会议,第21-37页。施普林格,2016年。[26] I. Loshchilov和F.哈特解耦权重衰减规则化。arXiv预印本arXiv:1711.05101,2017。[27] C.苗湖,加-地Xie,F.万角,澳-地Su,H. Liu,J. Jiao,and Q.烨Sixray:一种大规模安检X射线基准,用于在重叠图像中发现违禁物品在IEEE/CVF计算机视觉和模式识别会议上,第2119-2128页,2019年[28] G. Mittal,K.B. Yagnik,M.Garg和N.C. 克里希南Spot-garbage:智能手机应用程序,使用深度学习检测垃圾在2016年ACM国际普适和普适计算联合会议的会议记录中,第940-945页12294[29] A. G. 美国慕克吉R. 万贾里河Chakraborty,K.瑞努,B. Vellingiri、A.乔治,S。R. CR和A. V. Gopalakrish-nan. 有效废物处置和管理的现代和智能技术综述环境管理杂志,297:113347,2021。[30] J. Pang,K. Chen,J. Shi,H.冯,W. Ouyang和D.是林书Libra r-cnn:面向对象检测的平衡学习在IEEE/CVF计算机视觉和模式识别会议论文集,第821-830页[31] D.-联合公园,S- H. Ryu,S.- B. Kim和C S.尹废物收集和分类过程中粉尘、内毒素和微生物暴露的评估。空气废物管理协会杂志,61(4):461[32] L.齐湖,加-地Jiang,S. Liu,X. Shen和J. Jia.用Kins数据集进行非模态实例分割。在IEEE/CVF计算机视觉和模式识别会议论文集,第3014-3023页[33] L. Qiu,X. Zhang, Y. Li,G. Li,X. Wu,Z. Xiong,X.Han和S.崔。窥视被遮挡的关节:一种用于人群姿态估计的 新框架 。欧洲 计算 机视觉 会议,第 488-504页Springer,2020年。[34] S. L.拉瓦诺湾K. Cabatuan,E. Sybingco,E. P. Da- dios和E. J. Calilung。使用mobilenet进行常见垃圾分类。在2018年IEEE第10届国际人形,纳米技术,信息技术,通信和控制,环境和人类会议(HNICEM),第1-4页。IEEE,2018年。[35] J.雷德蒙,S.迪夫拉河,巴西-地Girshick和A.法哈迪。只需
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++多态实现机制详解:虚函数与早期绑定
- Java多线程与异常处理详解
- 校园导游系统:无向图实现最短路径探索
- SQL2005彻底删除指南:避免重装失败
- GTD时间管理法:提升效率与组织生活的关键
- Python进制转换全攻略:从10进制到16进制
- 商丘物流业区位优势探究:发展战略与机遇
- C语言实训:简单计算器程序设计
- Oracle SQL命令大全:用户管理、权限操作与查询
- Struts2配置详解与示例
- C#编程规范与最佳实践
- C语言面试常见问题解析
- 超声波测距技术详解:电路与程序设计
- 反激开关电源设计:UC3844与TL431优化稳压
- Cisco路由器配置全攻略
- SQLServer 2005 CTE递归教程:创建员工层级结构
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功