没有合适的资源?快使用搜索试试~ 我知道了~
186020透明物体分割的深度极化线索0Agastya Kalra 1,Vage Taamazyan 1,Supreeth Krishna Rao 1,Kartik Venkataraman 1,Ramesh Raskar � 1,2,和Achuta Kadambi � 1,301 Akasha Imaging 2 MIT Media Lab 3加州大学洛杉矶分校(UCLA)0摘要0透明物体的分割是计算机视觉中一个困难的开放问题。透明物体缺乏自己的纹理,而是采用场景背景的纹理。本文将透明物体分割问题重新定义为光极化领域,即光波的旋转。我们使用极化相机捕获多模态图像,并将其与用于处理极化输入数据的独特深度学习骨干相结合。我们的方法在各种场景和背景条件下实现了杂乱透明物体的实例分割,相比传统的基于图像的方法有所改进。作为应用,我们将其用于透明物体的机器人抓取。01. 引言0透明物体出现在制造业、生命科学和汽车工业中。与传统物体相比,透明物体缺乏自己的纹理。因此,很难对使用标准成像捕获的透明物体进行分割-分割算法没有任何纹理可以依附。在本文中,我们将透明物体分割引入到极化成像领域。如图1所示,透明物体的极化图像可视化其非常独特的纹理。边缘上有一个与几何相关的签名,线偏振角度中出现了一个非常独特的模式。与仅强度相比,物体的固有纹理在极化中更加可见。不幸的是,极化的独特纹理需要在极化成像的背景下重新审视深度学习。0� 这些作者的贡献完全发生在他们在Akasha Imaging的咨询期间。0(a)强度图像-上述两个球中有2个是打印输出0(c)极化角-轻松将真球与打印输出分开(d)我们的分割-未检测到误报0(b)Mask-RCNN分割-检测到两个误报0图1:极化卷积神经网络利用极化图像的独特纹理进行鲁棒分割。标准实例分割无法区分打印输出和真球。我们的分割能够使用独特的极化纹理鲁棒地分割真球。我们的论文研究了这种纹理图案并设计了一个定制的深度学习架构。0在本文中,我们介绍了一种新的基于极化的透明物体分割的深度学习框架。我们将我们的框架称为极化卷积神经网络(PolarizedCNN)。我们的框架包括一个适用于处理极化独特纹理的新型骨干,并且可以与Mask R-CNN等架构(例如PolarizedMaskR-CNN)结合使用,以产生准确且鲁棒的透明物体实例分割解决方案。我们总结了我们的Iφpol = I(1 + ρ cos(2(φ − φpol))).(1)ρ =(n − 1n)2 sin2(θz)2 + 2n2 − ((n + 1n)2 sin2 θz + 4 cos θz√n2 − sin2θz,(2)φ = θa.(3)ρ =222.(5)86030方法杂乱准确性环境假设0打印伪造传感器物理限制0强度Mask R-CNN [19]中等训练期间可见不鲁棒性1光学0光场[45]0不适用于实例分割0无鲁棒性1范围限制0RGBD [44, 12]0不适用于实例分割0室内鲁棒性2+范围限制0极化卷积神经网络提出的中高级无鲁棒性1光学0表1:偏振输入具有广泛的应用范围。它是单目的 -因此只在光学上受限,适用于杂乱的条件,对新颖的背景和照明条件具有稳健性,并且对打印欺骗具有稳健性。其他模态在这些类别中至少有一个存在问题。0贡献如下:•一种用于透明物体实例分割的稳健方法,优于以前的方法。0•偏振CNN:一种基于注意力融合的处理偏振数据的框架。我们通过详细的消融研究与几种简单的偏振+CNN基线进行比较。0• 第一个单帧单目实例分割方法,对打印欺骗更加稳健。0•应用场景:在机器人抓取杂乱透明球的背景下使用偏振CNN。02. 科学背景和相关工作0透明性的困难光线与透明物体之间的相互作用是丰富而复杂的,但物体的材料决定了它在可见光中的透明性。对于许多家庭用品,大部分可见光直接穿过,只有一小部分(约4-8%,取决于折射率)被反射。这是因为可见光波长的能量不足以激发透明物体中的原子。这导致物体后面的纹理主导图像。这种独特的属性导致在尝试实例分割时出现以下困难。01.杂乱:在密集的透明物体场景中,清晰的边缘很难看到。在极端情况下,边缘根本看不到(例如,参见图3(b)),这会导致物体的确切形状存在歧义[45, 12]。02.新颖环境:在可见光谱中的低反射率使得这些物体在新颖环境中看起来不同,即处于分布之外,导致泛化能力差。03.打印欺骗:任何使用单个RGB图像的算法都非常容易受到打印欺骗的影响[46,24],这是由于透视模糊造成的。虽然存在其他用于透明物体语义分割的非单目算法[45,44],但它们受到范围限制,无法处理实例分割(见表1)。0偏振图像形成的物理学光线击中相机时有三个测量分量:光强度(强度图/ I),线偏振光的百分比(线偏振度/ DOLP/ ρ)以及线偏振的方向(线偏振角/ AOLP/ φ)。这些属性编码有关被成像物体的表面曲率和材料的信息[4]。在每个像素处测量 I , ρ 和 φ 需要在不同角度 φ pol下通过极化滤光片拍摄场景的3+图像。然后我们使用以下方程求解 φ , ρ , I :0在我们的情况下,我们使用FLIR Black�yS多极相机,在单次捕获中获得 I 0 , I 45 , I 90 , I 135。偏振形状(SfP)理论[4]给出了物体的表面法线的折射率( n ),方位角( θ a )和天顶角( θ z)与来自该物体的光线的 φ 和 ρ分量之间的以下关系。当漫反射占主导地位时:0当镜面反射占主导地位时:0n 2 - sin 2 θ z - n 2 sin 2 θ z + 2 sin 4 θ z,(4)0φ = θ a - π0请注意,在这两种情况下,随着θ z 的增加,ρ增加得呈指数增长,如果折射率相同,镜面反射比漫反射更具极化性。0深度实例分割:有许多用于深度实例分割的方法:基于语义分割[5, 20, 3],基于提议的[14],甚至基于RNN的[36,34]。我们的框架可以应用于其中任何一种。在这项工作中,我们专注于最先进的Mask R-CNN [14]架构。MaskR-CNN通过将输入图像x(一个HxWx3的张量,表示图像强度值)输入到主干网络中来工作:I = Ir + It.(7)ρ =�(Irρr)2 + (Itρt)2 + 2ItρtIrρr cos (2(φr − φt))Ir + It,(9)86040C =B(x)。B(x)负责从输入图像中提取有用的特征,可以是任何标准的CNN架构,例如ResNet-101[15]。主干网络输出一组张量C ={C1,C2,C3,C4,C5},其中每个张量Ci表示不同分辨率的特征图。然后,这些特征图在特征金字塔网络(FPN)[22]中进行组合,通过区域提议网络(RPN)[35]进行处理,最后通过输出子网络[35,14]传递,以生成类别、边界框和像素级分割。这些与非最大值抑制合并用于实例分割。更多细节可参考[14]。0深度学习用于多模态输入深度学习已被用于结合许多模态,包括深度和RGB [11, 43, 24],偏振和RGB [47]等等[46, 43,41]。所有这些架构都有每个输入信号的独特主干网络。它们被融合的深度将它们分类为以下几种:早期融合[43],中期融合[33]和后期融合[47]。在这项工作中,我们应用中期融合,如[33]中所述,因为它很容易扩展到MaskR-CNN。中期融合的定义如下:假设有两个输入图像xa和xb。首先,将每个图像输入到唯一的主干网络Ba(xa)和Bb(xb)中,然后在每个尺度i上融合每个主干网络的输出,使用融合函数f。0C i = f(C ia,C ib)。 (6)0有四种主要的融合方法:• C ia + C ib张量的加法/平均值[11]。• G([C ia,Cib])沿深度轴连接张量,然后使用1x1卷积G来降低维度[32, 33]。• w ia C ia + w ib C ib 专家混合(MoE)[28,43],其中一个子网络预测两个标量权重w ia和w ib,使得wia + w ib = 1,允许网络动态加权每个输入。• G([SE(Cia),SE(Cib)])和挤压激励(SE)融合[46],其中每个输入张量都使用SE块[16]重新加权其通道,然后按上述连接过程进行连接。0这些融合方法都不允许空间动态加权。0透明物体实例分割以前的工作[19,21]使用在现有RGB图像数据集[7, 23,13]上训练的深度学习进行透明物体的检测。这些方法可以通过将SSD [19]或R-CNN [21]替换为Mask R-CNN[14]来轻松扩展到实例分割。我们将其称为Intensity MaskR-CNN,并将其作为我们的基准。还有其他一些方法可以使用更复杂的成像设置进行检测和分割,这些方法将0对于打印欺骗来说,这些方法可能更加稳健。然而,这些方法无法扩展到实例分割。多种现有方法使用RGB+深度传感器(例如Kinect)进行透明物体分割[44, 12,39],姿态估计[25, 26]甚至3D重建[38,2]。然而,在杂乱的环境中,深度传感器对于透明物体的实例边界提供的信息很少。其他方法还包括使用光场信息进行分割[45]和利用相机运动进行透明物体的形状重建[6]。0计算机视觉中的偏振可以用于三维重建,例如光亮金属[30]、漫反射介质[4]和透明/半透明物体[29, 37,8]。偏振还用于三维成像问题[17, 10, 18,49]、反射分离[31,40]、人脸扫描[27]、水下散射[42]和语义分割[48]。用于道路语义分割的偏振[47]是唯一使用深度学习的其他工作。他们没有将其视为多模态融合,而是将[I 0,I 45,I 90,I135]连接起来并输入到深度网络中。虽然这种方法有效,但模型难以学习物理先验知识,导致性能较差。我们的框架利用方程1中描述的偏振物理特性,创建了三个独特的输入图像I,ρ和φ。这些图像在我们独特的骨干网络中以多模态方式融合。03.我们的方法0接下来,我们推导偏振图像形成模型,解释为什么该图像对于透明物体分割具有更好的纹理,并介绍我们的基于偏振的CNN框架,用于在深度学习模型中添加这些线索。03.1.偏振图像形成(透明度)0来自透明物体的光线有两个分量:反射部分,由 I r , ρ r, φ r 组成,和折射部分 I t , ρ t , φ t。生成的图像中单个像素的强度可以写成:0当我们在相机前面加一个偏振滤光片时,我们得到:0I φ pol = I r (1+ ρ r cos(2( φ r − φ pol )))+ I t (1+ ρ tcos(2( φ t − φ pol ))) . (8)为了理解这对我们从1中测得的ρ和φ的影响,我们解出了ρ和φ与Ir,ρ r,φ r,I t,ρ t,φ t的关系:I1 yxφ = arctan(Irρr sin (2(φr − φt))Itρt + Irρr cos (2(φr − φt))) + φr.(10)Equations 7, 9, and 10 give us the image formation modelfor I, ρ, and φ in the case of transparency. We use theseequations to show the superiority of the ρ and φ images fortransparent object segmentation when compared to I. Weverify this through an ablation analysis in Table 3 rows 1-3.Here we motivate why ρ and φ can show texture whenobjects appear textureless in I. An object’s texture appearsinvisible in I because it is strictly dependent on the ratio ofIrIt (see equation 7). Unlike opaque objects where It = 0,transparent objects transmit most light and only reflect asmall portion. This is why we bring this problem into therealm of polarization, where the strength of a transparentobjects texture is instead dependent on φrφt and the ratio̸̸IrIt≤ IrρrItρt.(11)86050透明物体0部分偏振光线0背景物体0偏振掩模0图2:透明物体的偏振图像形成模型。击中多极化传感器的光线包含来自透明物体和背景物体的偏振信息。透明物体的反射光只占很小一部分,但是它的偏振程度很高,因此对偏振测量有很大影响。0I t ρt(见方程9,10)。我们可以安全地假设对于大多数像素,φ r � = φ t 且 θ zr � = θ zt,即背景和透明物体的几何形状不同。我们知道ρ r遵循镜面反射曲线[29],意味着它具有很高的偏振度,在布鲁斯特角(约60°)时为1.0(见方程4)。因此,我们可以确定在适当的天顶角下,ρ r ≥ ρ t,如果背景是漫反射的或具有较低的天顶角,ρ r � ρ t。我们可以在图1中看到这种效应,当 θ z ≈ 60°时,球体的纹理占主导地位。这使我们相信在许多情况下:0图3:透明物体的偏振纹理提高了输入质量。(a)由于背景的变化,2个球的纹理在强度图像中不一致,突出了问题(2)。在DOLP中,这种情况不会发生。(b)边缘在强度图像中几乎看不见,但在AOLP中明显更亮。(c)边缘的横截面显示,与强度相比,AOLP和DOLP中的边缘对比度更高。0因此,即使透明物体的纹理在I中看起来是不可见的,它在φ和ρ中可能更可见,这是本文的动机。我们在补充材料中进一步讨论了具体情况,并讨论了以下关键问题的影响。0杂乱环境在杂乱环境中,一个关键困难在于看到无纹理透明物体的边缘,参见图3(b)和(c)的示例。由于纹理在φ和ρ中更加可见,一些边缘更容易看到。0新环境除了增加透明物体纹理的强度外,ρ图像还减少了像纹理衣物这样的漫反射背景的影响。这使得透明物体在环境改变的情况下看起来相似。我们在图3(a)中展示了一个例子,并在表3中验证了其有效性。0打印欺骗纸张是平坦的,导致φ和ρ大部分是均匀的。透明物体具有一定程度的表面变化,在φ和ρ中会呈现出非均匀的情况,如图1所示。GeometricDataAugmentationsInsmalltrainingdatasets, affine transformations are an important data aug-mentation to achieve good generalization performance.Naively applying this to the φ image doesn’t work. TheAOLP is an angle from 0-360 that reflects the direction ofthe electromagnetic wave with respect to the camera coor-dinate frame. If a rotation operator is applied to the image,then this is the equivalent of rotating the camera around it’sZ-axis. This rotation will change the orientation of the xyplane of the camera, and thus will change the relative di-rection of the wave. To account for this change, the pixelvalues of the AOLP must be rotated accordingly in the op-posite direction. We apply this same principal to other affinetransformations. This is key to achieving good performanceas we show later in Section 4.86060图4:我们的极化CNN框架应用于Mask-RCNN。我们使用三个独立的主干网络,并通过注意力融合来产生具有MaskR-CNN的高质量实例分割。详见第3.2节。03.2. 极化CNN框架:0极化CNN,如图4所示应用于MaskR-CNN,是一种利用深度学习来有效利用极化图像中的额外信息的框架。应用这个框架需要对CNN架构进行三个改变:(1)输入图像:应用极化的物理方程来创建正确的输入图像。(2)注意力融合极化主干网络:将问题视为多模态融合问题。(3)几何数据增强:正确地增强数据以反映极化的物理学。0输入图像我们建议输入三个图像:AOLP(φ),DOLP(ρ)和强度图像(I),作为透明物体的最佳输入。这些图像是从I0,I45,I90和I135计算得到的,归一化到[0-255]范围,并转换为三通道灰度图像,以便从MSCoCo[23]预训练权重中进行轻松的迁移学习。0多模态融合每个输入图像都通过独特的主干网络进行处理:BI(I),Bρ(ρ),Bφ(φ)。我们提出了一种新颖的空间感知注意力融合机制来进行多模态融合。每个尺度i的每个主干网络BI,Bρ,Bφ的输出特征图Ci,I,Ci,ρ,Ci,φ被级联并通过一组卷积层Ωi进行处理。Ωi输出与输入具有相同高度和宽度的3通道图像。然后通过softmax得到像素级的注意力权重α:0图5:我们的注意力模块允许可解释的多模态融合。学习到的注意力权重在AOLP和DOLP上最亮,以避免强度图像中的模糊打印欺骗。更多示例见补充材料。0C i = α i,φ C i,φ + α i,ρ C i,ρ + α i,I C i,I . (13)0[ α i,φ , α i,ρ , α i,I ] = softmax (Ω i ([ C i,φ , C i,ρ , C i,I])) . (12) 这些注意力权重用于执行每个通道的加权平均:0注意力模块允许模型根据其与场景中给定部分的相关性对不同输入进行加权。结果见表2,讨论见第4节。图4详细描述了该模型和架构。注意力图在图5和补充材料中可视化。86070强度MaskR-CNN极化MaskR-CNN真实值0(a)Env数据集(b)杂乱数据集(c)POS数据集(d)RBP数据集0图6:定性比较,显示从强度到极化MaskR-CNN的改进。(a)极化有助于准确分割在强度图像中模糊的杂乱物体。(b)强度MaskR-CNN无法适应新环境,而极化模型成功。(c)强度Mask R-CNN被打印纸欺骗,而极化MaskR-CNN具有鲁棒性。(d)我们机器人垃圾桶拾取应用的示例图像。极化在这种光线不好的新环境中适应得更好。04. 实验0我们进行了一系列彻底的实验,以确定所提出的极化CNN和每个单独组件的有效性。04.1. 实验细节实施为了进行实验,我们使用了Mask R-CNN[1]的keras [9]实现。所有实验都在一台带有单个P100GPU的AWS p3.2xlarge实例上运行。0训练数据我们的透明物体训练集包含1000张图像,其中包含来自6个可能类别的15个独特环境中的20000多个透明物体实例:塑料杯,塑料托盘,眼镜,装饰品和其他物品。0评估数据我们构建了4个测试集来正确评估问题(1)-(3)。每个测试集中的示例图像在图6中可见。0•杂乱此测试集包含200张图像,其中包含与训练集类似的环境中的杂乱透明物体,没有打印品 -用于测试问题(1)。0•新环境(Env)此测试集包含50张图像,每张图像包含6个对象,这些对象在训练集中不可用。背景包含强烈的光照,纹理布料,闪亮金属等,测试问题(2)。0•打印欺骗(POS)此测试集包含50张图像,每张图像包含1-6个打印物体和1-2个真实物体。0•机器人垃圾桶拾取(RBP)该集合包含300张图像,这些图像是从我们的机器人手臂拾取装饰品的实时演示中获取的。该集合用于测试实际应用中的实例分割性能。0对于每个数据集,我们使用两个指标来衡量准确性:IoU范围为0.5-0.7的平均精度均值86080(mAP . 5: .7)和IoU范围为0.75-0.9的平均精度均值(mAP . 75: .9)。这两个指标分别衡量粗分割和细粒度分割。为了进一步测试泛化能力,我们还使用Mask R-CNN的FasterR-CNN组件对所有模型进行目标检测。0拍摄设置 所有图像均使用Flir Black�yS单色极化相机拍摄。为了使所有模型能够在完全相同的图像集上进行训练,强度基线使用单色图像完成。这是公平的,因为我们数据集中的透明物体是无色的,RGB数据对透明物体分割没有价值。我们在补充材料中进行了验证。04.2. 极化 vs. 强度 Mask R-CNN0我们在上述四个测试集上测试了Intensity Mask R-CNN[19]和我们的Polarized MaskR-CNN。每个数据集的定性示例可见于图6,定量结果可见于表2。我们在粗分割方面的平均改进为14.3%mAP,在细粒度分割方面的平均改进为17.2%mAP。在进行细粒度分割时,问题(1)的性能改进更加明显,性能差距从1.1% mAP增加到4.5%mAP。这支持了我们的论点,即极化数据提供了有用的边缘信息,使模型能够更准确地分割对象。对于泛化到新环境,我们在细粒度和粗分割方面都获得了更大的收益,支持了我们的论点,即透明物体的固有纹理在极化图像中更加明显。我们的架构在对抗打印欺骗方面也显示出了类似的巨大改进,几乎达到了90%的mAP。这证明了一种对透视投影问题(如打印欺骗)具有鲁棒性的单目解决方案。所有这些结果有助于解释在像机器人垃圾桶拾取(RBP)这样的无控制和杂乱环境中显示的性能显著提高。表2中的结果突出了极化CNN在透明物体的鲁棒实例分割方面的优势。04.3. 极化+CNN比较0我们创建了许多不同的极化+CNN基线来与我们的极化CNN框架进行比较。0输入图像我们的第一组基线独立使用以下输入,ρ,φ,I[19]和I0−I135 [47]。我们对每种输入类型训练一个MaskR-CNN,并在表3的四个测试集上进行测试。每个输入对于不同的问题都很好。φ和ρ比I更好地避免了打印欺骗。ρ是RBP和Env数据集上最有用的信号。I在处理之前见过的杂乱环境方面表现最好。它在Clutter测试集上实现了稍微更好的性能,但明显更差0在其他3个测试集中都是如此。[46]的极坐标输入处理方法在新颖背景中的性能比ρ差,在避免打印欺骗方面比φ差。因此,表3的前四行显示,与[47]中独立使用所有4个通道相比,虽然效果不错,但通过在深度学习模型中采用物理先验的方式,使用ρ和φ可以获得更多的收益。0多模态融合在验证了I,ρ和φ是适当的输入通道后,我们评估了不同的融合方法基线。我们与第3.2节中描述的四种主要标准方法[11,33,28,46]进行比较。总的来说,基于注意力的极化数据融合在所有测试中都提高了透明物体实例分割的鲁棒性。我们在补充材料中可视化了消融分析。我们还通过将这三个图像连接成一个单一的3通道图像并使用一个单一的主干网络来进行比较,证明了多模态融合的必要性。该模型无法充分利用这三个通道,并且学习到的策略非常次优,平均比我们的注意力融合机制差8个mAP。0几何数据增强我们通过消融研究中的结果验证了几何准确的数据增强的必要性,结果在表4中报告。结果显示,在某些情况下,使用正常的增强实际上会损害性能,而几何增强则提高了所有四个测试集的性能。04.4. 应用:拾取和放置0透明和半透明(非兰伯特)物体的抓取是一个非常困难且开放的问题。为了展示高质量、稳健的分割的差异,我们将强度掩蔽R-CNN与我们的极化掩蔽R-CNN进行比较,作为一个概念验证端到端系统的一部分,用于抓取不同大小的杂乱透明装饰品。一个抓取解决方案包含三个组件,一个分割组件用于隔离每个物体,一个深度估计组件和一个姿态估计组件。为了理解分割的效果,我们使用简单的深度估计和姿态,当机械臂移动到分割的中心并停在表面时停止。这只适用于物体是完美球体的情况。稍微不准确的分割可能导致错误的估计和错误的抓取。这个应用程序允许我们比较极化掩蔽R-CNN和强度掩蔽R-CNN。我们在5个训练集之外的困难环境中测试我们的系统。对于每个环境,我们堆叠15个球,然后测量机械臂拾取所有15个球的正确/错误(漏掉的)次数。Evaluation CriteriaMean ScoreClutterEnvPOSRBPModelTaskmAP.5:.7mAP.75:.9mAP.5:.7mAP.75:.9mAP.5:.7mAP.75:.9mAP.5:.7mAP.75:.9mAP.5:.7mAP.75:.9Model InfoMean ScoreClutterEnvPOSRBPInput TypeBackbonemAP.5:.7mAP.75:.9mAP.5:.7mAP.75:.9mAP.5:.7mAP.75:.9mAP.5:.7mAP.75:.9mAP.5:.7mAP.75:.986090强度掩蔽R-CNN [19] 实例分割 0.656 0.454 0.878 0.689 0.281 0.146 0.685 0.616 0.779 0.364 极化掩蔽R-CNN(我们的)实例分割 0.793 0.635 0.889 0.733 0.511 0.351 0.893 0.8410.877 0.6140强度掩蔽R-CNN [19] 检测 0.662 0.434 0.885 0.694 0.277 0.13 0.681 0.546 0.803 0.364 极化掩蔽R-CNN(我们的)检测 0.796 0.601 0.893 0.723 0.516 0.299 0.893 0.758 0.8830.6240表2:极化掩蔽R-CNN在检测和实例分割方面优于强度掩蔽R-CNN。0I un [19] ResNet-101 0.656 0.454 0.878 0.689 0.281 0.146 0.685 0.616 0.779 0.364 φ ResNet-101 0.702 0.531 0.84 0.605 0.28 0.145 0.872 0.807 0.816 0.573 ρ ResNet-101 0.738 0.5610.867 0.653 0.447 0.256 0.8 0.716 0.838 0.6090I 0,I 45,I 90,I 135 [47] Concat + ResNet-101 0.743 0.545 0.89 0.711 0.386 0.221 0.868 0.803 0.829 0.444 I un,φ,ρ Concat + ResNet-101 0.711 0.538 0.864 0.656 0.278 0.1340.833 0.765 0.87 0.5960I un,φ,ρ中融合+均值[11]*0.787 0.624 0.892 0.734 0.493 0.337 0.886 0.842 0.879 0.582 I un,φ,ρ中融合+连接[32,33]*0.768 0.606 0.892 0.727 0.469 0.297 0.843 0.786 0.869 0.615 Iun,φ,ρ中融合+MoE[28,43]*0.777 0.616 0.889 0.738 0.468 0.287 0.871 0.825 0.878 0.615 I un,φ,ρ中融合+SE Merge[46]*0.764 0.603 0.894 0.740 0.448 0.298 0.844 0.794 0.8700.578 I un,φ,ρ中融合+Attention(我们的)0.793 0.635 0.889 0.733 0.511 0.351 0.893 0.841 0.877 0.6150表3:实例分割消融分析输入和骨干消融结果。我们将与最佳结果相差0.005 mAP的结果加粗显示。*适应我们的任务。0输入类型 平均杂波环境 POS RBP0AOLP 0.476 0.550 0.136 0.707 0.514 AOLP + Augs 0.486 0.591 0.0800.746 0.528 AOLP + Geometric Augs 0.531 0.605 0.145 0.807 0.5730表4:几何数据增强对于改善性能至关重要。0图7:透明物体垃圾桶拾取设置:使用UR3机器人手臂和吸盘夹具校准的自定义极化立体相机对一堆透明物体进行拾取。015个错误的选择,以先到者为准。结果是0模型类型 拾取错误选择 剩余总数0强度Mask R-CNN [19] 60 56 30 90 极化Mask R-CNN(我们的)90 18 0 900表5:极化CNN允许机器人以最小的错误选择清空垃圾桶。0在表4中可用。基于强度的模型由于分割质量较差,机械臂在连续抓取中始终错过某些抓取,因此无法始终清空垃圾桶。另一方面,极化模型成功地抓取了所有90个球,每6个正确抓取中大约有1个错误抓取。这些结果验证了20mAP差异的影响。05.结论0透明物体在极化领域具有更突出的纹理。我们的极化CNN框架最好地利用了这种独特的纹理,我们在MaskR-CNN的实例分割上进行了演示。我们通过实验证明了这一点,并通过机器人拾取垃圾桶的应用程序展示了其重要性。我们还展示了一种被动单目系统,该系统对打印欺骗攻击具有鲁棒性。我们希望激发计算机视觉领域的未来工作,利用数据驱动的问题来利用极化,并探索用于机器人技术、自动驾驶和人脸认证等广泛领域的新型相机配置。0参考文献0[1] Waleed Abdulla。基于Keras和TensorFlow的对象检测和实例分割的MaskR-CNN。https://686100github.com/matterport/Mask_RCNN,2017年。60[2] Nicolas Alt,Patrick Rives和EckehardSteinbach。使用深度相机在非结构化场景中重建透明物体。在2013年IEEE国际图像处理会议上,第4131-4135页。IEEE,2013年。30[3] Anurag Arnab和Philip HSTorr。使用动态实例化网络的像素级实例分割。在IEEE计算机视觉和模式识别会议论文集中,第441-450页,2017年。20[4] Gary A Atkinson和Edwin RHancock。从漫反射极化中恢复表面方向。IEEE图像处理交易,15(6):1653-1664,2006年。2, 30[5] Min Bai 和 Raquel Urtasun. 用于实例分割的深度分水岭变换.在 计算机视觉和模式识别IEEE会议论文集中 , 页码5221–5229,2017. 20[6] Moshe Ben-Ezra 和 Shree K Nayar. 运动对透明性的揭示. 在计算机视觉国际会议IEEE论文集中 , 页码1025. IEEE, 2003. 30[7] Rodrigo Benenson, Stefan Popov, 和 Vittorio Ferrari.与人类标注者一起进行大规模交互式对象分割. 在 CVPR , 2019.30[8] Tongbo Chen, Hendrik PA Lensch, Christian Fuchs, 和Hans-Peter Seidel. 极化和相位移用于半透明物体的3D扫描. 在2007年计算机视觉和模式识别IEEE会议论文集中 , 页码1–8. IEEE,2007. 30[9] Franc¸ois Chollet 等人. Keras. https://keras.io , 2015.0[10] Zhaopeng Cui, Jinwei Gu, Boxin Shi, Ping Tan, 和 JanKautz. 极化多视图立体视觉. 在计算机视觉和模式识别IEEE会议论文集中 , 页码1558–1567, 2017.30[11] Di Feng, Christian Haase-Schuetz, Lars Rosenbaum, HeinzHertlein, Fabian Duffhauss, Claudius Glaeser, Werner Wies-beck, 和 Klaus Dietmayer.用于自动驾驶的深度多模态对象检测和语义分割: 数据集,方法和挑战. arXiv预印本 arXiv:1902.07830 , 2019. 3 , 7 , 80[12] Chen Guo-Hua, Wang Jun-Yi, 和 Zhang Ai-Jun.基于RGB-D相机的透明物体检测和定位. 在物理学杂志: 会议系列中, 卷号1183, 页码012011. IOP Publishing, 2019. 2 , 30[13] Agrim Gupta, Piotr Dollar, 和 Ross Girshick. LVIS:用于大词汇实例分割的数据集. 在计算机视觉和模式识别IEEE会议论文集中 , 2019. 30[14] Kaiming He, Georgia Gkioxari, Piotr Doll´ar, 和 Ross Gir-shick. 蒙版R-CNN. 在 计算机视觉国际会议IEEE论文集中 ,页码2961–2969, 2017. 2 , 30[15] Kaiming He, Xiangyu Zhang, Shaoqing Ren, 和 Jian Sun.深度残差学习用于图像识别. 在计算机视觉和模式识别IEEE会议论文集中 , 页码770–778, 2016. 30[16] Jie Hu, Li Shen, 和 Gang Sun. 挤压激励网络. 在计算机视觉和模式识别IEEE会议论文集中 , 页码7132–7141, 2018.30[17] Achuta Kadambi, Vage Taamazyan, Boxin Shi, 和 RameshRaskar. 极化3D: 基于极化线索的高质量深度感知. 在计算机视觉国际会议IEEE论文集中 , 页码3370–3378, 2015. 30[18] Achuta Kadambi, Vage Taamazyan, Boxin Shi, 和 RameshRaskar. 使用几何约束的极化法线进行深度感知.计算机视觉国际期刊 , 125(1-3):34–51, 2017. 30[19] May Phyo Khaing 和 Mukunoki Masayuki.使用卷积神经网络进行透明物体检测. 在大数据分析和深度学习应用国际会议 , 页码86–93. Springer, 2018. 2 , 3 , 7 , 80[20] Alexander Kirillov, Evgeny Levinkov, Bjoern Andres, Bog-dan Savchynskyy, 和 Carsten Rother. 实例切割:从边缘到实例的多切割. 在计算机视觉和模式识别IEEE会议论文集中 , 页码5008–5017, 2017.20[21] Po-Jen Lai 和 Chiou-Shann Fuh.使用卷积神经网络的区域进行透明物体检测.在IPPR计算机视觉、图形和图像处理会议中 , 页码1–8, 2015. 30[
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Java集合ArrayList实现字符串管理及效果展示
- 实现2D3D相机拾取射线的关键技术
- LiveLy-公寓管理门户:创新体验与技术实现
- 易语言打造的快捷禁止程序运行小工具
- Microgateway核心:实现配置和插件的主端口转发
- 掌握Java基本操作:增删查改入门代码详解
- Apache Tomcat 7.0.109 Windows版下载指南
- Qt实现文件系统浏览器界面设计与功能开发
- ReactJS新手实验:搭建与运行教程
- 探索生成艺术:几个月创意Processing实验
- Django框架下Cisco IOx平台实战开发案例源码解析
- 在Linux环境下配置Java版VTK开发环境
- 29街网上城市公司网站系统v1.0:企业建站全面解决方案
- WordPress CMB2插件的Suggest字段类型使用教程
- TCP协议实现的Java桌面聊天客户端应用
- ANR-WatchDog: 检测Android应用无响应并报告异常
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功