没有合适的资源?快使用搜索试试~ 我知道了~
1基于投影卷积网络的三维形状分割Evangelos Kalogerakis1Melinos Averkiou2Subhransu Maji1SiddharthaChaudhuri31马萨诸塞大学阿默斯特分校2塞浦路斯大学3孟买IIT摘要本文介绍了一种用于将3D对象分割成其标记的语义部分的深层架构。我们的架构结合了基于图像的全卷积网络(FCN)和基于表面的条件随机场(CRF),以产生3D形状的相干分割。基于图像的FCN用于关于3D对象部分的有效的基于视图的推理。通过一个特殊的投影层,FCN输出有效地聚集在多个视图和比例,然后投影到3D对象表面。最后,基于表面的CRF将投影输出与几何一致性线索相结合,以产生相干分割。整个架构(多视图FCN和CRF)都是端到端训练的。我们的方法在目前最大的分割基准(ShapeNet)中显着优于现有的最先进的方法。最后,我们展示了从消费级深度相机获得的噪声3D形状的分割结果1. 介绍近年来,网络上的3D形状数据呈爆炸式增长。除了越来越多的社区策划的CAD模型之外,部署在各种平台上的深度传感器能够以多边形网格或点云的形式获取对象的3D几何表示。虽然在分析彩色图像方面已经取得了重大进展,特别是通过深度网络,但是现有的用于3D几何形状数据的语义推理技术主要依赖于启发式处理阶段和手动调整的几何描述符。我们的工作重点是将3D形状分割成标记的语义部分的任务基于组成部分的3D形状推理已被证明对大量视觉,机器人和虚拟现实应用有效,例如3D形状和彩色图像的交叉模态分析[60,24],骨骼跟踪[42],图像[11,30,36],从图像和线条图[54,24,21],基于交互式装配的3D建模[5,4],从少量示例中生成3D形状[25],3D对象之间的样式转换[33],机器人导航和抓取[40,8],仅举几例。形状分割任务虽然是基本的,但由于形状部分的多样性和模糊性而具有挑战性必须被赋予相同的语义标签;因为准确地检测部件之间的边界可能涉及非常微妙的线索;因为局部特征和全局特征必须被共同检查;并且因为分析必须对噪声和欠采样具有鲁棒性。我们提出了一种用于分割和标记3D形状的深层架构,该架构简单有效地解决了这些挑战,并且显著优于先前的方法。我们的技术的关键见解是将基于图像的深度网络重新用于基于视图的推理,并以几何一致的方式将其输出聚合到形状的表面表示上。 我们不对形状进行几何、拓扑或方向假设,也不利用任何手动调整的几何描述符。我们基于视图的方法的动机是深度网络在图像分割任务上的成功。使用渲染的形状可以让我们用在大型图像数据集上训练过的层来初始化我们的网络,从而实现更好的泛化。由于图像描绘了拍摄对象的形状(以及纹理),我们希望这些预先训练的层已经编码了关于部件及其关系的一些信息最近关于基于视图的3D形状分类[47,38]和RGB-D识别[15,46]的工作已经显示了将学习的表示从彩色图像转移到几何和深度数据的好处。基于视图的3D形状分割方法必须克服几个技术障碍。首先,必须选择视图,以便它们一起尽可能多地覆盖形状表面并最小化遮挡。其次,形状零件可以在多个视图中可见,因此我们的方法必须有效地整合多个视图中的信息第三,必须保证分段的完整性和连贯性。这意味着所有的表面区域,包括任何严重遮挡的部分,都应该被标记,并且相邻的表面区域应该可能具有相同的标签,除非被强边界特征分开。如图1所示,我们的方法使用单个前馈网络系统地解决了这些困难。给定一个原始的3D多边形网格作为输入,我们的方法生成一组图像,从多个视图,自动选择最佳的表面覆盖。这些图像被输入网络,网络通过图像处理层输出每个部件的置信度图置信图为37793780表面509 865 865 1337117411741342 865 13371337 558 558参考13421342 887 887 849 5584次旋转图像932 932 887 849 849 1212(三角形ID)932 677 677 1567121212121805 677 950 156715671566...F.C. .N共享权重...输入3D形状选定视点...着色图像深度图像F. C.. N共享权重每标签置信图每标签置信图Image2Surface(表面上)投影层正向传递/推理基于表面的CRF层带标签的3D形状机身机翼vert.水平稳定器稳定剂反向传播/学习图1. 我们的3D形状分割和标记方法的流水线和架构。 给定一个输入形状,以不同的尺度计算一组视点,使得所观察的形状表面被最大限度地覆盖(左)。来自这些视点的阴影和深度图像通过我们的架构进行处理(这里我们显示了三个视点的图像,对应于3个不同的尺度)。我们的架构采用基于图像的全卷积网络(FCN)模块与共享参数来处理输入图像。模块输出每个视图的基于图像的部件标签置信度。这里我们展示了翅膀标签的置信度图(颜色越红,置信度越高)。置信度通过特殊的投影层聚集并投影到形状表面上。然后,它们通过基于表面的CRF进一步处理,以促进整个表面的一致标记(右)。通过投影层融合并投影到形状表面表示上。最后,我们的架构包括- porates一个基于表面的条件随机场(CRF)层,促进整个表面的一致标记包括CRF在内的整个网络都是以端到端的方式进行训练,以实现最佳性能。我们的主要贡献是引入了一个深的architecture组成部分为基础的推理3D形状表示,而不使用手工设计的几何处理阶段或手工调整的描述符。我们展示了对最先进技术的重大改进。对于复杂的物体,如飞机、机动车辆,和家具,我们的方法提高了一个显着的108%的部分标记的准确性,超过了目前最大的3D形状分割数据集的最先进的。2. 相关工作我们的工作涉及图像(包括RGB-D数据)和3D形状分割的学习方法基于图像的分割。有大量的文献将图像分割成对象及其部分。大多数最近的技术是基于随机森林类的变体滤波器或卷积网络。前者的一个例子是非常快速和准确的人体姿势估计器,它使用来自Kinect传感器的深度数据来标记人体部位[42]。我们的工作建立在卷积网络的成功的材料分割,场景标签,对象部分标签的任务。这些方法使用重新用于密集图像标记的图像分类网络,通常是全卷积网络(FCN)[32],以获得初始标记。已经提出了几种用于改进这些初始估计的策略,包括基于自上而下的基于区域的推理的技术[10,16],CRF [6,31],atrous卷积层[6,57],decon [6,57]演化层[35],递归网络[59]或多尺度分析[34,17]。一些作品[29,1,2]也专注于从RGB-D数据中学习特征表示(例如,使用Kinect传感器捕获的那些)用于场景中的对象级识别和检测。最近,Gupta et al.[15]表明,基于图像的网络可以用于提取深度表示,以进行对象检测和分割。最近的作品[14,45,18]已经将类似的策略应用于室内场景识别任务。与上述方法相比,我们的工作旨在通过3D建模工具或重建技术以多边形网格的形式分割3D对象的几何表示。这些对象的3D模型通常不包含纹理或颜色信息。将这些3D对象分割成部分需要能够对其几何表示进行操作学习3D形状 表示从图像.最近的一些方法试图通过卷积网络从图像中学习形状的体积表示,卷积网络采用特殊层来模拟形状投影到图像[55,39]。或者,基于网格的表示也可以通过假设固定数量的网格顶点从图像中学习[39]。与这些工作相比,我们的架构有区别地学习基于视图的形状表示以及基于表面的CRF,使得视图投影匹配输入表面信号(部分标签)。我们的3D-2D投影机制是可微的,无参数的,稀疏的,因为它只在形状表面上操作,而不是它的体积。与[39]的网格表示相反,我们不假设网格具有固定数量的顶点,这对于一般的3D模型不成立。我们的方法与学习基于视图的形状表示的方法更相关[47,38]。但是,这些方法仅学习全局表示FCN...投影3781用于形状分类,并依赖于固定的视图集。相反,我们的方法通过自适应选择的视图来学习基于视图的形状表示,它还使用CRF来解决视图表示中的不一致或缺少表面信息。3D几何形状分割。最常见的基于学习的形状分割方法是将零件标签分配给形状表示的几何元素例如多边形、点或面片[53]。这通常是通过不同的处理阶段完成的:首先,展示这些元素的手工设计的几何描述符(例如,表面曲率、形状直径、点或正态分布的局部直方图、表面本征函数等);然后,聚类方法或分类器基于元素的描述符推断元素的部分标签;并且最后(可选地)采用单独的图形切割步骤来平滑表面标记[26,41,43,19,58]。最近,卷积网络已被提出作为替代元素分类器[13],但它对组织在2D矩阵中的手工设计的几何描述符进行操作,缺乏传统卷积的空间相干结构另一种变体是使用两层网络,其通过随机化内核来转换输入,以所谓的“极限学习机”的形式其他方法通过可变形零件模板[27,20]采用非刚性对齐步骤来分割形状,或者通过3D形状之间的表面对应和功能图来转移标签[48,22,50,27,23]。这些对应和对齐方法依赖于手工设计的几何描述符和变形步骤。Wang等人[51]通过Hausdorff距离将投影视图的二进制图像与分割的2D图像进行扭曲和匹配来分割3D形状然而,匹配过程是手动调整的,而潜在有用的表面信息,如深度和法线,被忽略了。与上述所有方法相比,我们提出了一种基于视图的形状分割深度架构,具有四个主要优点。首先,我们的架构采用了在大规模图像数据集上学习的图像处理层,这些数据集比现有的3D数据集大几个数量级。正如我们在这项工作中所展示的那样,几个层的深度堆栈提取了可以成功适应形状分割任务的特征表示。我们注意到,最近在形状识别中也观察到了这种转移[47,38]。其次,我们的架构产生形状分割,而不使用手工设计的几何描述符或处理阶段,这些描述符或处理阶段易于在形状表示中退化(即,表面噪声、采样伪像、不规则网格镶嵌、网格退化等)。第三,我们采用自适应视点选择来有效地捕获所有表面部分进行分析。最后,我们的架构是端到端训练的,包括所有图像和表面处理阶段。由于这些贡献,我们的方法在大而复杂的数据集上实现了比以前更好的性能。3. 方法给定一个输入的3D形状,我们的方法的目标是将其分割成标记的部分。为此,我们设计了一个投影卷积网络。我们的网络架构如图1所示。 它将来自多个视图的一组图像作为输入,这些图像针对最大表面覆盖率进行了优化;通过图像处理层(在大型图像数据集上进行了预训练)提取基于部件的置信度图;通过投影层将这些地图组合并投影到表面上,并最终结合基于表面的条件随机场(CRF),其有利于输入表面的相干标记。整个网络,包括CRF,都是端到端训练的。在下面的章节中,我们将讨论网络的输入、层和训练过程。输入. 我们的算法的输入是一个3D形状表示为多边形网格。作为预处理步骤,用均匀分布的点(在我们的实现中为1024个)对形状表面进行采样。我们的算法首先确定一个过完备的视点集合,使得表面的几乎每个点至少从K个视点(在我们的实现中,K=3)。对于每个采样表面点,我们将视点放置在沿其表面法线的不同距离处(距离设置为0。五一0和1。5的形状的边界球半径)。通过这种方式,可以以不同的比例绘制表面(图1,左侧)。然后,我们确定一个紧凑的一组informative的观点,最大限度地覆盖形状表面。对于每个视点,形状在透视投影下光栅化为二进制图像,其中我们将每个“on”像素与最接近它的采样表面点相关联。视点的覆盖率以分数来衡量从它可见的表面点,通过从图像聚合表面点参考来估计。对于每个比例(相机距离),具有最大覆盖率的视点然后,我们重新估计这个比例的覆盖范围,忽略已经被选定的视点覆盖的点,并将具有下一个最大覆盖范围的视点重复该过程,直到所有表面点都以该比例覆盖。在我们的实验中,使用人造形状和我们选择的比例,大约20个视点足以覆盖绝大多数的每刻度表面积。在确定我们的视点集合之后,我们将形状渲染为阴影图像和深度图像。对于每个视点,我们放置一个指向用于生成该视点的表面点的摄像机,并旋转其上矢量4时间在90度的间隔(即,我们使用4平面旋转,选项)。对于这4个相机旋转中的每一个,我们使用典型的计算机图形着色器(Phong反射模型[37])渲染一个着色的灰度512×512图像,深度图像,它们被连接成单个双通道图像。这些图像作 为 输 入 馈 送 到 我 们 的 网 络 的 图 像 处 理 模 块(FCN),如下所述我们发现阴影和深度图像都是有用的输入。在早期的实验中,标记准确率下降了2。百分之五仅使用深度这可能是由于更多的378222“photo-realistic” appearance of shaded images, which bet-terC(f,l)=maxm,i,j:I(m,i,j)=fC(m,i,j,l)(1)架构我们注意到阴影图像直接编码表面法线相对于视图方向(阴影是从法线和视图方向之间的角度计算)。除了阴影和深度图像之外,对于每个选择的相机设置,我们将形状光栅化到另一个图像中,其中每个像素存储其投影最接近像素中心的多边形的ID。这些图像,我们称之为FCN模块。上一步中生成的双通道图像通过相同的基于图像的全连接网络(FCN)模块进行处理(图1)。每个FCN模块为每个输入图像输出L个大小为512×512的置信度图,其中L是部件标签的数量。具体来说,在我们的实现中,我们采用了FCN ar-[57]中建议的架构,采用VGG-16网络[44]通过删除其最后两个池化和跨越层并使用扩张卷积进行密集预测。我们执行两个额外的修改,这个FCN架构。 首先,由于我们的输入是一个2通道图像,我们使用2通道3×3滤波器,而不是3通道(BGR)滤波器。我们还调整了这些过滤器来处理灰度,在我们的训练过程中,彩色图像。其次,我们修改了原始FCN模块的输出。原始FCN输出大小为64×64的L置信度图。然后通过softmax操作将这些转换为L概率图。相反,我们通过具有学习参数和步幅的转置卷积(“反卷积”)层将置信度图上采样为512×5128.置信度随后通过我们的CRF层转换为概率。Image2表面投影层。该层的目标是聚合多个视图中的置信度图,并将结果投影回3D表面。我们注意到其中,C(m,i,j,l)是图像m的像素(i,j)处的标签l的置信度; I(m,i,j)存储对应参考图像m的像素(i,j)处的多边形ID;并且C(f,l)是多边形f处的标签l的输出置信度。我们注意到由于表面的过大的、几乎被遮挡的部分往往被映射到轮廓上,因此在那里投影变得不可靠,所以表面参考图像省略了形状轮廓处和附近的多边形参考代替使用最大运算符,另一种聚合策略是使用平均值而不是最大值,但我们观察到这会导致性能略低(在我们的实验中约为1%表面CRF。一些小的表面区域可能被高度遮挡,因此未被任何所选视点观察到,或者未被包括在任何参考图像中。对于任何这样的多边形,标签置信度被设置为零。曲面的其余部分应将标签置信度传播到这些多边形。此外,由于FCN模块中的上采样,可能会出现表面凸起或凹陷(可能是分割边界)的出血。我们定义了一个在表面表示上操作的CRF来处理上述问题。具体地,每个多边形f被分配一个表示其标签的随机变量Rf。CRF包括每个此类变量的一元因子,该因子根据预测层:φunar y(Rf=l)=exp(C_(f,l)). CRF还包括-代码基于这些变量之间的成对交互表面接近度和曲率。对于每一对相邻多边形(f,f′),我们定义一个因子,该因子有利于共享法线的多边形具有相同的标签(例如,在平坦表面上给定它们的法线之间的角度ωf,f ′(ωf,f ′除以π以将其映射在[0,1]之间),因子定义如下:..Σ最佳视点的位置和数量都可以exp−w’。 adj·wl,l′·ωf,f′,l=l′Σ它们的形状各不相同,也没有任何顺序。即使最佳视点对于φadj(Rf=l,Rf ′=l)=exp−wadj·wl,l′·(1−ωf,f′),l L不同的形状,视图仍然不一定是有序的,因为我们不假设形状是一致定向的。因此,投影层应该与输入图像排序保持不变。给定输入形状s的Ms个输入图像,从FCN模块堆叠成Ms×512×512×L形象投影层将此4D图像作为输入此外,它将表面参考(多边形ID)图像作为输入,也堆叠成3DMs×512 ×512图像。该层输出一个Fs×L数组,其中Fs是形状为s的多边形的数量。 投影是通过视图池操作。对于每个表面多边形f和部件类别标签l,我们分配置信度P(f,l),其等于根据表面参考图像映射到该多边形的所有像素和输入图像的最大标签置信度。从数学上讲,这种投影运算公式为:其中wadj和wl,l′是学习的因子和标签相关权重。 我们还定义了有利于多边形f,f ′的相似标签的因子,这些多边形f,f ′在空间上根据它们之间的测地距离df ,f ′彼此接近。在我们的实现中,这些因子是为测地线距离小于边界球半径10%的多边形对定义的。 这使得我们的CRF相对密集,对表面变量之间的长程相互作用更敏感。我们注意到,对于小网格或点云,可以考虑所有对。基于测地距离的系数定义如下:..2Σ′′exp−wdist·wl,l′·df,f′,l=lφdist(Rf=1,Rf′=1)= .2Σ′exp−w dist·wl,l′·(1−df,f ′),l L其中,因子相关权重wdist和标签相关权重wl,l′是学习参数,并且df,f ′′3783仅一元因子完整CRFCRF未显示。因子图2. CRF替代版本的标记分割结果(最佳彩色显示)。把手头灯框座坦克轮表示f和f′之间的测地线距离。将距离归一化为[0,1]。基于上述因素,我们的CRF定义在所有表面随机变量Rs={R1,R2,. . .,R Fs},如下:平均场经常收敛(即,边缘变化非常小)。我们还需要计算目标函数w.r.t.的梯度。CRF权重。由于我们的CRF具有对数线性模型的形式,因此可以容易地导出梯度。给定估计的梯度,我们可以训练网络P(Rs)=1YYφunary(Rf)Yφadj(Rf,Rf′)φdist(Rf,Rf ′)通过反向传播。反向传播可以向任何FCN分支发送错误消息,任何输入图像Zsfadjf,f ′f,f ′(二)(图1)。训练我们网络的一个策略是建立尽可能多的FCN分支机构,其中Zs是归一化常数。精确推理是困难的,因此我们诉诸平均场推理来近似所有随机变量的最可能的联合分配以及它们的边际概率。我们的平均场近似使用单个变量的分布作为消息(即,后验近似于完全分解的形式-参见[ 28 ]的算法11.7)。图2显示了我们的CRF的替代版本以及单独使用一元项时的分割结果如何降级培训程序。FCN模块使用在图像处理任务上预先训练的滤波器进行初始化[57]。由于我们网络的输入是灰度(col),或更少)图像,我们对第一卷积层的预训练滤波器也就是说,3×3×3滤波器被转换为对颜色不敏感的3×3×1滤波器。然后,我们将权重复制两次,以产生可以接受2通道输入图像的3×3×2滤波器。CRF权重初始化为1。给定3D形状的输入训练数据集S,我们首先使用我们的渲染过程生成它们的深度,阴影和参考图像。然后,我们的算法微调FCN模块滤波器参数θ并学习CRF权重wadj,wdist,{wl,l′},以最大化它们的log-li kpl usa最小正则化项:所有训练模型中的图像。然而,数量每个模型所选择的视点不同,因此每个模型的渲染图像数量也不同,在我们的数据集中从几十到几百不等。维持FCN分支的连续性将超过当前GPU的内存容量。相反,在训练过程中,我们的策略是为每个模型选择24个图像的随机子集,即我们继续24个FCN分支,在GPU中共享参数-奥里对于每个批次,每个模型的不同随机子集是选择(即,没有用于训练的固定视图集)。我们注意到渲染图像的顺序并不重要我们的训练策略让人想起了DropConnect技术[49],它倾向于减少过度拟合。在测试时,每个模型的所有渲染图像都用于进行预测。前向传递不需要一次处理所有输入图像(即,不是所有的FCN分支都需要建立)。在测试时,图像标签置信度被顺序地投影到表面上,这产生与一次投影所有图像标签置信度相同的结果。实施. 我们的网络是使用C++和Caffe 1实现的。 优化是通过随机梯度下降完成的,学习率为10−3,动量为0。 9 . 第 九条 。我 们 在 Caffe 中 实现 了一 个 新的Image2Surface层,将基于图像的置信度投影到所述形状表面上。我们L=1|S|ΣlogP(Rss∈S=Ts)+ λ|| θ||第二章(三)还创建了一个CRF层,用于在前向传递期间处理平均场推断,并在反向传播期间估计所需的梯度。其中,T是每个表面变量的地面实况标签,训练形状s,λ是我们实验中设置为10−3的正则化参数(权重衰减)为了最大化上述目标,我们必须计算其梯度w.r.t.根据反向传播的要求,FCN模块输出:<$L<$1−P(Rf=l)如果l=Tf且I(m,i,j)=f=P(Rf=l)如果l Tf和I(m,i,j)=f4. 评价我们现在提出的实验验证和分析我们的方法。数据集。我们评估了我们的方法手动标记分割 可用 从的 [56]第五十六话标记PSB(L-PSB)[7,26]和COSEG数据集[50]。C(m,i,j,l)0否则(四)ShapeNetCore的数据集目前包含17,773个“expert-verified” segmentations of 3D models across计算梯度需要估计边缘类别 将收集概率P(Rf)。 我们使用平均场推断来估计-地面实况3784匹配边缘(相同的推理过程用于训练和测试)。 我们观察到,经过20次迭代,1我们的源代码、结果和数据集可以在项目页面上找到http://people.cs.umass.edu/kalo/papers/shapepfcn/3785基本事实ShapeBoost ShapPFCN手柄架座轮后座腿顶篷框架轮鳍框鼻杯柄尾发动机机身机翼封盖基座顶部支腿头带耳垫电缆帽沿甲 板车轮框架触发手柄手柄刀片头 颈体手柄壳遮光管座图3. ShapeNet形状的地面实况(人类)标记分割,以及ShapeBoost [26]和我们的方法(ShapePFCN)产生的分割,用于来自ShapeNetCore数据集的测试形状(最佳颜色)。“在野外”。它们来自Trimble 3D Ware- house和Yobi 3D存储库,通常是使用3D建模工具为各种应用程序创建的对象的典型代表。 相比之下,PSB和COSEG数据集更小。PSB包含19个类别的380个分段3D模型(每个类别20个模型),而COSEG包含8个类别的190个分段模型,以及3个类别的900个PSB中的所有模型都经过仔细的重新网格化和重新-构造使得它们的网格表示是水密的,具有干净的拓扑结构[50],便于在几何处理应用中使用。COSEG中的大多数形状都经过类似的预处理。正如PSB基准记录[50]的作者所述,由于网格退化,许多3D模型无法重新网格化或重新构建,因此未将其包含在数据集中。从 这 个 角 度 来 看 , 我 们 的 分 析 主 要 集 中 在 来 自ShapeNetCore的数据集上,因为它是三个数据集中最大的一个;包含多样化的通用3D模型;并在“野外”采集。尽管如此,为了完整性,我们在所有数据集(ShapeNetCore,L-PSB,COSEG)上包括与先前方法的比较先前的方法。我们包括比较:(i)“ShapeBoost”,在[ 26 ]中描述的方法,其采用图切割,其中一元项的JointBoost分类器和成对项的GentleBoost分类器的级联沿着与其他几何线索,并具有国家的最先进的perfor-曼斯的L-PSB;(ii)最近的方法,郭等人。[13] 它报告了与ShapeBoost在L-PSB数据集上的性能相当的性能。这种方法使用基于每个面几何描述符的CNN的图切割(也用于ShapeBoost),加上成对项的几何线索。在ShapeNetCore形状上计算几何描述符是具有挑战性的,因为它们通常是非流形的地面实况ShapeBoost形状PFCN3786#train/test形状#部件标签ShapeBoost Guo等人 形状PFCN飞机250 /250485.887.490.3袋三八293.191.094.6帽27 /28285.985.794.5车250 /250479.580.186.7椅子250 /250470.166.882.9耳机34 /35381.479.884.9吉他250 /250389.089.991.8刀196 /196281.277.182.8灯250 /250471.771.678.0笔记本222 /223286.182.795.3摩托车一百零一/一百零一677.280.187.0马克杯92 /92294.995.196.0手枪137 /138388.284.191.5火箭三十三/三十三379.276.981.6滑板76 /76391.089.691.9表250 /250374.577.884.8表1. ShapeNetCore中测试形状的数据集统计和每个类别的标签准确性ShapeBoost Guo等人 形状PFCN类别平均值83.082.288.4类别平均值(>3个标签)76.977.285.0数据集平均值81.280.687.5数据集A vg.(>3个标签)76.876.884.7表2.ShapeNetCore上的聚合标签准确性曲面法线方向不一致的)。使用原始的公开可用的ShapeBoost实现,我们试图使几何描述符和图形切割的计算尽可能稳健。我们对网格进行了预处理,以正确定向多边形(正面w.r.t.外部视点)、修复连通性(几何上连续相邻但拓扑上断开的多边形、焊接重合顶点),以及通过面的平面细分来细化任何过度粗糙的网格,直到其具有>3,000个多边形。我们还计算了点采样表示的形状的几何描述符,使他们是相对不变的镶嵌文物。我们注意到,现有的方法和我们的方法都没有对形状方向做没有方法明确使用任何预先存在的网格子部分信息手动PSB和COSEG数据集,我们使用每个类别12个形状进行训练,其余的用于测试。每种方法,包括我们的方法,都是在每个形状类别上单独训练和测试的,遵循之前3D网格分割文献。所有方法均按类别使用相同的拆分。我们的评价方案不同于Guo等人使用的方案。[13],其中不同的方法是随机选择的,但同一类别的不同部分进行评估,这可能会导致不准确的比较。结 果 测 试 时 所 有 方 法 的 性 能 报 告 见 表 1 中 的ShapeNetCore数据集。给定形状的标注准确度以百分比表示根据Yi等人提供的地面实况点标记,正确标记的表面点。[56]。当considering一个简单的平均每类别的准确性,我们的方法执行5。比表现最好的先前工作好4%[26](表2,类别平均值)。但是请注意有几个类别的模型不成比例地少。一个可能更客观的综合衡量方法是根据测试形状的数量来衡量每个类别的权重。在这种情况下,我们的方法改进了最先进的了6. 3%(表2,数据集平均值)。最重要的是,我们的方法在具有复杂对象的类别中具有更高的性能,例如机动车辆,飞机和家具,其中标记任务也更具挑战性。对于具有3个以上部分标签的类别,其中部分标签不仅仅是二元或三元的,我们的方法在先前的工作基础上改进了7。8%的未加权估计值(表2,类别平均值,> 3个标签),或7。当按类别大小加权时,9%(表2,数据集平均值,>3个标签)。这清楚地表明,我们的方法可以处理困难的形状标记任务的类与复杂的对象显着优于以前的方法。我们在补充材料中包括所有测试形状的标签结果。图3展示了人类标记的(地面实况)分割,以及各种测试形状的最佳 性 能 先 验 方 法 ( ShapeBoost ) 和 我 们 的 方 法( ShapEPFCN ) 我 们 发 现 , 依 赖 于 几 何 描 述 符 的ShapeBoost对于具有复杂结构和拓扑的形状(例如,自行车,椅子),形状与罚款当地fea-由3D建模人员输入。最后,我们注意到,在没有公开实现的情况下,我们使用了我们自己的Guo等人的架构实现数据集拆分。由于标准的训练/测试分割对于分割的ShapeNetCore数据集并不公开我们将每个类别随机分为两半,50%用于培训,其余用于测试。ShapeNetCore中每个类别的3D形状数量差异很大,从火箭的66到桌子的5266。现有方法中使用的几何描述符的计算是昂贵的,对于大网格(例如,50K多边形)花费高达一小时。为了便于处理,我们随机挑选了250名用于训练的形状,以及250个随机选择的形状用于测试具有超过500个形状的类别。我们的数据集统计数据列于表1。对于小可以扭曲本地描述符的结构(例如,枪扳机,包-量规手柄),以及具有粗糙几何形状的形状(例如,帽子)。我们还评估了PSB和COSEG数据集的标记准确性我们没有从我们的评估中排除任何形状类别。通常,几何方法仅适用于某些类型的“格式良好”输入(例如,歧管、直立定向形状、模板的等距铰接等),因此不对不合适的类别进行测试[53]。相比之下,我们的方法具有广泛的适用性。对于这些数据集,我们获得了对最先进方法的改进(92. 6%,我们的方法,90。6%的[26]第86章. 3%,Guo et al.[13]平均值两个数据集,请参见补充材料,以了解准确性,类别)。我们注意到PSB和COSEG都包含少量具有有限可变性的形状,即使是浅分类器也可以以高精度处3787理。3788回来扶手椅腿顶部腿手柄框座式油箱轮图4. 通过我们的方法对从RGBD传感器数据重建的噪声对象产生的标记分割。固定查看不相交培训一元term没有预训练。充分方法类别平均值87.287.083.586.388.4类别平均值(>3个标签)83.282.878.882.585.0数据集平均值86.285.982.185.787.5数据集平均值(>3个标签)82.982.478.782.384.7表3. ShapeNetCore上标记我们方法的降级变量的准确性。分析. 我们还评估了我们的方法对它的替代退化的变化,以确定主要来源的性能增益。表3报告了以下情况下ShapeNetCore上的测试标签准确度:(i)不选择─使用在不同尺度下最大化表面覆盖的视点,我们选择放置在十二面体顶点上的固定视点,如[47]中所建议的用于形状分类(参见我们仅依赖于一元项(“一元项”列),(iv)我们从头开始训练FCN模块,我们特别注意到,无论是联合培训还是单独培训,CRF都是主要性能改进的原因(将“一元项”与其他列进行比较)。预先训练也提供了一个明显的收益.观点适应和联合训练贡献较小,但仍然有用的增益。推广到RGB-D传感器数据。即使我们的架构是在完整的、无噪声的、手动建模的3D形状上训练的,它仍然可以推广到从RGB-D传感器获取的有噪声的、可能不完整的对象图4呈现了源自Choi等人的"的数据集[9]。数据集包含从原始RGB-D传感器数据重建的多边形网格。我们在ShapeNetCore椅子、桌子和摩托车类别(分别)上训练了我们的架构,然后将其应用于重建的对象。我们注意到,扫描包括我们通过平面拟合去除的地面。我们还发现了一些背景杂乱-通过连通分量分析(即,我们保留了场景中的主要对象与我们的方法相反,先前的工作严重依赖于手工编码的几何描述符,这些描述符由于噪声、不完整的几何形状而高度失真,并且无法产生有意义的结果(关于这些对象的结果,请参见补充材料)。5. 结论我们提出了一个设计用于分割和标记3D形状零件的深层架构。我们方法的关键思想是将基于图像的全卷积网络与基于表面的投影层相结合,用于基于视图的推理,我们的方法在3D形状分割和标记方面明显优于以前的工作。未来的扩展有几个令人兴奋的途径。目前,我们的方法使用一个简单的成对项的基础上表面的距离和表面法线之间的角度因此,分割可能会变得有噪声,并且与强的底层网格边界不对齐(图4,参见motorbike)。通过学习模块提取鲁棒边界将有利于我们的方法。我们的方法目前处理单级,非层次分割。进一步将对象分割成细粒度的部分(例如,将摩托车分割成子框架组件)在若干视觉和图形应用中是有用的。未来工作的另一种可能性是研究我们网络的不同类型的输入我们使用的输入图像另一种可能性是考虑HHA编码[14] 或者甚至是原始位置数据。然而,这些编码假设输入3D形状的一致重力方向或对齐虽然在一些仓库(例如,Trimble Warehouse)的大多数3D模型具有一致的右上方向,这并不适用于所有3D模型,特别是对于其他在线存储库,其形状沿着不同的随机轴定向。已经努力开发用于3D形状的一致取向或对齐的方法[12,14,3],然而现有的方法需要人的监督,或者对于各种形状类别(诸如户外物体或有机形状)不起作用。最后,我们的方法目前是以完全监督的方式训练的将我们的架构扩展到半监督或无监督设置,以从更大量的数据中受益,这是另一个令人兴奋的未来方向。鸣 谢 。 Kalogerakis 感 谢 NSF ( CHS-1422441 , CHS-1617333),NVidia和Adobe Maji感谢NSF(IIS- 1617917)和Facebook的支持。Chaudhuri感谢Adobe和高通的支持。我们的实验是在麻省大学GPU集群中进行的,该集群是在麻省大学技术合作组织管理的合作研发基金的资助下获得的。3789引用[1] M. Blum,J. T. Springenbe r g,J. W ulfing和M.里德-米勒。一个学习的特征描述符,用于RGB-D数据中的对象识别 在proc ICRA,第1298-1303页。IEEE,2012。2[2] L.波,X。Ren和D.狐狸.用于基于RGB-D的对象识别的无监督特征学习。实验机器人,第387-402页。Springer,2013. 2[3] A. X.张氏T. A.芬克豪泽湖J. Guibas,P. 汉-拉汉,Q.- X. Huang,Z. Li,S. Savarese,M. 萨瓦S.宋,H. Su,J. Xiao,L. Yi和F. Yu. Shapenet:一个 信 息 丰 富 的 3D 模 型 存 储 库 。 arxivabs/1512.03012,2015。8[4] S. 乔杜里E. 卡洛杰拉基斯S. 吉吉得双曲正弦值.T. 放克豪瑟AttribIt:创建具有语义属性的内容ACM UIST,2013年。1[5] S. 乔杜里E. 卡洛杰拉基斯L. Guibas,以及V. 科尔顿。基于装配体的三维建模的概率推理Trans. Graph. ,30(4),2011. 1[6] L- C. Chen,G.帕潘德里欧岛科基诺斯角Murphy和A. L.尤尔。使用深度卷积网络和全连接CRF进行语义图像分割。InProc. ICLR,2015. 2[7] X. Chen,中国山核桃A. Golovinskiy和T.放克豪瑟3D网格分割的基准译Graph. ,28(3),2009. 5[8] H.- P. Chiu,H. 柳湖,加-地Kaelbling和T. 洛扎诺-佩雷兹。从单个2D图像中抓取特定类别的3D对象InIROS,2010. 1[9] S. Choi,Q.-Y. Zhou,S.Miller和V.科尔顿。对象扫描的大型数据集。arXiv:1602.02481,2016。8[10] M. Cimpoi,S.Maji和A.维达尔迪用于纹理识别和分割的深度滤波器 在procCVPR,2015年。2[11] S. Fidler,S. Dickinson和R.乌塔松利用可变形的3D长方体模型进行3D目标检测和视点估计。InProc. NIPS,2012. 1[12] H. Fu,D. Cohen-Or,G. Dror和A. 谢弗人造物体的直立方向 ACM Trans. Graph. ,27(3),2008.8[13] K. Guo,L. Zou和X.尘通过深度卷积神经网络进行3D网格标记。Trans. Graph. ,35(1):3:1-3:12,2015. 三六七[14] S. Gupta,P.Arbelaez和J.马利克从RGB
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功