没有合适的资源?快使用搜索试试~ 我知道了~
1网状R-CNN格鲁吉亚Gkioxari Jitendra马利克贾斯汀约翰逊Facebook AI研究(FAIR)摘要2D感知的快速发展导致了能够准确检测现实世界图像中物体的系统。然而,这些系统在2D中进行预测,忽略了世界的3D结构同时,3D形状预测的进展主要集中在合成基准和孤立对象。我们把这两个领域的进步我们提出了一个系统,检测对象在现实世界中的图像,并产生一个三角形网格,使每个检测到的对象的完整的3D我们的系统称为Mesh R-CNN,它通过一个网格预测分支来增强Mask R-CNN,该分支通过首先预测粗体素表示来输出具有不同拓扑结构的网格,粗体素表示被转换为网格,并通过在网格的顶点和边缘上操作的图形卷积网络进行细化我们在ShapeNet上验证了我们的网格预测分支,在那里我们在单图像形状预测上的表现优于先前的工作然后,我们项目页面:https://gkioxari.github.io/meshrcnn/。1. 介绍最近几年已经看到2D对象识别的快速发展。我们现在可以构建准确识别对象的系统[19,29,54,60],使用2D边界框[13,46]或掩码[18]定位它们,并预测杂乱的真实世界图像中的2D关键点位置[3,18,64尽管这些系统的性能令人印象深刻,但它们忽略了一个关键事实:世界和其中的对象是3D的,并且延伸到XY图像平面之外。与此同时,深度网络在3D形状理解方面取得了重大进展已经针对不同的3D形状表示(诸如体素[5]、点云[8]和网格[68])开发了一系列网络架构;每种表示都具有其自身的优点和缺点。然而,这种多样化和创造性的技术主要是在合成基准上开发的,如ShapeNet [4],由孤立的渲染对象组成,其复杂性大大低于用于2D对象识别的自然图像基准,如ImageNet [51]和COCO[36]。输入图像2D识别3D网格3D体素图1. Mesh R-CNN获取输入图像,预测该图像中的对象实例并推断其3D形状。为了捕获几何形状和拓扑结构的多样性,它首先预测粗体素,这些粗体素被细化以用于精确的网格预测。我们认为,将这些迄今为止不同的研究方向结合起来的时机已经成熟。我们应该努力构建这样的系统,即(如当前的2D感知方法)可以在具有许多对象、遮挡和不同光照条件的不受约束的真实世界图像上操作,但(如当前的3D形状预测方法)不会忽略世界的丰富3D结构。在本文中,我们朝着这个目标迈出了第一步我们利用最先进的2D感知和3D形状预测方法来构建一个系统,该系统输入真实世界的RGB图像,检测图像中的对象,并输出类别标签,分割掩模和3D三角形网格,以提供每个检测到的对象的完整3D形状。我们的方法称为Mesh R-CNN,建立在最先进的Mask R-CNN [18]系统的基础上,用于2D识别,用输出高分辨率三角形网格的网格预测分支对其进行我们预测的网格必须能够捕捉到不同的,真实世界的物体的3D结构。因此,预测的网格应动态地改变其复杂性,拓扑学,和几何形状,以响应不同的视觉刺激。然而,先前关于深度网络的网格预测的工作[23,56,68]已经被限制为从97859786图2. Pix 3D上Mesh R-CNN的预测示例。使用初始体素预测可以使我们的输出在拓扑结构上有所不同;将这些预测转换为网格并对其进行优化,可以让我们捕获桌面和椅腿等精细结构。固定网格模板,将它们限制为固定网格拓扑。如图1所示,我们通过利用多个3D形状表示来克服这一限制:我们首先预测粗体素化对象表示,将其转换为网格并细化以给出高度准确的网格预测。如图2所示,这种混合方法允许Mesh R-CNN输出任意拓扑的网格,同时还捕获精细的对象结构。我们在两个数据集上对我们的方法进行基准测试。首先,我们在ShapeNet [4]上评估我们的网格预测分支,其中我们的体素预测和网格细化的混合方法大大优于先前的工作。其次,我们在最近的Pix 3D数据集[59]上部署了我们的全Mesh R-CNN系统,该数据集将395个宜家家具模型与具有不同场景,clut- ter和遮挡的真实世界图像对齐。迄今为止,Pix3D主要用于评估在ShapeNet上训练的模型的形状预测,使用完美裁剪,未遮挡的图像片段[40,59,72]或Pix3D模型的合成渲染图像[75]。相比之下,使用Mesh R-CNN,我们是第一个在Pix 3D上训练系统的人,它可以联合检测所有类别的物体并估计它们的完整3D形状。2. 相关工作我们的系统输入单个RGB图像,并输出一组检测到的对象实例,每个对象都有一个三角形网格。我们的工作是最直接相关的2D物体识别和3D形状预测的最新我们还更广泛地借鉴了其他3D感知任务的工作用于2D对象识别的2D对象识别方法在每个对象预测的信息类型和整个系统架构方面都不同。对象检测器输出每个对象的边界框和类别标签[12,13,35,37,45,46]; Mask R-CNN [18]还输出实例分割掩码。我们的方法扩展了这条线的工作,输出一个完整的3D网格每个对象。单视图形状预测最近的方法使用各种形状表示用于单图像3D重建。一些方法预测方向[10,20]或已知形状的3D姿态[30,43,65]。其他方法将新的3D形状预测为3D点集[8,33],补丁[15,69]或几何图元[9,63,66];其他方法使用深度网络来建模带符号的距离函数[41]。这些方法可以灵活地表示复杂的形状,但依赖于后处理来提取水密网格输出。一些方法预测规则的体素网格[5,70,71];虽然直观,但缩放到高分辨率输出需要复杂的八叉树[49,61]或嵌套形状架构[48]。其他人直接输出三角形网格,但被约束为从固定的[55,56,68]或检索的网格变形模板[50],限制了它们可以表示的拓扑。我们的方法使用体素预测和网格变形的混合,使高分辨率的输出形状,可以灵活地表示任意拓扑结构。一些方法在没有3D注释的情况下重建3D形状[23,25,47,67,74]。这是一个重要的方向,但目前我们只考虑完全监督的情况下,由于强监督的2D感知的成功。多视图形状预测在物体和场景的多视图重建方面有广泛的工作,从经典的双目立体[17,52]到使用形状先验[1,2,6,21]和现代学习技术[24,26,53]。在这项工作中,我们专注于单图像形状重建。3D输入我们的方法输入2D图像并预测语义标签和3D形状。由于深度传感器的可用性越来越高,人们对从3D输入(例如RGB-D图像[16,57]和点云[14,31,44,58,62])预测语义标签的方法越来越感兴趣。我们预计,将3D输入到我们的方法可以提高我们的形状预测的保真度2D感知的进步是由大规模的注释数据集驱动的,如ImageNet [51]和COCO [36]。由于收集3D注释的困难,用于3D形状预测的数据集已经落后于其2D对应物。ShapeNet [4]是一个大规模的CAD模型数据集,这些模型被渲染以给出合成图像。宜家数据集[32]将宜家物体的CAD模型与真实世界的图像对齐; Pix 3D [59]将这一想法扩展到更大的图像和模型集。Pascal3D [73]将CAD模型与真实世界的图像对齐,但它不适合形状重建,因为它的训练集和测试集共享相同的小模型集。KITTI [11]使用3D边界框注释户外街道场景,但不提供形状注释。3. 方法我们的目标是设计一个系统,输入一个单一的图像,检测所有的对象,并输出一个类别标签,边界框,分割掩模和三维三角形网格为每个检测对象。我们的系统必须能够处理杂乱的现实世界图像,并且必须是端到端可训练的。我们的输出网格不应该被限制到一个固定的拓扑-9787图3. Mesh R-CNN的系统概述。我们用3D形状推断来增强Mask R-CNN。体素分支预测每个检测到的对象的粗略形状,该对象利用网格细化分支中的细化阶段的序列进一步变形。ogy,以便适应各种各样的复杂的现实世界的对象。我们通过将最先进的2D感知与3D形状预测相结合来实现这些目标具体来说,我们建立在Mask R-CNN [18]上,这是一种最先进的2D感知系统。Mask R-CNN是一种端到端的基于区域的对象检测器。它输入一个单一的RGB图像,并输出一个边界框,类别标签,和分段蒙板为每个检测到的对象。图像首先通过主干网络(例如,ResNet-50- FPN [34] ) ; 接 下 来 , 区 域 建 议 网 络(RPN)[46]给出对象建议,这些建议通过对象分类和掩码预测分支进行处理Mask R-CNN的成功部分我们的目标是在预测3D形状时保持相似的特征对齐。我们推断3D形状与一种新的网格预测,包括体素分支和网格细化分支。体素分支首先估计对象的粗略3D体素化,其被转换为初始三角形网格。然后,网格细化分支使用在网格边缘上操作的一系列图形卷积层来调整该初始网格的顶点位置体素分支和网格细化分支与Mask R-CNN的现有框和掩码分支所有这些都将与RPN建议对应的图像对齐特征作为输入。下面详细描述的体素和网格损失被添加到盒和掩模损失,并且整个系统被端到端训练。输出是一组框以及它们的预测对象分数、遮罩和3D形状。我们称我们的系统为Mesh R-CNN,如图3所示。我们现在详细描述我们的网格预测器,包括体素分支和网格细化分支,以及其相关的损失。3.1. 网格预测器我们系统的核心是一个网格预测器,它接收与对象的边界框对齐的卷积特征,与Mask R-CNN一样,我们通过区域和顶点特定的对齐操作器(RoIAlign和VertAlign)维护输入图像与所有处理阶段使用的特征之间的对应关系我们的目标是捕获图像中所有对象的特定实例3D形状因此,每个预测网格必须具有实例特定的拓扑(属、顶点数、面、连接组件)和几何(顶点位置)。我们预测不同的网状拓扑结构,通过部署一个序列的形状推理操作。首先,体素分支对每个对象这些预测被转换为网格,并由网格细化头进行调整,得到我们最终的预测网格。网格预测器的输出是每个对象的三角形网格T=( V , F ) V={vi∈R3} 是 顶 点 位 置 的 集 合 ,F<$V×V×V是三角形面的集合3.1.1体素分支体素分支预测体素占用概率的网格它可以被视为MaskR-CNN的掩码预测分支的3D模拟:我们不是预测一个M×M网格给出物体在图像平面中的形状,而是预测一个G × G × G网格给出物体的完整3D形状。像Mask R-CNN一样,我们保持通信,通过将一个小的全卷积网络[38]应用于RoIAlign产生的输入特征图,在输入特征和预测体素之间进行切换。该网络产生具有G通道的特征图,该特征图为输入中的每个位置给出体素累积分数的列。9788我v|E|我(v,v′)∈E世界空间图像平面XZZ近Z远预测空间KK-1顶点对齐为每个网格顶点1生成一个图像对齐的特征向量。我们使用相机给定一个特征图,我们在每个投影顶点位置计算一个双线性插值图像特征[22]。在网格细化分支的第一阶段VertAlign输出每个版本的初始特征向量,图4.预测与图像平面需要不规则形状的体素网格。我们通过在由相机的(已知的)固有矩阵K变换的空间中进行体素预测来实现这种效果应用K−1将我们的预测转换回世界空间。这导致平截头体-Tex.在后续阶段中,VertAlign输出与前一阶段的顶点特征连接。图形卷积[28]沿着网格边缘传播信息。 G iveninputvert ex.{\fnSimHei\bord1\shad1\pos(200,288)}功能{\fnSimHei\bord1\shad1\pos(200,288)}计算世界空间中的形状体素。更新特征f′= ReLU W0fi+j∈N(i)W1fj在3D中保持图像和我们的预测之间的像素对应是复杂的,因为物体随着它们从相机中后退而变得更小。如图4所示,我们通过使用相机的(已知的)固有矩阵来预测平截头体形体素来解释这一点立体化:体素到网格体素分支产生一个3D网格的占用概率,给出一个对象的粗略形状。为了预测更细粒度的3D形状,我们希望将这些体素预测转换为可以传递到网格细化分支的三角形网格。我们通过一种叫做cubify的操作来弥补这一差距。它输入体素占用概率和用于使体素占用二值化的阈值每个占用的体素被替换为具有8个顶点、18条边和12个面的长方体三角形网格。共享顶点和相邻occu-包围体素之间这导致其拓扑取决于体素预测的防水网格。Cubify必须是高效和批量的。这并不简单,我们在附录中提供了如何实现这一点的技术实现细节。或者,移动立方体[39]可以从体素网格中提取等值面,但要复杂得多。体素损失体素分支被训练以最小化预测体素占用概率和真实体素占用之间的二进制交叉熵。其中N(i)给出网格中第i个顶点W0和W1是学习的权重矩阵。 网格细化分支的每个阶段都使用几个图卷积层来聚合局部网格区域上的信息。顶点优化计算更新的顶点位置′=v i+tanh(W vert[f i;v i])其中W vert是学习的权重矩阵。这将更新网格几何体,保持其拓扑修复。网格细化分支的每个阶段终止于顶点细化,产生中间网格输出,其由下一阶段进一步细化。网格损失定义在三角形网格上本机操作的损失是具有挑战性的,因此我们改为使用在有限点集上定义的我们表示一个网格与点云密集采样其表面。因此,点云损失近似于形状损失。与[56]类似,我们使用可微网格采样操作从网格表面均匀地采样点(及其法向量)。为此,我们实施了一种高效的分批取样器;详情见附录我们使用该操作从地面实况网格采样点云Pgt,并且从来自我们的模型的每个中间网格预测采样点云Pi给定两个具有法向量的点云P,Q,设ΛP,Q={(p,arg minq<$p−q<$):p∈P}是(p,q)对的集合,使得q是点p在Q中的最近邻,设up是点p的单位法向量。倒角距离点云P和Q之间的关系由下式给出ΣL cha m(P,Q)=|P|−1Σp−q|Q|−1(1)第二章:3.1.2网格细化分支(p,q)∈ΛP,Q(q,p)∈ΛQ,P来自体素分支的立方体化网格仅提供并且(绝对)法向距离由下式给出粗糙的3D形状,它不能准确地建模精细的结构,ΣL nor m(P,Q)=−|P|−1Σ|up·uq|−|Q|−1|.|. (二)像椅子腿一样。网格细化分支过程(p,q)∈ΛP,Q(q,p)∈ΛQ,P这个初始的立方体网格,用一系列的细化阶段来细化它的顶点位置。与[68]类似,每个细化阶段由三个操作组成:顶点对齐,提取顶点的图像特征;以及顶点细化,其更新顶点位置。网络的每一层针对每一网格顶点维持3D位置vi及特征向量fi倒角和法线距离会惩罚两个点云之间不匹配的位置和法线,但是单独最小化这些距离会导致退化网格(参见图5)。高质量的网格预测需要额外的常规形状规则化:为此,我们使用边缘损失Ledge(V,E)=1<$v−v′<$2其中E<$V×VY97891顶点对齐在[68]中被称为感知特征池化9790是预测网格的边。或者,拉普拉斯损失[7]也施加平滑约束。第i级的网格损失是以下各项的加权和:Lcham(Pi,Pgt),L规范 (Pi,Pgt)和L边缘(V i,E i)。的训练网格细化分支以最小化所有精炼阶段的损失。4. 实验我们在ShapeNet [4]上对我们的网格预测器进行基准测试,在那里我们与最先进的方法进行比较。然后,我们评估我们的全Mesh R-CNN在具有挑战性的Pix 3D数据集上进行3D形状预测的任务[59]。4.1. ShapeNetShapeNet [4]提供3D形状的集合,表示为组织成WordNet [42]之后的语义类别的纹理CAD模型,并且已 被 广 泛 用 作 3D 形 状 预 测 的 基 准 。 我 们 使 用ShapeNetCore.v1的子集和来自[5]的渲染图像。每个网格从多达24个随机视点渲染,RGB图像大小为137×137。我们使用[68]提供的训练/测试拆分,它分配了35,011个模型(840,189图像)进行训练,8,757个模型(210,051个图像)进行测试;训练和测试中使用的模型是不相交的。我们保留5%的训练模型作为验证集。该 数 据 集 的 任 务 是 在 空 白 背 景 上 输 入 渲 染 的ShapeNet模型的单个RGB图像,并在相机坐标系中输出对象的3D网格。在训练期间,系统由成对的图像和网格来监督。评估我们采用最近工作中使用的评估指标[55,56,68]。我们对10 k个点进行了均匀采样-表1. ShapeNet上的单图像形状重建结果,使用[68]中的评价方案。对于[68],†是他们的论文中报告的结果,而是作者发布的模型。128.网格细化分支具有三个阶段,每个阶段具有被组织成三个残差块的六个图形卷积层(维度为128)我们使用Adam [27]训练了25个epoch,学习率为10-4,在8个Tesla V100 GPU上每批32张图像 我们将立方化阈值设置为0.2,并使用λvoxel= 1、λcham= 1、λnorm=0和λedge= 0对损失进行加权。五、基线我们与以前发表的方法进行比较,单图像形状预测。N3MR [25]是一种弱监督方法,通过可微分渲染器拟合网格,无需3D监督。3D-R2 N2 [5]和MVD [55]输出体素预测。PSG [8]预测点云。附录还与OccNet进行了比较[41]。Pixel2Mesh [68]通过变形和细分初始椭圆体来预测网格[56] GEOMetrics扩展了[68]自适应面细分。两者都被训练成最小化倒角距离;然而[68]使用预测的网格顶点计算它,而[56]使用从预测的网格均匀采样的点。我们采用后者,因为它更好地匹配测试时的评估。与我们的方法不同,这些方法只能预测亏格为零的连通网格。dom,并使用它们来计算倒角距离(等式1)、法线一致性(1减去等式2)和各种距离阈值τ处的F1τ,F1 τ是τ处的精度(预测点在地面实况点的τ内的分数)和τ处的召回率(预测点的τ内的地面实况点的倒角距离越小越好;对于所有其他度量,越高越好。除了正常的一致性,这些指标依赖于网格的绝对规模。在表1中,我们遵循[68]并通过因子0.57重新缩放;对于所有其他结果,我们遵循[8]并重新缩放,使得地面实况网格的边界框的最长边具有长度10。我 们 的 主 干 特 征 提 取 器 是 在 ImageNet 上 预 训 练 的ResNet-50。由于图像描绘单个对象,因此体素分支接收整个conv5 3特征图,双线性调整大小为24×24,并预测一个48×48×48体素网格。VertAlign运算符的作用是:将conv2 3、conv3 4、conv46和conv5 3之前,投影到一个向量的尺寸训练方法和主干架构各不相同在以前的工作中。因此,为了与我们的方法进行公平比较,我们还与我们模型的几个消融版本进行了比较(有关确切细节,请参见附录):• 仅体素:我们的方法的一个版本,终止于体素分支的立方体网格。• Pix el 2 Mesh+:我们重新实现了Pix el 2 Mesh[68];由于更深的背部,我们的表现优于他们的原始模型骨骼,更好的训练配方,并最小化采样位置而不是顶点位置的倒角。• Sphere-Init:类似于Pix el 2 Mesh+,但从高分辨率球体网格中提取,执行三个阶段的顶点细化而不细分。• Ours(light):使用一个较小的非残差网格细化分支,每个阶段有三个图形卷积层我们将在Pix3D上采用这种轻量级设计。Voxel-Only本质上是我们的方法的一个版本,它省略倒角 (↓)F1τ(↑)F12τ(↑)N3MR [25]2.62933.8047.723D-R2N2 [5]1.44539.0154.62巴黎圣日耳曼[8]0.59348.5869.78[68]第68话0.59159.7274.19MVD [55]-66.39-[56]第五十六话-67.37-[68]第68话0.46367.8979.88我们的(最佳)0.30674.8485.75我们的(漂亮)0.39169.8381.769791了网格细化分支,而Pix el 2 Mesh+和Sphere-Init省略了体素预测分支。9792表2.我们报告了完整ShapeNet测试集(左)以及由具有可见孔的网格组成的测试集子集(右)的结果。 我们将我们的完整模型与几个消融版本进行比较:Voxel-Only省略了网格细化头,而Sphere-Init和Pi x el 2 Mes h+省略了vo x el头。我们展示了优化指标的Best模型以及在形状指标和网格质量之间保持平衡的Pretty模型的结果(见图5);这两类模型不应进行比较。我们还报告了顶点的数量|V|和面孔|F|在预测网格中(平均值±标准值)。参考作者发布的模型。不带L边缘的输入图像(最佳)带L边(pretty)图5.没有边长度正则化器L边的训练导致退化的预测网格,其具有许多重叠的面。添加L边缘消除了这种退化,但导致与标准度量(如倒角距离)测量的地面实况的一致性较差。最佳vs漂亮如前所述[68](第4.1节),形状重建的标准指标与网格质量没有很好的相关性。图5示出了在没有形状正则化器的情况下训练的模型给出了尽管高度退化、具有不规则大小的面和许多自相交但仍被度量优选的网格。这些退化网格将难以纹理化,并且可能对下游应用没有用。由于形状正则化器对网格质量和定量指标的强烈影响,我们建议只定量比较使用相同训练的方法。形状正则化器 因此,我们训练两个版本的所有我们的图6.Pi x el2Mes h+通过使初始球体变形来预测网格,因此它无法正确地对具有孔的对象进行建模。相比之下,我们的方法可以建模对象的任意拓扑结构。使用0.57网格缩放因子和平方欧几里德距离上的阈值τ= 10−4对于Pixel2Mesh,我们提供了他们的论文[68]中报告的性能以及他们的开源预训练模型的性能。表1显示,我们的性能远远优于先前的工作,验证了我们的网格预测器的设计。消融研究公平地比较与以前的工作是challenging由于骨干网络,损失和形状正则化的差异。对于受控评价,我们使用相同的骨架和训练配方消融变体,如表2所示。ShapeNet由亏格为零的简单对象主导。因此,我们在整个测试集和由具有一个或多个特征的对象组成的子集上进行评估。ShapeNet模型:最佳版本λ边缘=0作为更多孔(孔测试集)2.在本评估中,我们删除定量性能的上限,以及通过设置λ edge = 0在定量性能和网格质量之间取得平衡的Pretty版本。五、与先前工作的比较表1将我们的Pretty和Best模型与先前从单个图像进行形状预测的工作进行了我们使用[68]中的评估协议ad-hoc缩放因子为0.57,我们重新缩放网格,地面实况网格的边界框的最长边 我们将开源2我们对3075个测试集模型进行了注释,并标记了它们是否包含漏洞。这导致17%(或534)的模型被标记。更多细节和示例见附录。完整测试集倒角(↓)正常F10. 1F10. 3F10. 5Pixel2Mesh[68]0.2050.73633.7八十点九仅体素0.916 0.595 7.7 33.1球体初始化0.1320.711 38.3八十六点五Pi x el2Mesh +0.1320.70738.3八十六点六我们的(轻)0.1330.72539.2八十六点八我们的0.1330.72938.8八十六点六球体初始化0.175 0.718 34.5八十二点二Pi x el2Mesh +0.1750.72734.9八十二三我们的(光)0.176 0.699 34.8八十二点四我们的八十二点六91.754.995.195.195.195.192.992.993.193.2|V|2466±0|F|4928±0孔测试装置倒角(↓)正常F10. 1F10. 3F10. 51987 ±936 3975±18762562±05120±02562±05120±01894 ±925 3791±18551899 ±928 3800±18610.689 31.5七十五点九2019年12月31日0.138 0.705八十五点四0.696 39.3八十五点五2019年12月31日八十六点七2017年12月31日八十六点七0.186 0.684八十二0.685 34.4七十九点九0.171 0.700八十二点四87.959.594.394.494.894.991.791.492.492.7|V||F|2466±04928±02433±925 4877±18562562±02562±05120±05120±02273 ±899 4560±18052291 ±903 4595±18142562±05120±02562±05120±02562±02562±05120±05120±01891 ±924 3785±18531896 ±928 3795±18612281 ±895 4576±17982292 ±902 4598±1812漂亮最好图像OursPixel2Mesh+9793Pix3DS1AP髁间盒 AP掩模AP网椅子 沙发表床书桌 英国广播公司WRDRB工具 Misc|V||F|仅体素93.787.16.80.13.64.63.12.038.07.90.01.8 2354±706 4717±1423Pix el2Mesh+91.986.840.429.9 63.3 42.9 39.6 33.6 42.247.136.9 27.72562±05120±0球体初始化92.188.240.533.3 61.9 46.2 40.2 31.0 47.634.445.5 24.02562±05120±0Mesh R-CNN(我们的)92.587.555.448.3 76.4 68.0 51.5 47.2 71.360.143.9 31.7 2367±698 4743±1406测试实例2440244024401129 39839820514879531119Pix3DS2仅体素66.462.84.90.00.02.11.41.518.20.221.00.0 2346±630 4702±1269Pix el2Mesh+67.160.823.722.4 69.4 13.0 42.58.626.71.129.60.02562±05120±0球体初始化65.961.324.824.6 73.3 13.6 40.25.731.21.533.20.02562±05120±0Mesh R-CNN(我们的)66.460.928.736.6 80.1 26.5 42.8 15.6 32.41.822.50.0 2358±633 4726±1274测试实例236823682368778506398219205851352220表3. Pix3D S1&S2上的性能。我们报告平均AP框,AP掩码和AP网格,以及每个类别的AP网格。所有AP性能均以%表示。“仅体素”基线输出立方体化的体素预测。Spher e-Init和Pixel 2 Mesh+基线使初始球体变形,因此仅限于进行与球体同胚的预测我们的Mesh R-CNN是灵活的,可以捕捉任意拓扑结构。我们在预测顶点和面数较少的网格时始终优于基线。CNN init #细化步骤AP髁间盒 AP遮罩AP网格我们的第一个分割,S1,随机分配7500张图像用于训 练 , 2500 张 用 于 测 试 。尽 管 数 量 不 多 --与ShapeNet相比,S1具有独特的对象模型,因为相同的模型可以出现不同的外观(例如,颜色,纹理),在不同的方向上,表4.Pix 3D上的Mesh R-CNN消融Pixel2Mesh 模 型 与 本 评 价 设 置 中 的 消 融 对 比 。 Pixel2Mesh+(我们对[68]的重新实现)由于改进的训练配方和更深的主干而显著优于原始版本我们从表2中得出几个结论:(a)在全测试集上,我们的全模型和PiX el2Mesh+表现相当。然而,在Holes测试集上,我们的模型占主导地位,因为它能够预测拓扑上不同的形状,而Pix el2Mesh+仅限于使预测与球体同胚,并且不能对孔或断开的组件进行建模(参见图6)。这种差异在Pix3D(第4.2节)上更为显著,因为它包含更复杂的x形状。(b)Sphere-Init和Pixel 2 Mesh+总体上表现类似(最佳和漂亮两者),表明网格细分对于强定量性能可能是不必要的。(c)更深的残差网格细化架构(受[68]启发)与更轻的非残差架构表现相当,激励我们在Pix3D上使用后者。(d)与预测网格的方法相比,仅体素执行得很差,这表明网格预测可以更好地捕获精细的对象结构。(e)每个最佳模型都优于其对应的Pretty模型;这是预期的,因为最佳是定量性能的上限。4.2. Pix3D现在我们转向Pix3D [59],它由10069个真实世界的图像和395个独特的3D模型组成。这里的任务是联合检测和预测已知对象类别的3D形状。Pix 3D不提供标准的训练/测试分割,所以我们自己准备了两个分割。在不同的照明条件下,在不同的环境中,并且具有变化的遮挡。这与ShapeNet形成鲜明对比,ShapeNet中的对象显示在空白背景上。我们的第二个分裂,S2,更具挑战性:我们确保出现在训练集和测试集中的3D模型不相交。这种分裂的成功不仅需要推广到S1中存在的变化,而且还需要推广到已知类别的新颖3D形状:例如,模特在训练期间可以看到厨房椅子,但在测试期间必须识别扶手椅。 这种分割是可能的,由于Pix3D注释结构,并提出了有趣的挑战,二维识别和三维形状预测。评估我们采用的指标受2D识别指标的启发:AP框、AP遮罩和AP网格。前两个是用于评估COCO对象检测和实例分割的标准指标,0.5. AP网格值3D形状预测:它是F10的每类别精确度-召回率曲线下的平均面积。3在0.53。 Pix3D没有被详尽地注释,因此对于评估,我们仅考虑具有框IoU> 0的预测。3、一个真实的世界。这避免了惩罚模型对未注释对象的正确预测我们在相机坐标系中比较预测和地面实况网格。我们 的 模 型 假 设 已 知 的 摄 像 机 时 代 的 本 质 为VertAlign。Mesh R-CNN预测图像平面中的对象位置,但它不能解决沿Z轴的基本尺度/深度模糊。因此,在评估期间,我们将预测的深度范围(Z近和Z远)与地面实况形状相匹配。未来的工作可能会预测深度范围的基础上形状先验。3如果网格预测的预测标签是正确的,它不是重复检测,并且它的F10,则网格预测被认为是真阳性。3> 0。5Coco392.587.555.4在391.885.552.9Coco292.086.954.5Coco192.787.852.49794图7.Pix 3D上的Mesh R-CNN预测示例Mesh R-CNN在每个图像中检测多个对象,重建椅子腿等细节,并预测书架和桌子等有孔对象的变化和复杂的网格拓扑。Pix3DS1 gtAP髁间盒AP掩模AP网椅子 沙发 表床书桌 英国广播公司WRDRB工具 Misc倒角 (↓)正常F1 0.1F1 0.3 F1 0.5仅体素100.090.76.70.02.83.91.11.136.712.12.30.61.280.579.937.356.1Pix el2Mesh+100.092.035.122.4 55.6 42.2 32.6 32.5 44.638.629.1 18.41.300.7016.451.068.4球体初始化100.092.433.423.7 52.0 41.6 34.9 26.4 42.032.933.2 13.81.300.6916.851.468.8Mesh R-CNN(我们的)100.092.149.138.867.0 63.4 38.9 47.2 78.353.733.2 21.11.110.7118.756.473.5表5. Pix3D S1上的地面实况区域性能。除了平均AP框、AP遮罩、AP网格和每个类别AP网格之外,我们还报告了倒角距离、法线一致性和F1分数。实现细节我们使用ResNet-50-FPN [34]作为骨干CNN;盒和掩码分支与掩码R-CNN相同。体素分支类似于掩模分支,但是池化分辨率降低到12(vs.14对于掩模),由于内存限制,给出24×24 ×24体素预测。我们对4.1节中的网格细化分支采用轻量级设计。 我们训练的目的是在8个Tesla V100 GPU上进行12个epoch,每个图像的批量大小为64(每个GPU两个图像 我们使用SGD与动量,线性增加学习率从0。002至0.02 在最初的1K次迭代中,然后衰减一个因子,在8K和10K次迭代时,因子为10我们从一个在COCO 上预先训练的模型 ,例如分割 我们将cubify阈值设置为0。2,损失权重为λvoxel=3。0,λcham=1。0,λnorm=0。1且λedge=0。5并使用权重衰减10−4;检测损失权重与Mask R-CNN相同。与基线的比较如第1节所述,我们是第一个在Pix3D上解决关节检测和形状推断的公司。为了验证我们的方法,我们与Mesh R-CNN的消融版本进行比较,用Voxel-Only,Pixel 2 Mesh+和Sphere-Init分支替换我们的全网格预测器(参见第4.1节)。除此之外,所有基线都使用相同的架构和训练配方。表3(顶部)显示了S1的性能。我们注意到:(a)Mesh R-CNN优于所有基线,总 体 和 大 多 数 类 别 中 , AP 补 片 比 次 佳 补 片 高14.9%;Tool和Misc4的测试集实例非常少(分别为11和19),因此它们的AP是嘈杂的。(b)Mesh R-CNN显示了与球体-初始化具有复杂形状的对象,例如书架(+23.7%)、桌子(+21.8%)和椅子(+15.0%)。(c)Voxel-Only的性能非常差– this is expected due to its coarse表3(底部)显示了更具挑战性的S2拆分的性能. 在这里我们观察到:(a)整体每-4Misc由消防栓、相框、花瓶等物体组成。与S1相比,2D识别(AP框,AP掩模)的性能显著下降,表明在野外识别新形状的难度(b)Mesh R-CNN在除工具之外的所有类别的形状预测方面优于所有基线。(c)衣柜和杂物的绝对性能为由于训练和测试中模型之间的显著形状差异,因此对于所有方法都较小。表4比较了COCO与ImageNet的预训练,并比较了网格预测器的不同架构COCO与ImageNet初始化显著提高了2D识别(AP掩码 87.5与85.5)和3D形状预测(AP网格 55.4vs. 52.9)。当仅使用一个网格细化阶段时,形状预测显著降低(AP网格55.4vs.52.4)。在表5中,我们使用真实的对象区域来评估我们的训练模型形状重建的绝对性能(倒角、法线等)明显低于ShapeNet,证明了Pix3D的难度。与表3(顶部)相比,所有模型的AP网格都下降了几个点,可能是因为缺乏上下文的紧密对象区域对于3D形状预测并不理想,当在不完美的区域建议上进行训练时,可以放大。图2和图7显示了Mesh R-CNN的示例预测。我们的方法可以检测多个对象,每image,重建细节,如椅子腿,并预测变化和复杂的网格拓扑结构的对象,如书柜和桌子的孔。讨论我们提出了Mesh R-CNN,这是一种用于联合2D感知和3D形状推断的新系统。我们在ShapeNet上验证了我们的方法,并在Pix3D上展示了它的优点。Mesh R-CNN是在野外进行3D形状预测的第一次尝试尽管缺乏大量的监督数据,例如与COCO相比,Mesh R-CNN显示出有希望的结果。9795引用[1] Sid Yingze Bao , Manmohan Chandraker , YuanqingLin,and Silvio Savarese.具有语义先验的密集对象重构。CVPR,2013。2[2] Volker Blanz和Thomas Vetter。三维人脸合成的可变形模型SIGGRAPH,1999年。2[3] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。使用部分亲和场的实时多人2D姿态估计。在CVPR,2017年。1[4] 天使X作者:Thomas A.作者:Leonidas J. Guib
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功