没有合适的资源?快使用搜索试试~ 我知道了~
超越长方体:学习3D形状解析的超二次曲面方法
1Superquadrics Revisited:Learning 3D Shape Parsing Beyond CuboidsDespoina Paschalidou1,4Ali Osman Ulusoy2Andreas Geiger1,3,41AutonomousVisionGroup,MPIforIntelligentSystems图宾根2微软3图宾根大学4马克斯普朗克ETH学习系统中心{firstname.lastname}@ tue.mpg.de摘要用简约的基于部分的表示来抽象复杂的3D形状本文提出了一种基于学习的解决方案,它超越了传统的三维长方体表示,利用超二次曲面作为原子元素。我们证明,超二次曲面导致更有表现力的3D场景解析,同时更容易学习比3D长方体表示。此外,我们还提供了倒角损失的解析解,避免了计算昂贵的强化学习或迭代预测的需要。我们的模型学习解析3D对象到一致的超二次表示无监督。各种ShapeNet类别以及SURREAL人体数据集的结果证明了我们的模型在捕捉无法使用长方体建模的精细细节和复杂姿势方面的灵活性1. 介绍进化已经发展出一种非凡的视觉系统,使人类能够稳健地感知他们的3D环境。长期以来,人们一直假设[2]人类视觉系统将大量的原始视觉输入处理成紧凑的简约表示,其中复杂的对象被分解成少量的形状描述,每个形状描述都可以使用低维描述来表示。事实上,实验表明,人类可以从简单形状基元(如长方体或几何体)的渲染中理解复杂的场景[3]。同样,机器将从能够将3D数据解析为紧凑的低维表示中受益匪浅。这种表示将为识别、检测、形状操纵和物理推理(如路径规划和抓取)提供有用的线索。在计算机视觉的早期,研究人员探索了形状基元,如3D多面体形状[8],一般化的圆柱体[4],geons [2]和超二次曲面[24]。然而,事实证明,要提取这样的表征(a) 输入网格(b) [36]第三十六话(c) 推断超二次表示(我们的)图1:3D形状解析。 我们考虑学习解析非结构化3D数据的问题(例如,网格或点云)转换为紧凑的基于零件的表示。先前的工作[22,36,43]已经考虑了立方体表示(b),其捕获了整个对象结构,但缺乏表达性。在这项工作中,我们提出了一个超二次曲面(c)的无监督模型,它允许我们捕捉飞机的身体和兔子的耳朵等细节。由于当时缺乏计算能力和因此,研究团体将他们的焦点从形状原始范式转移。在过去的十年中,形状提取的重大突破是由于深度神经网络加上丰富的视觉数据。最近的工作集中在使用2.5D学习3D重建[14,15,23,42], 体积[7,11,13,17,29,41]、网格[12,20]和点云[10,26]1034410345表示。然而,以上都不是足够简约或可解释的,以允许智能系统所需的更高级别的3D场景理解。最近,在深度学习的背景下重新审视了形状基元特别是,[22,36,43]已经证明,深度神经网络能够从网格甚至RGB图像中可靠地提取3D长方体。受这些工作的启发,我们提出了一种新的深度神经网络,以3D形状或2D图像作为输入为条件,以无监督的方式有效地提取简约的特别是,本文做出了以下贡献:首先,我们注意到,先前的作品[22,36,43]没有足够的表现力来模拟许多自然和人造的形状,如图1所示。1.一、因此,基于立方体的表示可能需要大量的图元来准确地表示常见形状。相反,在本文中,我们建议利用超二次曲面,它已成功地用于计算机图形[1]和经典计算机视觉[24,33,35]。超二次曲面能够在单个连续参数空间表示各种形状,如圆柱体,球体,长方体,椭圆体(见图11)。1+2)。此外,它们的连续参数化特别适合深度学习,因为它们的形状是平滑的,并且随着它们的参数而连续变化。这允许更快的优化,因此更快,更稳定的训练,正如我们的实验所证明的那样。其次,我们提供了一个分析封闭形式的解决方案,可以评估在线性时间wrt的倒角距离函数原始的数量。这允许我们计算梯度wrt。模型参数使用标准误差反向传播[30],而不像先前工作[36]所要求的那样诉诸计算上昂贵的强化学习技术。因此,我们减轻了设计辅助奖励函数的需要。相反,我们制定了一个简单的简约损失,有利于配置与少量的原语。我们通过学习从ShapeNet [5]和SURREAL [37]解析3D形状来展示我们模型的优势。我们观察到我们的模型比[36]收敛得更快,并且导致更准确的我们的代码是公开的1.2. 相关工作在本节中,我们将讨论基于深度学习的3D形状建模方法的最相关工作,并重新审视超二次曲面表示的起源。2.1. 3D重建用于从一个或多个图像进行3D重建的最简单表示是2.5D深度图,因为它们可以是1https://github.com/paschalidoud/superquadric解析使用标准2D卷积神经网络推断[14,17,23,42]。由于深度图是基于视图的,因此这些方法需要额外的后处理算法来融合来自多个视点的信息,以便捕获整个对象几何形状。与深度图相反,体积表示[7,11,13,29,34]自然地捕获整个3D形状。虽然诸如八叉树的分层3D数据结构加速了3D卷积,但是高存储器要求仍然是现有体积测量方法的限制。另一种工作路线[10,27]专注于学习重建3D点集。这些方法的一个自然限制是在表示中缺乏表面连接性。为了解决这个限制,[12,20,28,39]提出直接学习3D网格。虽然上述模型中的一些能够捕捉到精细的表面细节,但它们都不适合于狭隘的语义解释。在这项工作中,我们UTI-超二次曲面,提供了一个简洁而准确的表示与显着较少的参数。2.2. 构造实体几何为了实现简洁表示的目标,研究人员利用构造性立体几何(CSG)[19]进行形状建模[9,31]。Sharma等人[31]利用编码器-解码器体系结构来生成一系列简单的布尔运算,以作用于一组原语,可以是正方形圆形或三角形。 在一条类似的路线上, Ellis et al.,[9]通过首先提取简单的图元,如直线、圆形和矩形,以及一组用于合成LATEX程序的dr a wing命令,学习手写绘图的编程表示。与[9,31]相比,我们的目标不是通过迭代地对形状应用布尔运算来获得相反,我们的目标是将所描绘的对象分解成一个简约的可解释的表示,其中每个部分都有一个与之相关的语义含义此外,我们不会遭受迭代构造过程的歧义,其中不同的执行导致相同的结果。2.3. 基于学习的场景解析最近,在深度学习的背景下重新审视了形状基元[22,36,43]。Niu等人。[22]提出使用递归神经网络(RNN)来迭代预测长方体图元以及RGB图像的对称关系。他们首先训练一个编码器,将输入图像及其分割编码成80维潜在代码。从这个根特征开始,他们迭代地将结构解码成长方体,基于邻接和对称关系分裂节点。在相关工作中,Zou等人。[43]利用LSTM与混合密度网络的组合,从由32维特征向量编码的深度图中生成长方体表示然而,这两项工程[22,43]都需要监督,10346M图2:超二次曲面形状词汇表。由于它们能够用很少的参数对各种形状进行建模,超二次曲面是几何图元的自然选择。原始参数以及预测序列这种监督必须通过手动注释或使用贪婪算法来提供,如[22,43]所示。相比之下,我们的方法是无监督的,并且不会遭受由导致相同长方体组装的不同可能的预测序列引起的歧义。此外,[22,43]利用简单的长方体表示,其不捕获自然和人造场景中常见的更复杂的形状(例如,弯曲的物体、球体)。在这项工作中,我们建议使用超二次曲面[1],它可以产生更多样化的形状词汇,从而产生更具表现力的场景抽象,如图所示1.一、本文的主要灵感来自Tulsiani等人的开创性工作。[36],他提出了一种使用不需要监督的非迭代方法进行3D形状抽象的方法相反,他们使用卷积网络架构来预测3D长方体的形状和姿态参数以及它们存在的概率他们证明,从数据中学习形状抽象可以在不同的信息中获得一致的解析在无人监督的情况下。在本文中,我们扩展了Tulsiani等人的模型。[36]在以下几个方面。首先,我们利用超二次曲面,而不是长方体,这导致更准确的场景提取。其次,我们证明了双向倒角距离是易于处理的,特别地,我们证明了存在一个解析的封闭形式的解决方案,可以评估在线性时间。这允许我们计算梯度wrt。模型参数使用标准误差传播[30],这有助于学习。此外,我们增加了一个新的简单的简约损失有利于配置与少量的原语。2.4. 超二次曲面超二次曲面是一个参数曲面族,可用于描述立方体、圆柱体、球体、八面体,椭圆体等。[1]的文件。与geons [2]相反,超二次曲面可以用相当简单的参数化来描述。与广义柱面[2]相比,超二次曲面能够表示更多种类的形状。参见图2以获得形状空间的图示。1986年,Pentland将超二次曲面引入计算机视觉社区[24]。Solina等人[33]将超二次曲面拟合到点云的任务表述为最小二乘最小化问题。Chevalier等人[6]遵循两阶段方法,其中点云首先被划分为区域,然后每个区域用超二次曲面拟合。由于对超二次曲面的全面研究不在本文的范围之内,我们参考[16,32]以了解详细情况。与这些使用非线性最小二乘法进行超二次拟合的经典作品相比,我们提出了第一种训练深度网络以直接从2D或3D输入预测超二次拟合的方法。这允许我们的网络提取统计依赖关系wrt。从数据中得到的基元的排列和为了实现这一目标,我们利用一个卷积网络来预测超二次曲面的姿态和属性,并开发了一个新的损失函数,使我们能够从数据中有效地训练这个网络。我们的模型能够直接从无序的3D点云学习超二次曲面,而无需对原始参数进行任何监督,也无需3D分割作为输入。3. 方法我们现在描述我们的模型。我们首先介绍模型参数,其次是损失函数和超二次参数化。给定输入I(例如,图像、体积、点云)和目标对象的定向点云X,我们的目标是估计神经网络φθ(I)的参数θ,该神经网络预测最好地描述目标对象的M个基元的集合每个图元都由一组参数λm完全描述,这些参数定义了图元的形状、大小及其在3D空间中的位置关于超二次曲面表示的参数化的细节,我们请读者参考3.3节。由于不是所有的对象和场景都需要相同数量的基元,我们使我们的模型能够预测可变数量的基元,从而允许它决定一个基元是否应该是组装对象的一部分。我们要遵循这一原则,并与所有的人建立联系。二元随机变量zm∈ {0,1}服从参数为γm的伯努利分布p(zm)=γzm(1−γm)1−zm。 随机变量zm表示第m个图元是否是场景的一部分( zm= 1)或不是(zm= 0)。我们将这些变量称为存在变量,并将所有存在变量的集合表示为10347m=1K我我∆i=1我kk=1z={z1,. . . ,zM}。我们的目标是学习神经网络哪里m= minTm(xi)−ym(五)φθ:I→P(1)其将输入I映射到本原表示P,其中P={(λm,γm)}M包括本原参数λm和M的存在概率γm。主动性注意,M仅是预测基元的数量的上限。最终的本原表示是通过对每个本原的存在性zm<$Bernoulli(γm)进行采样而得到的。训练这些模型的关键挑战之一是与原始注释形式的直接监督缺乏有关。然而,尽管没有苏-ki=1,.,Nk2表示从第m个图元上的第k个点ym到目标点云X的最小距离。这里,Tm(x)=R(λm)x + t(λm)是将世界坐标中的3D点xi变换到第m个图元的局部坐标系中的函数。请 注意,R和t都依赖于λm,因此由我们的网络估计。把期望值写下来存在变量z和asQ求和存在变量的独立性:p(z)=mp(zm),我们得到所有本原的联合损失为尽管使用透视,人们仍然可以测量预测对象和目标对象之间的差异。为了实现这个目标,我们制定了一个双向重建目标LD(P,X),并结合了最小描述长度LP→X(P,X)=Ep(z)ΣMΣΣMm=1MP→XΣ(P,X)(六)(MDL)先验Lγ(P),它有利于简约,即一个小基元的数量。我们的整体损失函数如下:=m=1MP→X (P,X)L(P,X)=LD(P,X)+Lγ(P)(2)我们现在详细描述这两个损失函数3.1. 重构损失重建损失测量预测形状和目标形状之间的差异。虽然我们用Tul- siani等人的截断双向损失进行了实验。[36]根据经验,请注意,这种损失会促使预测的图元保持靠近目标点云。Pointcloud to Primitive:L P→X测量从图元到点云的距离,而LX→P测量从点云到图元的距离,确保每一个观察都至少有一个原语来解释。我们首先将xm定义为从点xi到第m倒角距离[10]在实践中效果更好,m=min电子邮件(x)−ym(七)更少的局部最小值。本文对此进行了实证分析在我们的补充材料中。因此,我们在实验LD(P,X)=LP→X(P,X)+LX→P(X,P)(3)其中LP→X测量从预测的基元P到点云X的距离,并且LX→P测量从预测的基元P到点云X的距离。ik=1,.,K米K2请注意,与(5)相反,我们从估计的基元中最小化K个点。 类似于(6),我们取p(z)上的m的期望。与(6)相反,我们对目标点云X中的每个点求和,并检索到存在的最近图元m的距离(zm= 1):从点云X到基元P的距离。我们用1来加权(3)中的两个距离度量。2和0。8、这两种方法在经验上都取得了良好的效果。LX→P(X,P)=Ep(z)Σ Σxi∈XΣminmM |z m=1 i(八)原始点云:我们将目标点云表示为一组3D 点X={xi}N。类似地,我们用一组点Ym={ym}K来逼近本原m的连续曲面。我们的采样策略详情见第3.4节。这种离散化使我们能够以方便的形式表示超二次曲面与目标点云之间的距离。特别地,对于基元ym上的每个点,我们计算其上的最近点。γmLL10348∆请注意,简单的计算方程。 8对于大量的基元M变得非常慢,因为它需要评估期望内的量2M次。在这项工作中,我们提出了一种新的方法来简化这种计算,结果在一个线性数量的评估。在不失一般性的情况下,让我们假设这些矩阵是按升序排序的:k1≤2≤···≤M(九)目标点云xi,并将该距离平均为我我我Ym中的所有点如下:1ΣK假设这个顺序,我们可以陈述如下:如果第一个原语存在,则第一个原语将是第一个MP→X (P,X)=MKKk=1(四)est到目标点的点xi不存在,第二个存在,那么第二个原语是L10349我我我我‚M最接近xi点的点等等。更正式地说,这个属性可以表述如下:如果z1= 1,0的情况。00180的情况。0016塞吉如果z1=0,则z2=1minM |zm=1m=.我。(十)0的情况。0014如果zm= 0,. . .,zM= 1这使得我们可以简化Eq。8如下0的情况。00120的情况。00108 12 16 20 24ΣΣMLX→P(X,P)=mγmmY−1(1−γm<$)(11)的基元的数目xi∈Xm=1m<$=1图3:重建损失wrt。原始人。 We illustrate-其中,γm<$是一种速记符号,表示比本原m更接近的本原的存在概率。请注意,这个功能只需要M,而不是2M,评价的功能m这是本文的主要成果之一。关于(11)式的详细推导,我们请读者参阅补充材料。3.2. 简约损失尽管有上面的双向损失公式,我们的模型受到平凡解 LD ( P , X ) =0 的 影 响 , 该 平 凡 解 是 针 对γ1=···=γm=0获得的。此外,具有相同参数的多个基元产生相同的损失通过分散它们的存在概率来作为单个原语。因此,我们在存在概率γ上引入了正则化子损失,它简化了两个问题:.Σ。ΣM ΣLγ(P)=max α−αγm,0+β, γm(12)m=1m=1(12)的第一项确保所有基元上的聚合存在概率至少为1(即,我们期望至少存在一个原语),而第二个原语项通过利用m γ m中次线性损失函数来执行稀疏场景解析,这鼓励稀疏性。 α和β是权重因子,设置为1。分别为0和10- 33.3. 超二次参数化在指定了我们的网络和损失函数之后,我们现在提供有关超二次表示及其参数化λ的详细信息。请注意,在本节中,为了清晰起见,我们省略了原始索引m超二次曲面定义了一个参数曲面族,可以用一组11个参数来完全描述[1]。显式超二次方程将曲面向量r定义为:在ShapeNet动物类别的不同数量的基元。SU- perquadrics(橙色)始终优于长方体基元(蓝色),这是因为它们具有多样的形状词汇,使它们能够更好地捕捉输入形状的细节。其中α= [α1,α2,α3]决定超二次曲面的大小,而α=[α1,α2 ,α3] 决定超二次曲面的整体形状,参见supple-α material的例子。 按照惯例[38],我们将值1和2绑定到范围[0]。一,一。9]以防止在实践中不太可能出现的非凸形。当量13产生了一个规范姿态的超二次曲面。 为了允许任何位置和方向,我们用平移向量t= [tx,ty,tz]和四元数q= [q0,q1,q2,q3]表示的附加刚体运动来增加原始参数λ,确定坐标系变换T(x)=R(λ)x+t(λ)以上。3.4. 执行我们的网络架构包括一个编码器和一组线性层,然后是独立预测超二次曲面的姿态,形状和大小的编码器架构基于输入类型(例如,图像、体素化输入等)。在我们的实验中,对于作为输入的二进制占用网格,我们的编码器由五个3D卷积层块组成,然后是批量归一化和Leaky ReLU非线性。结果被传递给五个独立的头,它们回归每个基元的平移t、旋转q、大小α、形状α和存在概率γ补充材料中提供了有关我们的网络架构以及使用基于图像的编码器的结果的其他详细信息。为了评估损失(3),我们在超二次曲面上采样点。为了实现均匀的点分布,α1cos<$1ηcos<$2ωr(η,ω)=<$α2cos<$1ηsin<$2ω<$α3sinθ1η立方体基元超二次曲面LD(P,X)10350−π/2 ≤η ≤π/2−π ≤ω ≤π(十三)我们如[25]中所提出的那样对η和ω进行在训练中,我们从目标物体的表面均匀采样1000个点,以及从每个超二次曲面的表 面 均 匀 采 样200个请注意,对象表面上的采样点导致期望10351图4:训练演变。我们可视化了超二次曲面(上图)和长方体(下图)在训练过程中的定性演变。超二次曲面收敛速度更快,更准确的表示,而长方体不能捕捉细节,如狗张开的嘴,即使在收敛。损失该近似器的方差与采样点的数量成反比我们通过实验观察到,我们的模型对采样点的数量不敏感。为了优化,我们使用ADAM [18],学习率为0。001,批量大小为32,迭代次数为40k为了进一步增加简约性,我们然后固定除γ之外的所有参数以进行额外的5k次迭代。这一步去除了剩余的重叠基元,如[36]中所观察到的。4. 实验评价在本节中,我们将介绍一组实验,以评估我们的网络在将输入3D形状解析为一组超二次曲面方面的性能。数据集:我们提供了两个3D数据集的结果。 首先,我们使用ShapeNet中的飞机、椅子和动物类别[5]。在[36]之后,我们使用大小为32×32×32的体素化二进制占用网格作为输入,为每个对象类别训练一个模型。其次,我们使用Varol等人的SUR- REAL数据集”[37]其内容包括:各种姿势的人(例如,站立、行走、坐着)。使用SMPL模型[21],我们渲染了5000个网格,其中4500个用于训练,500个用于测试。关于这两个数据集的其他定性结果,我们请读者参阅我们的补充材料。基线:与我们最相关的是Tulsiani等人的长方体解析方法。[36]第30段。其他基于立方体的场景解析方法[22,43]需要地面实况形状标注,因此无法与非监督技术进行公平比较。因此,我们比较Tulsiani等人。[36],使用其公开可用的代码2。4.1. 超二次曲面与长方体我们首先比较了超二次曲面的造型精度在相关工作中广泛使用的长方体形状[22,36,43]。为了实现这一目标,我们通过优化距离来拟合ShapeNet中的动物形状2https://github.com/shubhtuls/volumetricPrimitives图5:SURREAL的定性结果。 我们的网络学习不同体型和关节的身体部位的语义映射。例如,网络在各个实例中对左前臂使用相同的基元损失函数,同时改变允许的基元的最大数量M。为了确保公平的比较,我们对这两种情况都使用了所提出的模型。注意,这是完全可能的,因为长方体是超二次曲面的特殊情况为了最大限度地减少网络初始化和局部最小值在优化中的影响,我们用随机初始化重复实验三次,并在图中可视化平均损失。3 .第三章。结果表明,对于任何给定数量的基元,超二次曲面始终实现较低的损失,因此更高的建模保真度。我们在图1中进一步可视化了网络在训练过程中的定性演化。4.第一章该图表明,与长方体相比,超二次曲面更好地模拟了对象形状,更重要的是,网络能够更快地收敛。4.2. ShapeNet上的结果我们使用ShapeNet数据集上的(3)重建损失来评估预测图元的质量,并与Tul- siani等人估计的立方体图元进行比较[36]第30段。我们将每个图元与唯一的对于这两种方法,我们将基元的最大数量设置为M=20。从图6中,我们观察到我们的预测一致地捕捉到了结构和细节(例如,body,tails,head),而[36]中相应的立方体基元10352图6:ShapeNet上的定性结果。我们从ShapeNet数据集中可视化对象类别动物,飞机和椅子顶行说明了每个对象的地面实况网格中间一行描绘了使用[36]估计的立方体基元的相应预测。最下面一行显示了使用我们学习的超二次曲面的相应预测。与[36]类似,我们观察到预测的原始表示在实例中是一致的例如,用绿色描绘的基本体描述了飞机的右翼,而对于动物类,黄色基本体描述了动物的前腿。第七条:注意细节。超二次曲面允许建模精细的细节,如动物的尾巴和耳朵,以及飞机的翅膀和身体,摩托车的轮子,这些都是很难用长方体捕捉的。主要关注预测对象的结构。图7显示了另外的结果,其中我们的模型预测了动物、飞机以及更复杂的摩托车部件。例如,我们观察到我们的模型能够捕捉到狗张开的嘴-两个超二次曲面如Fig.7(第三行最左边的动物)。此外,我们注意到,我们的模型动态分配一个可变数量的基元依赖于输入形状的复杂性例如,图中最左边的飞机。6,用6个基元建模,而具有更复杂形状的喷气式战斗机(最右边)用9个基元建模。这也可以在动物类别中观察到,我们的模型为猫的身体选择了一个原语(图中最右边的动物)。6)而对于所有其余的,它使用两个。我们注意到,我们的表达形状抽象允许区分不同类型的对象,图8:原始人的进化。我们说明了训练过程中的超二次曲面的演变。请注意,我们的模型首先关注对象的整体结构,然后在以后的迭代中开始关注更精细的细节。如踏板车/直升机/赛车或客机/战斗机通过如实捕捉个别对象部分的形状。图8可视化了三个对象类别的预测超二次曲面的训练演变。虽然最初,该模型主要使用斑点形状的超二次曲面(接近1)来关注对象的整体结构。0),随着训练的进行,它开始关注细节。在收敛之后,预测的超二次曲面紧密地匹配对应(未知)对象部分的形状。4.3. 关于SURREAL除了ShapeNet,我们还展示了图中SURREAL人体数据集的结果。五、由于人体的复杂形状,超二次曲面优于简单形状抽象的优点在此数据集中得到了请注意,我们的模型成功地捕获了需要建模长方体以外的细节:例如,我们的模型预测了脚的尖八面体形状,1035310−11 .一、510−210−210−31 2 3 4 5 6 78数量的样本(a) 梯度方差和迭代时间。1 .一、00的情况。50的情况。010−30 10000 20000 30000 40000迭代次数(b) 训练损失的演变。图9:Fig.图9a描绘了300次迭代中γ的梯度估计的方差(实线)以及[36](蓝色)和我们的方法(橙色)的每次迭代计算时间(虚线)我们的分析损失函数提供了梯度的数量级较少的方差,而在同一时间减少运行时间。图9b,我们比较了[36](蓝色)和我们(橙色)的训练损失演变[36]的基于采样的方法导致大的振荡,而我们的方法则平滑收敛头部为椭圆体形状,主体为扁平的细长超椭圆体,而无需对原始参数进行任何监督。我们模型的另一个有趣的方面是预测原语的一致性,即,相同的图元(用相同的颜色突出显示)一致地表示脚、腿、手臂等。不同的姿势。对于更复杂的姿势,有时候对应是镜像的。我们推测这种行为是由人体的对称性引起的。4.4. 分析损失公式在本节中,我们将公式(3)中的训练损失的演变与Tulsiani等人提出的训练损失的演变进行[36]在图。9b. 虽然由于损失公式略有不同,绝对值不可比较,但我们观察到损失收敛得更快,振荡更少。请注意,在迭代20k时,[36]开始使用强化学习[40]更新存在相比之下,我们的损失函数平滑衰减,不需要基于采样的梯度估计。为了进一步分析我们的分析损失公式的优点,我们计算了300次训练迭代中存在概率γ的梯度估计的方差。图9a比较了[36]的梯度方差与提出的分析损失的梯度方差(实线)。请注意,与[36]相比,我们的梯度方差低了几个数量级,因为我们不需要采样[40]来近似梯度。同时,我们获得了较低的每次迭代运行时间(虚线)。虽然使用更多的样本降低了使用蒙特卡罗估计[36]近似的梯度方差,但每次迭代的运行时间随样本数量线性增加。相比之下,我们的方法不需要采样,并且在运行时间方面优于[36Tulsiani等人Tulsiani等人我们的我们的梯度相对方差Tulsiani等人我们每次迭代的时间(s)训练损失:动物10354倒角距离体积IoU椅子飞机动物椅子飞机动物[36]0.01210.01530.01100.12880.06500.3339我们0.00060.00030.00030.14080.18080.7506表1:定量评价。与[36]相比,我们报告了我们模型的平均倒角距离(越小越好)和平均体积IoU(越即使对于基于单个样本的梯度估计的情况。我们注意到,在这两种情况下,运行时计算整个迭代,同时考虑向前和向后传递。定量比较见表1。请注意,与[36]相比,我们优化了倒角距离。5. 结论和未来工作我们提出了第一个基于学习的方法,用于将3D对象解析为一致的超二次曲面表示。我们的模型成功地捕获了目标对象的结构和细节,通过准确地学习以无监督的方式从数据中预测超二次曲面在未来的工作中,我们计划通过包括全局变形(如锥形和弯曲)的参数我们预计,这将大大有利于拟合过程中的可用形状词汇将进一步增加。最后,我们还计划将我们的模型扩展到大规模场景。我们认为,开发[43]中的新层次策略是无监督3D场景的关键在房间、建筑甚至城市级别上进行解析致谢我们感谢Michael Black对超二次曲面的早期讨论。这项研究得到了Max Planck ETH学习系统中心的支持。10355引用[1] 艾伦·H·巴尔超二次曲面和保角变换。IEEE计算机图形学与应用(CGA),1981年。二三五[2] 欧文·比德曼人类图像理解:最近的研究和一个理论。计算机视觉,图形和图像处理,1986年。第1、3条[3] 欧文·比德曼按组件识别:一种人类图像理解理论。Psychological Review,94(2):115,1987. 1[4] 我是宾福德。计算机视觉。IEEEConference of Systemsand Control,1971年。1[5] 天使X作者:Thomas A.作者:Leonidas J. Guibas、PatHanrahan、Qi-Xing Huang、Zimo Li、Silvio Savarese、Manolis Savva 、 Shuran Song 、 Hao Su 、 JianxiongXiao、Li Yi和Fisher Yu。Shapenet:一个信息丰富的3D模型存储库。arXiv.org,1512.03012,2015. 二、六[6] Laurent Chevalier Fabrice Jaillet和Atilla Baskurt三维物体的分割与超二次曲面造型2003年中欧计算机图形学、可视化和计算机视觉国际会议. 3[7] Christopher Bongsoo Choy , Danfei Xu , JunYoungGwak,Kevin Chen,and Silvio Savarese. 3d-r2 n2:一个统一的方法,用于单视图和多视图三维物体重建。在proc 欧洲会议。 计算机视觉(ECCV),2016年。一、二[8] 彼得·埃利亚斯和劳伦斯·罗伯茨。三维立体的机器感知。博士论文,麻省理工学院,1963年。1[9] Kevin Ellis、Daniel Ritchie、Armando Solar-Lezama 和Joshua B.特南鲍姆学习从手绘图像推断图形程序。在神经信息处理系统(NIPS)的进展,2018年。2[10] Haoqiang Fan,Hao Su,and Leonidas J. Guibas从单幅图像重建三维物体的点集生成网络。Proc. IEEE Conf.计算机视觉和模式识别(CVPR),2017年。一、二、四[11] 放大图片作者:David F.福伊,米克尔·罗德里格斯,阿布·希纳夫·古普塔.学习对象的可预测和生成矢量表示在proc 欧洲会议。计算机视觉(ECCV),2016年。一、二[12] 放大图片作者:David G. Kim,Bryan C.罗素和马修·奥布里。学习3D表面生成的一种纸上方法。 在Proc. IEEE计算机视觉与模式识别会议(CVPR),2018年。一、二[13] ChristianH¨ ne,ShubhamTulsiani,andJitendraMalik. 三维物体重建中的高分辨率arXiv.org,1704.00710,2017.一、二[14] 哈特曼,加利亚尼,哈弗莱纳,范古尔,辛德勒。学习多补丁相似性。 在proc IEEE International Conf.计算机视觉(ICCV),2017年。一、二[15] Po-Han Huang , Kevin Matzen , Johannes Kopf ,Narendra Ahuja,and Jia-Bin Huang. Deepmvs:学习多视图立体视觉。 在proc IEEE会议 计算机视觉和模式识别(CVPR),2018年。1[16] 阿莱斯·雅克利奇阿莱斯·莱昂纳迪斯和弗朗克·索利纳超二次曲面的分割和恢复,计算成像和视觉的第20卷。Springer,2000年。3[17] Mengqi Ji,Juergen Gall,Haitian Zheng,Yebin Liu,and Lu Fang. SurfaceNet:一个用于多视图立体视觉的端到端3D神经网络。在IEEE国际会议上。计算机视觉(ICCV),2017年。一、二[18] Diederik P. Kingma和Jimmy Ba。Adam:随机最佳化的方法。在国际会议上。关于学习表征(ICLR),2015年。6[19] David H Laidlaw,W Benjamin Trumbore,and John FHughes. 多面体物体的构造性立体几何ACMTrans. on Graphics,1986年。2[20] Yiyi Liao,Simon Donne,and Andreas Geiger.深度移动立方体:学习显式表面表示。 正在进行IEEE会议计算机视觉和模式识别(CVPR),2018。一、二[21] Matthew Loper, Naureen Mahmood ,Javier Romero ,Gerard Pons-Moll,and Michael J.黑色. SMPL:一个有皮肤的多人线性模型. ACM Trans. on Graphics,2015. 6[22] 牛成杰,李俊,徐凯。Im2struct:从单个RGB图像恢复3D形状结构。正在进行IEEE会议 计算机视觉和模式识别(CVPR),2018。一、二、三、六[23] Despoina Paschalidou , Ali Osman Ulusoy , CarolinSchmitt,Luc van Gool,and Andreas Geiger. Raynet:学习用射线势进行体积三维重建。正在进行IEEE会议 计算机视觉和模式识别(CVPR),2018。一、二[24] 亚历克斯·彭特兰零件:形状的结构化描述。在会议的过程中。人工智能(AAAI),1986年。一、二、三[25] Maurizio Pilu和Robert B.费雪。超椭圆模型的等距在Proc. of the British Machine Vi- sion Conf.(BMVC),1995年。6[26] Charles R Qi,Li Yi,Hao Su,and Leonidas J Guibas.Point- net++:度量空间中点集上的深度层次特征学习。神经信息处理系统进展,2017年。1[27] 齐国杰,X.S.华岛,澳-地Rui,T. Mei,J.Tang和H.J.张某图像分类的并发多实例学习。正在进行IEEE会议计算机视觉和模式识别(CVPR),2007年。2[28] Danilo Jimenez Rezende,S. M.阿里·埃斯拉米,沙基尔·莫·哈米德,彼得·巴塔利亚,马克斯·贾德伯格,尼古拉斯·希斯.图像三维结构的无监督学习。神经信息处理系统(NIPS)的优势,2016年。2[29] Gernot Riegler、Ali Osman Ulusoy和Andreas Geiger 。Octnet:以高分辨率学习深度3D表示在proc IEEE会议计算机视觉和模式识别(CVPR),2017年。一、二[30] David E.杰弗里·鲁梅尔哈特Hinton和Ronald J.威廉姆斯通过反向传播误差学习表示。Nature,323:533-536,1986中。二、三[31] Gopal Sharma,Rishabh Goyal,Difan Liu ,EvangelosKalogerakis,and Subhransu Maji. Csgnet:神经形状10356解析器的建设性立体几何。正在进行IEEE会议计算机视觉和模式识别(CVPR),2018。2[32] 弗兰克·索利纳。计算机视觉中的体积模型综述。计算与信息技术杂志,1994年。3[33] 弗朗克·索利纳和鲁泽娜·巴伊奇。从距离图像恢复参数模型:具有全局变形的超二次曲面的情况。IEEE Trans.on Pattern Analysis and Machine Intelligence(PAMI),1990. 二、三[34] M. Tatarchenko,A. Dosovitskiy和T.布洛克斯八叉树生成网络:用于高分辨率3d输出的高效卷积架构。在Proc.of the IEEE International Conf.计算机视觉(ICCV),2017年。2[35] Demetri Terzopoulos和Dimitris N. Metaxas具有局部和全局变形的动态3d模型:可变形超二次曲面在IEEE国际会议上。计算机视觉(ICCV),1990年。2[36] 放大图片作者:Shubham Tulsiani,Hao Su,Leonidas J.阿列克谢?吉巴斯埃弗罗斯和吉坦德拉·马利克通过组装体积基元学习形状抽象。正在进行IEEE会议计算机视觉和模式识别(CVPR),2017年。一二三四六七八[37] 作 者 : Gu¨lVarol , J a vierRomero , X a vierMartin ,NaureenMah-mood,Michael J. Black,Ivan Laptev,andCordelia Schmid.向人造人学习。正在进行IEEE会议计算机视觉和模式识别(CVPR),2017年。二、六[38] 纳鲁纳斯·瓦斯克维丘斯和安德烈亚斯·伯克。重温超二次拟合:数值稳定的公式。IEEE Trans. 模式分析和机器智能(PAMI),2017年。5[39] Nanyang Wang , Yinda Zhang , Zhuwen
下载后可阅读完整内容,剩余1页未读,立即下载
![application/x-rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![application/x-rar](https://img-home.csdnimg.cn/images/20210720083606.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://profile-avatar.csdnimg.cn/default.jpg!1)
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
我的内容管理 收起
我的资源 快来上传第一个资源
我的收益
登录查看自己的收益我的积分 登录查看自己的积分
我的C币 登录后查看C币余额
我的收藏
我的下载
下载帮助
![](https://csdnimg.cn/release/wenkucmsfe/public/img/voice.245cc511.png)
会员权益专享
最新资源
- 利用迪杰斯特拉算法的全国交通咨询系统设计与实现
- 全国交通咨询系统C++实现源码解析
- DFT与FFT应用:信号频谱分析实验
- MATLAB图论算法实现:最小费用最大流
- MATLAB常用命令完全指南
- 共创智慧灯杆数据运营公司——抢占5G市场
- 中山农情统计分析系统项目实施与管理策略
- XX省中小学智慧校园建设实施方案
- 中山农情统计分析系统项目实施方案
- MATLAB函数详解:从Text到Size的实用指南
- 考虑速度与加速度限制的工业机器人轨迹规划与实时补偿算法
- Matlab进行统计回归分析:从单因素到双因素方差分析
- 智慧灯杆数据运营公司策划书:抢占5G市场,打造智慧城市新载体
- Photoshop基础与色彩知识:信息时代的PS认证考试全攻略
- Photoshop技能测试:核心概念与操作
- Photoshop试题与答案详解
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035711.png)
![](https://img-home.csdnimg.cn/images/20220527035111.png)
安全验证
文档复制为VIP权益,开通VIP直接复制
![](https://csdnimg.cn/release/wenkucmsfe/public/img/green-success.6a4acb44.png)