没有合适的资源?快使用搜索试试~ 我知道了~
1 310CvxNet: 可学习的凸体分解0Boyang Deng 谷歌研究 Kyle Genova 谷歌研究 Soroosh Yazdani 谷歌硬件 So�enBouaziz 谷歌硬件0Geoffrey Hinton 谷歌研究 AndreaTagliasacchi 谷歌研究0摘要0任何实体物体都可以分解为一组凸多面体(简称凸体)。当使用少量凸体时,这样的分解可以被视为几何形状的逐段近似。这种分解在计算机图形学中是基础,它提供了一种最常见的逼近几何形状的方式,例如在实时物理模拟中。凸体还具有同时作为显式和隐式表示的属性:可以将其显式地解释为通过计算凸包的顶点而导出的网格,或者隐式地解释为半空间约束或支撑函数的集合。它们的隐式表示使它们特别适合神经网络训练,因为它们抽象了它们需要表示的几何形状的拓扑结构。然而,在测试时,凸体也可以生成显式表示——多边形网格,然后可以在任何下游应用中使用。我们引入了一种网络架构来表示低维凸体族。这个族是通过自动编码过程自动导出的。我们研究了这种架构的应用,包括自动凸体分解、图像到3D重建和基于部分的形状检索。01. 引言0虽然图像可以以在网格上均匀离散化的标量函数形式进行标准表示,但维度的诅咒阻碍了类似的3D几何学习表示的有效使用。体素表示在低分辨率下显示出一些潜力[10, 20, 35,57, 62, 69,74],而分层表示试图减少训练所需的内存占用[58, 64,73],但代价是复杂的实现。与表示3D对象占用的体积不同,可以采用模型来代替。0图1.我们的方法将输入图像重建为一组凸包,并可视化这些凸体的爆炸效果。值得注意的是,CvxNet输出凸多面体的多边形网格表示,而无需执行计算密集型的等值面提取(例如MarchingCubes)。这意味着CvxNet输出的表示可以直接用于物理模拟[17]以及许多其他消耗多边形网格的下游应用。0通过一组点[1, 19]、多边形[31, 56,71]或者曲面补丁[26],可以对其表面进行建模。或者,可以遵循塞尚的建议,通过圆柱体、球体、锥体等几何体来处理自然界的形态,并尝试将3D几何体近似为geons[4]——一组简单易解释的几何原语[68, 77]及其组合[60,21]。因此,人们可能会开始思考“为什么存在这么多3D数据的表示方式,其中一个比其他方式更有优势?”一个观察结果是,存在多种等效的3D几何体表示方式,是因为现实世界的应用需要对这些数据执行不同的操作和查询([9,第1章])。例如,在计算机图形学中,点和多边形可以在GPU上进行高效渲染,而体积可以让艺术家在雕刻几何体时无需担心细分问题。2 320[51]中的细分或通过平滑组合[2]来组装几何体,而基本元素则可以实现高效的碰撞检测[66]和解决[67]。在计算机视觉和机器人领域,存在类似的权衡:表面模型对于构建低维参数化模板(用于跟踪[6,8])至关重要,体积表示对于捕捉拓扑未知的3D数据至关重要[48,47],而基于部分的模型则提供了将对象分解为语义组件的自然方式。基于部分的模型创建了一种有助于推理场景描述、规划运动等关键量(如范围、质量、接触等)的表示[29,28]。0贡献。在本文中,我们提出了一种基于基元分解的几何表示方法。这种表示方法是简洁的,因为我们通过一小部分凸元素来近似几何形状,同时我们试图允许从数据中自动推断出低维表示,而无需任何人工监督。更具体地说,受到最近的工作的启发[68, 21,44],我们以无监督的方式训练我们的流水线:通过检查重建几何形状是否与目标几何形状匹配,预测基元配置以及它们的参数。我们注意到我们从上述几种表示中继承了一些有趣的属性。由于它是基于部分的,因此自然上具有局部支持,并且通过对形状集合进行训练,部分具有语义关联(即相同的元素用于表示椅子的背部)。尽管是基于部分的,但每个部分不仅限于属于盒子[68]、椭球体[21]或球面网格[67]的类别,而是属于更一般的凸体类别。由于凸体由一组半空间约束定义,因此它可以同时解码为显式(多边形网格)和隐式(指示函数)表示。因为我们的编码器将几何形状分解为凸体,所以它可以立即用于任何需要实时物理模拟的应用,因为凸体之间的碰撞解决可以通过GJK[23]高效决策(图1)。最后,部分可以通过结构化相互作用[21]生成部分之间的平滑混合。02. 相关工作0最简单的高维表示之一是体素,由于其类似于基于图像的卷积,它们是判别性[43, 54,61]模型中最常用的表示方法。体素也已成功用于生成模型[75, 16, 24, 57, 62,74]。然而,体素的内存需求使它们不适用于大于643的分辨率。可以通过使用利用体素稀疏性的八叉树来显著减少内存消耗[58, 72, 73,64]。例如,这可以将分辨率扩展到5123,但代价是更复杂的实现。0表面。在计算机图形学中,多边形网格是3D对象的标准表示。网格也被考虑用于通过对网格应用图卷积进行判别分类[42, 11, 27, 46]。最近,网格也被考虑为网络的输出[26, 32,71]。这些模型的一个关键弱点是它们可能产生自相交的网格。另一个在视觉中引起一些关注的自然高维表示是点云表示。如果使用深度相机或LiDAR等传感器,点云是对象的自然表示,并且它们所需的内存远远少于体素。Qi等人[53,55]使用点云作为判别性深度学习任务的表示。Hoppe等人[30]使用点云进行表面网格重建(另请参阅[3]了解其他技术的调查)。Fan等人[19]和Lin等人[37]使用点云进行深度学习的3D重建。然而,这些方法需要额外的非平凡的后处理步骤来生成最终的3D网格。0基本形状。更常见的是通过一组体积基元来近似输入形状。从这个角度来看,将形状表示为体素将是一种特殊情况,其中基元是格点中的单位立方体。描述3D形状的另一种基本方法是通过构造性实体几何[33]。Sherma等人[60]提出了一个模型,该模型将输出一个程序(即对形状基元进行布尔运算的集合),以生成输入图像或形状。一般来说,这是一个相当困难的任务。图形学和计算机视觉中使用的一些经典基元包括块世界[59]、广义圆柱体[5]、geons[4],甚至乐高积木[70]。在[68]中,使用深度CNN将形状解释为简单矩形棱柱的并集。他们还指出,他们的模型提供了对形状的一致解析(即头部由相同的基元捕获),从而允许对输出进行某种解释。在[50]中,他们将长方体扩展到超椭球体,表明额外的灵活性将导致更好的重建。0隐式表面。如果将形状基元推广为解析曲面(即解析函数的等值集),则可以使用新的解析工具来生成形状。例如,在[44,15]中,他们训练一个模型来区分内部坐标和外部坐标(在论文中称为占用函数,在图形界称为指示器函数)。Park等人[49]使用到形状表面的有符号距离函数来实现相同的目标。隐式描述形状的一个缺点是最终答案中缺少大部分可解释性。在[21]中,他们采用了一种更几何的方法,并限制为轴对齐高斯函数的等值集。部分原因是这些函数的限制,它们在具有倾斜部分的形状上存在问题,但它们恢复了[68]提供的可解释性。3 330图2. 从{超平面}到占用 -图像的一组超平面参数指定了凸指示器函数。软最大化函数允许梯度通过所有超平面传播,并允许生成平滑的凸形,而Sigmoid参数控制生成指示器中过渡的斜率 - 注意我们的软最大化函数是LogSumExp。0凸分解。在图形学中,一种常见的表示形状的方法是将其描述为一组凸对象。已经提出了几种用于网格的凸分解方法[25,52]。然而,在机器学习中,我们只发现了通过神经网络来计算凸包的早期尝试[34]。将网格分割为完全凸体通常会产生太多的碎片[13]。因此,更明智的做法是寻找近似输入形状的少量凸体[22,36,38,41,40]。最近,[66]还将凸分解扩展到时空领域,考虑到移动几何。我们的方法与[68]和[21]最相关,因为我们训练了一个占用函数。然而,我们选择了函数空间,使其等值集近似为凸形,并将其用作构建块。03. 方法 - CvxNet0我们的对象通过一个指示器O:R3→[0,1]来表示,并且用∂O={x∈R3|O(x)=0.5}来指示对象的表面。指示器函数的定义是这样的,即{x∈R3|O(x)=0}定义了对象的外部,{x∈R3|O(x)=1}定义了内部。给定一个输入(例如图像、点云或体素网格),编码器估计我们的模板表示ˆO(∙)的参数{βk},其中K个基元(由k索引)。然后我们在随机样本点x处评估模板,我们的训练损失确保ˆO(x)≈O(x)。在下面的讨论中,不失一般性,我们使用二维的说明性示例,其中O:R2→[0,1]。我们的表示是一种可微凸分解,用于以端到端的方式训练图像编码器。我们首先描述一个单个凸对象的可微表示(第3.1节)。然后我们介绍一个自动编码器架构,用于创建一个低维的近似凸体族(第3.2节)。这些允许我们将对象表示为凸体的空间组合(第3.4节)。然后我们描述用于训练我们的网络的损失(第3.5节),并提及一些实现细节(第3.6节)。03.1. 可微凸指示器 - 图20我们定义了一个解码器,给定一组(无序的)半空间约束,构造了单个凸对象的指示器函数;这样的函数可以在任意点x∈R3处进行评估。我们定义Hh(x)=nh∙x+dh为点x到第h个平面的有符号距离,其中nh是法向量,dh是偏移量。给定足够多的半平面H,任何凸对象的有符号距离函数都可以通过取平面的有符号距离函数的最大值来近似。为了便于梯度学习,我们使用平滑最大值函数LogSumExp,定义近似有符号距离函数Φ(x):0Φ(x) = LogSumExp{δHh(x)}, (1)0请注意,这是一个近似的有符号距离函数,因为属性∥�Φ(x)∥=1不一定对所有x成立。然后,我们将有符号距离函数转换为指示函数C: R3 → [0, 1]:0C(x | β) = Sigmoid(-σΦ(x)), (2)0我们将一组超平面参数表示为h = {(nh,dh)},将凸参数的整体集合表示为β = [h,σ]。我们将σ视为超参数,并将其余部分视为我们表示的可学习参数。如图2所示,参数δ控制生成的凸体的平滑度,而σ控制指示函数过渡的锐度。与平滑最大函数类似,Sigmoid创建的软分类边界有助于训练。总之,给定一组超平面参数,这个可微分模块可以在任意位置x处进行评估。03.2. 凸编码器/解码器 - 图30sible to discover some form of correlation between their pa-rameters. Towards this goal, we employ an auto-encoderarchitecture illustrated in Figure 3. Given an input, the en-coder E derives a bottleneck representation λ from the in-put. Then, a decoder D derives the collection of hyperplaneparameters. While in theory permuting the H hyperplanesgenerates the same convex, the decoder D correlates a par-ticular hyperplane with a corresponding orientation. This isvisible in Figure 4, where we color-code different 2D hyper-planes and indicate their orientation distribution in a simple2D auto-encoding task for a collection of axis-aligned ellip-soids. As ellipsoids and oriented cuboids are convexes, weargue that the architecture in Figure 3 allows us to general-ize the core geometric primitives proposed in VP [68] andSIF [21]; we verify this claim in Figure 5.4 340图3. 凸自编码器 -编码器E创建一个低维潜在向量表示λ,解码器D通过解码器D将其解码为一组超平面。训练损失涉及在随机像素x处重构输入图像的值。0图4. 相关性 - 虽然凸包的描述{(nh,dh)}是置换不变的,但我们使用一个隐式建立顺序的编码器/解码器。我们的可视化揭示了一个特定的超平面通常代表一组特定的方向。0图5. 插值 -我们使用CvxNet计算角落处形状的潜在代码。然后,我们线性插值潜在代码以合成中间形状。我们的基本几何体使VP [68](盒子)和SIF[21](椭球体)的形状空间能够平滑地插值。03.3. 显式解释 - 图60与其他使用指示函数作为可训练的3D几何表示的方法相比,我们网络生成的凸体具有明确的解释:它们可以很容易地转换为0将多边形网格化。这与需要执行计算密集型等值面操作来提取其表面(例如Marching Cubes [39])的[49, 15, 21,44]形成鲜明对比。更具体地说,等值面技术通常受到维度的限制,其性能随着所需空间分辨率ε和通常为3的维度d的增加而缩放。相反,正如我们在图6中所示,我们只需要执行两个对偶变换,并计算H个点的两个凸包。这些操作的复杂度明显独立于任何分辨率参数ε。0图6. 从{超平面}到多边形网格 -通过将平面通过对偶变换转化为点(b),计算凸包(c),进行第二次对偶变换(d)和最终凸包执行(e),可以计算出与一组超平面对应的多边形网格(a)。此操作的输出是一个多边形网格。请注意,此操作高效,输出敏感,并且最重要的是不会受到维度诅咒的影响。请注意,出于说明目的,此图中的对偶坐标是虚构的。03.4. 多凸分解 - 图70通过表示为凸物体组合的方式,通过可学习的单个凸物体流水线,我们现在可以扩展模型的表达能力。为了实现这个任务,编码器E输出所有K个凸物体λ的低维瓶颈表示。解码器D将其解码为K个参数元组的集合。每个元组(由k索引)由一个形状代码βk和相应的变换Tk(x)= x +ck组成,该变换将点从世界坐标转换为局部坐标。ck是预测的平移向量(图7)。Lapprox(ω) = Ex∼R3∥ ˆO(x) − O(x)∥2,(3)where ˆO(x) = maxk{Ck(x)}, and Ck(x) = C(Tk(x)|βk).The application of the max operator produces a perfectunion of convexes. While constructive solid geometry typ-ically applies the min operator to compute the union ofsigned distance functions, note that we apply the max op-erator to indicator functions instead with the same effect;see Section 6 in the supplementary material for more de-tails. We couple the approximation loss with several auxil-iary losses that enforce the desired properties of our decom-position.Ldecomp(ω) = Ex∼R3∥relu(sumk {Ck(x)} − τ)∥2,(4)Lunique(ω) = 1H�h∥dh∥2(5)5 350图7. 多凸自编码器 - 我们的网络将输入几何形状近似为凸元素的组合。请注意,该网络不规定如何生成最终图像,而只是输出抽象的形状{ βk }和姿态{ T k }参数。请注意,这是一个示例,其中参数{ β k },{ T k }已经通过预设的δ直接进行了优化。0首先,我们希望对象O的(地面真实)指示函数得到很好的近似:03.5. 训练损失0分解损失(辅助).我们寻求一种类似于Tulsiani等人的对象的简洁分解。因此,应该避免元素之间的重叠:0其中我们使用宽容的τ =2,并注意到ReLU仅在发生重叠时激活损失。0唯一参数化损失(辅助).尽管每个凸物体都是相对于原点进行参数化的,但存在一组解的零空间- 我们可以将原点移动到凸物体内的另一个位置,并相应地更新偏移量{d h}和变换T。为了消除这样的零空间,我们简单地对幅度进行正则化。0每个K元素的偏移量的幅度:0在补充材料中,我们证明最小化Lunique会导致唯一的解,并将凸体居中到原点。这种损失进一步确保了在学习过程中可以轻松重新激活“非活动”的超平面约束。因为它们紧密贴合在表面上,所以对形状变化非常敏感。0引导损失(辅助).正如我们将在第3.6节中描述的那样,我们使用离线采样来加速训练。然而,这可能会导致严重的问题。特别是,当凸物体“掉入采样的裂缝”时(即�x | C(x)>0.5),它可以被有效地从学习过程中移除。当凸物体进入退化状态(即dh = 0�h)时,这种情况很容易发生。不幸的是,这些退化配置是由损失(5)鼓励的。我们可以通过确保每个凸物体都代表一种独特的形状来防止崩溃。0图8. 辅助损失-我们的Lunique损失(左)防止了凸多面体规范中的零空间的存在,(中)确保在训练过程中可以轻松激活不活跃的超平面,(右)我们的Lguide将凸多面体移向从对象x ∈ O中绘制的样本的表示。kx∈N Nkx∈N 1k̸6 360一定数量的信息(即样本):0L guide(ω) = 10K01 N0∥Ck(x) - O(x)∥2,(6)0其中NNk是从集合x �{O}中与Ck的距离值Φk(x)最小的N个内部样本的子集。换句话说,每个凸多面体负责表示至少N个最近的内部样本。0定位损失(辅助)。当凸多面体远离内部点时,(6)中的损失由于sigmoid函数而出现梯度消失的问题。我们通过添加相对于第k个凸多面体的平移向量ck的损失来解决这个问题:0L loc(ω) = 10K0∥ck - x∥2,(7)0观察。请注意,我们监督指示函数C而不是Φ,因为后者不代表凸多面体的有符号距离函数(例如∥�Φ(x)∥ ≠1)。还请注意,(4)中的损失类似于SIF[21,Eq.1]中的损失,其中整个表面被建模为一系列“meta-ball”隐式函数[7]的总和,作者称之为“structuring”。核心区别在于SIF[21]将物体的表面∂O建模为后期“structuring”的等值面-因此,在大多数情况下,各个基元的等值面不会逼近目标表面,导致生成表示的可解释性稍有损失。03.6. 实现细节0为了提高训练速度,我们离线采样了一组地面真实形状上的点,预先计算了真实数量,然后在训练循环中从这个集合中随机子采样。对于体积样本,我们使用OccNet[44]中的样本,而对于表面样本,我们使用SIF[21]中描述的“近表面”采样。根据SIF[21]的建议,我们还将“近表面”样本的Lapprox调整为0.1。我们从O的边界框中随机采样了100k个样本,并从每个∂O中采样了100k个样本,以构建点样本和标签。我们对两个样本来源都使用了包含1024个点的子采样集(在训练时)。尽管Mescheder等人[44]声称使用均匀的体积样本比表面样本更有效,但我们发现平衡这两种策略可以获得最佳性能-这可以归因于(3)和(4)中损失的互补效应。0架构细节。在所有实验中,我们使用相同的架构,只是凸多面体和超平面的数量不同。对于{Depth}-to-3D任务,我们使用50个凸多面体,每个凸多面体有50个超平面。对于RGB-to-3D任务0任务中,我们使用了50个凸多面体,每个凸多面体有25个超平面。与OccNet[44]类似,我们使用ResNet18作为编码器E,用于{Depth}-to-3D和RGB-to-3D实验。然后,一个全连接层生成潜在编码λ ∈ R256,作为输入提供给解码器D。对于解码器D,我们使用一个顺序模型,具有四个隐藏层,分别具有(1024, 1024,2048, |H|)个单元。输出维度为|H| = K(4 +3H),其中对于每个K个元素,我们指定一个平移(3个自由度)和一个平滑度(1个自由度)。每个超平面由(单位)法向量和与原点的偏移量(3H个自由度)指定。在所有实验中,我们使用批量大小为32,并使用Adam进行训练,学习率为10^-4,β1 = 0.9,β2 =0.999。根据验证集上的网格搜索结果,我们设置了损失函数的权重{L approx: 1.0, L decomp: 0.1, L unique: 0.001,L guide: 0.01, L loc: 1.0}和σ = 75。04. 实验0我们在实验中使用ShapeNet[12]数据集。我们使用与Choy等人[16]相同的体素化、渲染和数据分割。此外,我们使用与[21]相同的多视角深度渲染进行我们的{Depth}-to-3D实验,其中我们从十二面体的顶点处的相机渲染每个示例。请注意,这个问题比OccNet[44]提出的使用点云输入的3D自动编码问题更难,并且更接近单视图重建问题。在训练时,我们需要真实的内部/外部标签,因此我们使用[44]的完全密封网格 -这也确保了与该方法的公平比较。对于语义分解的定量评估,我们使用PartNet[45]的标签,并利用与ShapeNet的重叠部分。0方法。我们将我们的方法与一些具有不同特征的自监督算法进行定量比较。首先,我们考虑VP[68],它通过(联合)定向框学习输入的简约近似。我们还将其与结构化隐式函数SIF[21]方法进行比较,该方法将实体几何表示为加权高斯的等值面;与VP [68]一样,并与OccNet[44]相反,该方法提供了对几何的可解释编码。最后,从直接学习隐式函数的不可解释表示的技术类中,我们选择了OccNet [44]、P2M [71]和AtlasNet[26];与前面的方法不同,这些解决方案不提供任何形式的形状分解。由于OccNet[44]仅报告RGB-to-3D任务的结果,我们扩展了原始代码库,以解决{Depth}-to-3D任务。我们遵循SIF[21]使用的相同数据预处理。0指标。使用ˆO和∂ˆO分别表示我们基本元素的并集的指示器和表面。然后我们7 370图9. 准确性与原始元素数量的分析 - (左)要重建的地面真实对象和由VP [68]生成的单个形状抽象。(中)随着原始元素数量的增加,抽象性能的定量评估(ShapeNet/Multi)-曲线越接近左上角,效果越好。(右)原始元素和相应重建的定性可视化。0我们使用三个定量指标来评估3D重建的性能:1�体积IoU;请注意,我们使用100K个均匀采样来估计此度量时,我们的估计比[16]使用的32x3体素网格估计更准确。2�Chamfer-L1距离,这是对称Hausdorff距离的平滑松弛,测量重建准确性Eo�∂O[minˆo∈∂ˆO∥o−ˆo∥]和完整性Eˆo�∂ˆO[mino∈∂O∥ˆo−o∥][18]之间的平均值。3�根据[65]的论证,我们还使用F-score来定量评估性能。它可以理解为“正确重建表面的百分比”。0图10. 基于部分的检索 -两个输入(左)首先被编码为我们的CvxNet表示(中左),用户可以从中选择一部分(中右)。然后我们使用连接的潜在代码作为(不完整的)几何查找函数,并在训练数据库中检索最接近的分解(右)。0部分准确性0CvxNet BAE BAE*0背部 91.50% 86.36% 91.81%0手臂 38.94% 65.75% 71.32%0基准 71.95% 88.46% 91.75%0座位 90.63% 73.66% 92.91%0图11. 抽象 -(左)每个凸ID内部的部分标签分布(50个中的4个)。(右)使用凸ID对每个点进行标记时的每个语义部分的分类准确性。BAE[14]是无监督部分分割的基准。最后,BAE*是BAE的监督版本。04.1. 抽象 - 图9,10,110由于我们的凸分解是在形状集合上学习的,因此我们的解码器产生的凸多面体在自然对应上是一致的 -例如,我们期望第k个凸多面体在椅子数据集中表示椅子的腿。我们在PartNet数据集[45]上进行了定量分析。我们通过验证第k个组件是否始终映射到相同的PartNet部分标签来进行分析;见图11(左)中每个组件内的PartNet标签分布。然后,我们可以将最常关联的标签分配给给定的凸多面体,以分割PartNet点云,从而实现相对较高的准确性;见图11(右)。这揭示了我们的表示如何捕捉数据集中的语义结构。我们还通过改变组件数量并评估表示简洁性和重建准确性之间的权衡来评估我们的形状抽象能力;我们通过Figure9中的Pareto最优曲线进行可视化。我们与SIF[21]进行比较,并注意到由于我们模型的广义形状空间,我们的曲线无论选择多少个基元都优于他们的曲线。我们进一步研究了在基于部分的检索任务中使用自然对应的方法。我们首先将输入编码为我们的表示形式,然后允许用户选择几个感兴趣的部分,然后使用这个(不完整的)形状代码来获取训练集中与最接近的(部分的)形状代码的元素;见图10。04.2. 重建 - 表1和图120我们对多个最先进的方法进行了定量评估,给定多个深度图像({Depth}-to-3D)和一张彩色图像(RGB-to-3D)作为输入;见表1。图12显示了一些定性示例。我们发现CvxNet:1�在学习形状元素这一共同目标上,始终优于其他部分分解方法(SIF、VP和SQ);2�在一般情况下与最先进的重建方法相当;3�在F-score方面优于领先的技术(OccNet[44]),并在多视角深度输入上进行测试。Ours{Depth}-to-3DSIFOurs8 380图12. ShapeNet/Multi - 与SIF [21],AtlasNet [26],OccNet [44],VP [68]和SQ[50]的定性比较;在RGB输入上,而VP使用体素化输入,SQ使用点云输入。(*请注意,OccNet [44]的结果经过平滑处理)。0类别 IoU Chamfer- L 1 F-Score0飞机 0.728 0.662 0.739 0.031 0.044 0.025 79.52 71.40 84.68 长凳 0.655 0.5330.631 0.041 0.082 0.043 71.98 58.35 77.68 柜子 0.848 0.783 0.830 0.138 0.1100.048 71.31 59.26 76.09 汽车 0.830 0.772 0.826 0.071 0.108 0.031 69.64 56.5877.75 椅子 0.696 0.572 0.681 0.124 0.154 0.115 63.14 42.37 65.39 屏幕 0.7630.693 0.762 0.087 0.097 0.065 63.76 56.26 71.41 灯 0.538 0.417 0.494 0.6780.342 0.352 51.60 35.01 51.37 扬声器 0.806 0.742 0.784 0.440 0.199 0.112 58.0947.39 60.24 步枪 0.666 0.604 0.684 0.033 0.042 0.023 78.52 70.01 83.63 沙发0.836 0.760 0.828 0.052 0.080 0.036 69.66 55.22 75.44 桌子 0.699 0.572 0.6600.152 0.157 0.121 68.80 55.66 71.73 手机 0.885 0.831 0.869 0.022 0.039 0.01885.60 81.82 89.28 船 0.719 0.643 0.708 0.070 0.078 0.052 66.48 54.15 70.770平均 0.744 0.660 0.731 0.149 0.118 0.080 69.08 59.02 73.490类别 IoU Chamfer- L 1 F-Score0飞机 0.420 - 0.571 0.530 0.598 0.187 0.104 0.147 0.167 0.093 67.24 62.87 52.81 68.16 长凳 0.323 - 0.485 0.333 0.461 0.2010.138 0.155 0.261 0.133 54.50 56.91 37.31 54.64 柜子 0.664 - 0.733 0.648 0.709 0.196 0.175 0.167 0.233 0.160 46.43 61.79 31.6846.09 汽车 0.552 - 0.737 0.657 0.675 0.180 0.141 0.159 0.161 0.103 51.51 56.91 37.66 47.33 椅子 0.396 - 0.501 0.389 0.491 0.2650.209 0.228 0.380 0.337 38.89 42.41 26.90 38.49 屏幕 0.490 - 0.471 0.491 0.576 0.239 0.198 0.278 0.401 0.223 42.79 38.96 27.2240.69 灯 0.323 - 0.371 0.260 0.311 0.308 0.305 0.479 1.096 0.795 33.04 38.35 20.59 31.41 扬声器 0.599 - 0.647 0.577 0.620 0.2850.245 0.300 0.554 0.462 35.75 42.48 22.42 29.45 步枪 0.402 - 0.474 0.463 0.515 0.164 0.115 0.141 0.193 0.106 64.22 56.52 53.2063.74 沙发 0.613 - 0.680 0.606 0.677 0.212 0.177 0.194 0.272 0.164 43.46 48.62 30.94 42.11 桌子 0.395 - 0.506 0.372 0.473 0.2180.190 0.189 0.454 0.358 44.93 58.49 30.78 48.10 手机 0.661 - 0.720 0.658 0.719 0.149 0.128 0.140 0.159 0.083 58.85 66.09 45.6159.64 船 0.397 - 0.530 0.502 0.552 0.212 0.151 0.218 0.208 0.173 49.87 42.37 36.04 45.880平均值0.480 - 0.571 0.499 0.567 0.216 0.175 0.215 0.349 0.245 48.57 51.75 34.86 47.360RGB到3D0表1. ShapeNet/Multi上的重建性能 - 我们将我们的方法与P2M [71],AtlasNet [26],OccNet [44]和SIF[21]进行了评估。我们输入的是(左)一组深度图或(右)一张彩色图像。对于AtlasNet[26],请注意无法测量IoU,因为网格不是完全密封的。我们省略了VP [68],因为它只产生一个非常粗糙的形状分解。0请注意,SIF[21]首先通过重建损失在(深度到3D)上训练模板参数,然后通过参数回归损失训练RGB到3D图像编码器;相反,我们的方法从头开始训练RGB到3D任务的编码器和解码器。04.3. 剔除研究0我们在补充材料中总结了几个剔除研究的结果。我们的分析表明,该方法对于瓶颈的维度|λ|相对不敏感。我们还研究了在重建准确性和推理/训练时间方面改变凸多面体数量K和超平面数量H的影响。此外,我们定量地证明,使用有符号距离作为Lapprox的监督会产生明显更差的结果,并且以稍微更差的性能为代价,我们可以将L guide和Lloc合并为一个。最后,我们对我们的损失进行了剔除研究,并验证了每个损失对于有效学习的益处。05. 结论0我们提出了一种可微分的凸面体表示,适用于学习。推断出的表示可以直接在图形/物理流水线中使用;参见图1。我们的自监督技术提供了比最近提出的基于部分的技术(图9中的SIF[21])更详细的重建结果,甚至在多视角输入上始终优于领先的重建技术(表1中的OccNet[44])。在未来,我们希望将模型推广到能够预测可变数量的部分[68],理解对称性和建模层次结构[76],并包括旋转建模[68]。利用超平面排序的不变性,研究排列不变编码器[63]的效果,或者完全去除编码器,采用自动解码器架构[49],也是一个有趣的研究方向。0致谢. 我们要感谢Luca Prasso和TimothyJeruzalski为准备刚体模拟所提供的帮助,感谢AvneeshSud和Ke Li对我们的草稿进行审查,感谢AntonMikhailov,Tom Funkhouser和ErwinCoumans进行富有成果的讨论。9 390参考文献0[1] Panos Achlioptas, Olga Diamanti, Ioannis Mitliagkas, andLeonidas Guibas. 3D点云的表示学习和生成模型.在机器学习国际会议上,页40-49,2018年. 10[2] Baptiste Angles, Marco Tarini, Loic Barthe, Brian Wyvill,and Andrea Tagliasacchi. 基于草图的隐式混合. ACMTransaction on Graphics (Proc. SIGGRAPH Asia),2017年. 20[3] Matthew Berger, Andrea Tagliasacchi, Lee M Seversky,Pierre Alliez, Gael Guennebaud, Joshua A Levine, AndreiSharf, and Claudio T Silva. 从点云中进行表面重建的综述.在计算机图形学论坛上,卷36,页301-329. Wiley OnlineLibrary,2017年. 20[4] Irving Biederman. 组件识别:人类图像理解的理论.心理评论,1987年. 1, 20[5] Thomas Binford. 计算机的视觉感知.在IEEE系统与控制会议上,1971年. 20[6] Volker Blanz and Thomas Vetter.用于合成3D面部的可变模型. 在ACM Trans. on Graphics(Proceedings of SIGGRAPH),1999年. 20[7] James F Blinn. 代数曲面绘制的一般化. ACM Trans. onGraphics (TOG) , 1(3):235–256, 1982. 60[8] Federica Bogo, Angjoo Kanazawa, Christoph Lassner,Peter Gehler, Javier Romero, 和 Michael J Black. Keep it smpl:从单个图像自动估计3D人体姿势和形状. In Proceedings of theEuropean Conference on Computer Vision , 2016. 20[9] Mario Botsch, Leif Kobbelt, Mark
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索AVL树算法:以Faculdade Senac Porto Alegre实践为例
- 小学语文教学新工具:创新黑板设计解析
- Minecraft服务器管理新插件ServerForms发布
- MATLAB基因网络模型代码实现及开源分享
- 全方位技术项目源码合集:***报名系统
- Phalcon框架实战案例分析
- MATLAB与Python结合实现短期电力负荷预测的DAT300项目解析
- 市场营销教学专用查询装置设计方案
- 随身WiFi高通210 MS8909设备的Root引导文件破解攻略
- 实现服务器端级联:modella与leveldb适配器的应用
- Oracle Linux安装必备依赖包清单与步骤
- Shyer项目:寻找喜欢的聊天伙伴
- MEAN堆栈入门项目: postings-app
- 在线WPS办公功能全接触及应用示例
- 新型带储订盒订书机设计文档
- VB多媒体教学演示系统源代码及技术项目资源大全
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功