没有合适的资源?快使用搜索试试~ 我知道了~
12981姚春汉1洪 伟智2瓦伦·詹帕尼3杨明轩1341UC Merced2Waymo3谷歌4延世大学从图像集合图1:从单视图图像集合中发现3D零件。 我们的方法(LPD)使自我监督的3D部分发现,同时学习从单视图图像重建对象形状。与使用不同部件约束的其他方法相比,LPD发现更忠实和一致的部件,这提高了重建质量并允许部件推理/操作。摘要从2D图像推理3D形状是一项重要但具有挑战性的任务,特别是当我们只能处理单视图图像时。虽然对象可以具有复杂的形状,但是各个部分通常接近几何图元,因此更容易建模。此外,部件提供了对特定类别中的对象的外观变化鲁棒的中级表示。在这项工作中,我们解决的问题,三维部分dispute从只有2D图像集合。我们提出了一种自我监督的方法,潜在的部分发现(LPD),而不是依赖于手动注释的部分进行监督。我们的关键见解是学习一个新的部分形状之前,允许每个部分,以适应对象形状忠实,同时约束,有简单的几何形状。在合成ShapeNet、PartNet和真实世界的Pas- cal 3D+数据集上进行的大量实验表明,与具有相同监督级别的现有方法相比,我们的方法发现了一致的对象部分,并实现了良好的重建精度。我们的项目页面和代码位于https://chhankyao.github.io/lpd/。1. 介绍识别和推理我们周围的物体虽然深度学习模型已被证明在识别[27,46,17]和定位[13,44,35]对象方面在2D图像中,根据对象的3D属性来推理对象的3D属性,单个图像仍然是具有挑战性的任务。单视图3D推理由于导致2D图像中的模糊对象外观的若干因素而从根本上是不适定的,摄像机姿态、自遮挡、照明和材料特性。虽然对象通常具有复杂的形状,但它们通常可以分解为具有更简单几何形状并且相对容易建模的部分此外,特定类别的大多数对象实例共享相似的部件配置,飞机的机翼、机身和尾翼。在这项工作中,我们建议通过从2D图像集合中发现忠实和一致的3D部分与直接预测对象形状的现有单视图3D重建方法相比,我们的目标是学习在组合时形成整个对象的丰富且密集的部分配置。尽管最近的几种方法[48,37,3,10,33,36,41,24]利用基于部件的表示进行3D对象推理,但它们依赖于3D对象形状或显式部件注释作为监督。此外,所学习的部分仅用作附加信息,并且不用于改进3D重建。考虑到收集地面实况3D形状和相应的零件标签是劳动密集型的,我们遵循只有单视图图像、2D对象轮廓和相机视点可用于模型训练的实际场景与现有技术相比,我们的方法以自我监督的方式从图像集合中自动发现表示3D部件的常见做法是使用几何图元,例如椭圆体或长方体[48]。他们12982提供部件形状的强规则化,但是通常太粗糙而不能忠实地表示对象部件。作为替代方案,几种方法采用网格[23,50,14,15]。22,34,18,15,32]或点云[8,20,28,40,6]表示。尽管这些表示更有表现力并且可以忠实地描述零件形状,但是它们缺乏在弱监督或无监督设置中特别需要的零件形状正则化这项工作的关键见解是用深层潜在嵌入来表示3D部件。具体来说,我们建议使用变分自动编码器(VAE)[26]来学习零件形状的先验分布,该我们称这个网络为Part-VAE,并使用一组几何属性(如圆锥体、圆柱体、长方体和椭圆体)对其进行预训练然后,我们学习一个重建网络,该网络获取输入图像并预测部分嵌入,以通过Part-VAE的解码器获得3D网格。为了进一步提高部分发现和重建的质量,我们提出了一种新的部分对抗性损失,它涉及到从同一类别中的不同对象重新组装部分。我们命名所提出的方法潜在的部分发现(LPD)。图1示出了具有和不具有部分先验的几个重建结果,这表明LPD可以发现一致的部分并对输入图像产生忠实的重建我们在合成的ShapeNet [1]、Part-Net [39]和真实世界的Pascal3D+ [51]数据集上评估LPD。定量和定性的结果表明,我们的方法实现了良好的性能对国家的最先进的方法,使用相同的监督水平。除了部分发现,我们的部分表示,使对象操作,如选择性的部分交换,插值,灰,和随机形状生成的潜在空间。在在这项工作中,我们做出以下贡献:• 提出了一种基于零件的单视图三维推理网络,能够自动发现物体零件。据我们所知,这是第一个以自我监督的方式发现3D零件而不使用任何3D形状或多视图监督的工作。• 我们开发Part-VAE来学习潜在的零件形状。我们表明,使用几何图元的训练可以学习有用的部分嵌入,允许每个部分忠实地表示对象形状,同时约束为具有简单的几何形状。• 我们进行了广泛的实验,合成和自然图像。定性,我们的方法产生更忠实和一致的对象部分相比,其他部分为基础的方法。定量地,所发现的部分改进了整个对象重建,并且相对于最先进的技术实现了有利的准确度。此外,我们的Part-VAE允许我们为各种应用程序操作对象部件。2. 相关工作3D重建。虽然3D表示已经被广泛研究了几十年,但表示一般对象的最佳和统一的方法体素网格[4,49,47,31],点云[8,20,28,40,6]和网格[23,50,14、22、34、2、18、15、32]通常用于表示对象形状。几种最近的方法[12,38,52,16,5,11]探索了在函数空间中表示3D形状的可能性。虽然细粒度的体素、点云和局部函数可以表示复杂的形状,但表示的灵活性需要强大的3D或多视图监督来进行训练。另一方面,网格被约束以形成水密表面,并且便于渲染2D图像。通过从简单的模板网格(如球体或长方体)变形,更容易应用形状正则化,并且因此可以应用于具有较弱监督的重建场景。可以使用朴素2D投影或可微分渲染从多视图或单视图图像学习单视图网格重建[23,34,2]。例如,Hendersonet al.[18]生成背景图像和对象渲染以从自然图像学习纹理网格重建。Kato等人[22]提出视图先验学习(VPL)来改进从看不见的视图重建的形状。虽然它们对于紧凑和可变形的物体是有效的,但是单个网格不能表示具有孔或不连接部分的复杂形状。在这项工作中,我们利用多网格的部分表示,它允许在一个对象中断开的部分,而每个部分可以很好地正则化。部件发现。零件提供了一种中等级别的表示,该表示对于同一类别中对象之间的外观变化具有鲁棒性。Hung等人[19]通过自我监督学习图像集合上的2D共同部分分割。Lath-uili e`reetal. [29]在视频中利用运动提示进行零件展示。在3D域中,Tulsianiet al. [48]使用体积立方体作为零件抽象来学习3D重建。Li等[33]假设已知的零件形状,并在给定输入图像的情况下学习使用点云表示,Mandikal等人。[37]从单个图像预测部分分割的3D重建和Luo等人。[36]通过聚类3D点来学习形成物体部件Paschalidou等人[41]通过用超二次函数约束3D点提出分层部分分解(HPD)[42]。这些方法需要整个对象或其部分的3D地面实况形状作为监督。此外,[48,41]中的零件形状受到其表示的表现力的限制Li等[32]利用2D语义部件来改进单视图3D重建,然而,单视图3D重建不产生单独的部件形状。据我们所知,我们提出了第一个3D部件重建方法,没有任何部分注释或地面实况3D形状进行训练,我们的潜在部分表示使每个部分能够忠实地适合给定的对象形状。129832L··CPq∈Q22图2:方法概述。(上)我们的Part-VAE是用几何图元训练的。(底部)我们的重建模型与Part-VAE共享形状解码器并预测对象部分。然后,我们将重建的部分合成以形成3D对象。零件质心和表面纹理的预测在补充材料中有详细说明。3. 方法从单视图图像推理3D对象本质上是不适定的,因为重建的对象可能过拟合到给定视图并且在看不见的部分中高度变形。为了解决这个问题,我们提出LPD来表示具有多个潜在部分的对象。我们的直觉是,一个复杂的物体形状可以通过组装简单和规则化的部分来表达。与一些-cent的方法[22,18],我们提出了一种在弱监督设置下的方法,其中只有单视图图像,球面模板网格为了监督Part-VAE预训练,我们计算输入和输出顶点之间的倒角距离作为损失函数,因为点集是无序的并且不是密集对应的给定输入形状Q及其重构P的顶点,倒角损失Lc可以表示为:L(P,Q)=1Σmin¨p−q¨+p∈P2(一)2D物体轮廓,其相机视点是有用的。能为每个对象。也就是说,我们不假设任何3D1ΣQq∈Qmin¨p−q¨。形状或多视图图像来监督零件发现,重建为了在重建对象时自动发现潜在部分,我们提出使用称为Part-VAE的变分自动编码器[26](VAE)来学习部分嵌入。我们训练一个重建模型,预测部分嵌入,然后解码成部分网格组成整个对象。图2示出了具有两个主要模块的所提出的方法:部分- VAE和重建网络。3.1. 使用Part-VAE学习零件先验知识我们提出Part-VAE来学习对象部分的潜在形状先验。所提出的方法约束与原始形状的部分,同时允许的灵活性,以适应现实世界的对象部分。此外,它使光滑的部分插值和新的形状生成随机采样的潜在空间。图2(顶部)示出了具有几何图元的Part-VAE的训练过程我们首先收集一组原始形状,如椭圆体,圆柱体,圆锥体和长方体,这些形状以origin为中心,但具有随机缩放和旋转。Part-VAE网络由形状编码器和形状解码器组成。编码器将每个给定的原始形状变换为低维形状编码,并且解码器通过预测原始形状的顶点变形来重建输入形状为了鼓励潜在形状分布的连续性,我们采用在形状嵌入和标准正态分布N(0,1)之间计算的标准KL散度损失kl。 Part-VAE的总体训练损失为:Lvae=Lc+λ klLkl,其中λ kl是权重参数。3.2. 通过学习重构图2(底部)说明了我们的重建模型。而不是直接预测的对象网格,我们学习的图像编码器,需要输入图像和预测的3D部分的质心,潜在的形状编码,和表面纹理的每个部分。零件编码然后通过Part-VAE的形状解码器来生成零件网格。要组成一个完整的对象,我们只需移动网格顶点使用预测的部分质心和连接的顶点和表面的每个部分。在本文的其余部分中,我们将重建模型表示为R(),其将图像作为输入并输出部分合成的网格。来自视点V的渲染函数被表示为G(,V),其产生输入网格的渲染图像注意,每个训练图像I包括轮廓通道Is和RGB颜色通道Ic。同样地,渲染函数G可以被分离成分别用于轮廓投影和颜色渲染的Gs和Gcp∈P12984L(二)LⓈNL2圈P¨N(p)Σ¨Σ¨ ¨2图3:部分和视图对抗学习。给定具有不同对象的两个图像,我们随机地将它们的重建部分组合成一个新的形状。然后从一个新的视点渲染新的形状,我们将其视为我们训练一个鉴别器来区分假的和真实的渲染图像。通过使用梯度反转层(GRL),重建模型学习产生可以组成逼真的新颖形状的部件。形状重建损失。为了监督形状重建,我们强制重建形状的2D投影接近地面真实轮廓。特别地,我们使用可微分渲染器[34]渲染具有输入视点的预测网格,并计算渲染的轮廓和地面实况轮廓之间的交并比(IoU)。然后,轮廓损失sil被计算为:其中F是固定分类网络的特征提取器我们使用AlexNet[27]在ImageNet数据集[27]上预训练,并提取多个卷积层的输出作为F。它鼓励渲染图像在不同级别上与输入在外观上相似。3.3. 部分和视图对抗学习与多视图或3D监督设置不同,单视图训练需要更强的正则化来产生重新训练。L银(I,v)=IsGs(R(I),v)1,Is+Gs(R(I),v)立体的3D形状和发现有意义的部分。基于对象部分是可互换的并且它们应该从各种视点看起来真实的直觉,我们解释了其中表示逐元素乘法。 我们进一步在重建的网格顶点上应用拉普拉斯正则化重叠1 1L(P)=p-q, (3)p∈Pq∈N(p)倾向于在VPL [22]中使用部分对抗学习来观察对抗学习如图3所示,我们通过在一个训练批次中随机组合来自同一类的不同对象的部分来组装一个新的形状,然后渲染从一个新的角度看这个新的形状为了使新颖形状逼真,我们对新颖形状的渲染图像进行哪里 (p)表示顶点p的相邻顶点。它的目的是通过拉动每个顶点来朝向其相邻像素的中心。请注意,此正则化单独应用于每个零件网格,因此允许零件表面之间的不连续性。作为假的例子和那些原来的形状作为真正的。然后训练一个分类器来将每个渲染的图像分类为真实的或虚假的。我们用正负样本之间的二进制交叉熵来训练神经网络色彩重建损失我们进一步利用输入图像中的颜色信息,通过生成纹理重建。Ladv(I,I′,v)=−log(D(G(R(I),v)-log(1−D(G(R′(I,I′),v′))),(五)结构。给定的部分编码,我们的模型预测纹理流映射到一个UV纹理图像的输入图像。然后,我们通过使用预定义的UV映射函数从纹理图像中采样来对网格表面进行着色。每个对象部分的纹理流进行预测,因此每个部分具有更连贯的纹理。我们将整个颜色渲染过程表示为Gc,并在中间材料中显示更多细节。颜色重建损失cr是根据输入和渲染图像的语义特征定义的:Lcr(I,v)=F(Ic)−F(Gc(R(I),v))2,(4)212985··其中I’是不同于输入I的随机图像,R′(,)是从两幅输入图像中随机选择部分的重建模型,v′是随机新视图,D是鉴别器。 为了进行对抗训练,我们在判别器前添加梯度反转层(GRL)[9]因此,重建模型被训练成通过生成具有真实形状的新对象来欺骗鉴别器。考虑到不同的对象类可能具有不同的视图和形状先验,我们在训练期间用输入类标签来调节判别器。 注意到12986LL×输入VPL [22]自由形式长方体椭球体LPD LPD(1部分)(3部分)(3部分)(3部分)(6部分)图4:ShapeNet数据集的定性结果[1]。 LPD模型(我们的)采用了所提出的Part-VAE和对抗学习。三部分自由形式模型重建一个完整的对象与三个完全可变形的网格没有任何部分之前。与基线相比,我们的方法可以从不同的对象产生更忠实和一致的部分。在推断期间不需要类标签。也就是说,对于给定的数据,我们训练一个跨不同对象类别操作的单个部分发现/重建模型。这种基于零件的对抗性学习方法被提出作为语义约束,以使全局零件布置更加可行和现实。3.4. 模型训练与推理我们首先用基本形状预训练Part-VAE以最小化损失vae。接下来,Part-VAE和重构网络使用图像集合与原始形状一起进行联合训练。重建网络的总体目标函数由下式给出:Lsil+λlapLlap+λcrLcr−λadvLadv,(6)其中(λlap,λcr,λadv)是权重参数。识别器被训练以使adv最小化,adv的梯度被反转并反向传播到重建网络以执行对抗学习。请注意,我们仍然在这个阶段中用原始形状微调Part-VAE,使得形状解码器被正则化,同时适应训练图像中的各种部分形状。Part-VAE、重构网络和鉴别器被参数化为深度神经网络,并且权重通过小批量梯度下降来优化。在模型推理阶段,我们丢弃了Part-VAE编码器和鉴别器。输入图像简单地通过图像编码器和Part-VAE解码器以重建3D部分。我们表示每个对象的一部分,Nv=642顶点和Nf=1280面的可 变 形 网 格 。 纹 理 图 像 的 大 小 为 64 64 。 我 们 在PyTorch [43]框架中实现了所提出的方法,并使用Adam优化器[25]进行训练。超-在验证集上调整参数。4. 实验和分析指标和基线。评估自我监督的部分发现可能是模糊和主观的,因为发现的部分不需要对应于人类注释的部分。由于缺乏标准的度量或基准的3D部分发现,我们定性地比较发现的部分与其他方法。作为参考,我们还定量地评估了重建精度的对象级和部分级。我们将每个预测的网格转换成32 -3体素的体积,并计算体素化对象和地面真实体素之间的交叉-超联合(IoU)比我们报告我们的模型的结果,k=3部分和潜在部分嵌入维数d=64,如果没有另外指定 由于我们的工作是第一个使用单视图监督发现3D零件的工作,我们主要将LPD与三个基于零件的基线进行比较:长方体、椭圆体和自由形式网格。我们实现了长方体和椭球体模型重建每个对象的一部分,一个可扩展的长方体/椭球体。自由曲面模型采用完全可变形的网格,不需要任何零件形状的先验知识。对于对象级重建,我们针对SoftRas [34]和VPL [22]评估了我们的方法,因为它们采用了具有单视图图像和已知视点的类似训练设置虽然有几个其他的单视图三维重建的方法,我们省略了与他们的比较,因为整个对象的重建是不是这项工作的主要重点。我们在合成的ShapeNet [1],Part-Net [39]和真实世界的Pascal 3D+ [51]数据集上进行了实验。我们在这里介绍主要发现,并在补充材料中提供其他结果。12987×表1:ShapeNet数据集上的消融评价[1]。基础模型用3个网格重建对象形状,每个网格都是完全可变形的,如SoftRas [34]中所述(PP:部分先验,VA:视图对抗学习,PA:部分对抗学习,CR:颜色重建)。PP VA PA CR 飞机 板凳 梳妆台车椅子 显示 灯 扬声器 步枪 沙发 表 电话 所有血管C CC56.734.456.068.343.134.847.259.950.648.541.142.753.449.0C CC57.236.260.772.244.139.848.263.651.949.643.351.555.151.8C C C57.135.861.473.745.139.448.563.752.749.343.952.554.952.2CCC57.136.061.074.145.239.748.563.853.049.743.952.255.152.3CCCC57.337.360.975.245.540.849.663.354.550.144.352.756.252.9表2:ShapeNet数据集上的体素IoU结果[1]。我们将我们的方法与最先进的单视图监督和3D监督方法进行比较。方法监督飞机车椅子所有SIF [12]3D形状53.065.738.949.9OccNet [38]3D形状57.173.750.157.1CvxNet [5]3D形状59.867.549.156.7[41]第四十一话3D形状52.970.252.658.0车灯步枪台式船艇SoftRas [34]单视图52.265.740.446.9图5:跨类泛化。我们显示了不同ShapetNet类的样本输入(顶部)和LPD结果(底部)。4.1. ShapeNet上的结果我们首先进行实验与卡尔等人提供的合成数据集。[21],其中包含来自ShapeNet [1]的13个类每个样本包括3D CAD模型,用于渲染的20个相机视点,以及以224 × 224像素的分辨率的对应渲染图像。我们使用与原始数据集相同的训练/验证/测试分割。通过随机混洗RGB通道和水平翻转来增强训练图像。我们只使用每个对象的一个视图来训练和评估测试集中的所有20个视图(每个视图上都有独立的单视图重建)。地面实况3D形状仅用于测试。我们在图4中显示了我们的方法和其他基线的一些定性结果。图5中示出了对汽车、灯、步枪、桌子和水上飞机样本的更多部件重建结果,以证明我们的方法在不同的对象类中很好地推广。申报型号的消融。我们通过一次移除每个组件来对所提出的方法进行消融研究。如表1所示,在学习之前移除部分导致总体重构准确度的显著下降(3.9%)。结果表明,Part-VAE提供的零件先验信息有效地提高了零件的泛化能力。在不使用对抗学习和颜色重建的情况下,我们还观察到较低的体素IoU(0.6-1.1%)。与最先进的技术相比。表2示出了与现有技术方法的性能比较。耗氧物质与单视图的训练设置,我们的方法执行有利的形式对现有的方法。与3D监督方法相比,即使我们使用较弱的单视图监督,我们的模型在许多对象类上也取得了有竞争力的结果。在评估的方法中,SIF [12]和CvxNet [5]可以将对象细分为细粒度区域,HPD [41]执行分层部分推理。然而,它们的形状表示需要来自3D地面实况的更强的监督以产生忠实的零件形状。图4中的定性结果表明,与基线方法相比,我们的模型发现了更可信和一致的部分。零件表达上的烧蚀。我们进一步比较了使用不同零件形状约束的3D重建方法。大多数现有方法用单个网格表示对象[23,50,14,22,34,18],并通过直接预测顶点变形来允许每个形状完全变形。在光谱的另一端,大多数零件推理方法表示具有原始形状的零件,如长方体[48]或超二次曲面[41]。我们的方法位于这两个极端,并通过调整潜在的部分形状嵌入的尺寸,使可变的自由度。表3示出了零件表示(如自由形式网格、长方体重建)与我们的通过不同评估度量的零件-VAE嵌入之间的定量比较。除了3D体素IoU之外,我们还计算从3D体积采样的点集之间的2D重投影IoU、2D结构相似性(SSIM)和倒角距离(CD)的VPL [22]单视图53.170.145.451.3LPD(我方)单视图57.375.245.552.912988−→→→表3:使用不同指标对ShapeNet数据集[ 1 ]进行定量评估。LPD允许部分推理,并在所有度量方面实现更高的准确性。方法部分2D IoU ↑SSIM ↑CD ↓体素IoU↑[34]第一届中国国际航空航天博览会VPL [22]81.088.52.6551.3自由形式C81.187.93.8348.1长方体C72.567.36.1239.7LPD(我方)C83.691.02.3752.9表4:具 有 不 同 部 件 数 量 k 的 体素IoU结果。请注意,模型是在单个类上训练和测试的。方法K飞机车椅子SoftRas [34]154.169.543.1VPL [22]154.674.145.3LPD(我方)154.574.345.0LPD(我方)255.476.145.9LPD(我方)355.675.546.6LPD(我方)655.975.246.4结果表明,LPD在基于零件的方法中实现了更好的变形程度和形状正则化之间的折衷。为了观察我们的方法如何适应不同的对象类,我们在飞机,汽车和椅子图像上使用不同数量的零件k如表4所示,部件的最佳数量k在对象类之间变化。这表明每个类具有不同的底层部件配置以最佳地表示对象形状。注意,LPD在具有多于一个部分的所有三个类上实现比其他方法更高的准确度我们的主要重建模型是类不可知的,并且我们对所有类使用相同数量的部件,但是如果针对每个类分别进行优化,则可以进一步提高性能。4.2. PartNet上的结果为了评估发现的零件的质量,我们将我们的结果与PartNet数据集中标记的零件进行了比较。该数据集包含多个ShapeNet模型的分层零件注释我们收集了111个椅子样本,这些样本都在ShapeNet和PartNet测试集中,然后将注释的零件模型组合成最粗糙的椅背、座椅和底座。请注意,我们不使用任何3D零件监督进行训练,因此PartNet注释不是基础事实,而是参考。由于未对发现的部件进行语义标记,因此我们手动将部件与最接近的相应PartNet注释相关联。我们在表5中报告了定量体素IoU,在图6中报告了定性结果。与没有零件先验和其他表示的基线相比,我们的方法发现了更忠实的零件,并在PartNet注释方面实现了相当高的IoU表5:PartNet [39]椅子样本的体素IoU结果。方法回来座椅基地Avg自由形式16.819.510.315.5长方体22.323.410.718.8LPD(我方)30.446.016.230.9输入长方体LPD(我们的)伪GT图6:PartNet数据集上的定性结果[39]。我们展示了我们的方法和长方体基线的体素化3部分结果。每个部分都指定了一种颜色:椅背绿色,座椅黄色,底座蓝色。我们的方法发现忠实和一致的部分,从不同的对象,相对更接近的伪GT部分注释的PartNet。4.3. 零件插补和生成。除了形状重建之外,我们还展示了Part-VAE的两个应用:部分插值和随机形状生成。由于我们的模型发现的对象部分在实例中是一致的,因此可以交换或插入部分以创建新的3D对象。在图7中,我们对来自不同类别的两个对象的潜在编码(u1,u2)进行线性插值,如下所示:u=λu1+(1λ)u2.与没有部分先验的基线相比,我们的方法平滑地变形每个对象部分,并产生更真实的形状。Part-VAE还可以用作生成模型以创建新颖的形状。 具体来说,我们适合高斯混合模型(GMM)与k个组件的类特定图像的潜在形状向量。通过从单个GMM分布中采样随机向量,我们可以生成k个随机部分并将它们组合成一个新的3D形状。在图8中,我们使用在ShapeNet数据集上训练的Part-VAE显示了一些随机生成的椅子和飞机形状。4.4. 关于Pascal 3D+我们还评估了Tul- siani等人处理的Pascal 3D+数据集[51]的真实世界图像上的所提出的方法。[49]。它包括Pascal VOC中的图像[7],Pas- cal 3D+中的3D模型,轮廓和视点的注释[51],以及ImageNet中的附加图像[45],其中轮廓和视点由[30]自动注释这个数据集是更具有挑战性的,由于复杂的ob-12989×λ= 0.0λ = 0.25λ = 0.5λ = 0.75λ = 1.0图7:跨类别插值。我们在ShapeNet飞机-步枪、灯-显示器和椅子-桌子上执行插值。我们在第1、3、5和6行中显示了VPL[22]结果(网格插值)行2、4、6中的LPD结果(潜在内插)。表6:Pascal 3D+数据集上的体素IoU结果[51]。方法部分飞机车椅子AvgSoftRas [34]46.467.629.147.7VPL [22]47.567.930.448.6自由形式C47.068.528.748.0长方体C37.160.718.938.9LPD(我方)C48.269.131.049.4图8:椅子和飞机的随机形状生成。我们适合GMM模型的潜在形状向量,并生成随机部分,从个别GMM组件的采样。对象形状、图像背景、遮挡和带噪声的silhouette注释。我们训练和评估我们的模型,图像分辨率为224224。定量和定性结果分别见表6和图9尽管面临挑战,我们的方法发现一致的对象部分,并实现更高的重建精度比国家的最先进的方法。5. 总结发言在这项工作中,我们提出LPD发现3D部分从单视图图像集合。通过使用Part-VAE学习零件先验,我们证明了每个零件都可以变形以适应真实的物体形状,同时约束为具有简单的输入视图1视图2视图1视图2图9:Pascal 3D+数据集[ 51 ]上的部件和颜色重建结果。尽管数据集包含复杂的三维物体在一个现实的场景中,我们的方法是能够发现一致的部分,并有效地重建对象的形状。几何我们的重建模型的目标是用简单的零件组成一个对象,它会自动学习潜在的零件配置。反过来,所发现的部分可以减轻形状模糊性并提高完整对象重建的质量。大量的实验结果表明,LPD可以发现忠实的部分,从不同的对象类,部分是一致的,在同一类别内的不同实例此外,我们在单视图训练设置中实现了最先进的重建精度我们的工作开辟了学习,推断和manipulate对象部分,而不需要任何地面实况部分标签或3D形状监督的可能性。谢谢。这项工作得到了NSF CAREER Grant #1149783的部分支持。12990引用[1] AngelXChang , ThomasFunkhouser , LeonidasGuibas,Pat Hanrahan,Qixing Huang,Zimming Li,Silvio Savarese , Manolis Savva , Shuran Song , HaoSu,et al. Shapenet:一个信息丰富的3D模型存储库。arXiv预印本arXiv:1512.03012,2015。[2] Wenzheng Chen , Jun Gao , Huan Ling , Edward JSmith , Jaakko Lehtinen , Alec Jacobson , and SanjaFidler.学习使用基于插值的可区分渲染器预测3d对象。arXiv预印本arXiv:1908.01210,2019。[3] Zhiqin Chen,Kangxue Yin,Matthew Fisher,SiddharthaChaudhuri,and Hao Zhang. Bae-net:用于形状共分割的分支自动编码器。在ICCV,第8490- 8499页[4] Christopher B Choy , Danfei Xu , JunYoung Gwak ,Kevin Chen,and Silvio Savarese. 3d-r2 n2:用于单视图和多视图3D对象重建的统一方法。在ECCV,第628-644页[5] Boyang Deng、Kyle Genova、Soroosh Yazdani、SofienBouaziz 、 Geoffrey Hinton 和 Andrea Tagliasacchi 。Cvxnet:可学习的凸分解。在CVPR,第31-44页,2020年。[6] Theo Deprelle 、 Thibault Groueix 、 Matthew Fisher 、Vladimir G Kim、Bryan C Russell和Mathieu Aubry。学习三维 形状生成和匹 配的基本结 构。arXiv预印本arXiv:1908.04725,2019。[7] Mark Everingham , Luc Van Gool , Christopher KIWilliams,John Winn,and Andrew Zisserman.pascal视觉对象类(voc)的挑战。IJCV,88(2):303[8] Haoqiang Fan,Hao Su,and Leonidas J Guibas.从单幅图像重建三维物体的点集生成网络在CVPR中,第605-613页[9] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无 监 督域 自 适 应 。arXiv 预 印 本arXiv : 1409.7495 ,2014。[10] Lin Gao,Jie Yang,Tong Wu,Yu-Jie Yuan,HongboFu,Yu-Kun Lai,and Hao Zhang.Sdm-net:结构化可变形网格的深度生成TOG,38(6):1[11] Kyle Genova 、 Forrester Cole 、 Avneesh Sud 、 AaronSarna和Thomas Funkhouser。三维形状的局部深度隐式函数。在CVPR中,第4857-4866页[12] Kyle Genova 、 Forrester Cole 、 Daniel Vlasic 、 AaronSarna、William T Freeman和Thomas Funkhouser。使用结构化隐函数学习形状模板。在ICCV,第7154-7164页[13] 罗斯·格希克。快速R-CNN。在ICCV,2015年。[14] Georgia Gkioxari Jitendra Malik和Justin Johnson 网格r-cnn。在ICCV,第9785-9795页[15] Shubham Goel,Angjoo Kanazawa,Jitendra Malik.没有关键点的形状和视点。参见ECCV,第88-104页[16] Zekun Hao,Hadar Averbuch-Elor,Noah Snavely,andSerge Belongie.Dualsdf:使用两级表示的语义形状操作。在CVPR,第7631-7641页[17] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年12991[18] Paul Henderson , Vagia Tsiminaki , and Christoph HLampert.利用2d数据学习纹理3d网格生成。在CVPR,第7498-7507页[19] Wei-Chih Hung , Varun Jampani , Sifei Liu , PavloMolchanov , Ming-Hsuan Yang , and Jan Kautz.Scops:自我监督的共同部分分割。在CVPR,第869-878页[20] Eldar Insafutdinov和Alexey Dosovitsky使用可微分点云进行形状和姿态的无监督学习。在NeurIPS,第2802-2812页[21] AbhishekKa r,ChristianHaene,andJitendraMalik. 学习多视角立体机。在NeurIPS,第365-376页,2017年。[22] 加藤博治和原田达也。单视图三维重建的视图先验学习在CVPR中,第9778-9787页,2019年。[23] Hiroharu Kato、Yoshitaka Ushiku和Tatsuya Harada。神经三维网格渲染。在CVPR中,第3907-3916页[24] Yuki Kawana、Yusuke Mukuta和Tatsuya Harada。神经星域作为原始表示。arXiv预印本arXiv:2010.11248,2020。[25] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[26] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv:1312.6114,2013。[27] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。在NeurIPS,第1097-1105页[28] K L Navaneet,Priyanka Mandikal,Varun Jampani,and Venkatesh Babu. Differ:超越3D重建,具有可区分的特征渲染。在CVPR研讨会,第18-24页[29] Stee'phaneLathuili e`re,Se r g e yTulya kov,ElisaRicci,Ni cu Sebe,et al.运动监督共部分分割。arXiv预印本arXiv:2004.03234,2020。[30] Ke Li,Bharath Hariharan,and Jitendra Malik.迭代实例分割。在CVPR,第3659-3667页[31] 小李、岳东、皮特·皮尔斯、心彤。使用多投影生成对抗网络从剪影图像集合合成3D形状。在CVPR中,第5535-5544页[32] Xueting Li , Sifei Liu , Kihwan Kim , Shalini DeMello , Varun Jampani, Ming-Hsuan Yang , and JanKautz.基于语义一致性的自监督单视图三维重建。参见ECCV,第677-693页[33] Yichen Li,Kaichun Mo,Lin Shao,Minhyuk Sung,and Leonidas Guibas.从单个图像学习3d零件装配。在ECCV中,第664-682页[34] Shichen Liu,Tianye Li,Weikai Chen,and Hao Li.软光栅化器:一个基于图像的三维推理可区分的渲染器在CVPR中,第7708-7717页[35] Wei Liu , Dragomir Anguelov , Dumitru Erhan ,Christian Szegedy,Scott Reed,Cheng-Yang Fu,andAlexander C Berg. Ssd:单发多盒探测器。在ECCV,第21-37页12992[36] Tiange Luo,Kaichun Mo,Zhia
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- StarModAPI: StarMade 模组开发的Java API工具包
- PHP疫情上报管理系统开发与数据库实现详解
- 中秋节特献:明月祝福Flash动画素材
- Java GUI界面RPi-kee_Pilot:RPi-kee专用控制工具
- 电脑端APK信息提取工具APK Messenger功能介绍
- 探索矩阵连乘算法在C++中的应用
- Airflow教程:入门到工作流程创建
- MIP在Matlab中实现黑白图像处理的开源解决方案
- 图像切割感知分组框架:Matlab中的PG-framework实现
- 计算机科学中的经典算法与应用场景解析
- MiniZinc 编译器:高效解决离散优化问题
- MATLAB工具用于测量静态接触角的开源代码解析
- Python网络服务器项目合作指南
- 使用Matlab实现基础水族馆鱼类跟踪的代码解析
- vagga:基于Rust的用户空间容器化开发工具
- PPAP: 多语言支持的PHP邮政地址解析器项目
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功