基于体素集合的形状提取算法

113 浏览量更新于2023-10-15 收藏 1.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于体素集合的形状提取算法Shubham Tulsiani 1，Hao Su 2，Leonidas J. Guibas 2，Alexei A. Efros1，JitendraMalik11加州大学伯克利分校2斯坦福大学1{shubhtuls，efros，malik}@ eecs.berkeley.edu，2{haosu，guibas}@cs.stanford.edu图1：椅子和动物形状的例子，通过组成简单的体积基元（长方体）组装。所获得的重建允许每个对象的可解释表示，并提供跨形状的一致解析e.G. 椅子座位由类别中的相同原语捕获摘要我们提出了一个学习框架，通过学习使用三维体积图元组装对象来抽象复杂形状。除了生成简单和几何解释的3D对象，我们的框架还允许我们自动发现和exploit一致的结构中的数据。我们证明，使用我们的方法可以预测形状表示，可以利用形状集合的实例获得一致的解析，并构建一个可解释的形状相似性度量。我们还研究了基于图像的预测以及形状操纵的应用。1. 介绍“Treat保罗·塞尚塞尚在视觉和图形文学中多次出现在计算机视觉中，广义圆柱体是由Bin- ford在1971年引入的，其中横截面区域沿着直的或弯曲的轴扫过，同时在该过程中可能收缩或膨胀[3]。其中一个关键的动机是简约的描述体素在20世纪90年代仍然很受欢迎，因为它们提供了一个连贯的框架，用于解释从单个图像、感知组织以及从2D视图识别3D对象的形状推断。然而，将广义圆柱体拟合到图像数据需要相当多的手工制作，并且随着用于对象识别的机器学习技术在20世纪90年代脱颖而出，这种范例从主要阶段消失。当然，为复杂现象找到简洁的解释是基于学习的视觉理解的核心。事实上，机器学习之所以成为可能，是因为我们的视觉世界尽管非常复杂，但也是高度结构化的在当代计算机视觉中，这种结构通常26352636通过人工监督建模：重复的图案被标记为对象或对象部分，并且采用监督学习方法来在新颖的图像中发现和命名它们。然而，如果可以用更简单的基本结构来解释复杂的结构，似乎会更令人在本文中，我们回到了用体积图元解释对象的经典问题，但使用了无监督学习和卷积神经网络（CNN）的现代工具我们选择了最简单的可能的基本体，刚性变换的长方体，并展示了如何训练深度卷积网络来组装任意的3D对象（在某种程度上的近似）。我们在经典方法失败的地方取得成功的主要原因是，我们的目标是联合解释整个3D对象数据集，使我们能够直接从数据中学习常见的3D模式。虽然3D对象形状的表示，例如，由于网格或体素占用通常是复杂的和高维的，因此根据基本图元得到的解释是简约的，具有少量的参数。作为其适用性的例子，我们杠杆年龄的各种任务，例如基于原语的表示。部件发现、基于图像的抽象、形状操纵等。在这里，我们不想重复关于体积基元价值的经典争论-代码可在https://shubhtuls.github.io/volumetricPrimitives上获得。2. 相关工作3D表示和重建。建模对象和场景的经典方法可以追溯到计算机视觉学科的最初阶段，例如块世界[28]，广义圆柱[3]和几何[2]，强调表示的紧凑性作为中心目标。本着类似的精神，一些现代方法试图使用简单的图元重建对象/场景，包括乐高积木[35]和定性3D块[12]。除了这些尝试之外，大多数主流的用于表示和重建对象的方法通常使用更高维的表示，例如，对象作为点云[20，36]或示例CAD模型[24，25，39]。后一套方法的成功在很大程度上是由数据驱动的推理驱动的，而经典方法并没有利用这种推理。我们的工作旨在将两者结合起来-我们学习的方法的另一个属性是跨实例的表示经典AP-方法解决了每个实例的优化，并获得了一组无序的原语，而我们的方法输出了一组一致的索引原语，解析对象、场景和3D动画。在大型数据集中利用重复结构的想法一直是无监督对象发现和联合分割的核心[31，29]。数据驱动的组合性，特别是，已被用于共同分割[7]，以及场景解析和新场景生成[30，18]。在3D形状领域中，利用组合性的思想对于对象表示、解析和操作也起到了类似的重要作用预标记的、基于部件的形状表示用于捕获类别特定的形状流形[8]，以及生成新的物体[19，17]或从2.5D数据恢复3D [34]。其他方法旨在自动发现3D形状数据集中的这些组件[16]，以及对其相对布置进行建模[40]。与这些基于形状和场景的方法类似，我们的框架可以自动发现一致的组件并理解数据的结构，但我们这样做是通过学习生成简约的解释。深度生成模型。最近通过使用深度学习技术在监督学习任务中的快速进展伴随着对使用类似方法来发现视觉数据中的结构的日益增长的兴趣。最近的一些方法表明，使用生成对抗网络[10，27]可以学习数据的差异，但底层的潜在空间缺乏可解释性。其他生成方法的目的是明确地解耦变异的潜在因素[5，23]，但依赖于监督来解开这些因素。与我们的工作更密切相关的是，最近的一些方法使用递归网络来迭代生成组件来解释简单的2D输入场景[11，15，6]。我们的工作使用类似的原则，学习组件的复杂形状的解释，其中组件是可解释的3D图元。3. 学习对象汇编我们将给定输入信号I的组装目标对象O的问题公式化为预测（多达）M个不同部分的问题，然后组合这些部分以输出最终形状。为此，我们学习了一个由θ参数化的CNNhθ，它输出一个基于原语的表示。学习这个CNN的任务是一个无监督的任务-然而，即使没有直接监督，也可以通过检查组装的对象是否与目标对象匹配来测量预测的基元配置是否利用这种洞察力，我们制定了一个损失函数，它告诉我们，如果形状组装我们-2637图2：我们的方法概述给定与对象O相对应的输入体积，我们使用CNN来预测图元每个零件的形状和变换参数{（zm，qm，tm）}（第3.1节）。预测的参数隐含地定义了变换后的体积本原函数{P<$m}，其组成诱导了一个组合形状。我们使用一个损失函数来训练我们的系统由预测参数隐含定义（第3.2节）。使用预测的基元匹配目标形状并优化此损失以训练CNN。我们的方法概述如图2所示。给定目标形状的离散化表示作为输入，我们使用CNN来预测原始表示（在第3.1节中描述）。预测的表示implementation定义了一个组装的形状组成的预测的图元。第3.2节描述了一个允许在学习框架中使用这种表示的可微虽然最初的介绍假设使用固定数量的原语，但第3.3节扩展了我们的方法，允许使用可变数量的原语。3.1. 基于原语的表示我们通过组合预测的简单变换基元来表示组合形状每个图元根据元组（z，q，t）编码，其中z表示其在规范框架中的形状，并且（q，t）表示空间变换（旋转和平移）。因此，由神经网络hθ预测的组装形状可以写为如下。{（z m，q m，t m）|m = 1，···，M}= h θ（I）（1）这种参数化的动机是利用零件的组合性以及“什么”和“在哪里”（零件形状和空间变换分别）的独立性。将形状表示为一组部件允许关于语义上分离的单元（如椅子腿、座椅等）的独立推理。根据零件形状和变换参数的分解进一步分解了变化因素，如3.2. 组合形状我们想到定义一可微损失函数L（{（zm，qm，tm）}，O）之间的CNN预测{（zm，qm，tm）}和目标对象O. 这是一个chal-参数化形状，而地面实况是由三角形组成的网格。为了克服这一点，我们利用这样一个事实，即参数化的简单的原语允许有效的计算的一些属性的形状诱导其组成。特别是，我们可以计算组装形状的距离场（第3.2.1这使我们能够定义两个互补的损失，共同旨在最大限度地减少预测和地面实况形状之间的差异。覆盖损失试图强制对象O被预测的组装形状所包含。一致性损失强制执行另一个方向通过一起优化这些损失，我们确保组装的形状尽量与目标物体保持一致。3.2.1预赛记法。我们用Pm表示根据zm预测的未变换的格，并用Pm表示旋转、平移后的图元Pm，（qm，tm）。因此，由所预测的原始值的组成所诱导的最终形状是φ P<$m。M我们用函数S（·）来表示正则表达式的表面，p∈S（ · ）表示在其上采样的随机点，例如，pS（P<$m）对应于在第m个基元的表面上采样的点。我们还需要对sim进行标记复数刚性变换-注意，运算R、T都是可区分的。距离场对应于物体O的距离场C（·;O）是计算到物体最近点的距离的函数R3→R+请注意，它评估在对象内部设置为0。因为预测和地面实况有不同的3D表示C（p;O）=min<$p−p′<$2p′∈O（二）2638MMMM+++MmM3.2.2C overageLoss：OPm.M如果目标对象O不完全被预测的形状φP<$m覆盖。M确保这一点的一个充分条件是距离场对于O曲面上的所有点，装配形状的值为零。使用该损失计算预测参数的梯度的一个方面是在给定正则未变换基元p′S（Pm）上的采样点的梯度的情况下计算zm的导数的能力。我们通过使用重新参数化技巧[22]来做到这一点，该技巧将参数化，从随机抽样中抽取的参数。作为示例，考虑在矩形上采样的一个点，L1（{（zm，qm，tm）}，O）=EpS（O）C（p;P<$mM（3）（−w，−h）到（w，h）。可以使用u= uw[−1，1]和x=uw来代替x坐标采样为x<$[−w，w]。这采样的重新参数化允许计算Δ x。由于具有良好的性质，距离场很容易证明，一个组合形状的距离场等于所有组合形状的距离场的逐点最小值：C（p;P<$m）=minC（p;P<$m）（4）∂w我们提供了应用重新参数化附录[1]中长方体基元的技巧。3.3. 允许可变数量的基元到目前为止，我们提出的框架重构了M m对象类别中的每个实例使用精确的Mprimi-该分解规则将整个形状下降到基本体的距离场。在下文中，我们展示了如何有效地计算作为长方体的基元的C基本体的距离场。给定一个以原点为中心的长方体，用z<$（w，h，d）表示-Ccub（p; z）2=（|p x|2+（|p y|2+（|p z|− d）2考虑一个对象O（带有一个关联的字段C（·;O））经历旋转R（由四元数q参数化）fol-提维斯然而，在一个对象类别中的不同实例可以用不同数量的原语来解释，例如，有些椅子有把手，有些没有。为了结合这一点，除了预测每个基元的形状和变换之外，我们还预测其存在的概率pm。我们首先讨论CNN预测的修改后的表示，并讨论损失函数如何将其合并。原始代表。正如我们上面提到的，原始表示有一个附加的参数pm为了结合这一点，我们将原始形状zm分解为两个分量MM被翻译成T。点pw.r.t.处的距离场这里zs表示图元长方体变换后的物体与p′处的距离场相同height、width、depth）和ze伯尔尼（pm）是一个Wrt. 正则对象，其中p′= R−1（p − t）。这一点-二进制变量，它表示如果原始实际上是ex，servations允许我们通过定义即如果ze=0我们假设第m个原语C（p;P<$m）（方程中4）如below.不存在. CNN在这种情况下的预测是，C（p;P′m）=C（p′;Pm）;p′=R（T（p，−tm），q<$m）（5）下面{（z s，q m，t m，p m）|m = 1···M}= h θ（I）（8）C（·;Pm）=Ccub（·;zm）（6）3.2.3 一致性损失：P<$mO。Mmz e 伯尔尼（pm）;zmM我们想惩罚CNN的预测，如果预测shapeP<$m不完全在目标对象O内部。一请注意，CNN预测pmBernoulli分布，其中部分存在可变z e 被采样。这种表达方式允许预测-M一个充分的条件是确保距离场对象O形的值对于individualprimit iv esP<$m的表面上的所有点都为零。Σ可变数量的部件，例如，如果椅子是最好的，如果使用k M个基元来解释，则网络可以仅对k个基元预测高pm，而对剩余的M-k个基元预测低pm。L2（{（zm，qm，tm）}，O）=EpS（PmM）C（p;O）C（7）学习在重新表达的表达式下，CNN输出不会引起唯一的assem，此外，我们还观察到，要对P<$m表面上的一个点p进行采样，可以在未变换的基元Pm的表面上对p′进行等价2639采样，然后根据（qm，zm）旋转、平移p′。p<$S（P<$m）<$T（R（p′，qm），tm）;p′<$S（Pm）出血形状-它在这种情况下，我们希望最小化可能的程序集之间的预期损失。第一步是将一致性和覆盖损失修改为incorpo，速率zm∈（zs，ze）。对此，我们注意到，MM2640MMMMMMMMM变换后的基元Pm是长方体（如果ze=1）或L（hθ（Ii），Oi），其目的是使空（如果ze =0）。如果它是空的，我们可以简单地跳过使用Ii预测的组装形状与目标匹配它是这个原语的一致性损失（第3.2.3节）并且可以通过修改方程将其并入覆盖损失（第3.2.26如下─对象Oi.实施详情。覆盖率和一致性损失函数都是使用对sam的期望来定义的C（·;Pm）=.∞，如果ze=0Ccub（·;z s），如果ze=1（十）pled points.实际上，我们在S（O）上随机抽取1000个点，以实现Eq。 3和150点，从每个S（P′）满足Eq. 7.第一次会议。为了有效地计算差异，嗯嗯目标物体O在任意点p处的辐射场我们现在可以使用下式定义最终损失L（hθ（I），O）：概念发展。请注意，这只是预期的当量7，我们预先计算密集规则网格中样本的距离场及其导数，并使用它来获得有效的ze的可能采样损失根据PM.近似梯度C（p，O）布吕普L（{（zm，qm，tm）}，O）=L1（{（zm，qm，tm）}，O）+L2（{（zm，qm，tm）}，O）（11）L （ hθ （ I ）， O ） =E<$mze<$Bern （ pm ） L（{（zm，qm，tm）}，O）在这种损失函数下，连续变量的梯度，即{（zs，qm，tm）}可以通过在样本上平均它们的梯度然而，为了计算分布参数pm的梯度，我们使用REINFORCE算法[38]，如果总体误差较低（奖励较高），则基本上给出正反馈，否则给出负反馈。为了进一步鼓励简约，我们在计算pm的梯度时包括一个小的简约奖励（选择更少基元的奖励）。另一个实际困难是，原始存在概率Pm在初始训练阶段在初始阶段，如果图元被不正确地放置，CNN可以学习预测非常小的Pm，而不是学习正确地对齐图元为了克服这一点，我们使用两个阶段的训练过程。我们首先使用一个固定的高pm值训练网络，然后允许网络也学习pm，同时通过外部简约奖励来鼓励简单性。如图5所示，这样做的效果是首先使用大量原语，然后在后面的阶段将它们合并在一起并使用更少的原语。在训练CNN之后，当计算对象的组装表示时，我们使用 MLE 估计而不是采样，即。 z e=π （ p m>0.（五）。的4. 实验数据集。我们主要使用ShapeNet [4]数据集进行实验，该数据集包含大量3D模型。特别是，我们使用了“飞机”和“椅子”对象类别，它们有数千个可用的网格。ShapeNet模型已经在标准框架中对齐，并且具有固定比例。此外，为了证明刚性物体之外的适用性，我们还手动下载并类似地预处理了一组对应于四条腿动物的大约100个模型。网络架构和培训。上面描述的数据集为我们提供了一组3D对象{Oi}。响应于Oi，我们CNN的输入是一个离散化的表示为大小为32<$32 <$32的体积占用网格Ii（我们稍后在第5.3节中使用渲染图像作为输入进行实验）。如图2所示，我们的形状装配器中使用的编码器将占用网格作为输入，并将其通过3D卷积和完全控制。具有中间非线性的连接层，以输出原始参数{（z s，q m，t m，p m）|m = 1···M}<$h θ（I i）.在这项工作中，我们使用长方体基元和zs代表长方体的宽度，高度和厚度我们使用ADAM [21]根据损失来训练我们的网络.2641使用CNN的最终形状预测可能仍然存在，Dant部分，并且我们使用简单的后处理步骤来通过去除与其它部分显著重叠的部分来细化预测。结果和分析。我们在图3中显示了我们的方法对三种对象类别的结果我们观察到，预测成功地捕捉到了粗糙的结构，并在整个观测过程中是一致的。结果表明，我们可以处理一个类别内的结构变化，例如。图3右侧的对象具有与左侧的对象不同的结构，左侧的对象在数据集中更常见。我们在图5中可视化了迭代中的训练误差。我们观察到，在初始训练阶段（最多20000次迭代），随着学习正确的配置，损失迅速减少。在训练的第二阶段，当我们允许学习pm时，错误最初会增加-这是因为一些原语，受到简约奖励的鼓励，现在开始消失，网络最终学会使用更少的原语。即使在初始阶段的重建误差较低，使用较少的基元的重建，更简约。这提供了一个关于表示简约和重建准确性2642图3：我们的方法在椅子，动物和飞机上的最终预测。我们在左侧可视化更常见的模式，并逐渐向右侧显示预测的罕见配置。图4：训练进度的可视化。我们...在每10，000次迭代（从左到右，在列2-6中）之后，对两个实例（在列1中示出）的预测进行优化最后一列显示了后处理后的结果，以删除与其他人明显重叠的冗余部分。最初的训练阶段（最多20，000次迭代）使用所有基元，但我们后来允许网络学习使用更少的基元，预测逐渐变得更加简约。5. 应用我们在图1和图3中观察到，推断的表示在一个类别中是一致的它们也描述了潜在的形状，并且通过构造是可解释的。因此，我们的框架允许我们使用3D模型的集合来自动发现描述性的、一致的和可解释的形状抽象凭借这些属性，我们的表示可以使几个应用程序相关的形状相似性，部分发现，感知和形状操纵。图5：我们绘制了训练迭代中的覆盖率（L1）和一致性（L2）损失。损失在训练的初始阶段（多达20，000次迭代）都有所减少，但当我们允许使用不同数量的原语以及简约奖励时，损失最初会增加。这揭示了表示简约性和重建精度之间的权衡。5.1. 无监督解析和对应所学习的基元分解对于获得跨实例的部件级对应是有用的由于我们在对象类别中使用一个公共网络，因此更倾向于使用简单和一致的解决方案来解释数据。同样的原始解释了椅子背对着血淋淋的食物。我们可以利用这一观察结果，通过为点分配标签来提取类别中的对应关系，根据解释它们的基元，我们将每个点分配给具有最小C（p，P ′ m）的基元，优先考虑较大的因此我们使用预测的基元分解获得实例中所有点的一致标记-我们还在Shape COSEG上评估了这种解析[37]2643图6：预测图元在原始形状上的投影。我们将原始形状中的每个点p分配给具有lOwest距离场C（p，P<$m）的相应的本原i v e。我们通过根据指定的原语对每个点着色来可视化解析过程我们看到类似的部分。飞机机翼、座椅等。颜色一致。图7：使用各种距离度量计算的嵌入- a）基于体素IoU的距离b）我们的（所有基元）c）我们的（椅背，座椅基元）d）我们的（椅背方向）。而基于IoU的嵌入合并了不同的精细层次结构（例如，带/不带句柄），我们使用所有原语的嵌入分别对它们进行编码。此外，与常见的形状表示不同，我们的推断抽象使我们能够控制相似性度量椅子靠背和座位，如预期的那样，导致忽略椅子把手的存在。我们也可以专注于特定的属性，例如。椅子靠背方向，并观察在这种情况下出现的1D流形。高分辨率图像见附录[1数据集通过使用注释的地面实况测量准确性。虽然地面实况只有3个集群（椅背，座位，腿），但我们的方法以及以前的非监督方法[32，37]将形状聚类到更多数量的分区（在我们的情况下是图元的数量）中，并为每个分区分配一个地面实况标签进行评估。我们获得了89.0%的平均准确率，而[32]报告的初始和细化解析的准确率分别为78.6%和84.8%。定性结果见附录[11不幸的是，我们发现[32]使用了Shape COSEG数据集的初步版本[37]。我们无法获得这个初步版本，因此结果不完全可比。中的算法[37]确实使用了当前的数据集，但没有报告定量结果。5.2. 可解释的形状相似性我们的形状组装器的训练CNN映射每个3D形状到对应原语参数{（zm，qm，tm）}。这些参数简洁地捕获了基础对象的几何体。我们发现一个简单的嵌入空间中的欧几里德距离是形状相似性的可靠我们使用这个距离来计算形状的t-sne [26]嵌入，并在图7中可视化1000个随机实例。我们观察到，自动发现的结构捕捉相似性比一个简单的体素IoU为基础的度量，集群对应于自然的子类别，例如。沙发等。我们的方法的一个独特之处是形状嵌入是可解释的，而不是使用原始的页面，2644通过为所有部件设置距离度量，我们可以修改距离度量，以关注应用程序感兴趣的细节。作为一个例子，我们显示了得到的t-sne嵌入，如果只有2个原语，对应于背部和座位，用于计算跨形状的距离。我们观察到，嵌入反映了所需的相似性，例如。与使用所有图元来测量形状相似性的情况不同，现在将具有和不具有把手的椅子嵌入到一起。我们还计算了距离测度的嵌入，该距离测度仅测量特定部分（椅背）的方向差异（qm）因此，与常见的形状表示不同，我们的推断抽象使我们能够控制相似性度量。图8：使用真实图像输入的推断抽象。图9：我们通过使用推断的图元表示将源网格（顶部）变形为与目标网格（底部）相似的形状。每一个源网格点都被指定为最接近的图元的框架中的局部坐标。从源配置到目标配置的基元变形会导致变形网格（如右图所示）。5.3. 基于图像的抽象给定我们的训练模型hθ，其使用体积输入推断原始基于图像的预测模型gθ′。我们通过渲染具有随机光照和背景的ShapeNet模型（如[33]中所建议的获得体积图像对（Vi，Ii）预测，即我们训练gθ′以最小化<$h θ（Vi）−gθ′（Ii）<$2。这种蒸馏技术[14]用于使用配对数据来训练用于预测类似于预先训练的CNN的输出的模型是常见的[13]，并且先前也被用于学习形状嵌入[9]。我们发现，我们可以成功地将其应用到我们的场景中，并学习基于图像的预测模型，该模型输出底层形状给定一个单一的图像。我们在图8中显示了一些结果。这表明，人们可以学习使用不同的输入来预测形状抽象，并且这可能使机器人设置中的应用成为可能，在机器人设置中，这种推断可能有助于抓取、规划等。5.4. 形状操作基于推断的基元的形状抽象可以用作骨架以指导对底层对象的操纵。我们可以给每个网格点在其对应图元的框架中分配一个局部坐标（如5.1节所计算的）。相应图元的旋转、平移或缩放可由此引起相关联网格点的全局坐标的变化。我们在图9中展示了一些示例，其中我们将源网格变形虽然本例中使用的变换是使用目标网格定义的，但也可以将我们的表示用于其他变换，例如：使腿变长或使背部倾斜等。6. 结论在这项工作中，我们采取了一种无监督的，数据驱动的方法来解释视觉信息的简单原语。从一般化圆柱[3]和几何[2]的经典工作中获得灵感，我们也认为任何视觉解释都必须根据3D体积实体，而不是2D像素块。然而，与这一领域的早期工作不同，我们坚信数据驱动，让数据本身发现最佳表示。我们证明了数据驱动的三维理解的视觉世界在一个非常简单的设置-解释对象从立方体图元的适用性这仅仅代表了朝向生成视觉输入的简约描述的目标的第一步，并希望这将激励进一步的努力，包括使用更广泛的基本参数化图元目录，以理解世界的底层3D结构。确认我们感谢Saurabh Gupta和David Fouhey进行了有见地的讨论。这项工作得到了英特尔/NSF视觉和体验计算奖IIS- 1539099、NSF奖IIS-1212798和伯克利奖学金的部分支持。我们非常感谢NVIDIA公司捐赠用于本研究的Tesla GPU引用[1] https://shubhtuls.github.io/volumetricPrimitives/appendix.pdf的网站。四、七[2] I.比德曼按组件识别：人类图像理解理论。心理学评论，1987年。二、八2645[3] T. O. 宾福德计算机视觉IEEE系统与控制会议，1971年。一、二、八[4]A. X. 张， T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H. 苏肖湖，加-地Yi和F. Yu. ShapeNet：一个信息丰富的3D模型库。技术报告arXiv：1512.03012 [cs.GR]，2015。5[5] B. Cheung，J.A. Livezey，A.K. Bansal和B.A. 奥尔斯豪森发现深层网络中隐藏的变化因素。arXiv预印本arXiv：1412.6583，2014年。2[6] S. Eslami ， N. Heess ， T. Weber ， Y. Tassa ， K.Kavukcuoglu和G. E.辛顿注意，推断，重复：使用生成模型快速理解场景。arXiv预印本arXiv：1603.08575。2[7] A. Faktor和M.伊拉尼按成分共分段。在ICCV 2013年。2[8] N.鱼，M.阿韦尔基乌岛vanKaick，O. 索尔金-霍农，D. Cohen-Or和N. J. Mitra形状族的元表示。Transactionson Graphics（SIGGRAPH），2014年。2[9] R. Girdhar，D. Fouhey，M. Rodriguez和A.古普塔。学习一个可预测的和生成的矢量表示的ob-batch。在ECCV，2016年。8[10] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利，S。奥扎尔A.Courville和Y.本吉奥。生成对抗网络。在NIPS，2014。2[11] K.格雷戈尔岛Danihelka，A. Graves和D.维尔斯特拉Draw：用于图像生成的递归神经网络。arXiv预印本arXiv：1502.04623，2015。2[12] A.古普塔A。A. Efros，和M。赫伯特块世界重新访问：使用定性几何和力学的图像理解。在ECCV。2010. 2[13] S. Gupta，J. Hoffman，and J.马利克监督转移的交叉模态提取。在CVPR，2016年6月。8[14] G. Hinton，O.Vinyals和J.Dean. 在神经网络中提取arXiv预印本arXiv：1503.02531，2015。8[15] J.Huang和K.墨菲图像的遮挡感知生成模型中的高效推理。arXiv预印本arXiv：1511.06362，2015。2[16] Q. Huang，V. Koltun，and L. Guibas关节形状分割的线性规划方法。ACMTransactions on Graphics（TOG）ACM，2011年。2[17] Q. Huang，H.Wang和V.科尔顿。通过图像和形状集合的联合分析实现单视图ACM Transactions on Graphics（TOG），2015年。2[18] P. Isola和C.刘某场景拼贴：具有语义层的自然图像分析与合成。InICCV，2013. 2[19] E. Kalogerakis，S. Chaudhuri，D. Koller和V.科尔顿。基于构件的形状合成的概率模型ACM Transactions on Graphics （ TOG ）， 31 （ 4 ）：55，2012。2[20] A. Kar，S. Tulsiani，J. Carreira和J.马利克从单个图像重建特定类别的对象CVPR，2015。2[21] D. Kingma和J. BA. Adam：一种随机优化方法。arXiv预印本arXiv：1412.6980。5[22] D. P.Kingma和M.威林自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。4[23] T. D. Kulkarni、W.Whitney，P.Kohli和J.B. 特南鲍姆深度卷积逆图形网络。arXiv预印本arXiv：1503.03167，2015年。2[24] Y. Li，H.苏C. R. Qi，N. Fish，D. Cohen-Or和L.吉巴斯联合嵌入的形状和图像通过cnn图像净化。TOG 2015. 2[25] J. J. Lim，H. Pirsiavash和A.托拉尔巴解析宜家ob-bush：精细姿态估计。在ICCV 2013中。2[26] L. v. d. Maaten和G.辛顿使用t-sne可视化数据。JMLR，2008年。7[27] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv：1511.06434，2015。2[28] L. G.罗伯茨机器对三维固体的感知。麻省理工学院博士论文，1963年。2[29] M. Rubinstein，A. Joulin，J. Kopf，and C.刘某互联网图像中的无监督联合目标发现与分割。在CVPR 2013中。2[30] B. 罗素，A.Efros，J.西维克湾Freeman和A.齐瑟曼。通过匹配图像组合分割场景NIPS，2009年。2[31] B. C. 罗素，A.A. Efros，J.Sivic，W.T. 弗里曼和A.齐瑟曼。使用多分割发现图像集合中的对象及其范围。在CVPR 2006中。 2[32] O. 西迪岛van Kaick，Y.Kleiman，H.Zhang和D.科恩-或者。通过向量空间谱聚类对一组形状进行无监督联合分割。 ACM Trans. on Graph-ics （ Proc. SIGGRAPHAsia），2011. 7[33] H.苏C. R. Qi，Y. Li和L.吉巴斯为cnn渲染：使用经渲染3d模型视图训练的cnn进行图像中的视点估计。在ICCV，2015年。8[34] M. Sung，V. G.金河，巴西-地Angst和L. Guibas用于形状补全的数据驱动结构先验 ACM Transactions onGraphics（TOG），2015年。2[35] A. van den Hengel，C.罗素，A. Dick，J. Bastian，D.普莱湖Fleming和L.阿加皮托从图像中对复合场景进行基于零件的建模。在CVPR 2015。2[36] S. Vicente，J. Carreira，L. Agapito和J.巴蒂斯塔重构Pascal语言。CVPR，2014。2[37] Y. Wang，S.阿萨菲岛van Kaick，H. Zhang，L. Cohen-Or和B.尘一组形状的主动协同分析。ACM Transactionson Graphics（TOG），2012年。六、七[38] R. J·威廉姆斯简单的统计梯度跟踪算法用于连接主义强化学习。机器学习，1992年。5[39] Y.湘河，巴西-地Mottaghi和S. Savarese超越Pascal：野外三维物体检测基准。InWACV，2014. 2[40] Y. Zheng，L.等，中国粘蝇D. Cohen-Or，M. Averkiou和N. J. Mitra重新生成形状集合中的零件排列. 计算机图形论坛（Eurographics 2014），2014。2

下载后可阅读完整内容，剩余1页未读，立即下载