SurfNet：使用深度残差网络生成3D形状表面

118 浏览量更新于2023-10-17 收藏 1.85MB PDF 举报

深度残差网络

卷积神经网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1SurfNet：使用深度残差网络生成3D形状表面AyanSinha麻省理工学院sinhayan@mit.eduAsimUnmesh IIT坎普尔a. gmail.com黄启星UT奥斯汀huangqx@cs.utexas.eduKarthikRamani Purdueramani@purdue.edu摘要3D形状模型自然地使用顶点和面来参数化，即，由形成表面的多边形组成。然而，使用卷积神经网络的预测和生成任务的当前3D学习范例集中于对象的体素化表示。将传统的2D卷积算子提升到3D会导致高计算开销，但由于大多数几何信息都包含在表面边界上，因此几乎没有额外的好处在这里，我们研究了使用深度卷积神经网络直接生成刚性和非刚性形状的3D形状表面的问题。我们开发了一个程序来创建一致的然后，我们使用这种一致的表示，从参数表示或图像中生成特定于类别的形状表面，通过我们的实验表明，我们的网络学习形状表面的有意义的表示，使其能够在形状方向和姿势之间插值，发明新的形状表面，并从以前看不见的图像重建3D形状表面我们的代码可在https://github.com/sinhayan/surfnet获得。1. 介绍虚拟现实和增强现实技术的出现以及3D打印机的民主化使得开发3D内容的生成技术深度神经网络已经显示出对2D图像的这种生成建模的前景[2，9，24]。使用类似的技术来创建高质量的3D内容还处于起步阶段，特别是因为第三额外维度引入的计算负担[8，10，36]。最近在3D深度学习方面的工作已经论证了第三额外维度的冗余场探测神经网络[18]的作者通过开发自适应3D滤波器来解决体素表示的稀疏占用，以减少图1.（a）原始（左）和最终（右）表面模型之间的3D形状表面插值(b)根据RGB图像的3D刚性（或人造）表面重建，以及（c）根据深度图像的3D非刚性表面重建。曲面的构造采用隐式视点估计。立方学习复杂度根据类似的论点，Sinhaet al.建议学习3D形状表面的2D几何图像表示，以减轻第3额外维度的计算开销[28]。在这里，我们采用几何图像表示，3D形状表面的生成建模。单纯地为形状类别创建独立的几何图像并将其馈送到深度神经网络中无法生成一致的3D形状表面。我们的主要贡献是：(1)通过解决大规模对应问题，为不受切割和中间球面参数化影响的形状类别上的亏格0曲面创建一致和鲁棒的几何图像的过程，以及（2）扩展深度残差网络以自动生成几何图像，该几何图像编码x，y，z曲面坐标，并具有隐式姿态估计和高频保留。刚性以及非刚性形状类别的频率特征。我们证明，使用图像或参数表示作为输入，几何图像作为输出训练的神经网络具有为未见过的图像生成形状表面，中间形状姿势和形状表面之间插值的能力，如图1所示。我们的论文组织如下。第2节讨论相关工作。第三节讨论了几何图像的生成。第4节讨论神经网络架构。第5节给出了我们的方法的结果，第6节讨论了局限性和未来的工作。60406041×≈××××2. 相关工作三维内容的生成是计算机视觉中的一个重要问题。早期的工作集中在3D基元和曲面片的相干合成[3]。最近的基于组件的3D形状创建方法使用概率模型[5，15]或深度学习模型[13]。通过[39]中的3D几何对象类模型获得3D对象的线框估计Kar等人从单个图像中学习用于形状重建可变形3D模型[16]。Huang等人.显示图像和形状收集联合分析能够从单个图像进行3D形状重建[13]。用于生成图像的深度学习架构的成功[2，9]导致这些技术扩展到生成3D形状的模型。3D ShapeNets [37]的作者在使用深度神经网络进行3D形状识别和完成方面进行了开创性的工作Gird- har等[10]使用用于生成的图像和CAD对象来图2. （a）手工网格模型。（b，d）针对不同的手关节呈现的深度图像。（c，e）编码x，y，z坐标的几何图像的对应3D表面图。3.1. 非刚性形状我们使用具有18个自由度（DOF）的运动学手部模型，表示为H（ω），作为手部姿势估计文献中的标准[29]。这里，ω表示18个关节角度参数的集合。我们通过在关节角度的动态和范围约束下对配置空间中的18个关节参数中的每一个进行均匀所有的手部网格模型包含1065个顶点和2126个面，其中每个顶点对应于手部模型上的相同点，并且顶点具有从图像中生成3D形状。在[26]中，展示了用于从噪声输入完成3D形状的体积去噪自动编码器。Choy等人提出了一种用于从单个或多个图像创建3D形状的3D回流重建神经网络[8]。通过将[9]的生成对抗模型扩展到[36]中的3D域来学习3D形状的概率潜在空间所有这些深度学习方法都使用3D体素表示来生成3D形状。在[25]中提出了一种条件生成模型，用于从2D图像中推断3D表示。虽然，这种方法可以生成3D体素或网格，网格表示是有限的标准参数化，限制形状的变化。在[35]中开发了一种3D解释器网络，该网络估计形状的3D骨架。与上述方法不同，我们的主旨是生成表示表面的特定类别的3D点云，而不是表示3D对象的体素我们的工作是由[28]中用于学习3D形状表面的几何图像[11]表示激发的我们的神经网络架构受到深度残差网络[12]的启发，深度残差网络在图像识别任务上取得了令人印象深刻的结果，并且受到[1]中生成椅子的架构考虑的启发3. 数据集创建我们的方法来生成三维形状表面依赖于一个几何图像表示，即。将任意曲面重新网格化到完全规则的网格结构上（参见[11]和补充）。在这里，我们认为汽车和飞机是刚性的典型例子，而手是非刚性形状的例子。我们详细介绍了生成训练3D表面生成神经网络所需的几何图像和RGB或深度图像的过程。所有网格模型之间的连接结构的由于3个腕部旋转角度，数据集覆盖了来自不同视点的宽范围的手关节我们生成200，000个网格文件，并存储18个参数，1065个顶点坐标和相应的深度图像。所有的深度图像被标准化，裁剪和调整大小，使得具有最低深度的像素具有255的最大强度，手居中，并且图像的大小为128 128。接下来，使用[28]的方法对随机选择的网格模型进行真实和球形参数化。由于原始网格模型上的三角形在派生的参数化上保留了它们的面积，因此，真实的球形参数化保留了突出的特征，例如手指这种球形参数化通过首先投影到八面体上然后沿着其8条边中的4条切割它来转换为平坦和规则的几何图像（参见[23]）。几何图像可以用表面网格模型的任何合适的特征进行编码，例如曲率或形状签名[30]（另见补充）。由于我们对重建3D表面感兴趣，所以我们所有的几何图像都是用网格模型上点的x，y，z值编码的。这些图像使用单个网格模型的球形参数化来有效地计算，因为跨手网格模型的所有点自然地彼此对应。所有网格的几何图像的尺寸为64 - 64 - 3，对应于在手上采样的大约4000个当对应信息不可用时，可以使用[6，19，34]等非刚性形状对应方法在网格模型之间建立密集的一对一对应关系图2显示了64 64 3几何图像的网格模型、渲染深度图像和3D表面图。图3示出了对两个不同手部关节的x、y、z6042√××图3. 由于手的关节运动导致的几何图像的变化。这些列分别对应于x、y、z坐标几何图像和由几何图像编码的3D绘图。lations.观察到随着手旋转，y坐标的几何图像中相同空间位置处的强度y1和y2是负相关的。3.2. 刚性或人造形状我们从ShapeNet数据库[4]中创建汽车和飞机网格模型的数据我们讨论了预处理步骤和对应关系的发展，以创建强大的几何图像数据，这些同义词集。预处理：[28 ]的球形参数化技术在网格模型上工作有两个约束。首先，表面网格需要遵循欧拉特征。ShapeNet中的几乎所有网格模型都不遵循欧拉特征，因此，我们首先以分辨率128 128 128对所有网格模型进行体素化，然后以α半径3创建α形状。该α半径保留了从体素化模型导出的表面网格中的孔和锐边在此预处理步骤之后，表面网格现在遵循Euler特征。球面参数化的第二个约束是曲面的亏格为0。我们可以使用[28]中提出的启发式方法，通过在x，y，z几何图像之外创建拓扑掩码来然而，为了简单起见，我们删除了所有的网格模型来自α形准则与非零亏格。我们使用拉普拉斯平滑法对剩余的网格模型进行平滑以消除离散化误差.通信联系人：在表面网格模型上创建x、y、z坐标的几何图像的一种简单策略是独立地对同义集中的所有网格模型执行正交球面参数化，然后使用这些独立的参数化来创建几何图像（补充中的细节）。然而，这种方法在使用卷积神经网络学习期间受到严重限制，如：（1）球面参数化是由面积流导出的，割是在参数化后定义的。不同的切割将导致不同的几何图像相关的旋转和平移。图4显示了两个登记的飞机模型图4. 通过（1）两个飞机模型的独立参数化和（2）通过消除飞机网格之间的对应关系创建的几何图像。图5.通过形状聚类找到的汽车和飞机模型的基本形状和辅助形状在同一个姿势。独立参数化导致x坐标的几何图像旋转相关。生成式神经网络输出几何图像，并且当切割时变得混乱，并且因此，对于相同姿势的形状的结果几何图像是不同的。这类似于在没有任何关于重力方向的事先通知的情况下，通过向神经网络显示对象的任意姿态的若干实例来使神经网络(2)区域分割参数化将导致形状的分量在同一类中的不同形状的几何图像中占据不同数量的像素，例如，与具有小机翼的飞行器相比，具有大机翼的飞行器在几何图像中将具有更多的专用于机翼的像素。神经网络将不得不明确地学习对形状的一个组成部分的注意力，并将其规范化，以抵消这种偏见。我们将独立参数化的形状馈送到神经网络中进行形状生成的实验结果很差。通过对类中的单个形状执行参数化，并建立所有其他形状与该基本形状的对应关系，来解决由类中的形状的独立参数化生成的几何图像的这些问题图4示出了在两个飞机模型之间建立对应之后，在x与独立情况不同，以红色突出显示的曲面切口遵循相同的轮廓。建立具有高类内变异性的表面网格到单个网格模型的鲁棒稠密对应是一个困难的问题。我们通过建立一个形状与几个样本的密集对应来解决这个问题6043›→›→›→××××××××图7. 渲染的RGB图像和在几何图像中编码的相应表面图的示例。图6. 我们开发网格模型和示例形状之间的对应关系，以创建一致的几何图像。使用中心网格模型和右上方的腋窝形状之间的对应关系创建的几何图像示出了低于阈值误差的最佳表面重建，并且随后用于训练神经网络。类中的形状如下。首先，我们使用一个类中形状的D2描述符[22]之间的距离创建一个形状相似性矩阵接下来，我们对K=3的形状相似性矩阵执行谱聚类[20]。选择最接近聚类质心的形状作为样本，并且选择具有最大形状数量的聚类作为基础形状B。另外两个图形作为辅助图形，A。图5显示了汽车和飞机同义词集的基本和辅助形状。我们使用混合内在映射[17]来建立网格模型M和三个示例形状之间的密集对应。基本形状和所考虑的网格模型之间的密集对应可以直接获得MB或通过使用如图6所示的混合固有映射通过中间辅助形状传递对应信息而间接获得MAB。实际上，所有形状都映射到B，同时由于辅助形状而允许更大的类内灵活性。我们对基础网格B执行球面参数化，并使用对应信息创建网格模型M的几何图像（见图6）。我们测量几何图像中编码的表面点到原始网格模型的逐点距离，并移除平均距离大于阈值的所有模型。我们留下了691个汽车模型和1490个飞机模型后，下降的网格模型，具有较差的重建使用其几何图像评价为平均距离。RGB图像使用Blender按照[31]的方法渲染，没有背景覆盖。我们考虑4个仰角[0，15，30，45]和24个方位角，范围为0到360，间隔为15。通过针对方位角和仰角的值旋转形状来创建对应的几何图像图7显示了一些渲染图像的样本和相应的几何图像。图像的大小为128×128×3，所有几何图像的大小为64×64×3，编码x，y，z。4. 深度网络架构我们讨论了两种情况下刚性和非刚性形状的网络架构：（1）从单个图像重建3D形状表面。(2)从参数表示生成三维形状表面的建模。4.1. 从图像重建3D表面受最近深度残差网络[12]在图像分类方面的成功启发，我们提出了一种用于图像（这里是几何图像）生成的深度残差网络扩展。图8左侧显示了用于创建所述几何图像的特征通道。它由标准卷积、上残差块和下残差块组成。上残差块和下残差块分别增加和减少输出大小，它们的组成如图8所示。上残差块由残差上采样块和两个标准残差块组成，而下残差块由残差下采样块和两个标准残差块组成。残差下采样和上采样块之间的区别在于，下采样块中的第一个滤波器是大小为3，1-用零填充并且步幅为2，而上采样块中的第一滤波器是大小为2的卷积转置（有时称为反卷积），2，0-裁剪并且上采样为2。标准残差块中的实线侧箭头是执行标识映射的快捷连接上下残差块中的虚线箭头是使用2× 2卷积完成的转置和11卷积滤波器。所有卷积滤波器的大小都是33。非刚性数据库的输入是128 × 128深度图像，而刚性数据库的输入是128 × 128深度图像。1283 RGB图像。我们尝试使用单个网络和网络输出与几何图像之间的欧几里得损失直接生成几何图像的所有三个x、y、z特征通道然而，该网络的误差在几个时期内会增加，然后趋于稳定.即使在增加倒数第二个残差块6044××p图8.左：用于从图像生成几何图像特征通道的体系结构右图：我们的网络架构的上（红色）和下（绿色）残差构建块由上采样、下采样和标准残差块组成，如中间所示4.2. 来自参数化表示的图9. 用于从一个热编码的类标签和视角（类似于姿态）参数生成刚性形状的几何图像特征通道在输出之前。视觉检查输出的几何图像显示，网络学习了一个类别的平均形状。相反，我们使用图8所示形式的三个独立网络分别学习每个特征通道，因为每个网络都将其全部学习能力用于学习x、y或z几何图像。这些网络生成单个特征通道的误差随着时间的推移平滑地减小。我们的下一个观察结果是，网络平滑了尖锐的边缘，特别是在刚性数据集中。因此，我们采用以下形式的形状感知损失函数：我们反转一个残差网络，从参数化表示生成3D形状表面。非刚性手的参数表示是18维关节角向量H（ω）。刚性数据集的参数表示是两个向量：（1）c-独热编码中的类别标签，（2）θ-编码形状取向的方位角和仰角（每个由它们的正弦和余弦表示以强制周期性）。图9示出了用于从刚性对象的参数化表示生成单个特征通道的几何图像的架构非刚性手的架构是类似的，除了没有视图参数和连接层。该网络包括如上所述的上残差块前两层是完全连接的。我们再次使用单独的网络来学习x，y，z几何图像。我们使用如详细描述的形状感知损失函数来独立地生成x，y，z坐标几何图像，并且通过将三个图像连接成单个64 64 3几何图像来获得手表面。图10显示了为刚性数据集生成曲面图的管道，与所有其他网络有一个关键由于我们对θ参数有明确的控制，因此我们可以生成具有适当Σ最小值|C i|. （u（Ii（θ））−gi（θ））<$2（一）由于θ的变换。本着残余网络的精神，pp2（i，θ）这里，神经网络中的权重的最小化是在所有训练样本和配置上的，up是神经网络学习特征p的输出，输入为Ii（θ），i表示样本数量，θ包括方位角和仰角，gi（θ）是对应于特征p、样本i和角度θ的几何图像。Ci是几何形状样本i逐点平均曲率图像。Ci在学习期间对高曲率区域放置更高的权重，并有助于在重建期间保留尖锐边缘。我们对非刚性数据集采用相同的损失函数。我们使用图9中所示的结构来生成残余几何图像，并且通过将x、y、z坐标的残余几何图像与基本形状的几何图像我们观察到，学习残差几何图像导致更快的收敛和更好地保留形状的高频我们不能在手上执行残差学习，因为由于手腕角度引起的全局旋转是连续的，并且在方位角和仰角上没有离散化。我们不能对从图像生成的刚性形状执行残差学习，因为θ参数隐含在RGB图像中。6045××图10. 用于通过将x、y、z坐标的残差几何图像与基础几何图像相加来从类和视图参数图11. 从单个深度图像重建手的3D形状表面的测试数据集上的第一行是深度图像，第二行是地面实况，第三行是我们的重建。4.3. 培训详情我们使用MatConvNet和Nvidia GTX 1080 GPU来训练我们的网络。学习率为0.01，并且在每5个时期之后，我们将学习率降低10倍。我们从单个图像中训练了3D重建神经网络，具有102层，持续20个时期，并从65层的参数表示中训练了生成网络，持续15个时期。动量固定在0.9。上残差块中的所有校正线性单元（ReLU）的泄漏为0.2。我们尝试了几何图像的分辨率128 - 128（而不是64 - 64），并发现在学习中没有困难，虽然在一个更大的训练时间。我们使用了200，000个手模型中的80%，691个汽车模型和1490个飞机模型用于训练，其余的用于测试从单个图像的重建。我们手动修剪了刚性模型，以删除几乎重复的形状，并留下了484个汽车模型和737个飞机模型，所有这些模型都用于从一个热编码向量中训练生成模型。5. 实验在本节中，我们首先讨论为非刚性手模型生成3D形状表面，然后对为刚性飞机和汽车数据集生成3D形状表面进行我们使用一个参数表示和从一个图像生成表面.图12. 每行显示了我们的神经网络通过输入均匀间隔的参数关节角度向量创建5.1. 非刚性形状图11显示了我们的神经网络在测试深度图像上生成的几何图像的几个3D表面图。我们看到，即使在存在遮挡的情况下，它也能够恢复非常接近地面真实的手部完整例如，在第二个测试案例中，中指从深度图像很好地近似，尽管它遭受高遮挡。我们还注意到，尽管我们训练了单独的神经网络来生成x，y，z几何图像，但组合结果在空间定位方面表现出良好的保真度补充讨论了测试数据集的定量评价。这些结果对于使用深度相机的手部跟踪应用是令人鼓舞的与估计关节角度[7，29]或关节位置参数[27，32，33]的标准方法不同，我们重建了完整的3D表面。我们的方法有可能超越姿态估计，甚至映射个人的手纹理（使用纹理几何图像），以提供虚拟和增强现实应用中的沉浸式体验，我们希望在未来的工作中探索接下来，我们进行实验生成建模的非刚性形状表面从参数表示。我们考虑两种情况。首先，我们为局部关节角度创建两个随机的15维向量，并固定3个全局手腕角度。然后，我们对15维向量的每个维度从第一个随机值线性插值到第二个随机值，并以相等的间隔采样值。图12的前两行显示了通过输入这些内插关节角度矢量输出的3D表面图。我们看到，从第一姿势到第二姿势有一个平滑的过渡，这表明神经网络不仅记住了参数表示，而且发现了手部表面的有意义的抽象其次，我们创建两个随机的18维向量，并从第一向量到第二向量的线性内插关节角度值均匀采样。图12的第三行显示了此设置的输出3D曲面图同样，我们观察到从第一姿势到第二姿势的自然过渡的相同现象。6046图13.从单个RGB图像进行刚性表面的3D重建（a）从单个RGB图像重建汽车（顶部）和飞机（底部）的3D形状表面的测试数据集的结果第一行是深度图像，第二行是地面实况，第三行是我们对这两个类别的重建（b，c）在PASCAL 3D+汽车（b）和飞机（c）数据集上将我们的方法与[16]进行我们显示了回归的观点和一个替代的观点，为每个3D重建，以更好地揭示质量的方法。5.2. 刚性或人造形状从单个图像进行3D表面重建：图13（a）显示了我们的神经网络分别在汽车和飞机的测试RGB图像上生成的几何图像的3D表面图。我们看到，我们的神经网络能够正确地从RGB图像中估计各种类型汽车和飞机的视点和3D形状表面。目前的深度学习方法能够估计视点[31]，或者从图像中重建姿势无关的3D对象[8，10，36]，但不能两者兼而有之。由于能够直接将表面回归到适当的姿态，我们的工作是迈向全自动3D场景重建和完成的一个我们在图13（a）中观察到，重建的表面保留了尖锐的物体边缘，然而在平坦区域（例如汽车的挡风玻璃）上难以实现平滑度。我们假设这是由于独立生成的特征通道，可以通过简单的后处理来消除。我们还观察到，神经网络很难重建具有低强度特征（如黑色条纹）的汽车，因为它无法从背景中识别。我们看到，图13（a）中的飞机尾翼是忠实地重建的，即使地面真实数据中的尾翼由于对应性差而有噪声或不完整。这是因为神经网络学习了3D形状类别的有意义的表示。补充材料提供了测试数据集的其他定量和定性结果。我们还在PASCAL 3D+ [38]数据集的飞机和汽车类别上运行了我们的学习网络，并将其与[16]的方法进行了我们使用地面真值分割掩码对图像进行裁剪和调整大小，并将它们输入到我们的网络中。除了分割掩模，我们允许卡尔等人。方法以具有关键点标签。请注意，我们的方法只输出点坐标的表面，而不是完整的网格。图13（b，c）显示我们的方法能够重建汽车，飞机表面具有良好的精度，几何图像边界附近有小的伪影，而Kar等人。方法很难区分掀背车和轿车，即使使用关键点标签也无法区分机翼的空间范围。然而，我们的网络未能在某些图像上输出连贯的3D重建结果。这些图像大多对比度低，纹理差或视图超出了我们的方位角和仰角训练范围。从一次热编码生成3D表面：本文从重建误差的角度讨论了用产生残余几何图像的方法代替直接图像的优点。我们首先保持恒定的一个热编码，并根据方位角改变训练集的大小图14示出了在方位角之间内插3D形状表面的结果，其中对于每一行，突出显示的形状在训练集中，并且剩余的未看见的3D形状姿态由深度残差网络生成。网络生成看不见的中间姿态的能力反映了网络在内部学习3D形状表面的表示。除了方位角之外，还通过从一个形状表面到另一个形状表面线性地改变独热编码矢量来进一步验证这一点，并且结果在图14的最后一行中示出。我们看到，网络生成的现实中间表面，除了改变方位角。我们进一步实验了图15（a，b）中两个形状表面之间的3D表面插值现象。每行示出了两个形状表面之间的变形，其中第一个和最后一个形状是由神经网络针对两个不同的独热编码矢量进行的3D表面重构，并且中间3个形状表面是通过输入对应于矢量中的有效码的值[0.75，0.25]、[0.5，0.5]、[0.25，0.75]而生成的.在图15（a）中，我们看到形状表面在敞篷车和皮卡（第一排）、跑车和SUV（第二排）以及面包车和吉普车（第五排）之间平滑地变化我们6047图14.方位角之间的形状曲面插值示例突出显示的形状位于训练集中。图15. （a，b）形状表面插值，每行一个变形，在原始模型（左）和最终模型（右）之间。(c)使用我们的深度神经网络架构纠正对应信息，从图像进行3D表面重建。当我们在两个飞机表面的独热编码矢量之间进行在图15（b）的第一行中，我们看到神经网络学习到了飞机机翼的一致内部表示我们希望3D建模者能够从这种生成模型中受益，以创建新的内容。5.3. 对应在网格模型和基础网格之间开发鲁棒的对应关系是我们的管道中的重要步骤，但是充满了挑战，特别是当形状类别具有高的类内变化时。我们证明了由深度神经网络学习的内部表示可以帮助从两个表面网格之间的对应信息中去除噪声，如下所示：（2）从合适的角度渲染其图像，并将其输入神经网络，用于从RGB图像重建形状表面。点坐标的输出几何图像与基础网格的几何图像具有一一对应关系，这反过来又在网格模型之间建立了直接对应关系。这是针对来自15（c）中的汽车训练集的两个模型示出的观察点到点对应关系（对于每个坐标以颜色单独显示）在基础网格的表面上是有噪声的且不平滑的，如由混合固有映射（BLM）确定的当我们使用深度神经网络（DNN）的输出来建立对应关系时，这种噪声会减少，并且指示对应关系保真度的颜色梯度会这种校正机制暗示我们可以使用来自神经网络的反馈来校正训练集中的噪声对应，并结合其他模型来训练神经网络，其精神与[21]类似。6. 结论我们已经提出了可能是第一种使用深度神经网络生成3D形状表面的方法我们目前的方法的一个限制是，它仅限于属0表面，我们希望在未来的工作中删除。我们还希望探索所提出的反馈机制以提高对应性，或者使用更复杂的对应方法（如[14]）来提高和增加训练集的大小。开发能够同时学习多个形状类别和所有特征通道而不降低性能的神经网络是一个很有前途的研究方向。我们被我们生成3D刚性或人造物体以及非刚性或有机形状表面的方法的一般性所鼓舞，并且我们相信它具有生成3D建模和预测3D跟踪任务的潜力。6048引用[1] 书名 / 作者 A. 学习用卷积神经网络生成椅子IEEEInternational Conference on Computer Vision andPattern Recognition（CVPR），2015年。2[2] F. R. Bach和D. M.布莱，编辑们。Proceedings of the32nd International Conference on Machine Learning ，ICML 2015，Lille，France，6-11 July 2015，Volume 37ofJMLRWorkshopandConferenceProceedings.JMLR.org，2015年。一、二[3] W. E.卡尔森基于曲面片求交的三维物体综合算法及数据结构。SIGGRAPH Comput. Graph. ，16（3）：255-263，July 1982. 2[4] A. X. 张， T. 放克豪瑟 L. 吉巴斯 P. 汉拉汉Q. Huang，Z. Li，S. Savarese，M. Savva，S.宋，H.苏和其他人。ShapeNet：一个信息丰富的3D模型库。arXiv预印本arXiv：1512.03012，2015。3[5] S. Chaudhuri，E.卡洛杰拉基斯湖Guibas和V.科尔顿。基于装配的三维建模之概率推理。在ACM SIGGRAPH2011 Papers，SIGGRAPH ACM。2[6] Q. Chen和V.科尔顿。凸优化的鲁棒非刚性配准在2015年IEEE计算机视觉国际会议，ICCV 2015，智利圣地亚哥，2015年12月7日至日，第2039-2047页2[7] C. Choi，A. Sinha，J. Hee Choi，S. Jang和K. Ramani一种实时手部姿态估计的协同过滤方法。在Proceedings ofthe IEEE International Conference on Computer Vision，第2336-2344页，2015年。6[8] C. B. Choy，D. Xu，J. Gwak，K. Chen和S. Savarese 3d-r2 n2：一种用于单视图和多视图3d对象重建的统一方法欧洲计算机视觉会议（ECCV），2016年。一、二、七[9] Z. Ghahramani，M.威灵角Cortes，N.D. 劳伦斯和K. Q. Weinberger编辑神经信息处理系统进展27：2014年神经信息处理系统年会，2014年12月8日至13日，加拿大魁北克省蒙特利尔市，2014年。一、二[10] R. Girdhar，D. F. Fouhey，M. Rodriguez和A.古普塔。学习对象的可预测和生成向量表示。2016. 一、二、七[11] X. Gu，S. Gortler和H.霍普几何图形图像。在2002年美国纽约州纽约市SIGGRAPH'02第29届计算机图形和交互技术ACM。2[12] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。计算机视觉和模式识别（CVPR），2016年IEEE会议，2016年。二、四[13] H. Huang，E. Kalogerakis和B.马林通过深度学习的曲面生成模型分析和合成3d形状族Comput. Graph. Forum，34（5）：25-38，Aug. 2015年。2[14] 问：X. Huang和L. Guibas 基于半定规划的一致形状映射。在第十一届 Eurographics/ACMSIGGRAPHSymposium on Geometry Processing，SGP'13，第177-186页，Aire-la-Ville，Switzerland，Switzerland，2013的会议记录中。欧洲制图协会。8[15] E. Kalogerakis，S. Chaudhuri，D. Koller和V.科尔顿。基于构件的形状合成的概率模型ACM事务处理图表，31（4）：55：1-55：11，July 2012.2[16] A. Kar，S. Tulsiani，J. Carreira和J.马利克从单个图像重建特定类别的对象。在IEEE计算机视觉和模式识别会议，CVPR 2015，美国马萨诸塞州波士顿，2015年6月7日至12日，第1966-1974页，2015年。二、七[17] 诉G. 金，Y。Lipman和T.放克豪瑟混合内部贴图。在ACM SIGGRAPH 2011 Papers，SIGGRAPH ACM。4[18] Y. Li，S. Pirk，H.苏C. R. Qi和L.吉巴斯Fpnn：用于3d数据的现场探测神经网络。神经信息处理系统进展，2016年。1[19] H. Maron，N.德姆岛Kezurer，S. Kovalsky和Y.嘴唇男。通过有效的凸松弛进行点配准 ACM事务处理图表，35（4）：73：1-73：12，July 2016. 2[20] A. Y. Ng，M。I. Jordan和Y.韦斯关于谱聚类：分析和算法.神经信息处理系统进展，第849麻省理工学院出版社，2001年。4[21] M. Oberweger，P. Wohlhart和V.莱珀蒂训练用于手部姿势估计的反馈回路。在2015年IEEE计算机视觉国际会议（ICCV），ICCVUSA，2015. IEEE计算机协会。8[22] R. Osada，T.芬克豪泽湾Chazelle和D.多布金形状分布ACM事务处理图表，21（4）：807-832，Oct. 2002年4[23] E. Praun和H.霍普球面参数化和网格重划分。在ACM图形学报（TOG），第22卷，第340-349页中。ACM，2003年。2[24] A.拉德福德湖，澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习 CoRR ，abs/1511.06434，2015。1[25] D. J. Rezende，S.M. A. Eslami，S.Mohamed，P.巴塔利亚M. Jaderberg和N.海斯图像三维结构的无监督学习。2016. 2[26] A. Sharma，O. Grau和M.弗里茨Vconv-dae：无对象标签的深度体积形状学习。在2016年欧洲计算机视觉会议（ECCV-W）上的几何与深度学习研讨会。出现2[27] T.夏普角凯斯金D.罗伯逊，J。Taylor，J.肖顿D. K. C. R. I. Leichter，A.诉Y. Wei，D.F. P. K. E. 克鲁普卡，A. Fitzgibbon和S.伊扎迪准确、稳健、灵活的实时手部跟踪。在Proc.CHI，第8卷，2015中。6[28] A. Sinha，J.Bai和K.Ramani 使用几何图像深度学习3d形状表面芽孢杆菌中 Leibe ， J.Matas ， N.Sebe 和 M.Welling，编辑，计算机视觉- ECCV 2016：第14届欧洲会议，荷兰阿姆斯特丹，2016年10月11日至14日，会议记录，第六部分，第223-240页，占婆，2016年。施普林格国际出版社. 一、二、三[29] A.辛哈角Choi和K. Ramani Deephand：通过完成具有深度特征的矩阵来进行鲁棒的手部姿势估计。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。二、六[30] A. Sinha和K. Ramani使用随机游走的多尺度内核。Computer Graphics Forum，33（1）：164-177，2014. 26049[31] H.苏C. R. Qi，Y. Li和L.吉巴斯为cnn渲染：使用经渲染3d模型视图训练的cnn进行图像中的视点估计。在IEEE国际计算机视觉会议（ICCV）上，2015年12月。四、七[32] X. 太阳，Y.Wei，S.Liang，X.Tang和J.太阳级联手部姿势回归。在IEEE计算机视觉和模式识别会议论文集，第824-832页6[33] J. Tompson，M. Stein，Y. Lecun和K.柏林利用卷积网络实现人手的实时连续姿态恢复。ACM Transactions onGraphics（TOG），33（5）：169，2014。6[34] L.韦角，澳-地Huang，黄氏拟谷盗D. Ceylan、E. Algaga和H.李使用卷积网络的密集人体对应在计算机视觉和模式识别（CVPR），2016年。2[35] J.Wu，T.作者：J. J. Lim，Y. Tian，J. B. Tenenbaum，A.Torralba和W. T.弗里曼。单幅图像三维解释器网络。欧洲计算机视觉会议（ECCV），2016。2[36] J.Wu，C. Zhang，T.薛，W. T. Freeman和J. B.特伦鲍姆。通过3d生成对抗建模学习物体形状的概率潜在空间。在神经信息处理系统（NIPS），2016年。一、二、七[37] Z. Wu，S.Song，中国黑杨A.Khosla，F.于湖，加-地Zhang，X.唐和J.肖。3d shapenets：体积形状的深度表示。在IEEE计算机视觉和模式识别会议论文集，第1912-1920页2[38] Y.湘河，巴西-地Mottaghi和S. Savarese超越Pascal：野外三维物体检测基准。在IEEE Winter计算机视觉应用会议上，第757[39] M. Z.齐亚，M。斯塔克湾Schiele和K.辛德勒用于物体识别和建模的详细三维表示。 IEEE Transactions onPattern Analysis and Machine Intelligence。TPAMI，（预印本，2013/05），2013年。2

下载后可阅读完整内容，剩余1页未读，立即下载