二维到三维转换中点云变形的GraphX卷积方法

39 浏览量更新于2023-10-12 收藏 2.23MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8628二维到三维转换中点云变形的GraphX卷积方法李延世大学{adnguyen，csh0772，wooyoa，slee}@ yonsei.ac.kr摘要本文提出了一种新的从单幅静止图像重建物体点云的深度方法。本领域中的现有技术由于低效且昂贵的3D表示、输出与模型参数的数量之间的依赖性合适的计算操作。我们建议通过两个步骤将随机点云变形为对象形状来克服这些问题：特征混合和变形。在第一步中，从2D对象图像中提取的全局和特定于点的形状特征与随机生成的点云的编码特征混合，然后将该混合物发送到变形步骤以产生对象的最终代表点集。在变形过程中，我们引入了一个称为GraphX的新层，它考虑了点之间的相互关系，如常见的图形卷积，但在无序集上操作此外，通过一个简单的技巧，该模型可以生成任意大小的点云，这是第一个这样做的深度方法。大量的实验验证，我们优于现有的模型和减半的国家的最先进的距离分数在单图像三维重建。1. 介绍我们的世界是三维的，我们的感知也是三维的。让机器像我们一样看世界是计算机视觉的最终目标到目前为止，我们在2D机器视觉任务方面取得了重大进展，但从2D进行3D推理仍然非常具有挑战性。三维形状推理在计算机视觉中至关重要，因为它在机器人、建模、图形学等方面起着至关重要的作用。目前，给定来自不同视点的多个图像，计算机能够估计感兴趣对象的可靠形状。然而，当我们人类看一张2D图像时，由于我们的经验，我们仍然在一定程度上理解了底层的3D空间，但机器远没有达到我们的感知水平。因此，一个至关重要但要求很高的问题是，我们是否可以帮助机器实现类似的图1.一个展示我们模型能力的样本。(a)RGB输入图像。(b)2k点。(c)由PCDNet生成的40k点云（d）模型的地面实况点云人类的3D理解和推理能力起初，解决方案似乎不太可能，因为当我们从3D到2D时，一些信息会永久丢失。然而，如果机器能够像人类一样事先学习形状，那么它可以毫不费力地从2D推断出3D形状。深度学习，或大多数情况下，深度卷积神经网络（CNN），最近在计算机视觉中显示出有前途的学习能力。然而，目前还没有一种简单有效的方法将深度学习应用于3D重建。深度学习的大多数现代进展都是在信号有序和规则的领域-图像，音频和语言仅举几例，而常见的3D表示（如网格或点云）是无序和不规则的因此，不能保证2D实践中的所有花里胡哨的东西都能在3D实践中发挥作用。其他3D结构可以导致更容易的学习，例如网格体素，但以计算效率为代价此外，这些结构中的量化误差可能会削弱数据的自然不变性[23]。在这方面，我们提出了一种新的深度方法，从单个2D图像重建对象的3D点云表示。尽管点云表示不像网格或CAD模型那样具有吸引人的3D几何特性，但在变换和变形方面它是简单有效的，并且可以生成高质量的形状模型[4]。我们对现有技术的洞察导致了预期系统的几个关键属性的实现：（1）模型应该不仅基于局部特征进行预测8629而且是高级语义，（2）该模型应当考虑点之间的空间相关性，以及（3）该方法应当是可缩放的，即，输出点云可以是任意大小的。为了继承所有这些属性，我们建议分两步来解决这个问题：特征混合和变形。在第一步中，我们从2D输入对象图像中提取特定于点的全局形状特征，并将其融入随机生成的点云的编码特征中。通过将点云简单投影到来自编码图像的形状特征上来对于全局信息，我们从图像风格转换文献中借用了一个概念简单且适合于我们的问题公式的想法。每个点和全局特征由变形网络处理，以产生给定对象的点云尽管全局形状特征很简单，但仅仅引入它就已经帮助所提出的系统超越了现有技术。为了进一步改进此基线，在变形步骤中，我们引入了一个名为GraphX的新层，该层可以学习点之间的相互关系，如常见的图卷积[17]，但可以对无序点进行操作集. GraphX还线性组合了类似于X卷积的点[18]，但在更全局的范围内。手持更强大的火力，我们的模型超越了所有现有的单图像3D重建方法，并将当前最先进的距离度量减少到一半。最后，我们展示了所提出的模型可以为给定对象生成任意大小的点云，这是根据我们的知识来这样做的第一种深度我们的模型生成的CAD椅子模型的预测点云示例如图1所示。为了简洁起见，我们称所提出的方法为点云变形网络（PCDNet）我们的贡献是三方面的。首先介绍一种新的3D重建模型，它是第一个生成任意大小的点云表示。其次，受图像风格转换文学的启发，提出了一种新的全局形状特征.由于点云的提取是一个对称映射，因此网络不受点云无序性的影响。最后，我们提出了一个称为GraphX的新层，它可以学习无序集合中点之间的相互连接。为了方便将来的研究，代码已在https上发布：//github.com/justanhduc/graphx-conv网站。2. 相关工作三维重建是计算机视觉中的圣杯问题之一。解决这个问题的最传统的方法可能是运动中的结构[25]或X中的形状[1，22]。然而，前者需要来自稍微不同的视点的同一场景的多幅图像和优秀的图像匹配算法，而后者需要光源的先验知识以及这使得它主要适用于工作室环境。一些早期的研究也考虑从数据中学习形状先验。值得注意的是，Saxenaet al.[24]构建了一个马尔可夫随机场来模拟图像深度和各种视觉线索之间的关系，以重建场景的3D“感觉”。在一项类似的研究中，[7]的作者学习了不同的语义可能性来实现相同的目标。最近，深度学习，或最有可能的深度CNN，已经迅速改善了包括3D重建在内的各个领域[5，6，8，11基于深度学习的方法可以通过学习图像中可用的对象的几何形状并对其余部分进行幻觉化来从单个图像重建对象，这要归功于从图像估计统计数据的惊人能力。所获得的结果通常比传统的单图像3D重建方法更令人印象深刻Wu等人。[32]采用条件深度信念网络来建模体积3D形状。Yan等人。[33]介绍了一种通过透视损失规则化的编码器-解码器网络，以从2D图像预测3D体积形状。在[31]中，作者利用生成模型任意生成3D体素对象。Tulsianni等人[29]将射线跟踪引入图片中，以从包括3D体素模型的图像中预测多种语义。然而，已知体素表示是低效的并且在计算上不友好[4，30]。对于网格表示，Wang et al.[30]通过使用图形卷积逐渐变形给定输入图像的椭圆形网格，但是网格表示需要开销的掩码，并且图形卷积可能导致计算掩码，因为需要掩码。已经有许多研究试图在没有3D超视的情况下重建物体[9，19，28]。这些方法利用模型的多视图投影来绕过对3D监督信号的需要。最接近我们的工作也许是范等人。[4]的文件。作者提出了一种编码器-解码器架构，具有各种快捷方式，可以直接将输入图像映射到其点云表示。直接生成点集的扩展方法的一个缺点是可训练参数的数量与输出云中的点的数量成比例因此，点云大小总是有一个上限。相比之下，提出的PCDNet通过变形点云而不是制造点云来克服这个问题，这使得系统更具可扩展性。3. 点云变形网我们的总体框架如图2所示。给定一个输入对象图像，我们首先使用CNN对其进行编码，以提取多尺度特征图。从这些特征中，我们进一步提取出物体的全局和点特定的形状信息。然后将获得的信息混合到随机生成的点云中，并将混合物馈送到变形网络。所有的模都是可微的，8630图2. PCDNet概览。该网络由三个独立的分支机构组成。图像编码：这个分支（中间）是一个CNN，它获取输入图像并将其编码为多尺度2D特征图。特定于点的形状信息提取：这个分支（顶部）是无参数的，它只是将初始点集投影到每个尺度的2D特征图上，以形成特定于点的特征。全局形状信息提取：最后一个分支（底部）是处理随机生成的点云和来自CNN的2D输出特征的MLP。特征和相同尺度的2D特征图被馈送到AdaIN算子以产生全局形状特征。所有特征加上点云被连接并输入到变形网络。因此，它可以在任何当代深度学习库中进行端到端的训练。在下面的部分中，我们将详细描述所有步骤3.1. 图像编码我们使用类似于[30]的VGG架构[26]来编码输入图像（图2中间分支）。该结构值得注意的方面是，它是一个前馈网络，没有任何捷径，从较低的层，它consists的几个空间下采样和信道上采样在同一时间。这种架构允许原始图像的多尺度表示，并且当涉及到形状或纹理表示时，已经显示出比具有跳过连接的现代设计更好地工作[20，30]。3.2. 特征融合3.2.1点特定形状信息在[30]之后，我们通过将点投影到图2（顶部分支）所示的特征图上来提取每个单独点的特征向量。具体地，给定初始点云，我们计算本文借用了意象风格转移的概念。图像风格转移涉及机器如何艺术地复制图像的在目标图像上而不重写其内容。我们发现这种风格转移和我们的问题公式之间的类比，在这个意义上，给定一个初始点云，这是类似于风格转移中的目标图像，我们希望将对象的为此，我们建议通过自适应实例归一化（AdaIN）[ 8 ]对初始点云进行首先，我们通过一个简单的多层感知器（MLP）编码器处理初始点云，该编码器由几个完全连接（FC）层组成，以获得多个尺度的特征。我们注意到，这里的尺度数等于图像特征图的尺度数，并且特征的维度与相同尺度下的特征图通道数令来自MLP的ci维特征集和来自CNN的尺度i的2D特征图为Yi<$Rci和Xi∈Rci×hi×wi （ci通道，高度hi和宽度wi）。我们将二维到三维AdaIN定义为每个点都使用摄像机内部函数。由于得到的坐标是浮点的，我们使用双线性插值对特征向量进行重采样请注意，AdaIN（Xi，yj）=σXiyi−µYiXiYi、（1）投影和全局形状特征的图像特征映射3.2.2全局形状信息全局形状信息由图2中的底部分支获得。为了得到全局形状信息，其中yj∈Yi是云中点jµXi 而σXi 是所有空间位置上Xitak的平均值和标准差，µYi和σYi是要素中点云的平均值和标准差空间我们定义的基本原理是，从全局的角度来看，一个对象的形状可以描述的平均形状和相关的方差。我们可以找回这些σ+µ8631KKK图3.GraphX的一个例子首先，通过根据混合权重组合所有给定点fi来计算新点nk然后，新的点被W从当前空间F映射到新的空间Fo，并被非线性激活h（·）激活。为了简洁起见，省略了偏差来自2D输入图像的平均形状和方差，然后但不幸的是，该算子被设计用于需要邻接矩阵的网格表示。由于这些缺点，需要具有类似功能但具有更大自由度的算子来确保在无序点集上的有效本文受图卷积的简单性和X-卷积的工作方式的启发，提出了图X-卷积（GraphX），它具有与图卷积类似的功能，但适用于像 X- 卷积这样的无序点集GraphX的直观说明是如图3所示。操作开始于混合输入中的特征，然后应用通常的FC层。设FjRdj是馈送到变形网络的第j层的d j维特征的集合。为了表示简单，我们丢弃层索引j并将输出集表示为FoRdo。在数学上，GraphX被定义为嵌入到初始的3D点云后，在4.4节中，我们将展示一个实验来加强我们的观点。（1）A（n）=A（n）=A（Σfi∈Fwik fi+bk）+bk，（2）3.2.3点云特征提取在提取了全局和每个点的特征之后，为了获得每个点的单个特征向量，我们简单地将这两个特征与点坐标联系在一起。我们注意到，我们的特征提取与PointNet[23]的特征提取有些相似，因为这两种方法都考虑了全局和逐点特征以及全局特征的对称性。与[23]中的语义分割类似，点云生成应同时依赖于局部几何和全局语义。每个点更重要的是，由于全局语义不会随着点的排列而改变，因此全局特征必须相对于排列是不变的。虽然在[23]中采用了最大池，这是有意义的，因为该方法只强调关键特征来预测标签，但我们在这里使用均值和方差，因为它们自然地表征了分布。3.3. 点云变形我们现在进行到我们的方法的最后一个阶段，通过NN产生输入对象的点云表示。为了产生一个精确的和代表性的-为了更好地处理点云，有必要在集合中的点之间建立一些通信。X-卷积（X-conv）[18]似乎符合我们的目的，因为运算符是在每个点的邻域中进行的。不过，是-由于该运算符在每次迭代时运行内置的K-最近邻，因此当云大小很大和/或网络具有许多X-conv层时，计算时间非常长另一方面，图卷积[17]考虑了点（或在这种情况下顶点）的局部相互作用其中f（o）是Fo中的第k个输出特征向量，wik，bk∈R是对应于每对（fi，f（o））的可训练混合权重和混合偏置，W∈Rd×do和b∈Rdo是FC层的权重和偏置，h是可选的非-线性激活GraphX的公式可以被看作是一个全局图卷积。GraphX不是只学习相邻点的权重，而是学习整个点集。这个定义基于我们的假设，即在点云中，每个点都可以传递或多或少的关于其他点的信息，因此我们可以让学习决定网络应该集中在哪里。尽管如此，学习一个完整的像图卷积那样的每个点的d×d ×o权重矩阵因此，我们认为，我们将权重分解为所有点的固定W和自适应部分wik，它只是标量。我们的方法是在考虑点的关系方面也类似于X-conv，但是虽然X-conv的混合矩阵是由神经网络从点的局部计算的，我们的算法是直接学习的，并适用于整个点集，因此能够学习局部到全局的先验知识。如果点云的大小很大，学习混合操作仍然可能很昂贵。一种解决方法是从一个小点云开始，然后逐渐对其进行采样，|Fo|>>| F|.因此，计算量和存储量可以大大减少。可选择地，GraphX也可以在下采样方向上使用，这在点云编码中很有用。遵循使用剩余连接[6]来增强梯度流的趋势主要分支包括FC层（由ReLU激活），然后是GraphX层。与[6]一样，剩余分支是一个恒等式，8632层的输出尺寸不改变，否则为FC层。当使用Res-GraphX的上采样版本（应称为UpResGraphX）时，残差分支必须是另一个GraphX以考虑点集的扩展。在变形网络中，我们采用三个分别具有512、256和128的（Up）ResGraphX模块，并在顶部放置线性FC层。更多技术细节请参阅补充资料。4. 实验结果实作详细数据。我们使用倒角距离（CD）来衡量PCDNet的预测和地面实况之间的差异为了完整起见，我们将两个点集X，Y之间的CD写为R3点云，这是四个竞争模型中最相似的方法。Pixel2mesh利用图形卷积变形预定义的网格到对象形状给定的RGB输入。最后，GAL除了CD之外还采用对抗性损失[5]和多视图重投影损失来估计代表性点云。PCDNet变体。我们测试了PCDNet的五种变体：(1)具有FC变形网络的朴素模型，（2）a具有残余FC（ResFC）变形网络的模型，（3）具有GraphX的模型，（4）具有ResGraphX的模型，以及（5）具有UpResGraphX的模型有关这五种架构的更多详细信息，请参阅补充资料和我们的网站。指标. 为了使PCDNet更容易在后续研究中作为基线，我们报告了两个常见的度量分数，即CD和交集（IoU）。CD 是我们的主要标准，这并不是因为PCDNet是使用CD训练的，而是因为它与人类的行为更相关L（ X，Y）=1|X|Σx∈X最小值x−y<$2+y∈Y21|Y|Σy∈Y最小值为y −x<$2。x∈X2（三）ception [27].IoU量化两个输入集之间的重叠区域关于IoU，我们首先将点集体素化为32×32 ×32网格并计算分数。我们请注意，虽然PSG学习如何体素化以实现损失由Adam优化器优化[16]学习率为5e-5，默认指数衰减率。为了限制函数空间，我们将一个小的（1e-5）L2正则化项纳入损失。我们发现，安排学习率有助于在后期加速优化，因此我们将其乘以0。3在时期5，8.训练在3.5天内总共运行了10个时期，NVIDIA TitanX 12GB RAM。在所有培训场景中使用批量4在训练的每次迭代中，我们初始化一个随机点云，以便给定固定的相机本质，点云的投影覆盖整个图像平面。如果没有另外指定，我们在所有实验中使用2k个点的初始点云数据我们在ShapeNet数据集上训练和评估了我们的模型[2]。ShapeNet是公开的最大的3D CAD模型集合。我们使用了ShapeNet核心的一个子集，由大约50k个模型分为13大类。我们使用了数据库附带的默认训练/测试分割。所有超参数的选择完全基于训练损失的收敛渲染图像和地面实况点云由[3]友好提供。与以前的作品不同，我们只使用灰度图像，因为我们发现使用RGB时没有明显的好处。基准方法。我们将我们的PCDNet与当前最先进的方法进行了比较，包括3D-R2 N2 [3]，点集生成网络（PSG）[4]，像素到网格（Pixel 2 mesh）[30]和几何对抗网络(GAL)[10 ]第10段。3D-R2 N2旨在通过利用3D RNN架构为3D重建提供统一的框架，无论问题是单视图还是多视图。PSG是一种回归器，它直接将RGB图像转换为最好的IoU和GAL被间接训练以最大化IoU，我们在[9]中使用了一种简单的体素化方法。4.1. 与最新技术水平方法的4.1.1定性结果我们首先比较PCDNet和PSG获得的结果结果如图4所示。从图中可以看出，即使是我们的朴素公式在所有情况下也容易优于竞争方法。虽然PSG的估计点云非常稀疏且具有高方差，但PCDNet的点云具有非常清晰和坚固的形状。由于我们提出的方法中嵌入了全局和逐点特征，我们的模型更好地保留了外观和细节。我们还在Pix 3D拍摄的一些真实物体图像上测试了我们最好的模型PCDNet-UpResGraphX [27]。我们将提供的遮罩应用于对象图像，并让模型预测图像的点云表示我们也用同样的方法得到了PSG的结果。该场景具有挑战性，因为照明和遮挡与CG图像大不相同。然而，PCDNet得出的结果令人惊讶地印象深刻。显然，我们的预测更可靠，因为形状比PSG更精确，更容易识别。我们强调，不是椅子或桌子的对象是分布外的，因为类似的对象不包括在训练中。这表明我们的方法能够分析和推理形状，而不仅仅是记住它在训练中看到的东西。1PSG提供了一个模型，将图像和掩码的拼接作为输入，但结果实际上更糟。8633图4. PSG [4]和PCD Net的不同变体在ShapeNet上的定性性能。我们的结果比PSG产生的结果更密集，更准确。图5. PSG [4]和PCDNet-UpResGraphX在Pix 3D拍摄的一些真实图像上的定性性能。与我们的预测相比，PSG的预测具有很高的方差，我们的预测呈现出清晰而坚实的形状。4.1.2定量结果表1列出了多氯二苯并呋喃净与其他多氯二苯并呋喃净的衡量标准。正如预期的那样，多氯二苯并呋喃网的所有变种都以巨大的差距超过了所有竞争方法具体来说，我们最简单的模型（FC）的平均CD分数已经比最先进的模型高出两倍。对于IoU，我们的方法仍然位居榜首，并提高了GAL错误设置此外，在PCDNet的所有变体这并不奇怪，因为GraphX的架构旨在对点云中的点的全局语义和局部关系进行建模，这对于表征点集是必要的[18，23]。另一方面，具有（Res）FC层的变形网络几乎独立地处理每个点（点在前向通过，但在后向通过中共同计算梯度），因此预测输出坐标而不以语义形状信息或局部相干性为条件，这肯定会降低性能。尽管如此，CD的收益是以较低的IoU为代价的。这可能表明，为了两全其美，应该设计一个新的损失函数来同时优化这两个指标。一个有希望的解决方案可能是CD和重投影损失的组合，如[9]或[10]中所述令人惊讶的是，使用UpResGraphX的模型实现了最佳性能。这很有趣，因为这个模型使用的参数比GraphX家族中的我们测量了PCDNet-UpResGraphX2和Pixel 2 mesh3的乘法累加（Mac）触发器。我们的模型只有1.91 GMac，2使用https://git.io/fjHy9。3使用tf.profile。8634表1.不同的单图像点云生成方法在ShapeNet的13个主要类别上的定量性能“↑”表示越高越好。“↓”表示反对意见。最佳性能以粗体突出显示。类别表车椅子平面沙发火器灯船只板凳扬声器内阁监测手机是说CD↓3D-R2N2 [3]1.1160.8451.4320.8951.1350.9934.0091.2151.8911.5070.7351.7071.1371.445巴黎圣日耳曼[4]0.5170.3330.6450.4300.5490.4231.1930.6330.6290.7560.4390.7220.4380.593Pixel2mesh [30]0.4980.2680.6100.4770.4900.4531.2950.6700.6240.7390.3810.7550.4210.591我们的（FC）0.3140.2200.3330.1270.2890.1280.5600.300.2110.4710.3100.2750.1810.286我们的（ResFC）0.3050.2160.3210.1230.2840.1230.5430.2280.2040.4740.3090.2720.1810.276我们的（GraphX）0.2990.1920.3170.1230.2650.1270.5490.2140.2020.4330.2720.2580.1590.262我们的（ResGraphX）0.2910.1880.3130.1200.2590.1240.5290.2140.1990.4300.2750.2570.1590.259我们的（UpResGraphX）0.2840.1840.3060.1160.2540.1190.5230.2100.1890.4190.2650.2480.1550.252IoU↑3D-R2N2 [3]0.5800.8360.5500.5610.7060.6000.4210.6100.5270.7170.7720.5650.7540.631巴黎圣日耳曼[4]0.6060.8310.5440.6010.7080.6040.4620.6110.5500.7370.7710.5520.7490.640GAL [10]0.7140.7370.7000.6850.7390.7150.6700.6750.7090.6980.7720.8040.7730.712我们的（FC）0.6760.8200.6930.7790.7840.7570.5520.7690.7390.7130.7690.7640.8460.743我们的（ResFC）0.6880.8210.7040.7910.7860.7650.5730.7720.7460.7150.7700.7650.8480.750我们的（GraphX）0.4870.7200.5500.7340.6450.7150.4870.7050.5920.6170.6770.6800.8210.648我们的（ResGraphX）0.5320.8330.6890.7660.7900.7510.5320.7630.7380.7240.7810.7570.8580.732我们的（UpResGraphX）0.6050.8190.6630.7580.7700.7470.5160.7540.7250.7080.7700.7350.8570.725的64个潜在的代码使用双线性插值。最后，我们对代码进行解码，并将结果排列在8×8的网格中，如图6所示。可以看出，PCDNet在对象之间平滑地插值，无论是在类似的对象（如椅子和桌子）之间，还是在陌生的对象（如椅子和飞机）之间。还保留了一些语义;例如，椅子的腿变成了桌子的腿。这证明了网络学习了一个平滑的函数，并且可以在对象空间上很好地推广，而不是简单地将质量放在已知对象上。图6.从椅子（左上）、桌子（右上）、汽车（左下）和飞机（右下）的内插潜在表示生成的样本。Pixel2mesh有1.95 GMac。从这一结果，假设的性能提高，由于额外的计算能力可以排除。我们推测，其他模型轻微遭受过拟合由于大量的参数。值得注意的是，GraphX的上采样版本在点云上采样中可能很有用，它涵盖了点云致密化的问题。4.2. 潜插值在本节中，分析来自特征提取过程的潜在表示。我们假设，为了使变形网络生成准确的点集表示，潜在的必须包含丰富的形状信息。为了说明我们的观点，我们进行了一个插值实验，在潜在的空间。我们随机选择了四个输入图像，并根据3.2节获得了它们的潜在表征。接下来，我们合成了一个凸集合，4.3. PCDNet的可扩展性和GraphX为了生成一个密集的点云，我们将几个随机的点云进行批量处理，并将其与输入图像一起输入到PCDNet。然后合并输出以获得统一的点云。这是可能的，这要归功于在训练期间的每次迭代中由随机输入云引入的随机性图7显示了PCDNet的可扩展性，其中点数范围从2k到40k。可以看出，点云可以是任意密集的，不像以前的作品总是有一个上限的集合大小。可以注意到，由GraphX系列模型生成的密集点云聚类，我们将其称为聚类效应。图7（最右侧）显示了这种效应的一个示例。为了理解这个问题，我们绘制了一个训练模型的混合矩阵，并观察到一个有趣的现象，从而了解了GraphX可能是如何在幕后工作的。图像如图8（a）所示。类似条形码的图像表明，显然，GraphX懒惰地获取所有特征向量的平均值，然后学会适当地缩放和移动它，这解释了聚类效应。这也加强了[34]中使用的求和运算符的选择，以聚合信息。我们进行了一个实验来验证这一假设，并在图8（b）中绘制了训练曲线（假设的模型称为UpResGraphXS-lim）。尽管这个假设似乎是可行的，但它的学习速度比原始版本慢得多，8635图7.我们方法的可扩展性我们的模型可以通过利用训练中随机生成的点云的随机性来生成任意密度的点云0.040.020.000.020.04（一）（b）第（1）款表2.消融不同特征时PCDNet的定量性能类别表车椅子平面灯是说CD↓我们的（预测）0.6370.2840.4900.1770.6700.452我们的（AdaIN）0.3720.2220.7030.2430.5640.421我们的（满）0.3010.1950.3190.1240.5500.298IoU↑我们的（预测）0.5400.8180.6570.7040.5010.644我们的（AdaIN）0.6510.8400.5750.6670.5230.651我们的（满）0.6940.8440.7250.7500.5660.716图8. (a)一个经过训练的ResGraphX的混合权重。(b)PCDNet（UpResGraphX）和简化版本（UpResGraphXSlim）的训练曲线训练在第5阶段终止。两者似乎并没有随着训练的进展而缩小。我们承认，我们对GraphX的假设观点只是冰山一角，在后续工作中还有更深入的理论分析空间。4.4. 消融研究Setup. 出于时间考虑，我们只对13个主要类别中的5个进行了实验。除了烧蚀特征之外，所有选项和超参数都与主实验中相同结果表2和图9分别显示了消融研究的定量和定性结果。从表中可以看出，只有一个特性（投影或AdaIN）的模型实现了大致相同的性能。投影功能有助于CD评分中的PCDNet和AdaIN提高IoU。这可以很容易地解释为，投影是包含形状细节的逐点特征，这是由像CD这样的点对点度量所另一方面，IoU测量两个体积模型的覆盖百分比，当两个对象具有大致相同的形状但不一定具有所有细微之处时，覆盖百分比可能很高。当两者结合时，两个分数都显着提高，这验证了我们的PCDNet设计。图9中的可视化清楚地说明了每个特征对预测的影响虽然AdaIN功能可以帮助我们的方法正确地建模全局形状（可识别的汽车和椅子形状），但它缺乏可以提供精细细节的信息这与投影特征完全相反，投影特征可以精确地估计一些复杂的模型部分（例如，椅子腿），但整体外观不像AdaIN那样坚固的组合图9.从模型中去除不同特征时PCDNet的定性性能。该图准确地揭示了我们公式中使用的每个特征的贡献。这两个特点在细节和全局视图之间提供了一个平衡，这使得我们的方法能够超越每一个基准。5. 结论在本文中，我们提出了PCDNet，一个架构，变形的随机点集根据输入对象图像，并产生一个点云的对象。为了对随机点云进行变形，我们首先为每个点提取全局和逐点特征。虽然点特定的功能，通过投影后，以前的工作，全球功能提取的AdaIN，从风格转移文学借用的概念有了每个点的特征，我们通过由GraphX组成的网络变形了点云，这是一个考虑到点之间相互关联的新层实验验证了该方法的有效性，为单幅图像三维重建开辟了新的高度确认这项工作得到了三星电子三星研究基金中心的支持，项目编号为SRFC-IT 1702 -08。迭代UpResGraphXUpResGraphXSlim8636引用[1] 约翰·阿洛蒙诺斯从纹理塑造形状。生物控制网络，58（5）：345[2] AngelXChang ， ThomasFunkhouser ， LeonidasGuibas，Pat Hanrahan，Qixing Huang，Zimo Li，SilvioSavarese ， Manolis Savva ， Shuran Song 和 Hao Su 。ShapeNet：信息丰富的3D模型存储库。arXiv预印本arXiv：1512.03012，2015。[3] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3D-R2 N2：用于单视图和多视图3D对象重建的统一方法。在欧洲计算机视觉会议（ECCV）的Proceedings中，第628-644页。施普林格，2016年。[4] Haoqiang Fan，Hao Su，and Leonidas J Guibas.一个点集生成网络从一个单一的图像三维物体重建。在计算机视觉和模式识别（CVPR）IEEE会议论文集，第605- 613页[5] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展（NeurIPS），第2672-2680页，2014年[6] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）的论文集中，第770-778页，2016年[7] Derek Hoiem、Alexei A Efros和Martial Hebert。自动照片弹出。ACM Transactions on Graphics，24（3）：577[8] Xun Huang和Serge J Belongie.实时任意样式传输，具有自适应实例规范化。在计算机视觉国际会议（ICCV）的开幕式上，第1510-1519页[9] Eldar Insafutdinov和Alexey Dosovitsky使用可微分点云进行形状和姿态的无监督学习。神经信息处理系统进展（NeurIPS），第2807-2817页，2018年[10] Li Jiang ， Shaoshuai Shi ， Xiaojuan Qi ， and Jiaya Jia.GAL：单视图3D对象重建的几何对抗损失。在欧洲计算机视觉会议（ECCV）的会议记录中，第802-816页[11] Jongyoo Kim和Sanghoon Lee全深度盲图像质量预测器。 IEEEJournalofSelectedTopicsinSignalProcessing，11（1）：206[12] Jongyoo Kim，Anh-Duc Nguyen，Sewoong Ahn，ChongLuo，and Sanghoon Lee.基于多层次特征的通用图像质量盲评价模型。2018年第25届IEEE国际图像处理会议（ICIP），第291-295页IEEE，2018年。[13] Jongyoo Kim，Anh-Duc Nguyen，and Sanghoon Lee.基于深度cnn的盲图像质量预测器。IEEE Transactions onNeural Networks and Learning Systems，PP（99）：1-14，2018。[14] Jongyoo Kim ， Hui Zeng ， Deepti Ghadiyaram ，Sanghoon Lee，Lei Zhang，and Alan C Bovik.用于图像质量预测的深度卷积神经模型：挑战等数据驱动的图像质量评估的解决方案 IEEE SignalProcessing Magazine，34（6）：130[15] Woojae Kim 、 Jongyoo Kim 、 Sewoong Ahn 、 JinwooKim和Sanghoon Lee。深度视频质量评估器：从时空视觉灵敏度到卷积神经聚合网络。在欧洲计算机视觉会议（ECCV）中，第219-234页[16] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。国际学习代表会议（ICLR），2014年。[17] Thomas N Kipf和Max Welling使用图卷积网络的半监督分类。arXiv预印本arXiv：1609.02907，2016。[18] Yangyan Li，Rui Bu，Mingchao Sun，Wei Wu，XinhanDi，and Baoquan Chen.Pointcnn：x变换点上的卷积神经信息处理系统进展（NeurIPS），第828-838页，2018年[19] Chen-Hsuan Lin，Chen Kong，and Simon Lucey.学习-ING高效率的点云生成密集的三维物体重建。2018年AAAI人工智能会议。[20] AlexanderMordvintsev ， Nicola Pezzotti ， LudwigSchubert，and Chris Olah.可微分图像参数化。Distill，3（7）：e12，2018.[21] Anh-Duc Nguyen、S Choi、W Kim和S Lee。一种简单的多模态和任意风格转换方法。在ICASSP 2019- 2019 IEEE 声学，语音和信号处理国际会议（ICASSP），第1752-1756页[22] 伊曼纽尔·普拉多斯和奥利维耶·福杰拉斯从阴影中形成的形状，第375-388页。Springer，2006年。[23] Charles R Qi， Hao Su ，Kaichun Mo， and Leonidas JGuibas.Pointnet：对点集进行深度学习，用于3D分类和分割。在IEEE计算机视觉和模式识别会议（CVPR）中，第652-660页[24] Ashutosh Saxena，Min Sun和Andrew Y Ng。Make3D：从单个静止图像学习3D场景结构。IEEE transactions onPattern Analysis and Machine Intelligence，31（5 ）：824[25] Johannes L Schonberger和Jan-Michael Frahm. 结构-从运动重新审视。在Proceedings of the IEEE conference onComputer Vision and Pattern Recognition（CVPR），第4104-4113页[26] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。 arXiv 预印本 arXiv ：1409.1556，2014。[27] Xingyuan Sun，Jiajun Wu，Xiuming Zhang，ZhoutongZhang ， Chengkai Zhang ， Tianfan Xue ， J

下载后可阅读完整内容，剩余1页未读，立即下载