单视图三维物体重建的基于点的对象重建方法与倒角距离度量的差异作为损失函数，不足以从全局角度约束3D模型

55 浏览量更新于2023-10-13 收藏 3.46MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

GAL：单视图三维物体重建Li Jiang1，Shao Shuai Shi1，Xiaojuan Qi1，Jiaya Jia1， 21香港中文大学2腾讯优图实验室{lijiang，xjqi，leojia}@ cse.cuhk.edu.hkssshi@ee.cuhk.edu.hk抽象。在本文中，我们提出了一个框架，用于重建一个基于点的三维模型的对象从一个单视图图像。我们发现距离度量，如倒角距离，在以前的工作中使用的测量两个点集的差异，并作为基于点的重建的损失函数然而，这种点-点损失不会从全局角度约束3D模型我们建议增加几何对抗损失（GAL）。它由两个术语组成，其中几何损失确保重建的3D模型的一致形状接近来自不同视点的地面实况，并且条件对抗性损失生成语义上有意义的点云。GAL有利于预测物体的遮挡部分和保持预测的3D模型的几何结构。定性结果和定量分析均表明了该方法的通用性和适用性。关键词：3D重建·对抗性损失·几何一致性·点云·3D神经网络1介绍单视图三维物体重建是计算机视觉中的一项基本任务，在机器人、CAD、虚拟现实和增强现实中有着广泛的应用。最近，随着大规模ShapeNet数据集[2]的可用性和深度卷积神经网络的出现，先前的方法[3，4，7，21]采用了两种类型的表示3D对象。第一种是基于体素的表示，需要网络直接预测每个体素的占用率[3，7，21]。尽管很容易集成到深度神经网络中，但基于体素的表示存在效率和内存问题，特别是在高分辨率预测中。为了解决这些问题，Fan等人 [4]提出了基于点的表示，其中对象由离散点组成。在本文中，我们设计了基于点的表示，考虑其可扩展性和灵活性的基础上，我们的系统。沿着形成基于点的表示的路线，研究人员专注于设计损失函数来测量预测点集和地面实况集之间的距离。使用倒角距离和地球移动器距离2李江，史少帅，齐小娟，贾佳雅(a) 图像（b）[4]-视图1（c）我们的视图1（d）[4]-视图2（e）我们的视图2Fig. 1.预测的说明。(a)包括要重建的对象的原始图像。（b）（d）从两个不同角度看[4]的结果（c）（f）我们的预测结果来自相应的观点。颜色表示（b）-（e）中到相机的相对距离在[4]中训练模型。这些函数惩罚偏离地面实况位置的预测。局限性在于不能保证预测点遵循对象的几何形状。结果可能不位于真实3D对象的流形中。我们在本文中解决这个问题，并提出了一个新的互补损失函数它通过在不同的2D视图中强制预测与地面实况一致并遵循点云的3D语义来GAL是由两个重要的组成部分，即几何损失和条件对抗损失。几何损失使得不同视图中的预测与地面实况一致。关于条件对抗性损失，条件鉴别器网络将2D CNN与PointNet [16]相结合，以提取图像语义特征，PointNet [16]提取预测/地面实况点云的全局特征。来自2D CNN的特征用作相对于输入的语义类实施预测的3D点云在这方面，GAL在全局视角中正则化预测，因此可以与先前的CD [4]损失互补，以便从单个图像中更好地重建对象。图1初步示出了重建质量。当使用倒角距离测量时，通过先前方法[4]的预测与我们的预测相似，仅为0。5%的差异。然而，当从不同的视角观察时，会出现许多噪声点，如图所示。1（b）&（d）在由先前工作产生的预测点云中。这是因为不考虑全局3D几何形状，并且仅采用局部点对点损失。通过几何对抗损失（GAL）来全局正则化预测，我们的方法产生了几何上更合理的结果，如图所示。1（c）&（e）.我们的主要贡献有三方面。– 我们提出了一个损失函数，即GAL，从全局的角度几何正则化预测。用于单视图三维物体重建的3– 我们广泛地分析了不同的损失函数在生成3D对象的贡献。– 我们的方法在ShapeNet数据集中取得了更好的定量和定性结果2相关工作2.1单幅图像传统的3D重建方法[10，1，13，11，8，5]需要多视图对应。最近，来自单个图像的数据驱动的3D重建[4，3，7，21，19]得到了更多的关注。从单个图像重建3D形状此外，人类实际上具有通过使用3D世界的先验知识和视觉经验来推断对象的3D形状的能力，所述对象仅给出其单个视图。以前在这方面的工作可以粗略地分为两类。基于体素的重建一个研究流集中于基于体素的表示[3，7，21]。Choy等人[3]提出应用2D卷积神经网络将关于形状的先验知识编码为矢量表示，然后使用3D卷积神经网络将潜在表示解码为3D对象形状。后续工作[7]提出了对抗性约束，以正则化具有大量未标记的真实3D形状的真实流形中的预测。 Tulsiani等人[20]通过联合学习姿态估计网络和具有多视图一致性约束的3D对象体素预测网络点云重建基于体素的表示在缩放到高分辨率时可能会遇到内存和计算问题。为了解决这个问题，Fan等人引入了基于点云的3D重建表示 [4]。无序点云直接从单幅图像中导出，可以编码更多的三维形状细节。端到端框架直接回归点位置。采用倒角距离来度量预测点云与地面真实值之间的差异。我们遵循这条研究路线。然而我们提出了一种新的可微多视图几何损失来测量来自不同视点的结果，这是对倒角距离的补充。我们还使用条件对抗损失作为流形正则化器，使预测的点云更加合理和逼真。2.2点云特征提取点云特征提取是一个具有挑战性的问题，因为点位于非规则空间中，并且无法使用普通CNN轻松处理。Qi等人。 [16]提出PointNet通过使用多层感知器和全局池来提取无序点表示。并入Transformer网络4李江，史少帅，齐小娟，贾佳雅学习鲁棒的变换不变特征。PointNet是一个简单而优雅的提取点特征的框架作为后续工作，PointNet++在[17]中提出，以集成全局和局部表示，从而大大增加计算成本。在我们的工作中，我们采用pointNet作为预测和地面实况点云的特征提取器。2.3生成对抗网络生成对抗网络[6，22，12，14，9]通过正则化目标空间流形中的预测来创建2D图像。在[7，21]中，生成对抗网络用于从单视图图像重建3D模型。Gwak等人 [7]更好地利用未标记数据进行基于3D体素的重建。 Yang等人[21]从单个深度图像重建3D对象体素。它们在更简单的设置中显示出有希望的结果，因为3D模型的一个视图具有准确的3D位置。与这些方法不同的是，我们设计了一个基于三维点云重建的条件对抗网络，在使用单视图图像的条件下，在相同的语义空间中执行预测。a.条件对抗损失图二、概述我们的框架。整个网络由两部分组成：一个生成器网络，以一个单一的图像作为输入，并产生一个点云建模的3D对象，和一个鉴别器，用于判断地面实况和生成的模型的输入图像的条件。我们提出的几何对抗损失（GAL）由条件对抗损失（a）和多视图几何损失（b）组成。视图n视图2…视图1视图2视图npred…视图1CD一致性约束GT…阴性样本阳性样本指导在发生器预测点云PointNet+不或F几何损失地面-真值鉴别器B.多视图几何损失CNN用于单视图三维物体重建的53方法概述我们的方法从单视图图像产生3D点云。网络架构如图所示。二、在下文中，Iin表示输入RGB图像，并且Pgt表示地面实况点云。如示于图2，该框架由两个网络组成，即，生成器网络（G）和条件鉴别器网络（D）。G与[4]中使用的G相同，由几个编码器-解码器沙漏[15]模块和一个全连接分支组成，以产生点位置。它负责产生将输入图像Iin映射到其对应的点云Ppred的点位置。由于这不是我们的主要贡献，我们建议读者阅读补充材料以了解更多细节。另一个组件-将提取的特征组合在一起作为最终表示。目标是区分所生成的3D预测和真实的3D对象。建立在上述网络架构上，我们的损失函数GAL在全局上正则化预测，以强制其遵循3D几何形状。GAL由两部分组成，如图所示。2，即，在第4.1节中详细描述了多视图几何损失，在第4.2节中详细描述了条件对抗损失。它们与基于点到点倒角距离的损失函数[4]协同工作，用于全局和局部正则化。4几何对抗损失4.1多视图几何损失即使只有一个视图，人类也可以自然地找出物体的形状。这是因为先验知识和知道物体的整体形状在本节中，我们将添加多视图几何约束以在神经网络中注入此类先验。多视图几何损失如图所示。2测量不同视图中的预测点P pred和地面实况P gt之间的几何形状的不一致性。我们首先将点云归一化为以世界坐标的原点为中心。Pgt和Ppred中的点数分别表示为ngt和np。np被预先分配给1024，如下[4]。ngt通常比np大得多。为了测量Pgt和Ppred之间的多视图几何不一致性，给定点集和视图参数，我们针对每个视图合成图像，然后比较从Pgt和Ppred合成的每对图像。图中示出了两个3（bl）-（el）。为了将3D点云投影到图像，我们首先将具有3D世界坐标pw=（xw，yw，zw）的点pw变换为相机坐标pc=（xc，yc，zc），如等式（1）所示。（一）. R和d表示图1的旋转和平移参数6李江，史少帅，齐小娟，贾佳雅(a) 图像（b1）预览1（c1）gt-view 1（d1）预览2（e1）gt-view 2ed(f)点云(b2)预览1(c2)gt-view1(d2)预览2(e2)gt-view2图三. (a)是原始图像。(b1)&（dl）示出了两个不同视图中的预测点云的高分辨率2D投影。(c1)&（e1）示出地面实况点云的高分辨率2D投影。（b2）-（e2）示出了相应的低分辨率结果。(f)显示地面实况和预测点云。摄像机的世界坐标。{x，y，z}轴上的旋转角度从[0， 2π）随机采样最后，点pw被投影到相机平面，函数f为p c= Rp w+ d，f（p w|其中K是相机固有矩阵。我们将我们的视图相机的内部参数设置为Eq. (2)以保证物体完全包含在图像平面内，并且投影区域尽可能多地占据图像。0的情况。5 min（{zc}）min（h，w）u0= 0。5 h，v0= 0。5w，fu=fv=S（2）max（{x} {y}）C c其中h和w是投影图像的高度和宽度。然后，具有大小（h，w）的地面实况和预测点云的投影图像可以分别公式化为Ih，w（p）= .1、如果p∈f（P>），则Ih，w（p）=.1、如果p∈f（Ppred）（三）gt0，否则为pred0，否则其中p索引投影图像的所有像素。合成视图（图3）在高分辨率下具有不同的密度来自地面实况的投影图像如图所示。3（c1）&（e1）比我们在图3中所示的相应预测密度大得多。3（bl）&（dl）。为了解决上述差异，在下文中详细描述的多个分辨率中添加多视图几何一致性损失高分辨率模式在高分辨率模式下，我们将h和w设置为较大的值，分别用h1和w1在此模式下投影的图像可能包含用于单视图三维物体重建的7如图所示的对象的细节3（bl）-（el）。然而，由于Pgt和Ppred中的点数量之间的大差异，从Ppred投影的图像比从Pgt投影的图像具有更少的非零像素。因此，直接计算两个图像的L2距离是不可行的。我们将单个视图v的高分辨率一致性损失定义为ΣL高=（Ih1，w1（p）>0）Ih1，w1（q）2，（4）vpredppredq∈N（p）gt2其中p索引像素坐标，N（p）是以p为中心的n×n块，并且（. ）是当满足条件时设置为1的指示符函数。由于预测的点云比地面实况更稀疏，因此我们仅使用预测图像中的非零像素来度量不一致性。对于Ipred中的每个非零像素，我们找到Igt中的相应位置，并搜索其邻居的非零像素，以减少投影误差的影响。低分辨率模式在高分辨率模式下，我们只检查Ipred中的非零像素是否出现在Igt中。请注意，约束必须是双向的。我们通过将h和w设置为小值h2和w2，使Ipred与Igt具有相同的密度。低分辨率投影图像如图所示3（b2）-（e2）。虽然细节在低分辨率中丢失，但粗略的形状仍然可见，并且可以用于检查一致性。因此，我们将单个视图v的低分辨率一致性损失定义为L低= Σ Ih2，w2（p）−Ih2，w2（p）vpredpGT2其中Ih2，w2和Ih2，w2表示低分辨率投影图像，并且hpredgt2和w2是相应的高度和宽度。低分辨率损失约束地面实况和预测对象的形状是相似的，而高分辨率损失确保了细节。我们将v表示为视图索引。总多视图几何损失定义为ΣLmv=（L高+L低）。（六）V Vv该目标从不同的角度对预测点云的几何形状进行规则化。4.2基于点数的条件对抗损失为了生成更合理的点云，我们提出使用条件对抗损失来正则化预测的3D对象点。生成的3D模型应该与图像提供的语义信息一致。我们8李江，史少帅，齐小娟，贾佳雅在采用PointNet [16]提取预测点云的全局特征。此外，利用原始图像提供的2D语义特征，识别器可以更好地区分真实的3D模型和生成的假模型。因此，对象的RGB图像也被馈送到鉴别器中。Ppred与对应的Iin一起用作负样本，而当训练鉴别器时，Pgt和Iin变为正。在训练生成器的过程中，条件对抗性损失迫使生成的点云尊重输入图像的语义。鉴别器的CNN部分是一个预训练的分类网络，用于提取2D语义特征，然后将其与PointNet [16]产生的特征连接起来，我们注意到，来自我们预测的点云比地面实况更稀疏。因此，我们从地面实况中均匀地采样np个点，总共ngt个点。与传统的GAN不同，它可能是不稳定的，并且具有低收敛率，我们使用LSGAN作为我们的对抗损失。LSGAN用最小二乘损失代替对数损失函数，这使得生成的数据分布更容易条件对抗损失函数定义为：LLSGAN （D）=1[E2Pgtp（Pgt）（D（Pgt|Iin）−1）2+EIinp（Iin）（D（G（Iin）|我在）−0）2]LLSGAN （G）=1[E2Iinp（Iin）（D（G（Iin）|我在）−1）2]（七）在训练过程中，G和D交替优化。G最小化LLSGAN（G），旨在生成与真实模型相似的点云，而D最小化LLSGAN（D）以区分真实和预测点集。在测试过程中，只需要使用经过良好训练的生成器从单视图图像重建点云模型。5总目标为了更好地从单视图图像生成3D点云模型，我们将条件对抗损失和几何一致性损失作为GAL进行全局正则化。我们还遵循[4]中的距离度量，使用Chamfer距离作为局部约束来度量两个点集的点到点相似性。倒角距离损失定义为L（I 得双曲余切值.|G）= 1Σminp−qΣminp−q2。（八）CD在gtngtp∈Pq∈G（Iin）npp∈G（I）q∈Pgt2在全局GAL和点到点距离约束下，总目标成为G=argmin[LLSGAN（G）+λ1Lmv+λ2Lcd]G（九）D=arg minLLSGAN（D）DGT2用于单视图三维物体重建的9其中λ1和λ2控制不同损耗的比率生成器负责欺骗数据库，并重建一个近似地面实况的3D点集。对抗部分确保重建的3D对象相对于原始图像的语义是合理的。多视图几何一致性损失使得预测的点云在不同方向上观看时是有效的预测。6实验我们在ShapeNet数据集[2]上进行实验，该数据集拥有大量纹理CAD模型。我们详细的网络架构和实施策略如下。生成器架构我们的生成器G建立在[4]中的网络结构上，它以192×256图像作为输入，由产生768个点的卷积分支和产生256个点的全连接分支组成，总共产生1024个点。鉴别器架构我们的鉴别器D包含从输入图像提取语义特征的CNN部分和从点云提取特征的PointNet部分，如图所示二、CNN部分的主干是VGG16 [18]。在fc8层之后添加全连接层，将特征维数降至40。PointNet中的主要构建块是多层感知器（MLP）和全局池，如[16]所示。在点上使用的MLP包含具有层大小（64、 64、 64、 128、1024）的5个隐藏层。最大池化层之后的MLP由大小为（512、 256、40）的3个层组成。来自CNN和PointNet的特征被连接在一起以进行最终区分。整个网络使用ADAM优化器以端到端的方式进行训练，批量大小为32。多视图几何丢失的视图数设置为7，这是通过试验不同的视图数并选择提供最佳性能的视图数 h1、w1、h2和w2分别设置为192、256、48和64。在高分辨率模式中用于邻域搜索的块大小被设置为3 ×3。6.1消融研究评估指标我们使用三个指标评估不同方法的预测点云：基于点云的倒角距离（CD）、基于体素的并集相交（IoU）和2D投影IoU。CD测量地面实况点集和预测点集之间的CD的定义见第5节。较低的CD值表示较好的重建结果。10李江，史少帅，齐小娟，贾佳雅为了计算两个点集的IoU，每个点集将通过将点分布到32× 32× 32网格中来进行体素化。我们将每个点视为以该点为中心的1×1×1网格，即点网格。对于每个体素，我们考虑每个点网格和该体素的最大相交体积比作为占用概率。然后通过阈值t将其转换为二值形式。IoU的计算公式为ΣIoU=Σi[Vgt（i）Vp（i）>0]i[Vgt（i）+Vp（i）>0]、（10）其中，i索引所有体素，V是指示函数，Vgt和Vp分别是基于体素的地面实况和基于体素的预测。IoU值越高，表示点云预测越精确。图像GT P-G [4] P-Geo P-Gan GAL见图4。不同方法的单幅图像三维重建的定性结果。对于同一对象，所有点云都从同一视点可视化。为了更好地评估我们生成的点云，我们提出了一个新的投影视图评价指标，即。2D投影IoU，我们将点云投影到用于单视图三维物体重建的11CD×10（越低越好）IoU%（越高越好）P-G P-Geo P-Gan GALP-G P-Geo P-Gan GAL−4图像，然后计算地面实况投影图像和重建投影图像之间的2D交并在这里，我们使用三个视图，即顶视图，前视图和左视图，以综合评价生成的点云的形状。采用192× 256、96× 128、48× 64三种分辨率。不同方法之间的比较为了彻底研究我们提出的GAL损失，我们考虑以下消融研究的设置– PointSetGeneration（P-G）[4]，这是一种点形式的单幅图像3D对象重建方法。我们直接使用由作者发布的代码训练的模型作为我们的基线。– PointGeo（P-Geo），它将第4.1节中提出的几何损失与我们的基线相结合，以评估几何损失的有效性– PointGan（P-Gan），它将基于点的条件对抗损失与我们的基线相结合，以评估对抗损失的有效性。– PointGAL（GAL），它是如图所示的完整框架。2评估我们提出的GAL损失的有效性。表1.不同损失函数下的烧蚀结果。沙发39.15 37.5937.88 34.35 71.71 72.0872.37 73.87内阁22.94 23.08 22.27 22.72 77.61 77.33 77.79 77.22板凳30.77 29.5529.06 27.24 67.90 68.6569.44 70.85椅子37.54 36.7236.51 33.59 66.81 67.8168.35 70.02监测14.65 15.06 13.76 14.93 78.99 79.4079.92 80.39火器44.23 44.16 41.66 42.33 66.76 68.6269.86 71.50扬声器44.10 43.0847.24 41.99 67.68 68.2068.44 69.81灯39.19 39.1842.39 38.25 66.48 67.5068.56 69.98手机31.81 32.0433.30 28.29 75.72 75.9875.86 77.30平面80.20 77.0178.10 76.34 65.20 66.8666.85 68.53表32.67 31.0030.10 28.30 67.93 69.0869.85 71.38车40.51 38.6139.10 36.06 72.05 72.8172.51 73.68船只34.33 34.6334.29 33.01 66.08 66.0366.57 67.50是说40.90 39.6239.79 37.26 68.07 69.1069.64 71.16表1显示了[4]设置后13个主要类别的CD和IoU的定量结果。统计数据显示，我们的PointGeo和PointGan模型在这两方面都优于基线方法[4]CD和IoU指标。最终的GAL模型可以进一步提高性能，并且大幅优于基线。如表2中所示，GAL一致地改进所有视点中的2D投影IoU，这证明了跨不同视点约束几何形状的有效性12李江，史少帅，齐小娟，贾佳雅分辨率192x256分辨率96x128分辨率48x64P-G P-Geo P-Gan GALP-G P-Geo P-Gan GALP-G P-Geo P-Gan GAL表2.2D投影IoU比较。这些图像以三种分辨率投影到三个不同的视点。前视图 0.328 0.3330.334 0.340 0.601 0.6110.613 0.622 0.773 0.7800.782 0.792左视图 0.325 0.3300.330 0.337 0.586 0.5940.594 0.606 0.750 0.7570.758 0.770俯视图0.343 0.3460.349 0.355 0.652 0.6570.663 0.673 0.823 0.8290.832 0.839Mean-IoU 0.332 0.3370.338 0.344 0.613 0.6210.623 0.634 0.782 0.7890.791 0.801(a) 图片（b）GT-v1(c)P-G-v1(d)P-Geo-v1（e）GT-v2（f）P-G-v2(g)P-Geo-v2图五、通过基线模型（P-G）和我们的具有几何损失的网络（P-Geo）从两个代表性观点预测的点云的可视化（b）-（d）是从输入图像（v1）的视点可视化的，而（e）-（g）是从另一视点（v2）合成的。定性比较如图所示。4. P-G [4]预测了不太准确的结构，其中出现了形状扭曲（参见家具的腿和两个物体之间的相反，我们的方法可以处理这些挑战并产生更好的结果，因为GAL从不同的角度惩罚不准确的点，并使用来自2D输入图像的语义信息来正则化预测多视图几何损失的分析我们通过从不同视图检查3D模型的形状来分析多视图几何损失图图5示出了由基线模型（P-G）和具有多视图一致性损失的基线模型（P-Geo）产生的3D模型的两个不同视图P-G结果似乎具有可比性（图1）。5（c））与我们的图中所示。图5（d）示出了当从输入图像视角观察时的图5（d）的图像。然而，当视点改变时，所生成的P-G的3D模型（图1B）将被改变。5（f））可能不适合物体的几何形状。预测的形状与实际形状大不相同（图1）。第5（b）段）。相比之下，我们的重建点云图。5（e）仍然符合地面实况。当用多视图几何损失训练时，网络从不同的视图惩罚不正确的几何外观不同分辨率模式的分析我们进行了消融研究，以分析不同分辨率模式的有效性。仅与用于单视图三维物体重建的13(a) 图像（b）GT（c）P-Geo-High（d）P-Geo-Low（e）P-Geo图六、不同分辨率模式下预测的点云可视化P-Geo-High：没有低分辨率损失的P-Geo。P-Geo-Low：没有高分辨率损失的P-Geo(a)图片（b）GT-v1（c）P-G-v1（d）P-GAN-v1（e）GT-v2（f）P-G-v2（g）P-GAN-v2见图7。P-G表示我们的基线模型，P-GAN表示具有常数损失的基线模型。两个不同的视图不是由“v 1”和“v 2”表示的。在高分辨率几何损失的情况下，预测点可能位于对象的几何形状内部，并且不覆盖整个对象，如图1B所示。6（c）.然而，在仅具有低分辨率几何损失的情况下，点可以覆盖整个对象;但是噪声点出现在形状之外，如图1所示第6（d）段。结合高分辨率和低分辨率损失，我们的训练模型产生了最佳结果，如图所示。6（e）。基于点的条件对抗损失分析我们的基于点的条件对抗损失有助于生成更好的语义有意义的3D对象模型。图图7示出了来自两个不同视图的基线模型（P-G）和具有条件对抗损失的基线模型（P-GAN）之间的成对比较在不探索语义信息的情况下，从P-G生成的点云（图1B）可以被称为“点云”。7（c）&（f））似乎人为的，而我们的结果（图。7（d）&（g））从不同的角度看起来更自然。例如，当从侧视图观察时，P-G生成的椅子不能被识别为椅子（图1）。7（f）），而我们的结果从不同方向看具有更好的外观。14李江，史少帅，齐小娟，贾佳雅(a) 图像（b）P-G -view1（c）GAL-view1（d）P-G-view1（e）GAL-view2见图8。真实世界案例的说明。(a)是输入图像。(b)和（d）示出了从两个不同视角的P-G [4]的结果。(c)以及（f）示出了我们从相应视图得到的预测结果。6.2真实世界物体我们还测试了基线和我们的GAL模型在现实世界的图像。图像被手动注释以获得对象的掩模。最终结果如图所示。8. 与基线方法相比，我们的模型生成的点云而且在大多数情况下，我们预测的点云的几何形状在各种视图中似乎更准确。7结论我们已经提出了几何对抗损失（GAL）从全局的角度来正则化单视图三维物体重建。GAL包括两个组件，即多视图几何损失和条件对抗损失。多视图几何丢失迫使网络学习重建多视图有效3D模型。条件对抗损失激励系统根据原始图像中的语义信息重建3D对象。实验部分的结果和分析表明，由我们的GAL训练的模型在ShapeNet数据集上取得了更好的性能。它还可以从真实世界的图像生成精确的点云。未来，我们计划将GAL扩展到大规模的一般重建任务。用于单视图三维物体重建的15引用1. Broadhurst，A. Drummond，T.W. Cipolla，R.：空间雕刻的概率框架。In：ICCV（2001）2. Chang，A.X.，Funkhouser，T.，吉巴斯湖Hanrahan，P.黄，Q，Li，Z.，Savarese，S.，Savva，M.，Song，S.，Su，H.，等：Shapenet：一个信息丰富的3D模型存储库。05 The Fall（2015）3. Choy，C.B.，徐，D.，Gwak，J.，Chen，K.，Savarese，S.：3d-r2 n2：用于单视图和多视图3D对象重建的统一In：ECCV（2016）4. Fan，H.，Su，H.，Guibas，L.J.：从单幅图像重建三维物体的点集生成网络在：CVPR（2017）5. Funtes-Pacheco，J.，Ruiz-Asce ncio，J.，Rend o'n-M anc ha，J.M. ：Vis ualsim u lta n e u s定位和映射：调查。人工智能评论（2015）6. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair ， S. ， Courville ， A. Bengio ， Y. ：生成性对抗网。在： NIPS（2014）7. Gwak，J.，Choy，C.B.，Chandraker，M.，Garg，A.，Savarese，S.：带有对抗约束的弱监督3D重建（2017）8. Ham¨ming，K.， Petters，G. ：从视频恢复到视频恢复，重点关注短图像序列。03 The Dog（2010）9. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。ArXiv（2017）10. Laurentini ， A. ：基于轮廓的图像理解的视觉外壳概念 03 The Dog（1994）11. Liu，S.，Cooper，D.B.：用于基于图像的3D建模的射线马尔可夫随机场：模型和有效推理。在：CVPR（2010）12. 吕，Y.，Tai Y.W.Tang，C.K.：用于属性引导的人脸图像生成的条件cycleganArXiv（2017）13. Matusik，W.，比勒角拉斯卡尔河Gortler，S.J.，McMillan，L.：基于图像的可视外壳。第27届计算机图形学和交互技术年会论文集（2000年）14. Mirza，M.，Osindero，S.：条件生成对抗网。02 The Dog（2014）15. Newell，A.，杨，K.，Deng，J.：用于人体姿态估计的堆叠沙漏网络。In：ECCV（2016）16. Qi，C.R.，Su，H.，Mo K Guibas，L.J.：Pointnet：3D分类和分割的点集深度学习（2017）17. Qi，C.R.，Yi，L.，Su，H.，Guibas，L.J.：Pointnet++：度量空间中点集的深度层次特征学习。In：NIPS（2017）18. 西蒙尼扬，K.，齐瑟曼，A.：用于大规模图像识别的深度卷积网络。02 The Dog（2014）19. Tatarchenko，M.，Dosovitskiy，A.，Brox，T.：利用卷积网络从单个图像中建立多视图3d模型。In：ECCV（2016）20. Tulsiani，S.，埃夫罗斯，匿名戒酒会Malik，J.：多视图一致性作为学习形状和姿态预测的监督信号ArXiv（2018）21. Yang，B.，温，H.，王，S.，克拉克河Markham，A.，Trigoni，N.：利用对抗学习从单个深度视图进行3D对象重建ArXiv（2017）22. Zhu，J.Y.，Park，T. Isola，P.，Efros，A.A.：使用周期一致对抗网络的不成对图像到图像翻译。ArXiv（2017）

下载后可阅读完整内容，剩余1页未读，立即下载