没有合适的资源?快使用搜索试试~ 我知道了~
and expensive to obtain. Several recent works [23, 21] havefocused on utilizing multi-view 2D supervision in the formof color images and object silhouettes as an effective alter-native training protocol. A key component in these tech-niques is the differentiable rendering module that enablesthe use of 2D observations as supervision using reprojec-tion consistency based losses. However, most of these ap-proaches require multiple 2D view of the same 3D modelalong with the associated camera pose information in thetraining stage. This is a major limitation in applying thesetechniques in a practical setting where such supervisorydata is difficult to obtain.In this work, we set out to tackle a more challengingproblem of learning 3D object reconstructions from imageand corresponding silhouette collections. Given a collectionof images and corresponding object silhouettes belongingto the same object category such as car, with just a singleview from each object instance and no ground truth camerapose information, our goal is to learn 3D object reconstruc-tions (Fig. 1). The proposed approach is practically usefuland enables us to make effective use of the large amountsof 2D training data for learning 3D reconstructions. Sinceit is possible to easily obtain object silhouettes in the ab-sence of ground truth masks, here we make the reasonableassumption that the image collection contains correspond-ing silhouettes. A key challenge in our training setting is tosimultaneously learn both camera pose estimation and 3D111320从图像集合到点云:自监督形状和姿态网络0K L Navaneet 1 Ansu Mathew 1 Shashank Kashyap 1 Wei-Chih Hung 20Varun Jampani 3 R. Venkatesh Babu 101 印度科学院 2 加利福尼亚大学默塞德分校 3 谷歌研究0摘要0从二维图像中重建三维模型是计算机视觉中的基本问题之一。在这项工作中,我们提出了一种用于从单个图像中重建三维物体的深度学习技术。与最近的使用三维监督或多视角监督的方法不同,我们在训练过程中仅使用单视角图像,没有姿态信息。这使得我们的方法更加实用,只需要一个物体类别的图像集合和相应的轮廓。我们以自监督的方式学习三维点云重建和姿态估计网络,利用可微分的点云渲染器进行二维监督训练。该方法的一个关键创新之处是通过随机采样的姿态旋转预测的三维点云,并在三维重建和姿态上强制执行循环一致性,将三维几何推理引入预测的三维点云中。此外,使用单视角监督使我们能够在给定的测试图像上进行测试时优化。在合成的ShapeNet和真实的Pix3D数据集上的实验证明,尽管使用的监督较少,我们的方法在性能上与姿态监督和多视角监督方法相当。01. 引言0三维物体重建是计算机视觉领域的一个长期问题。随着基于深度学习的方法的成功,基于单个图像的三维物体重建任务在近年来受到了重视。该问题有多个应用,如视图合成、抓取和物体操作。早期的基于单个图像的三维重建工作[4, 2,3]利用了完整的三维监督,如三维体素、网格或点云。然而,这些方法需要大量的三维数据进行训练,这在获取上是困难且昂贵的。最近的一些工作[23,21]集中于利用多视角二维监督,以彩色图像和物体轮廓的形式作为有效的替代训练协议。这些技术的一个关键组成部分是可微分渲染模块,它使用重投影一致性损失将二维观察作为监督。然而,大多数这些方法在训练阶段需要同一三维模型的多个二维视图以及相关的相机姿态信息。这是将这些技术应用于实际环境中的一个主要限制,因为这种监督数据很难获取。在这项工作中,我们致力于解决一个更具挑战性的问题,即从图像和相应的轮廓集合中学习三维物体重建。给定一个包含属于同一物体类别(如汽车)的图像和相应物体轮廓的集合,每个物体实例只有一个视角,并且没有地面真实相机姿态信息,我们的目标是学习三维物体重建(图1)。所提出的方法在实际中非常有用,能够有效利用大量的二维训练数据来学习三维重建。由于在没有地面真实掩模的情况下很容易获取物体轮廓,因此我们做出合理的假设,即图像集合包含相应的轮廓。在我们的训练设置中的一个关键挑战是同时学习相机姿态估计和三维0图1.单图像三维重建。输入图像和从重建的三维点云中得到的对应投影。我们使用完全自监督的方法从单个输入图像中重建三维输出。11330重建,同时避免退化解。例如,三维重建的一个退化解是将给定图像中的二维像素提升到三维平面上。尽管这样的平面三维重建完美地解释了给定的图像,但显然不是期望的三维形状。在这项工作中,我们引入了适用于同时学习姿态和重建网络的损失函数,以避免这种退化解。具体而言,我们提出使用几何和姿态循环一致性损失。为了强制几何循环一致性,我们利用了同一3D模型的多个二维视图在重建时必须得到相同的3D模型的事实。然而,需要注意的是,这些多个二维视图是在我们的框架中利用每个模型的单个图像获得的中间表示。为了正确回归姿态值,我们从随机视点获得投影以强制姿态预测的一致性。受到使用多个二维视图进行监督时重建性能显著提高的观察的启发,我们旨在以自我监督的方式利用附加图像作为监督。然而,由于我们的问题设置限制了每个3D模型的视图数量为一个,我们有效地以自我监督的方式从训练集中检索具有相似3D几何的图像。我们将它们作为额外的监督,以跨轮廓一致性的形式辅助姿态和重建网络的训练。由于我们的方法是自我监督的,我们可以通过在推理过程中进行额外的优化来使我们的网络在给定的测试输入图像上获得更好的重建结果。我们提出正则化损失以避免在单个测试样本上过拟合。这确保了从输入视点更准确的三维重建结果,同时保持了遮挡区域的三维结构。我们在合成的ShapeNet[1]数据集上对我们的方法进行了基准测试,并观察到它在性能上与最先进的多视角监督方法[16,7]相当。我们还在真实世界的Pix3D[18]数据集上评估了我们的方法,并展示了与姿态监督方法[16]相比相当或更好的性能。我们还展示了我们的方法在密集点对应和三维语义部分分割方面的可能应用。据我们所知,这是第一个完全自我监督的从图像和轮廓集合中进行三维点云重建的方法。总结起来,我们在这项工作中做出了以下贡献:0•我们提出了一个完全自我监督的框架,实现了基于单个图像的三维点云重建。•我们分别在姿态和三维重建上引入循环一致性损失,以辅助姿态和重建网络的训练。0•我们有效地从几何相似的模型中挖掘图像,以实现跨轮廓一致性,从而显著改善重建结果0•我们进行了彻底的评估,以展示所提出方法的每个组件的有效性,包括在ShapeNet数据集上与姿态和多视角监督方法相比的竞争性性能。02. 相关工作0基于单个图像的三维重建近年来,有几项基于学习的工作解决了基于单个图像的三维物体重建问题。最初的工作[4, 2, 3, 19, 5,12]利用了以体素或点云形式的完整三维监督。Choy等人[2]利用多个输入来改进体素重建。Fan等人[3]是最早使用深度学习网络从图像学习点云重建的工作之一。他们利用集合距离损失直接回归点的三维位置。Mandikal等人[13]扩展了[3],使用部分感知距离度量计算预测带有部分分割的点云。02D监督方法虽然上述方法取得了有希望的结果,但它们需要真实的3D模型作为监督,这在获取上是复杂且昂贵的。为了克服这个问题,一些研究[23, 21, 22, 24, 11, 15, 6, 20, 7, 16,9]探索了利用2D图像、轮廓、深度图和表面法线图的2D监督方法。这些研究旨在开发从3D表示到2D投影的可微分方式,以便有效地将梯度从2D损失函数反向传播到重建网络。Yan等人[23]通过对体素进行网格采样来实现对基于体素的3D表示的前景掩码投影。使用多个视点的投影损失来训练网络。类似地,Tulsiani等人[21]使用可微分的射线一致性损失来重建形状信息和颜色等特征。该工作在[20]中得到扩展,提出了一种基于多视图一致性的损失,同时预测3D相机姿态和物体重建。受到点云提供的计算和性能优势的启发,一些研究致力于设计用于投影3D点的渲染模块。Insa-futdinov和Dosovitskiy[7]以及Navaneet等人[15,16]开发了可微分的投影模块,将点和相应的特征投影到2D平面上,实现对轮廓、深度图、图像和部分分割等2D表示的训练。(2)11340投影0点云重建0点云重建0几何循环一致性损失0姿态循环一致性损失0图像一致性损失0投影模块0图2.方法概述。我们提出了一种基于循环一致性的方法,从一组图像及其对应的前景掩码中获取3D重建。我们使用基于编码器-解码器架构的网络来回归点云重建的3D坐标ˆP。姿态网络用于从输入图像中获取3D相机姿态预测ˆv。DIFFER[16]用于在预测视点中渲染重建。此外,还从随机采样的姿态投影重建,以获取k个投影,再用于重建k个点云ˆPk。我们对ˆP和ˆPk施加3D循环一致性损失来训练Nrec。类似地,随机采样的姿态和对应的投影被视为伪地面真值标签,以施加姿态循环一致性损失。图中的红色虚线箭头表示提出的损失。0弱监督方法 在弱监督方法中,[8, 14, 10, 16, 20,7]与我们的方法最接近。Mees等人[14]利用平均3D物体模型以自监督的方式学习3D重建。Li等人[10]使用自监督方法生成3D模型,但不从RGB图像进行重建。在SSL-Net[17]中,3D模型用于在进行自监督重建之前预训练网络之一。据我们所知,我们是第一个仅通过一组图像和相应的轮廓获得彩色3D点云重建的方法。03. 方法0我们的目标是在自监督环境中从单个图像中获得3D点云重建。为此,我们提出了一种基于学习的方法,使用基于编码器-解码器架构的网络来预测重建。设I为输入网络的图像,M为前景对象掩码,ˆP∈RN×3为通过重建网络Nrec获得的相应点云重建(参见图2)。N是重建点云中的点数。在没有真实3D模型的情况下,我们所有的监督数据,即输入图像和相应的轮廓,都位于2D域中。为了利用这些2D观测来训练网络,我们需要将重建的点云投影到2D图像平面上。我们使用DIFFER [16]和CAPNet[15]提出的可微分投影模块分别从给定视点获得颜色和掩码投影。与输入图像相关联的视点v由摄像机在3D空间中的方位角和仰角值来描述。0固定距离离开物体。我们使用另一个编码器网络Npose来获得视点预测ˆv。重建的点云从预测的视点使用可微分投影模块进行投影,以获得2D图像和掩码预测ˆI和ˆM。如果预测的视点和重建是正确的,2D投影将与输入图像匹配。为了强制实现这一点,我们使用DIFFER[16]中提出的损失函数来优化重建和姿态预测网络。具体来说,我们使用以下图像(LI)和掩码(LM)损失函数:LI =1hw0∙0i,j ||Ii,j − ˆIi,j||22 (1)0Lbce =1hw0∙0i,j − Mi,jlogˆMi,j − (1−Mi,j)log(1−ˆMi,j)0Laff = ∙0i,j min(k,l)∈M+((i−k)2+(j−l)2)ˆMi,jMk,l0+ ∙0i,j min(k,l)∈ˆM+((i−k)2+(j−l)2)Mi,jˆMk,l (3)0LM = Lbce + Laff (4)0其中h、w分别为2D观测的高度和宽度。M+和ˆM+是非零值的真实投影和预测投影的像素坐标集合。在这个公式中,重建和姿态网络的预测严重依赖于彼此。由于预测的视点用于投影,只有在预测的视点正确的情况下,重建网络才能预测出与输入图像一致的正确3D模型。11350姿态预测是准确的。同样,由于姿态网络参数是使用投影损失进行优化的,只有在重建合理的情况下,预测的姿态值才是正确的。在这种情况下,网络可能会崩溃为退化的解决方案。例如,预测的视点可以在输入和3D重建中保持不变。只要它们从预测的恒定视点中复制输入图像,网络仍然可以实现零损失。为了避免这种退化的解决方案,我们提出了新颖的周期一致性损失来训练重建和姿态网络。03.1. 几何周期一致性损失0我们提出了几何周期一致性损失来训练重建网络(图2),以避免退化的重建结果。重建的点云ˆP从k个随机采样的视点{vi}k1进行投影。令{ˆIi}k1为相应的图像投影。这些图像被用作重建网络Nrec的输入,并得到相应的重建点云{ˆPi}k1。由于每个投影和输入图像都与同一个3D对象相关联,相应的点云必须相互一致。为了强制实现这一点,我们定义几何周期一致性损失如下:0LG =0i=1 dCh(ˆP,ˆPi) (5)0其中dCh(∙,∙)表示两个点云之间的Chamfer距离。重建网络使用掩码和图像损失以及几何周期一致性损失进行训练。0Ltotal rec = α(LI + LM) + βLG (6)03.2. 姿态周期一致性损失0基于投影的损失为训练姿态预测网络提供了弱监督信号。虽然输入图像没有直接的姿态信息可用,但投影图像和相应的姿态对{ˆIi,vi}k1可以被视为伪标签对,用于训练姿态网络。我们将图像投影{ˆIi}k1输入姿态预测网络Npose,以获得相应的姿态预测{ˆvi}k1(图2)。然后使用相应的视点{vi}k1作为训练Npose的真实标签。姿态损失的计算如下:0L pose = 10i =1 | v i − ˆ v i | (7)0姿态网络的最终训练目标是姿态循环一致性损失、图像和掩码损失的组合(Eq.1和4)。这确保了姿态损失依赖于输入图像的姿态预测,并同时通过使用投影图像进行更强的监督进行优化。0输入最近邻 输入最近邻0图3.最近邻样本。我们利用我们的单视图训练的重建网络从训练集中获取k个最近邻样本。请注意,这些邻居具有不同的姿态和不同的颜色分布,但具有相似的3D形状,这为我们提供了有关物体几何的额外信息。0对于输入图像的姿态预测,姿态损失取决于同时使用投影图像进行优化的强监督。0L total pose = γ ( L I + L M ) + ρ L pose (8)03.3. 最近邻一致性损失0早期的研究[15]表明,即使只有一个额外的视图作为训练过程中的监督,也能显著提高重建质量。然而,正如前面提到的,假设在训练过程中存在这样的多视图图像会限制其在实际单张图像数据集上的实用性和适用性。为了保持在受限制的环境中,但通过使用多个图像监督来改善重建,我们提出从训练集中挖掘属于相似3D模型的图像。对于每个输入图像,我们找到最接近的邻居,使它们具有相似的底层3D形状,并使用基于投影一致性的损失,称为“最近邻一致性损失”,来辅助网络的训练。为了以自我监督的方式在3D领域中找到最近的邻居,我们需要嵌入3D形状信息的特征。利用在2D任务上训练的网络的特征(例如,在ImageNet数据集上的分类),会提供在颜色和视点上相似但在3D形状上不一定相似的邻居。或者,为了量化3D相似性,我们考虑我们提出的重建网络的编码特征。通过比较编码特征空间中的欧氏距离,可以获得训练集中的最近邻。图3展示了一些最近邻图像的样本。我们观察到这些检索结果在形状上相似,并在姿态和颜色上具有多样性。在训练过程中,输入图像的最近邻被用作额外的监督。邻居图像经过 N pose传递以获得相应的姿态。从输入图像获得的重建点云从这些视点进行投影。然后,我们使用Eq.4中的轮廓损失对这些投影进行约束。11360由于输入模型和邻居的几何形状相似,因此可以使用邻居图像的掩码而不是颜色图像来强制执行损失。这是因为邻居可能具有不同的颜色分布。掩码损失在n个邻居上求和,以获得总的最近邻损失。这与Eq.1和4中提到的损失一起用于训练重建网络。0L NN =0i =1 L i M (9)03.4. 对称损失0由于我们在实验中考虑的所有对象类别都至少有一个对称平面,我们进一步规范网络,以获得相对于预定义平面对称的重建结果。不失一般性,假设点云相对于xz平面对称。那么,对称损失为:L sym = d Ch ( ˆ P + , ˆ P − ) (10)0其中ˆP+是ˆP中具有正y值的点的集合,ˆP-是ˆP中具有负y值的点关于xz平面的镜像。对称损失有助于获得与地面真值一致的改进几何重建,并避免过度拟合输入图像。由于缺乏地面真值姿态值,预测的相机姿态的坐标系没有预先确定。在强制对称损失中选择对称平面也有助于将重建结果与预定义的规范姿态对齐。带有最近邻和对称损失的总重建损失如下所示:0Ltotalrec = α(LI + LM) + βLG + ηLNN + κLsym (11)03.5. 推理阶段优化(ISO)0我们的自监督方法仅依赖于输入图像和相应的物体轮廓进行训练,理想情况下适用于推理期间的实例特定优化。在推理过程中,我们预测3D点的位置和输入图像的视点。为了获得高度对应的重建结果,在推理期间我们旨在最小化输入图像与预测视点下的投影图像之间的差异。为了确保重建结果在输入图像中被遮挡的区域不会降低,我们采用额外的正则化。需要注意的是,虽然CAPNet[15]也执行推理阶段的优化,但与我们的工作不同,作者假设已知视点。正则化损失的公式如下所示:0Lreg = dch(ˆP, ˆPO) (12)0其中ˆP和ˆPO分别是初始点云和优化后的点云。我们还使用对称损失作为额外的正则化形式,使网络能够在点云中可见的输入图像区域进行优化,同时适当修改对应于遮挡区域的点。ISO期间的目标函数如下所示:0LISO = α(LI + LM) + λ(Lreg) + κ(Lsym) (13)04. 实验04.1. 实现细节0我们使用一个双分支网络同时获取形状和颜色的重建结果。对于每个对象类别,使用单独的模型进行训练。投影的数量k设置为4,重建点云中的点数设置为1024。使用学习率为0.00005的Adam优化器来训练网络。超参数α、β、γ和ρ分别设置为100、104、1和1。架构细节、超参数设置和训练计划的其他细节在补充材料中提供。我们公开发布代码。104.2. 数据集0ShapeNet[1]:ShapeNet是一组经过筛选的合成3D网格模型。我们在网格的表面上采样点以获得相应的点云进行评估。为了创建输入图像集,我们从每个对象实例的一个随机视角渲染网格模型。所有实验都是在代表性的汽车、椅子和飞机(标记为aero)类别上进行的。Pix3D[18]:Pix3D是一个对齐的真实世界图像和3D模型对的存储库。该数据集在物体形状和背景方面具有很大的多样性,并且非常具有挑战性。我们在实验中考虑了Pix3D的椅子类别。由于数据集很小,我们只在Pix3D数据集上进行评估。在所有实验中,我们使用DIFFER[16]提供的训练/验证/测试划分。为了便于比较,所有的Chamfer和EMD指标都被缩放了100倍。04.3. 评估方法0由于点云是无序表示,我们使用Chamfer距离和EarthMover's距离(EMD)来评估重建结果。为了评估,如果重建结果包含更多的点,我们会随机从中抽样1024个点。两个点云P和ˆP之间的Chamfer距离定义为dChamfer(P,ˆP)=�0x ∈ ˆ P min y ∈ P || x − y || 2 2 . 两个点云之间的EMD定义为 d EMD ( P, ˆ P ) =min φ : P → ˆ P � α ∈ P || α − φ ( α ) || 201 代码可在https://github.com/val-iisc/ssl 3d recon找到Ours-No-CC10.3321.8415.0618.3223.4016.12Ours-CC6.3913.588.666.4216.4612.53DIFFER6.359.785.676.0316.219.9DIFFER + LG5.639.235.585.3513.079.44ULSP Sup6.6410.495.706.8910.937.43ULSP Sup + LG6.1310.07.375.8310.249.9911370其中 φ ( ∙ ) 是从 P 到 ˆ P的双射。对于无姿态监督的方法,模型使用在验证集上最小化Chamfer误差获得的全局旋转矩阵进行对齐。为了评估颜色度量,我们从10个随机采样的视点投影每个重建,并使用真实图像计算L2距离。我们报告姿态预测评估中的中位角度误差和准确度。此外,还通过利用真实方向计算姿态度量。如果误差超过90度,则将预测的点云“翻转”(旋转180度)。04.4. 基准方法0我们将提出的方法与两种最先进的方法在基于2D监督单图像的3D点云重建上进行比较。具体来说,我们使用以下作品的变体:DIFFER:DIFFER[16]提出了一个可微分的模块,用于将点云特征投影到2D平面上,从而使其能够利用输入图像进行训练。请注意,DIFFER利用了输入图像的真实姿态值,因此与我们的方法相比具有更高的监督程度。我们使用作者提供的代码和设置来训练网络。ULSP:Insafutdinov等人[7]提出了一种基于多视角一致性的无监督点云重建方法。虽然该方法不使用真实姿态值,但它需要每个3D对象实例的多个视角的多个图像及其对应的前景掩码。因此,该工作与我们的方法不直接可比,我们的方法仅使用每个模型的单个图像。为了尽可能接近这种设置,我们使用作者提供的代码,使用每个模型的两个视图的监督来训练ULSP。ULSP Sup:我们考虑了ULSP[7]的一种变体,具有真实相机姿态监督。与DIFFER类似,这是使用每个3D模型的一个输入视点进行训练的。0我们还提供了与提出方法的两个变体“Ours-CC”和“Ours-NN”的比较。Ours-CC仅使用循环一致性损失进行训练,而Ours-NN除此之外还使用了NN一致性损失。04.5. 循环一致性损失的影响0我们首先分析了在自监督设置中提出的一致性损失在改善重建中的作用(表1)。在没有L G 和Lpose(Ours-No-CC)的情况下,网络无法学习到有意义的3D重建。当同时使用循环损失时(Ours-CC),我们观察到网络学习到了对象的潜在3D形状,从而导致有效的重建。我们在补充材料中提供了有关各个损失组成部分的详细消融分析。0方法 Chamfer EMD Car Chair Aero Car Chair Aero0表1.一致性损失的影响。我们评估了提出的一致性损失对重建度量的影响。在自监督设置中,缺乏一致性损失会导致网络无法训练。0方法 Chamfer EMD Car Chair Aero Car Chair Aero0表2.几何一致性的可移植性。在监督方法的基础上使用我们的几何一致性损失可以显著提高重建性能。0我们还展示了在基于单张图像的3D重建的姿态监督设置中,所提出的几何损失的实用性。具体而言,我们在姿态监督DIFFER和ULSP Sup上使用所提出的损失函数LG来优化相应的重建网络。表2表明,几何损失可以显著提高现有监督方法的性能。04.6. 重建结果0在ShapeNet数据集上,我们将所提出的自监督方法与其他多视角和姿态监督方法进行了定量和定性的比较,结果见表3和图4。我们的方法的性能与使用更高级别监督的方法相当。对于基线方法,我们观察到在椅子和飞机的情况下,姿态监督ULSPSup略优于两视图监督ULSP,而在汽车的情况下明显优于后者。我们的汽车重建度量接近姿态监督ULSP网络,并且优于其他方法。值得注意的是,虽然我们使用与DIFFER相同的投影模块和投影一致性损失,但在大多数定量指标上,我们的方法优于姿态监督DIFFER。这证明了附加的循环和最近邻一致性损失对于重建和姿态预测的实用性。最近邻的添加显著提升了重建性能,特别是在更具挑战性的椅子类别中。在汽车和飞机类别中,使用最近邻可以明显改善形状和点的分布。虽然我们能够有效地捕捉物体的几何形状,但点在椅子的腿等细小区域中分布稀疏。然而,我们可以观察到DIFFER也存在类似的稀疏点分布。我们还在推理阶段优化上提供了定性(图5)和定量(见补充材料)结果。重建与输入图像的对应性更好,如图5中优化前后的轮廓所示。重建度量表明,点云在未观察到的区域中得到了保留。补充材料中提供了其他定性结果、关于对称性和最近邻一致性损失的消融实验以及失败案例。为了展示我们的方法对真实世界数据集的适应性,我们在Pix3D数据集上进行了评估。请注意,由于该数据集只包含很少的模型,我们对在ShapeNet数据集上训练的网络进行评估。对于从合成到真实领域的适应性,我们在ShapeNet数据集上训练,将输入图像与随机自然场景背景叠加。我们的方法在定量(表4)和定性(图6)上与姿态监督DIFFER方法表现相当。图7展示了在ShapeNet数据集上颜色预测的定性结果。为了有效评估,我们从10个随机采样的视点投影每个真实模型和预测模型,并计算它们之间的逐通道L2损失。我们的重建结果在视觉上与输入图像更好地对应,特别是在汽车的情况下。定量结果见补充材料。Supervised2-ViewsSelf-SupervisedSupervision:Supervised2-ViewsSelf-SupervisedSupervision:thin regions such as legs in the case of chairs. However,we can observe similar sparse point distributions in the caseof DIFFER [16]. We also present qualitative (Fig. 5) andquantitative (in supplementary) results on inference stageoptimization. The reconstructions have greater correspon-dence with the input image as observed in the silhouettesbefore and after optimization in Fig. 5. Reconstruction met-rics indicate that the point clouds are preserved in regionsnot observed in the test input. Additional qualitative results,ablations on symmetry and nearest neighbours consistencyloss and failure cases are provided in the supplementary.To show the adaptability of our approach to real-worlddatasets, we evaluate it on the Pix3D dataset. Note thatsince the dataset consists of very few models, we performevaluation of the networks trained on ShapeNet dataset. Forsynthetic to real domain adaptation, we train on ShapeNetdataset with the input images overlaid with random naturalscene backgrounds. Our approach performs comparably tothe pose supervised DIFFER approach both quantitatively(Table 4) and qualitatively (Fig. 6).Fig. 7 presents qualitative results on color prediction onShapeNet dataset. For effective evaluation, we project eachground truth and predicted model from 10 randomly sam-pled viewpoints and calculate the channel-wise L2 loss be-tween them. Our reconstructions result in greater visual cor-respondence with the input image, particularly in the case ofcars. Quantitative results are provided in the supplementary.11380输入 GT ULSP_Sup DIFFER ULSP Ours-CC Ours-NN0输入 GT ULSP_Sup DIFFER ULSP Ours-CC Ours-NN0图4.ShapeNet上的比较。我们在ShapeNet上提供了与姿态和多视角监督方法的比较。就重建与输入图像的对应性而言,我们的方法与监督方法相当。与监督方法相比,我们的汽车重建在形状和点的均匀性方面有显著改善。04.7. 姿态预测结果0表5.我们的姿态预测网络的中位误差和准确率。我们报告了使用('翻转')和不使用('无翻转')真实方向的结果。Ours-CC在汽车类别上具有较高的准确性。0图5.推理阶段优化(ISO)。推理期间的优化结果更好地对应于输入图像。采用正则化来保持输入图像中遮挡区域的形状。0图6.Pix3D上的比较。由于DIFFER和提出的方法都是在ShapeNet上训练并在Pix3D上评估,与ShapeNet上的对输入的对应关系相比,重建结果较低。然而,与监督的DIFFER方法相比,我们的重建结果在形状和点分布上略好。0然而,在椅子类别中存在更高的歧义性,Ours-CC的表现明显较差。由于某些飞机模型存在多个对称平面,网络通常会预测出错误的方向,如高中位误差所观察到的那样。但是当使用真实的方向来计算指标时,这种冲突得到解决,指标显著改善。在所有类别中,我们观察到姿态指标可靠地GTOursGTOursGTOurs11390方法 姿态 视角 Chamfer EMD 汽车 椅子 飞机 平均 汽车 椅子 飞机 平均0ULSP 是 1视角 5.4 9.72 5.91 7.01 4.78 10.18 7.66 7.54 DIFFER 是 1视角 6.35 9.78 5.67 7.276.03 16.21 9.90 10.710ULSP 否 2视角 7.02 9.87 5.96 7.62 7.99 10.56 8.06 8.870Ours-CC 否 1视角 6.39 13.58 8.66 9.54 6.42 16.46 12.53 11.8 Ours-NN 否 1视角 5.48 10.917.11 7.83 4.95 14.93 11.07 10.310表3. ShapeNet上的重建指标。尽管是自监督的,缺乏输入姿态值,并且仅有输入图像作为监督,我们的方法在性能上与或甚至优于其他需要更高程度监督的最先进方法。0方法 Chamfer EMD0DIFFER 14.33 16.09Ours-NN 14.52 15.820表4. Pix3D上的重建结果。我们在真实世界的Pix3D[18]数据集上评估了姿态监督DIFFER和我们的方法。我们的自监督方法在表现上与姿态监督方法相当,并且在真实世界数据集上适应性良好。0图7.2D颜色投影。与监督的DIFFER方法相比,我们的彩色投影与输入图像具有更好的视觉对应关系。0类别 方法 中位误差 准确率 无翻转 有翻转0汽车 Ours-CC 7.58 5.54 74.07 94.4 Ours-NN 6.855.55 75.87 93.40椅子 Ours-CC 41.86 33.78 41.45 45.72 Ours-NN 19.6917.79 59.14 64.160飞机 Ours-CC 88.29 38.53 20.99 40.74 Ours-NN 43.3619.52 42.34 60.740表5.ShapeNet上的姿态指标。对于汽车类别,我们的方法在姿态指标上表现出色。在具有挑战性的椅子和飞机类别中,最近邻的使用(Ours-NN)显著提升了预测结果。0引入最近邻一致性(L NN)可以进一步改善,进一步凸显了这种损失的必要性。我们还观察到姿态和重建指标之间存在相关性,因此其中任何一个的错误预测都会显著影响另一个。04.8. 点对应和部分转移0在我们的重建中,我们观察到在回归点中具有相似索引的点具有空间对应关系。0图8.零件转移。语义部分分割的地面实况和重建的点云。重建的点云之间的对应关系用于在模型之间进行一致的部分分割转移。0尽管我们没有明确强制执行,但我们的网络可以学习到点的对应关系.我们使用彩色UV贴图来可视化点的对应关系(详见补充材料).我们利用这种对应关系来进行单次语义部分分割.我们使用单个地面真实部分分割模型根据点索引在所有模型之间传递部分标签.结果(图8)表明,我们的网络能够有效地使用单个地面真实模型进行3D部分分割.05. 结论0我们提出了一种自监督的方法来进行基于单张图像的三维点云重建.我们开发了新颖的几何和姿态循环一致性损失,以自监督的方式有效地训练我们的重建和姿态网络.通过使用具有相似三维形状的训练图像,我们模拟了使用单视图数据集进行多视图监督训练的效果.我们在ShapeNet数据集上对我们的重建、颜色和姿态预测网络进行了基准测试,取得了与姿态和多视图监督方法相当的性能. 我们对所有提出的损失的作用进行了彻底的分析.我们进一步通过对真实世界Pix3D数据集的重建结果和对可能应用的定量结果进行了展示.未来,我们希望解决稀疏点预测在薄结构中的问题,并进一步提高重建质量.0致谢 这项工作得到了SudhaMurthy主席项目、Pratiksha信托基金和IISc的支持.11400参考文献0[1] Angel X Cha
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功