超大尺寸3D重建简单方法

91 浏览量更新于2023-10-26 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

13773Pre-train，Self-train，Distill：超大尺寸3D重建的简单方法Kalyan Vasudev Alwala1 Abhinav Gupta12 Shubham Tulsiani21 MetaAI Research2卡内基梅隆大学https://shubhtuls.github.io/ss3d/图1. 我们提出了一种方法来学习一个单一的重建模型在不同的对象类别。给定一幅描绘跨越150个类别的任何（分割）对象的输入图像，该统一重建模型可以推断其3D形状。摘要我们的工作学习了一个统一的模型，从数百个语义类别的对象的单视图三维重建。作为直接3D监督的可扩展替代方案，我们的工作依赖于分割的图像集合，用于学习通用类别的3D。与使用类似监督但从头开始学习独立类别特定模型的先前工作不同，我们学习统一模型的方法简化了训练过程，同时还允许模型受益于跨类别的通用结构。使用来自标准识别数据集的图像集，我们证明了我们的方法可以学习超过150个对象类别的3D推理。我们使用两个数据集进行评估，并定性和定量地表明，我们的统一重建方法优于先前的特定类别重建基线。我们最终的3D重建模型也能够对来自不可见对象类别的图像进行零拍摄推断，并且我们根据经验表明，增加训练类别的数量可以提高重建质量。1. 介绍我们生活在一个丰富多样的世界，由各种各样的物体组成，从自然发生的鸟类和熊，到精巧的汽车和飞机，或者实用简单的杯子和花瓶。虽然我们在视觉世界的语义理解方面取得了显著的进步，开发了可以识别成百上千个这些对象的方法，但最先进的单视图重建系统只能推断其中少数对象的3D。为什么会这样？语义识别成功的主要原因是监督的使用。为数千个类别提供大量训练数据，用于分类[4]，检测[26]甚至分割[9]一直是取得进展的关键。另一方面，获得通用对象的图像的3D监督是非常困难的。即使是最大的3D数据集也只包含数十个类别，即使在这种情况下，图像也不能反映现实世界的复杂性。为了解决这个监督问题，一些最近的作品已经研究了学习3D推理13774图2. 方法概述。我们首先使用合成数据的多视图渲染来预训练重建模型。然后，我们在野外的各种图像集合上自我训练特定于类别的模型，只使用前景蒙版注释。最后，我们将先前训练阶段的学习模型提取为统一的重建模型。仅使用图像集合和2D注释（诸如前景掩模）作为监督信号。然而，由于这些方法从头开始学习类别级模型，因此它们没有3D先验，并且需要利用额外的约束或正则化来使学习变得易于处理。不幸的是，这要么限制了它们对泛型类的适用性.通常使用的变形模型不能捕捉具有大变化的类别，或者使得训练过程不稳定，例如，当使用对抗性约束时。该领域的大多数方法都采用了两个极端之一：监督或自我监督，因此在可扩展性或泛化方面妥协。在本文中，我们采用了中间立场，而不是采取两种极端的观点。更具体地说，我们采用了三个关键策略来实现学习3D重建的可扩展性和首先，我们观察到，语义识别方法训练一个模型来检测数百个类别;单视图重建方法为每个类别训练一个模型。这就阻碍了跨多个类别共享原语和特征我们认为，这种共享是至关重要的泛化。在这项工作中，我们建议训练一个单一的模型来重建数百个不同的对象类别的对象。其次，我们不是通过正则化或额外的约束来学习这个联合模型，而是使用某些类别的合成3D训练数据来帮助我们学习先验知识。更具体地说，我们以监督的方式使用合成数据预训练基础模型。第三，也是最后一点，我们观察到一个预先训练好的模型不能一次性地对所有新类别进行微调。这是因为掩码监督充其量是弱监督，联合学习会导致平均错误。相反，我们提出了一个自训练的标签传播过程：首先拟合一个类别特定的模型，然后通过一个蒸馏过程来学习一个提供更好泛化的联合模型。我们的最终方法是预训练和自我训练的结合，提供了鲁棒性和可扩展性。我们首先使用3D合成数据预训练3D重建模型。这个预训练阶段帮助模型学习正确的3D先验知识，以从弱掩码监督中学习。一我们学习预训练的基础模型，然后我们调整在合成数据上训练的基础模型，以从图像集合中重建新的类别，并表明这明显需要额外的正则化，例如有限的类内变化或对抗性先验。在最后一步中，我们将每个类别的自适应模型提取到一个统一的高容量3D重建网络中，该网络最终能够从数百个对象类别中重建对象（见图1）。1）。有趣的是，这个统一的模型不仅可以更好地重建训练过程中看到的类别，它甚至可以用于对来自不可见类别的对象进行零射击3D预测2. 相关工作从监督中学习3D。随着神经网络的复兴，一些作品已经利用深度学习技术进行单视图3D重建。使用地面实况3D作为监督，现有方法已经追求对诸如体素[2，7]、网格[42]、点云[6]、八叉树[10]或隐式函数[30，33]的表示的推断。然而，由于它们依赖于3D地面实况数据，这些方法主要依赖于合成训练数据，并且在它们对通用对象类别的可扩展性方面受到限制。为了克服这种对3D监督的依赖，随后的方法[29，40，43]改为使用多视图图像收集来提供监督信号。然而，由于多视图数据也难以在野外获取，因此提出了其他方法来从单视图图像学习3D，尽管依赖于额外的注释，例如相机姿势[12，13，20，28]或语义关键点[18，23]。虽然这些作品都展示了令人印象深刻的结果，但它们严重需要某种形式的注释（地面实况3D，多视图，2D关键点或相机姿势），这些注释对于通用类来说很难获得。虽然我们的方法同样依赖于合成3D数据的基本类集引导学习，但我们表明，可以在没有任何此类注释的情况下学习新类别的3D推理，从而允许我们的方法使用野外图像集合扩展到数百个对象类。13775SRN-SDFCMRU-CMRIMRUMRSSMP[18]第十八话：我的世界[39][27][46]相机✓✓✓✓✓✓✓✓✓✓✓✓✓模板关键点掩模按类别模型✓✓✓✓✓数量的类别<15<5<15<25<10<75>150形状调整器DefDefDefAdvAdv表1.前单视图3D重建方法的要求和限制总结。Def和Adv分别表示可变形模型和对抗正则化器从未注释的图像集合中学习3D。为了更接近我们可扩展地学习3D预测的目标，最近的研究表明，单视图3D推理可以从广泛可用的类别级图像集合中学习，只需要前景蒙版作为额外的超视。所有这些方法，其训练和推理设置我们总结在表中。1，通过强制重投影与可用观测的一致性来学习3D预测虽然这消除了对昂贵注释的依赖，但这些方法需要额外的约束以避免退化解决方案。例如，一种常见的解决方案是强制类别内的变化可以通过线性变形模型[8，27，39]捕获，并可选地使用类别级模板[8，24，25，39]或自监督语义[27]来解决姿势歧义。不幸的是，这阻碍了这些方法重建具有非球形拓扑的类别，例如。手袋或重大变化，椅子另一种方法是允许更具表现力的形状模型，并依赖对抗训练来鼓励新颖的视图渲染变得逼真[14，32，46]。然而，这些方法可能更难以调整，并且还需要优先于训练视点。我们的关键见解是，这些adhoc正则化器是必需的，因为所有这些方法都是从零开始学习每个类别的模型。相比之下，我们提出了一种简单且可扩展的方法来学习3D，该方法利用合成数据进行预训练，并学习跨对象类别的统一模型，从而使我们能够在不需要任何此类显式正则化器的情况下学习新类别的3D隐式形状表示。处理无监督3D重建的方法通常会推断网格[8，27，39]或离散体积[32，46]，但这些方法的表现力有限，或者需要学习神经渲染器来建模外观[32]。受其适用于体绘制和成功建模复杂场景的启发[31]，我们转而选择使用神经隐式函数来表示3D形状（和外观）。尽管这些表示的更引人注目的近期应用是对单个实例进行建模[31，36，45]，但我们的方法需要通过单个网络对不同对象进行建模，因此我们使用图像条件隐式网络。先前的工作已经提出了基于潜在变量的[30，图3. 网络架构。我们的图像条件隐式重建网络使用基于ResNet的编码器。预测编码用于有条件地调制基于坐标的隐式网络的中间层的输出。33]、基于超网络[37]或像素对齐[47]的机制来进行这种调节，但我们采用了生成网络中常用的调制机制[1，19]。虽然我们选择的表示与这些最近的方法共享，但我们的工作表明，这些表示可以从未注释的图像集合中学习，并且单个条件隐式网络可以捕获多个类别的3D。3. 方法我们在这项工作中的目标是学习一个统一的模型，可以从一个单一的图像中推断出3D的任何对象从超过hun-numberof类别。由于3D监督自然很难获得这样不同的类别集，我们的方法依赖于单视图图像集合与近似的前景掩模作为一个更可扩展的替代方案。然而，我们的方法并不是仅仅依赖于这些图像集合，而是由某些类别的（合成）3D数据确实存在的洞察力驱动的。虽然图像集可能是了解气球、香蕉或海星等类别的唯一可扩展来源，但我们确实有可用于汽车和椅子等其他类别的3D数据。为了结合这一观察结果，我们提出了一种多阶段训练方法，该方法利用合成形状集合和野外图像集合来学习跨广泛类别的3D推理。在训练的第一阶段（第3.1节），我们使用大约50个对象类别的合成纹理3D模型来预训练我们的图像条件隐式重建网络。3D模型的可用性允许我们渲染同一实例的多个视图，同时还知道每个图像的精确相机姿势，从而允许我们使用新视图渲染目标进行训练。然而，由于这个初始模型只在有限的类别集上使用合成渲染进行训练，因此它在野外的表现并不令人惊讶。在学习的第二阶段（第3.2节），我们使用野外类别级别的图像集合来微调这个初始模型。虽然既没有相机的观点，也没有多个视图可用于学习，我们发现，通用的3D先验知识中学习13776V·VV∈∈·≡--{2→图4. 培训目标。左：当使用合成数据进行预训练时，我们通过新视图渲染损失来监督重建网络。对于新视图中的每个像素/光线，我们使用隐式表示对预测的掩模和颜色进行体渲染，并对与地面实况的偏差进行惩罚。右：为了从图像集合中自训练类别级专家，我们在多假设相机参数化下最小化预期渲染损失。图5. 自我训练中的形状和相机优化。我们可视化两个图像的初始和最终配置。尽管对称花瓶保持多模态相机分布，但两个实例的形状都随着训练而改善。第一阶段有助于防止退化的解决方案。这产生了多个类别特定的模型，我们提出了一种简单的技术，然后将这些提取到一个统一的重建模型，该模型可用于跨通用类执行3D推理（第3.3节）。图像条件隐式重建网络。我们的重建模型可以被视为具有编码器-解码器结构。给定输入图像I，编码器将其映射到潜码z=fe（I）。我们的隐式解码器使用这个潜在代码作为条件来预测任何查询点x的密度σR1和颜色cR3，即。fd（x，z）=（σ，c）.因此，图像调节的解码器fd（，z）可以被视为隐式地表示输入图像中描绘的对象的预测几何形状和外观，并且可以被体绘制以从任何查询视点生成图像。我们的网络架构在图3中突出显示。该编码器基于ResNet-34 [11]架构，并在给定输入图像的情况下输出高维潜码。受Chanet al启发。[1]使用类似的架构无条件地生成辐射场，我们使用一个基于SiREN [36]的解码器网络，具有电影条件-ing [34]，其中潜码的部分调制每个解码器层的输出。请注意，我们不以任何明确的类别标签为条件进行重建，并且网络的任务是仅在给定（分割的）输入图像的情况下推断通用对象的3D体渲染。我们用（f，π，p）表示在对应于从视点π拍摄的图像中的像素p的射线上体绘制隐函数f的过程。给定一个查询射线，我们遵循NeRF [31]中的方法，通过沿射线均匀采样3D点，并使用预测的密度（和颜色）聚合输出来进行渲染，从而使用神经表示进行可微体渲染[5我们使用m和c分别表示遮罩和颜色渲染，并且注意遮罩渲染过程等效于在每个3D点处使用恒定的单位颜色。我们建议读者参考[31]以了解更多细节。3.1. 基于合成3D数据的我们使用合成3D形状的数据集来预训练隐式重建网络。由于我们可以访问纹理化的3D网格，因此我们能够使用已知的相机视点为每个对象渲染多个视图。然后，我们通过简单地强制执行单视图（隐式）3D预测来训练我们的重建网络，当从可用视点进行体绘制时，匹配每个像素处的已知颜色和遮罩。给定描绘分割对象的输入图像I，我们的网络预测隐式3D表示fIfd（，fe（I））。然后，我们使用同一个实例的图像I<$，从一个摄像机通过点π<$捕获，以监督我们的预测. 用I<$m[p]和I<$c[p]表示观察到的颜色以及像素p的前景掩码标签，并且使用 m，c作为遮罩和颜色索引的简写，我们训练我们的网络，以最大限度地减少数据集上预测和渲染之间的重建误差：Lsynth=V{m，c}（fI，π<$，p）−I<$m，c}[p]2p13777联系我们--2≡∈CM联系我们DΣeKDDe23.2. 从图像集合中进行我们的方法旨在使预训练的内隐重构网络适应一般的小说类别。虽然第3.1节中描述的方法允许学习单视图3D预测，但它主要依赖于可用的多视图渲染和相关的相机姿势。然而，在野外学习通用类别的3D重建时，这种形式的监督是不可用的。相反，我们必须依赖于具有近似前景掩模的单视图图像集合我们的方法是通过执行预测的3D和输入图像的渲染之间的一致性来获得监督信号，但是为了这样做，我们需要克服未知相机视点所带来的挑战使用多假设相机的体绘制。当联合学习（未知）形状和摄像机视点与微分渲染，优化是敏感的局部极小值。为了使优化景观更容易，一些先前的工作[8，17 ， 25 ， 38] 已经使用多假设视点参数化（ π1 ，ρ1），. . .，（πK，ρK），其中概率ρk与假设π k相关联。在摄像机视点的这种概率参数化下，渲染损失可以被形式化为预期损失假设由其可能性加权给定图像I，图6. 精馏我们使用逐点回归损失将多个专家提取到统一的重建模型中。渲染损失的确定性函数与现有方法[8，25]的一个更根本的区别是，我们不依赖于模板3D形状来使相机优化表现良好。相反，我们发现通过预训练的重建网络推断的形状足以指导初始相机优化。在此初始优化之后，我们然后联合微调重建网络，同时继续优化图像采集中的相机网络3.3. 多品类蒸馏第3.2节中描述的方法允许从野外图像集合中学习特定于类别的重建网络。以fc（fc，fc）表示类别─和摄像机镜头，体绘制损失w.r.t.隐式表示F可以计算为：L（f，I，p）=<$$>ρk <$V{m，c}（f，πk，p）−I{m，c}[p]<$2K为类别C学习的特定重建网络，我们现在的目标是学习统一的重建网络f<$（f<$e，f<$d），其可以在所有类别c上模仿学习的猫特定于gory的“e x-perts”。不仅如此，统一的网络使推理更容易，它也可以提高p通过利用跨部门的通用结构，实际上，由于体绘制在计算上是昂贵的，因此，我们通过对每个相机假设仅采样少量像素/射线来近似这种损失。在野外微调3D推理。给定具有关联前景掩模（In，In）的图像的类别级集合，我们调整隐式重建网络，我们在3.1收藏. 灵感来自Goelet al的工作。[8]、我们先类，并且比单独的网络表现更好，而还允许对看不见的类进行零激发重建。我将以一种简单的方式，来表达我的感受[5]分类网络以了解统一网络（参见图6）。具体来说，给定类别级图像集合c，我们训练统一网络，以匹配所有图像中相应类别级专家的逐点密度和颜色预测将每个图像In与随机初始化的多个照相机的假设然后我们将我们的学习Ldist=0c∈Cfc（x，fc（I））−f<$d（x，f<$e（I））<$2I∈DcX作为联合优化3D重建的问题，网络和每图像摄像机假设，并最小化以下目标：Limg=L（fd（·，fe（In）），In，In）n与使用多假设相机的先前方法类似[8，25]，我们遵循两步优化方法，其中最初仅学习相机参数，同时保持3D模型固定。与U-CMR [8]不同，我们还优化了概率ρn，而不是将其视为虽然我们发现沿着射线对点x进行采样是有益的，但逐点蒸馏目标允许有效的训练，而无需任何计算昂贵的体积渲染步骤来聚合预测。4. 实验4.1. 数据集合成数据我们使用来自[16]的CAD模型的精选集合，跨越51个对象类别和用于训练的总计40k个实例。我们渲染颜色，13778∈·图7.比较。通过OpenImages、CUB、quadrapeds、Co3D和Pascal3D+上的基线和最终统一模型预测的3D重建可视化。第一，第二，第三和第四行可视化分别对应于SSMP [46]，仅合成数据模型，类别级专家和我们最终的统一模型的预测。使用Blender [3]从20个视图中为每个CAD模型遮罩图像，方位角和仰角分别从[0°，360°]和[−75°，75°]随机采样。在野外的图像收集。由于我们在第3.2节中的方法可以从具有近似前景掩模的图像集合中学习，因此我们能够利用各种图像识别数据集进行训练。特别地，我们使用来自以下五个数据集的图像：CUB-200-2011 [41]：这包括6,000张带有注释的前景蒙版的图像，来自200多个鸟类亚种。我们将整个图像集合视为代表单个来自ImageNet的四足动物：我们使用来自ImageNet数据集[4]的跨越25+四足动物类别的图像，以及从实例分割系统[22]中提取的近似前景掩模。特别是，我们使用的策划分裂从Kulkarni等人。[24]在那里，他们丢弃了具有严重遮挡和截断的图像，导致总共25k+图像。PASCAL3D+ [44]：我们使用跨越11个刚性类别的未遮挡实例，每个类别约有3k个图像我们使用现成的图像分割系统[22]来提取图像的ImageNet子集的前景掩码，其中地面真实掩码不可用。虽然该数据集以模板CAD模型的形式提供了近似3D形状的注释，但我们在训练期间不使用这些注释，并且仅将其用于对保持的测试图像进行定量评估。开放图像[26]：我们使用来自77个不同类别的图像，每个类别有500到20k的带有注释的前期蒙版的我们调整了Ye等人的训练和测试分割。[46]，其中使用一个简单的图像分类器来过滤截断和遮挡的实例。4.2. 评估设置培训详情。我们所有的网络都有相同的架构。编码器是ResNet-34 [11]，具有产生zR2560的附加残差线性层。在z上，解码器是一个5层FiLM的SIREN网络[1]，每层的嵌入大小为256。我们使用Adam优化器[21]和Reduce-on-plateau学习率调度器。为了确保更好的收敛，在第3.1节中学习类别特定模型时，我们冻结前10个时期的网络，其中我们仅优化多假设相机参数。有关其他培训详情，请参阅补充材料。基线。我们将我们的最终模型与SSMP [46]进行了比较，SSMP [ 46]是与我们类似的数据假设下的当前最先进的方法，即。使用具有近似前景遮罩的图像集合学习通用类的3D。我们还报告了我们的方法的中间阶段的性能-和ii）特定类别的专家（Cat-spec.）。评价为了将我们的神经隐式表示fd（，z）转换为显式网格，我们遵循Mescheder等人提出的Marching Cubes方法。[30 ]第30段。我们所有的定量和定性评价都是在这种明确的表示上报告的。由于我们可以在Pascal3D+中访问（近似）3D地面实况网格，因此我们报告了在一个已完成的测试拆分上的Intersection overUnion（IoU）。在CMR [18]之后，在计算IoU时，我们在尺度、旋转和位置上进行搜索，以将预测的网格与地面实况对齐。我们还评估了Co3D [35]上的所有方法，其中我们可以访问3D地面实况点云。我们评估手动选择的100个occlu-13779表2. Pascal 3D+上的IoU度量比较[44]。更高的IoU意味着更好的3D重建。[第46话]Synth.猫规格我们香蕉0.2560.4090.2650.224瓶0.2390.1820.1630.186C.Phone0.2080.2510.1840.172甜甜圈0.1830.4400.1760.181栓0.1840.1980.1820.166橙色0.1030.3070.0890.082行李箱0.1620.3100.1460.149T.Bear0.1970.4270.2390.245面包机0.1940.3160.1610.153花瓶0.2100.2860.2110.197是说0.1940.3130.1820.176表3. Co3D上的倒角距离比较[35]。较低的倒角距离意味着较好的3D重建。跨10个类别的无解析和截断实例。我们报告了地面实况点云和从预测表面均匀采样的点之间的倒角距离[6]我们遵循与Pascal3D+评估类似的方法，将预测与地面实况点云对齐。4.3. 结果定量结果。我们在表中报告了Pascal3D+和Co3D数据集2和3，并注意到我们的最终模型始终优于现有技术以及合成基线。我们还观察到，联合模型产生了一些整体的改进，每类专家。定性评价。我们在图1和图9中展示了最终统一模型在各种设置下的3D重建质量。我们还在图7中可视化了与基线的定性比较，并发现这些与定量分析一致-我们的统一模型在基线上有所改进，并且能够为各种类别生成高质量的重建。我们还在图中描述了一些代表性的失效模式8.图8. 失效模式。我们的模型对遮挡不鲁棒，并且在一些困难的类别上表现不佳。Synth.我们的-75+我们的-125+香蕉0.4090.3780.304甜甜圈0.4400.4120.244橙色0.3070.2180.213行李箱0.3100.2860.189T.Bear0.4270.3640.320面包机0.3160.1940.167是说0.3680.3080.239表4. 对看不见的类进行零拍摄重建。我们报告了在Co3D数据集中看不见的类上的倒角损失。随着模型在更多的类上进行训练，其对隐藏的不可见对象类的零拍摄重建性能得到提高。零射击重建。学习统一的3D重建模型的一个独特好处是，由于通用对象的共同结构，它甚至可以对看不见的类别执行有意义的重建。我们通过改变可用于提取的特定类别专家的数量来评估最终统一模型执行零次重建我们考虑了两个统一的模型（Ours-75+）和（Ours-125+），它们分别从超过75和125名专家中提取，但关键的是，没有对评估类别进行训练。我们在表中总结了我们的观察结果4，并发现一个明确的和令人鼓舞的趋势，即在训练中观察更多的类可以提高看不见的类别的表现。5. 结论我们提出了一种简单且可扩展的方法来学习一个统一的三维重建模型，跨越一组不同的对象类别。我们通过对合成数据进行预训练来实现这一点，然后允许对各种图像集合进行自我训练。这个简单的策略使我们能够学习一个最先进的重建模型，可以推断出数百个类别的3D，我们的结果也突出了这种共享的经验优势。虽然这些结果令人鼓舞，但我们注意到，我们的方法有一些常见的故障模式。特别是，我们的重建无法捕捉精细的形状细节。我们的方法还非常依赖于未被遮挡的孤立对象的图像进行学习，因此既不能从更具挑战性的图像中学习，也不能推断3D。[第46话]Synth.猫规格我们飞机0.380.440.320.49自行车0.220.110.180.18瓶0.430.540.660.65总线0.210.420.530.57车0.460.720.540.70椅子0.440.520.570.59D.Table0.260.280.310.34摩托车0.470.470.440.53沙发0.240.430.460.52火车0.090.250.310.37电视0.170.190.270.33是说0.310.400.420.4813780图9. 在野外的结果。在野外对我们最终的统一模型进行单视图3D推断。我们从两个角度可视化从预测的神经表示在一个规范的框架中提取的网格。引用[1] Eric R Chan，Marco Monteiro，Petr Kellnhofer，JiajunWu，and Gordon Wetzstein. pi-gan：周期性隐式生成对抗网络用于3D感知图像合成。在…计算机视觉与模式识别，2021年。三、四、六[2] Christopher B Choy ， Danfei Xu ， JunYoung Gwak ，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在欧洲13781计算机视觉会议，2016年。2[3] Blender在线社区。Blender -3D建模和渲染软件包。Blender基金会，Stichting Blender基金会，阿姆斯特丹，2018。6[4] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在计算机视觉和模式识别会议上，2009。1、6[5] Robert A Drebin，Loren Carpenter，Pat Hanrahan.体积渲染。 ACM Siggraph计算机图形，1988年。4[6] Haoqiang Fan，Hao Su，and Leonidas J Guibas.一种从单幅图像重建三维物体的点集生成网络。计算机视觉与模式识别会议，2017年。二、七[7] Rohit Girdhar，David F Fouhey，Mikel Rodriguez，andAb-hinav Gupta.学习对象的可预测和生成矢量表示在2016年欧洲计算机视觉会议2[8] Shubham Goel，Angjoo Kanazawa，Jitendra Malik.没有关键点的形状和视点。在欧洲计算机视觉会议上，2020。三、五[9] 阿格里姆·古普塔，皮奥特·多勒，罗斯·格希克。LVIS：用于大词汇实例分割的数据集。在计算机视觉和模式识别会议上，2019年。1[10] Christian Häne，Shubham Tulsiani，and Jitendra Malik.三维物体重建中的高分辨率表面预测。在2017年的3D视觉国际会议上。2[11] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习计算机视觉与模式识别会议，2016年。四、六[12] 保罗·亨德森和维托里奥·法拉利。通过形状、姿态和阴影的生成建模学习单图像3d重建国际计算机视觉杂志，2020年。2[13] Paul Henderson ， Vagia Tsiminaki ， and Christoph HLampert.利用2d数据学习纹理3d网格生成。在计算机视觉和模式识别会议上，2020年。2[14] Philipp Henzler，Niloy J Mitra，and Tobias Ritschel.逃离柏拉图的洞穴：对抗渲染的3d形状。在2019年国际计算机视觉会议上。3[15] Geoffrey Hinton Oriol Vinyals和Jeff Dean。提取神经网络中的知识。arXiv预印本arXiv：1503.02531，2015。5[16] 特林布尔公司 3D 仓库 https ： //3dwarehouse.sketchup.com/网站。访问时间：2021-06-25。5[17] Eldar Insafutdinov和Alexey Dosovitsky使用可微分点云进行形状和姿态的无监督学习。神经信息处理系统进展，2018年。5[18] Angjoo Kanazawa、Shubham Tulsiani、Alexei A Efros和Jitendra Malik。从图像集合学习特定类别的网格2018年欧洲计算机视觉会议。二、三、六[19] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在计算机视觉和模式识别会议上，第4401-4410页3[20] 加藤博治和原田达也。单视图三维重建的视图先验学习在计算机视觉和模式识别会议上，2019年。2[21] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年学习表征国际会议。6[22] 亚历山大·基里洛夫，吴宇新，何开明，罗斯·吉尔希克.点趋势：图像分割作为渲染。在计算机视觉和模式识别会议上，2020年。6[23] 陈空和西蒙·露西。运动产生的深层非刚性结构在2019年国际计算机视觉会议上。2[24] Nilesh Kulkarni，Abhinav Gupta，David F Fouhey，andShub-ham Tulsiani.关节感知的规范表面映射。在计算机视觉和模式识别会议上，2020年。三、六[25] Nilesh Kulkarni Abhinav Gupta和Shubham Tulsiani。基于几何圈一致性的正则曲面映射在2019年国际计算机视觉会议上。三、五[26] Alina Kuznetsova ， Hassan Rom， Neil Alldrin ， JasperUi- jlings ， Ivan Krasin ， Jordi Pont-Tuset ， ShahabKamali ， Stefan Popov ， Matteo Malloci ， AlexanderKolesnikov，et al. The open images dataset v4.国际计算机视觉杂志，2020年。1、6[27] Xueting Li，Sifei Liu，Kihwan Kim，Shalini De Mello，Varun Jampani，Ming-Hsuan Yang，and Jan Kautz.基于语义一致性的自监督单视图三维重建。2020年欧洲计算机视觉会议。3[28] Chen-Hsuan Lin ， Chaoyang Wang ， and Simon Lucey.Sdf- srn：学习从静态图像中重建有符号距离3d对象。神经信息处理系统进展，2020年。二、三[29] Shichen Liu，Shunsuke Saito，Weikai Chen，and Hao Li.学习在没有3d监督的情况下推断隐含表面。神经信息处理系统进展，2019。2[30] Lars Mescheder，Michael Oechsle，Michael Niemeyer，Se- bastian Nowozin ， and Andreas Geiger.Occupancynetworks：Learning 3d reconstruction in function space.在计算机视觉和模式识别会议上，2019年。二、三、六[31] Ben Mildenhall，Pratul P Srinivasan，Matthew Tancik，Jonathan T Barron ， Ravi Ramamoorthi ， and Ren Ng.Nerf：将场景表示为用于视图合成的神经辐射场。2020年欧洲计算机视觉会议。三、四[32] Thu Nguyen-Phuoc，Chuan Li，Lucas Theis，ChristianRichardt，and Yong-Liang Yang. Hologan：从自然图像中进行3D表示的无监督学习。2019年国际计算机视觉会议。3[33] 郑俊朴、彼得·弗洛伦斯、朱利安·斯特劳布、理查德·纽科姆和史蒂文·洛夫格罗夫。Deepsdf：学习连续符号距离函数用于形状表示。在计算机视觉和模式识别会议上，2019年。二、三13782[34] 伊森·佩雷斯，弗洛里安·斯特鲁布，哈姆·德·弗里斯，文森特·杜莫林，和亚伦·库维尔.影片：具有一般条件层的视觉推理。2018年AAAI人工智能会议。4[35] JeremyReizenstein ， RomanShapovalov ， PhilippHenzler ， Luca Sbordone ， Patrick Labatut ， and DavidNovotny. 3d中的常见对象：现实生活中3d类别重建的大规模学习和评估。在2021年的计算机视觉国际会议上。六、七[36] Vincent Sitzmann，Julien Martel，Alexander Bergman，David Lindell，and Gordon Wetzstein.具有周期激活函数的内隐神经表征。神经信息处理系统进展，2020年。三、四[37] Vincent Sitzmann ， Michael Zollhöfer ， and GordonWetzstein.场景表示网络：连续3D结构感知神经场景表示。神经信息处理系统进展，2019。3[38] Shubham Tulsiani、Alexei A Efros和Jitendra Malik。多视图一致性作为学习形状和姿态预测的监督信号。在计算机视觉和模式识别会议上，2018年。5[39] Shubham Tulsiani，Nilesh Kulkarni，and Abhinav Gupta.从未标注的图像集合重建隐式网格。arXiv预印本arXiv：2007.08504，2020。3[40] Shubham Tulsiani，Tinghui Zhou，Alexei A Efros，andJi-tendra Malik.通过可微分光线一致性进行单视图重建计算机视觉与模式识别会议，2017年。2[41] C. Wah，S.布兰森山口韦林德山口Perona和S.贝隆吉Caltech-UCSD鸟类-200 -2011数据集。技术报告CNS-TR-2011-001，加利福尼亚理工学院，2011年。6[42] Nanyang Wang ， Yinda Zhang ， Zhuwen Li ， YanweiFu，Wei Liu，and Yu-Gang Jiang. Pixel2mesh：从单个rgb图像生成3d网格模型。2018年欧洲计算机视觉会议。2[43] 奥利维亚·怀尔斯和安德鲁·齐瑟曼 Silnet：通过从轮廓学习进行单视图和多视图重建。2017年英国机器视觉会议。2[44] Yu Xiang ， Roozbeh Mottaghi ， and Silvio Savarese.Beyond pascal：野外3d物体检测的基准。冬季计算机视觉应用会议。IEEE，2014。六、七[45] Lior Yariv、Yoni Kasten、Dror Moran、Meirav Galun、Matan Atzmon、Ronen Basri和Yaron Lipman。通过分离几何和外观的多视图神经表面重建神经信息处理系统的进展，2020。3[46] Yufei Ye，Shubham Tulsiani和Abhinav Gupta。在野外进行陆架监督网格预测。在计算机视觉和模式识别会议上，2021年。三六七[47] Alex Yu ， Vickie Ye ， Matthew Tancik 和 AngjooKanazawa。pixelnerf：来自一个或几个图像的神经辐射场。在计算机视觉和模式识别会议上，2021年。3

下载后可阅读完整内容，剩余1页未读，立即下载