无监督的可区分体积渲染方法

134 浏览量更新于2023-10-25 收藏 1.43MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

1∂θ可区分的体积渲染：在没有3D监督的情况下Michael Niemeyer1，2Lars Mescheder1，2，3† Michael Oechsle1，2，4 Andreas Geiger1，21马克斯普朗克智能系统研究所，图宾根2图宾根大学3亚马逊，图宾根4ET ASGmbH，博世集团，斯图加特{firstname.lastname}@ tue.mpg.de摘要基于学习的3D重建方法已经显示出令人印象深刻的结果。然而，大多数方法需要3D监督，这对于现实世界的数据集来说通常很难获得。最近，一些作品已经提出了可重构渲染技术来训练从RGB图像重建模型。不幸的是，这些方法目前仅限于基于体素和网格的表示，受到离散化或低分辨率的影响。在这项工作中，我们提出了一个可微渲染公式，灰隐式形状和纹理表示。隐式表示最近得到了普及，因为它们连续表示形状和纹理。我们的主要观点是深度梯度可以用隐微分的概念解析地推导这允许我们直接从RGB图像学习隐式形状和纹理表示。我们的实验表明，我们的单视图重建对手的学习与完整的3D超级视觉。此外，我们发现，我们的方法可以用于多视图的三维重建，直接导致水密网格。1. 介绍近年来，基于学习的3D重建方法取得了令人印象深刻的结果[12，13，17，24，41、48、49、56、64、80]。通过使用在训练过程中获得的丰富的先验知识，他们能够在-从单个图像中生成3D模型。然而，大多数基于学习的方法仅限于合成数据，主要是因为它们需要精确的3D地面实况模型作为训练的监督。为了克服这一障碍，最近的工作已经研究了仅需要深度图或多视图图像形式的2D监督的方法。大多数现有的方法通过修改渲染过程来实现这一点†这项工作在加入亚马逊之前完成。图1：概述。我们表明，体积渲染是固有的隐式形状和纹理表示微分。利用深度梯度的解析表达式，网络参数θ，我们从2D图像学习隐式3D表示fθ使其可微[4，11，15，21，33，36，43，44，47，50，58、59、62、75、76、79、88]。虽然产生了令人信服的结果，但它们仅限于特定的3D表示（例如，体素或网格）遭受离散化伪像并且计算成本将它们限制为小分辨率或使固定模板网格变形。同时，已经提出了形状和纹理[54，66]的隐式表示[12，48，56]，它们在训练期间不需要离散化然而，使用隐式表示的现有方法需要3D地面实况用于训练，并且仍然不清楚如何仅从图像数据学习隐式表示出资额：在这项工作中，我们介绍微分体绘制（DVR）。我们的关键见解是，我们可以推导出预测深度图相对于隐式形状和纹理表示的网络参数的分析梯度（见图1）。1）。这种洞察力使我们能够设计一个可区分的渲染器隐式形状和纹理表示，并允许我们学习这些representations只从多视图图像和对象遮罩。35043505由于我们的方法不必在前向传递中存储体积数据，因此其内存占用与深度预测步骤的采样精度无关。我们表明，我们的配方可用于各种任务，如单视图和多视图重建，并与合成和真实数据。与[54]相比，我们不需要在几何上对纹理表示进行条件化，而是学习具有表示几何和纹理的共享参数的单个模型。我们的代码和数据提供在https://github.com/autonomousvision/微分体积渲染。2. 相关工作3D表示：基于学习的三维重建方法可以分为以下几类：他们使用的基于体素的表示[8，13，19，61，64，73，82，83]，点-基于[2，17，31，40，77，85]，基于网格[24，32，41，55，80]，或隐式表示[3，12，22，30，48，49，56，66，81]。体素可以通过标准的深度学习轻松处理-ing架构，但即使在稀疏数据结构上操作[23，64，74]，它们也限于相对较小的分辨率。虽然基于点的方法[2，17，40，77，85]更节省内存，但由于缺少连接信息，它们需要密集的后处理。大多数基于网格的方法不执行后处理，但它们通常需要可变形的模板网格[80]或将几何结构表示为3D面片的集合[24]，这导致自相交和非防水网格。为了缓解这些问题，隐式表示已经得到普及[3，12，22，30，48，49，53，54，56，66，81]。通过隐式地描述3D几何形状和纹理，例如，作为二元分类器的决策边界[12，48]，它们不离散空间，并且具有固定的内存占用。在这项工作中，我们表明，隐式表示的体积渲染与以前的作品相比，这使我们能够使用2D监督来学习隐式3D形状和纹理表示3D重建：恢复在图像捕获过程中丢失的3D信息是计算机视觉的长期目标之一 [25] 。经典的多视图立体（MVS）方法[5-在体素网格中构建3D形状[6，7，37，60，70]。虽然前一种方法产生深度图作为输出，其必须在有损后处理步骤中融合，例如，使用体积融合[14]，后一种方法受到3D体素网格的过多存储器要求的限制。与这些高度工程化的方法相比，我们的通用方法直接在3D空间中输出一致的表示，可以很容易地转换为防水网格，同时具有恒定的内存占用。最近，基于学习的方法[16，29，39，58，63，86，87]已经提出了学习匹配图像特征[39]，细化或融合深度图[16，63]，优化经典MVS流水线的部分[57]，或者用端到端训练的神经网络替换整个MVS流水线[29，86，87]。与这些基于学习的方法相比，我们的方法可以单独从2D图像进行监督，并输出一致的3D表示。可区分渲染：我们专注于通过可微分渲染学习3D几何形状的方法，这与最近的神经渲染方法[42，51，52，71]不同，后者合成高质量的新视图，但不推断3D对象。它们也可以通过它们使用的3D几何图形的基本表示来分类。Loper et al. [47] propose OpenDR which approximatesthe backward pass of the traditional mesh-based graphicspipeline and has inspired several follow-up works [11, 21,27, 28, 33, 44, 88]. Liu等人。[44]用软版本替换光栅化步骤，使其可微。虽然在重建任务中产生令人信服的结果，但这些方法需要可变形的模板网格进行训练，限制了输出的拓扑结构。另一条工作线对体素网格进行操作[46，50，57，79]。Pashalidou等人[57] Tulsiani et al.[79]提出一种概率射线势公式。虽然提供了一个坚实的数学框架，所有的中间评估需要保存反向传播，限制这些approaches相对较小的分辨率体素网格。Liu等人。[45]提出通过在具有稀疏数量的支持区域的射线的交叉点上执行最大池化来从多视图轮廓推断隐式表示。相比之下，我们使用纹理信息，使我们能够改善视觉外壳和重建凹形状。西茨曼等人[72]通过基于LSTM的可区分渲染器从RGB图像推断隐式场景表示。在生成高质量渲染时，不能直接提取几何图形，需要存储中间结果以计算梯度。相比之下，我们表明，体积渲染是固有的隐式表示微分。因此，不需要为向后传递保存中间结果。3. 方法在本节中，我们将描述我们的可微分体绘制（DVR）方法。我们首先定义了隐式神经表示，我们用来表示3D形状和纹理。接下来，我们提供了DVR的正式描述和所有相关的实现细节。我们的方法的概述在图中提供。二、3.1. 形状和纹理表示形状：与离散体素和基于点的表示相反，我们隐式表示对象的3D形状3506图2：可区分的视觉渲染。我们首先通过对给定的摄像机矩阵进行加权估计来预测表面深度d。为此，我们将采样像素u投影到3D，并在从相机原点向该点投射的光线上以固定步长评估占用网络然后，我们将表面深度解投影到3D中，并评估给定3D位置处的磁场。可以将所得到的2D渲染图像与地面实况图像进行比较。当我们还可以访问地面实况深度图时，我们可以直接在预测的表面深度上定义损失。我们可以通过引入一个额外的图像编码器来预测形状和纹理的全局描述符z，从而使我们的模型具有条件使用在[48]中引入的占用网络：fθ：R3× Z →[0，1]（1）一个占有网络fθ（p，z）给三维空间中的每个点p∈R3分配一个占有概率对于单视图重建任务，我们使用编码器网络gθ（·）处理输入图像，并使用输出z∈Z来条件fθ。物体的3D表面被隐式地去-由阈值参数τ∈[0，1]的水平集fθ=τ所限定，并且可以使用等值面提取技术以任意分辨率来提取。1纹理：类似地，我们可以使用纹理字段来描述3D对象的纹理[54]。tθ：R3× Z →R3（2）其对3D空间中的每个点p∈R3回归RGB 颜色值同样，tθ可以以物体的潜在嵌入z为条件物体的纹理由物体表面上的tθ值在这项工作中，我们将fθ和tθ实现为具有两个浅头的单个神经网络。监督：最近的作品[12，48，54，56，66]已经表明，图3：符号。为了从占有网络f θ和纹理场tθ渲染对象，我们投射方向为w的射线通过pi x elu，并确定与等值面f θ（p）= τ的交点pθ。之后，我们评估在p处的xture字段tθ，以获得在u处的颜色预测τu。3.2. 可微分体绘制我们的目标是从2D图像观测中学习fθ和tθ考虑单个图像观察。我们定义一个光度重建损失可以通过3D监督来学习fθ和tθ地面实况3D模型）。然而，地面实况3D数据通常非常昂贵，甚至不可能获得，ΣL（I，I）=Iuu-Iu中国（3）真实世界的数据集。在下一节中，我们将介绍DVR，这是一种替代方法，使我们能够仅从2D图像中学习fθ和tθ为了清楚起见，我们在下面删除条件变量z1见Mescheder et al.[48]详情我们的目标是优化。在这里，I表示观察到的图像，而I是由我们的隐式模型渲染的图像。2此外，Iu表示观察I的RGB值[2]注意，渲染的图像I依赖于θ到fθ和tθ。为了避免符号混乱，我们在这里去掉了这个依赖项。3507x∂θ∂θˆ∂θu∂θ在像素u处，λ是（鲁棒的）光一致性度量，例如λ1范数。为了最小化重建损失Lwrt。网络参数θ使用基于梯度的优化，我们必须能够（i）重新定义数据库，fθ和tθ;（ii）计算Lwrt的梯度网络参数θ。我们的核心贡献是提供解决方案这两个问题，导致一个有效的算法，学习隐式三维表示从二维图像。渲染：对于位于r0的摄像机，我们可以通过投射从r0到u的射线并确定与等素面{p ∈ R 3}相交的第一个点p {\displaystyle p}，来预测pi x el u处的颜色|fθ（p）=τ}，如图所示。3.第三章。颜色那么，通过I=t（p），值I是g iv en。我们建议读者fθ在p≠wrt的梯度。网络参数θ和表面点pθ。因此，与基于vo x el的方法[58，79]相比体积数据）用于计算损失WRT的梯度。的参数，从而在内存效率的算法。在下一节中，我们描述了DVR的实现，它使用反向模式自动微分来计算全梯度（4）。3.3. 执行为了使用自动微分，我们必须对表面深度预先执行向前和向后传递选择步骤θ→dθ。在下文中，我们描述如何u uθ有关光线投射过程的详细信息，请参见第3.3为了得到L相对于θ的梯度，我们首先使用多元链式法则：两个通道都被实现。欲知详情，请读者参阅补充材料。前向传球：如图所示3，我们可以通过找到射线r上的第一个占位变化来确定d。检测联系我们=你好，·（四）我们评估了占用网络，射线θfθ（·）在射线{pj}上的n个等距样本处nj=1. 我们-这里，表示具有向量值自变量x的向量值函数g的雅可比矩阵，如果步长为10s，我们可以表示这些点在世界坐标系中，p射线=r（js+s）（9）矩阵乘法通过开发我们的=tθ（p≠ 0），我们得到j0你好，=∂θθ（p）∂θ+tθ（p）∂pˆ∂pˆ·∂θ（五）其中s0确定最近的可能表面点。我们首先找到f θ从自由空间（f θ<τ）变为被占据空间（f θ≥ τ）的最小值j：因为tθ和pθ都依赖于θ。因为p是定义为.射线Σ射线隐式地，计算平均值是非三角形的。我们首先要利用p位于从r0到u的射线上。对于一个新的pixelu，这j= argminj′fθ（pj′+1）≥τ>fθ（pj′）（十）射线可以用r（d）=r0+dw来描述，其中w是连接r0和u的向量（见图2）。（3）第三章。由于p∈R，存在一个深度值d∈R，使得p∈ R=r（d∈R）。我们把地面部称为地面部。这使我们能够重新编写通过对区间[j≤s+s0，（j+ 1）≤s+s0]应用迭代割线法，得到了表面深度d的一个近似值.在实践中，我们计算的表面深度为一批Np点并行。重要的是要∂pˆ∂θr（d）=∂θ∂dˆ=w∂θ（六）注意，我们不需要展开向前传递或存储任何中间结果，因为我们利用隐式微分来直接获得d_wrt的梯度。 θ。为了计算表面深度dθ 的梯度，我们利用隐式微分[3，65]。在wrt两侧fθ（pθ）=τ不同。θ，我们得到：反向传递：反向传递的输入是损失wrt的梯度λ = λL。一个单一的表面深度预测，普卢德第后向传递的输出是λd，其可以是fθ（p∂θfθ（p∂pˆ∂pˆ·=0∂θ使用（8）计算。然而，在实践中，我们希望不仅对单个曲面⇐⇒∂fθ(pˆ)∂θ+fθ（p）∂pˆ∂dˆ·w=0∂θ（七）一整批深度值的深度数据。我们可以通过重新编写λ_ e_d_e来有效地实现这一点重新整理（7），我们得到表面深度梯度dθ的以下封闭形式表达式：µfθ（p）∂θ与 µ=−.θfθ（pθ）·w∂pˆΣ−1λ（11）}3508∂dˆ.f（p）Σ−1 f（p）重要的是，（11）中的左项对应于一个正常的=−θ·wθθ（八）应用于神经网络fθ的反向操作和我们注意到，计算表面深度的梯度d.网络参数θ只需要计算（11）中的右项只是一个（元素方面的）标量多。批处理中所有元素的应用因此，我们可以方便地计算算子θ→dθ3509k=1首先将输入的梯度λ逐元素乘以一个因子，然后通过算子θ→fθ（pθ）反向传播结果。这两个操作可以在常见的深度学习框架中有效地并行化3.4. 培训在训练过程中，我们假设我们有N张图像{Ik}N连同对应的相机固有函数，例如，N其中BCE是二进制交叉熵。当没有预测表面深度时，我们将自由空间损失应用于射线上的随机采样点。占用损失：如果一个点u位于对象遮罩内，但预测的表面深度d是无限的，则网络错误地预测光线r上没有表面点。为了鼓励预测该射线上的占用空间，我们均匀地随机采样深度值d，并定义trinsics和对象掩码{Mk}k=1。作为我们的实验显示，我们的方法工作与一个图像，每个对象。此外，我们的方法还可以将深度信息{D}N（如果可用）。L占有率（θ）=ΣBCE（fθ（r（drandom）），1）（15）u∈P2kk=1为了训练fθ和tθ，我们随机采样一幅图像，Ik和Np点u在图像平面上。我们区分以下三种情况：首先，让P0表示位于对象掩码Mk内的点集u，并且对于在单视图重建实验中，我们使用位于所有对象遮罩（视觉外壳的深度）内的光线上的第一个如果我们有额外的深度监督，我们使用地面实况深度为ocu-牛顿环网工作预测有限表面深度dmax损失惨重。因图伊什湖占用鼓励网络在第3.3节中描述。对于这些点，我们可以定义占据沿着相应射线的空间，损失Lrg b（θ）直接在预测图像上。更进一步，使用LRGB在（12）和L深度在（13）中，优化初始设P1表示位于物体掩模之外的点uMk.虽然我们不能为这些点定义光度损失，但我们可以定义损失L自由空间（θ），以鼓励网络沿着相应的光线去除虚假几何。最后，让P2表示位于对象掩模Mk内部的点u的集合，但是对于这些点，占用网络没有预测有限的表面深度dk。我再次重申，我们不能对这些点使用光度损失，但我们可以定义一个损失L占用（θ），以鼓励网络占用率正常损失：可选地，我们的表示允许我们通过正则化表面法线来合并平滑先验。这对于真实世界的数据尤其有用，因为使用2D或2.5D监督的训练包括无约束区域，其中该先验实施更自然的形状。我们将这一损失定义为Σ以产生有限的表面深度。RGB损失：对于P0中的每个点，我们检测预测的L正常（θ）=u∈P0||二（十六）||2(16)表面深度d如第3.3节所述。我们将点的照片一致性损失定义为ΣLrgb（θ）=（I）u−（I）u（12）u∈P0其中，计算图像特征，并且定义鲁棒误差度量。在实践中，我们使用RGB值和（可选地）图像梯度作为特征，并对RGB·RGB使用1-损失。深度损失：当深度也被给定时，我们可以直接在预测的表面深度上加入100%的损失，其中，n（·）表示正常向量r，pu是预测的表面点，qu是pu的随机采样邻居。33.5. 实现细节我们用5个完全连接的ResNet [26]块和ReLU激活来实现组合网络。最后一层的输出维度为4，一维用于占用概率，三维用于纹理。对于单视图重建实验，我们使用ResNet-18 [26]编码器对输入图像进行L深度Σ（θ）=|d−d|1u∈P0（十三）输出256维潜码的网络gφz. 为了便于训练，我们从射线采样精度开始，我们迭代地增加到n= 128，其中，d表示采样图像点u的地面真实深度值，而d表示像素u的预测表面深度。自由空间损失：如果点u位于对象掩模之外，但预测的表面深度d是有限的，则网络错误地预测表面点p=r（d）。因此，我们将这一占用率与Σ在5万次、15万次和25万次迭代之后使n加倍。我们选择采样间隔[s0，ns+s0]，使其覆盖每个对象的感兴趣体积。我们设置 τ= 0 。 5 、所有实验我们在单个NVIDIA V100 GPU上训练，批量大小为64张图像，每张图像包含1024个随机像素我们使用Adam优化器[35]，学习率γ= 10−4，在750之后我们将其降低5倍，1000epoch，分别。3510L自由空间（θ）=u∈P1BCE（fθ（pθ），0）（14）3详见补充资料。35114. 实验我们进行了两种不同类型的实验来验证我们的方法。首先，我们研究了当在大量RGB或RGB-D图像上训练时，我们的方法从单个RGB图像重建3D形状和纹理的效果如何。在这里，我们考虑了我们可以访问多视图监督的情况和我们在训练期间每个对象仅使用单个RGB-D图像的情况。接下来，我们将我们的方法应用于具有挑战性的多视图重建任务，其目标是从真实世界的多视图图像重建复杂的3D对象。4.1. 单视图重建首先，我们调查在何种程度上我们的方法可以从单视图中的一个3D形状和纹理表示我们在所有类别上联合训练单个模型。数据集：为了遵守社区标准[13，48，80]，我们使用Choy等人。[13] ShapeNet数据集[ 10 ]的子集（13个类），用于2.5D和3D监督方法，具有来自[ 48 ]的训练，验证和测试分割。当我们使用蔡等人的渲染图时。[13]作为输入，我们额外渲染了24幅分辨率为2562的图像，其中每个对象都有深度图和对象遮罩，我们将其用于超级视觉。我们对北半球的视点以及摄像机到目标的距离进行随机采样，以获得多样化的监控数据。对于2D监督方法，我们坚持社区标准[33，44，84]并使用[33]中的渲染和分割。与[13，33，48]类似，我们使用标准姿势的对象进行训练基线：我们与以下方法进行比较，这些方法都生成水密网格作为输出：3D-R2 N2 [13]（基于体素），Pixel2 Mesh [80]（基于网格）和ONet [48]（隐式表示）。我们进一步对比了2D和2.5D监督版本的微分光线一致性（DRC）[79]（基于体素）和2D监督软光栅化器（SoftRas）[44]（基于网格）。对于3D-R2 N2，我们使用来自[48]这被证明比[13]的原始模型产生更好的结果。对于其他基线，我们使用作者的预训练模型4。4.1.1多视图监控我们首先考虑的情况下，我们有机会多视图监督与N=24图像和相应的对象掩模。此外，我们还调查的情况下，地面真理深度图。结果：我们使用[48]中的倒角-L1距离评价结果与以前的作品[13，44，48，4不幸的是，我们不能显示DRC和SoftRas的纹理结果，因为纹理预测不是官方代码库的一部分。输入SoftRas我们的（LRGB）Pixel2Mesh我们的（L深度）图4：单视图重建。我们显示了[13]的输入渲染以及我们的2D监督（LRGB）和2.5D监督（LDepth）模型，SoftRaster- izer [44]和Pixel 2 Mesh [80]的输出。对于2D监督方法我们使用[33]中的相应视图作为输入。输入预测输入端预测图5：使用单视图监督的单视图重建。虽然每个对象仅使用单个视图进行训练，但我们的模型预测准确的3D几何形状和纹理。#24799;，我们直接比较。地面真实形状模型，而不是体素化或防水版本。在表1和图4中，我们显示了我们的方法和各种基线的定量和定性结果。我们可以看到，当仅在多视图图像和对象掩码作为监督信号上训练时，我们的方法能够从单视图图像中推断出准确的3D形状和纹理表示。量化（表1），我们的方法在2D监督的方法中表现最好，并与全3D监督的方法的质量相媲美。当使用深度训练时，我们的方法与使用完整3D信息的方法相比表现相当。Quali（图）4），我们看到，与基于网格的方法相比，我们的方法不限于某些拓扑，哎呀。当使用照片一致性损失LRGB进行训练时，我们看到我们的方法能够预测准确的纹理除了3D形状之外，还有其他信息。4.1.2单视图监控先前的实验表明，我们的模型能够推断准确的形状和纹理信息，而无需3D3512类别美国（公告牌成人另类歌曲榜）[79][44]第四十四话我们的（LRGB）2.5D监管美国（公告牌成人另类歌曲榜）[79]我们的（L深度）3D R2N2 [13个国家]3D监控ONet [48] Pixel2Mesh [80个]飞机0.6590.1490.1900.3770.1430.2150.1510.183板凳-0.2410.210-0.1650.2100.1710.191内阁-0.2310.220-0.1830.2460.1890.194车0.3400.2210.1960.3160.1790.2500.1810.154椅子0.6600.3380.2640.5100.2260.2820.2240.259显示-0.2840.255-0.2460.3230.2750.231灯-0.3810.413-0.3620.5660.3800.309扬声器-0.3200.289-0.2950.3330.2900.284步枪-0.1550.175-0.1430.1990.1600.151沙发-0.4070.224-0.2210.2640.2170.211表-0.3740.280-0.1800.2470.1850.215电话-0.1310.148-0.1300.2210.1550.145容器-0.2330.245-0.2060.2480.2200.201是说0.5530.2660.2390.4010.2060.2770.2150.210表1：单视图重建。我们报告倒角-L1距离wrt.单视图实验的地面实况网格。我们比较了微分光线一致性（DRC）[79]（2D和2.5D监督），软光栅化器[44]（2D监督），3D-R2 N2 [13]，Occupational Networks（ONet）[48]和Pixel 2Mesh [80]（所有3D监督）。监管一个自然的问题是，在训练过程中需要多少图像。为此，我们调查的情况下，只有一个单一的图像与深度和相机信息。由于我们在标准对象坐标系中表示3D形状，因此假设模型可以在多个训练实例中聚合信息，尽管它只能从一个角度看到每个对象。由于使用相同的图像作为输入和监督信号，我们现在的条件是我们的渲染，而不是由Choy等人提供的。[13 ]第10段。结果：令人惊讶的是，图。5表明，我们的方法可以在每个对象只有一个单一视图时引入适当的3D形状和纹理，证实了我们的假设。量化，训练模型的倒角距离具有LRGB和LDepth，仅具有单个视图（0. 410）与使用24个视图（0. 第383段）。数据比实际情况更糟的原因是在4.1节中，对于我们的渲染，我们不仅要采样视点，还要采样到物体的距离，这是一个更困难的任务（见图10）。（五）。4.2. 多视图重建最后，我们调查，如果我们的方法也适用于在现实世界中的场景多视图重建。我们调查了两个案例：首先，当多视图图像和对象掩模被给定时。第二，当给出额外的稀疏深度图时，可以从经典的多视图立体算法中获得[67]。在这个实验中，我们不对模型进行条件化，而是为每个对象训练一个模型。数据集：我们对来自具有挑战性的真实世界DTU数据集的扫描65，106和118进行了这项实验[1]。该数据集包含49或65张图像，其中包含每个对象的相机信息以及基线和结构光地面真实数据所呈现的对象是具有挑战性的，因为它们的外观由于镜面反射而在不同视点中改变我们基于采样的方法允许我们在1200×1600的全图像分辨率上训练。我们自己标记对象遮罩，并始终使用照明条件的深刻变化，例如，这是由背景中出现的扫描仪部件基线：我们与具有3D网格作为输出的经典方法进行比较。为此，我们在经典MVS算法Campbell等人的输出上运行筛选泊松表面重建（sPSR）[34]。[9]，Fu-rukawa et al.[18]，Tola et al.[78 ][79][79][79][79]我们发现，基线的DTU基准的结果对sPSR的调整参数高度敏感，因此报告了调整参数0（水密输出）、5（良好定性结果）和7（良好定量结果）的结果为了进行公平的比较，我们在运行sPSR之前使用对象掩码从基线的预测中移除位于视觉外壳之外的所有点。5我们在“表面模式”下使用官方DTU评估脚本结果：我们显示了定性和图中的定量结果6和表2。定性地说，我们发现我们的方法可以用于多视图的三维重建，直接导致水密网格。准确建模物体空腔的能力表明，我们的模型使用纹理信息来改善视觉外壳（图1）。（七）.定量，表2显示，我们的方法竞争对手的结果，从高度调整的MVS算法。我们注意到，DTU地面实况本身是稀疏的（图。7c）和方法，因此，奖励权衡完整性的准确性，这解释了更好的定量性能的基线较高的修剪参数（图。（八）。5详见补充资料。3513(a)形状（b）法线（c）纹理图6：多视图立体。我们展示了我们的方法的形状，法线和纹理形状，这些方法是用DTU数据集[1]的扫描106的(a) Visual Hull [38]（b）Ours（LRGB）（c）Ground Truth图7：与Visual Hull的比较。我们展示了视觉外壳，用LRGB训练的模型的形状预测，以及DTU数据集扫描118的地面实况我们的方法使用RGB线索来改善视觉外壳并预测地面实况中缺失的部分。(a) Colmap5（b）Colmap7（c）Ours图8：微调参数的影响。我们显示了筛选后的泊松表面重建[34]，其中Colmap [67]的修剪参数为5和7，以及DTU数据集扫描106的LRGB+LDepth5. 结论和未来工作在这项工作中，我们提出了微分体绘制（DVR）。观察到体积渲染对于隐式表示是固有可微的，这允许我们针对深度的梯度相对于网络参数来制定解析表达式我们的实验表明，DVR使我们能够从多视图图像中学习隐含的3D形状表示，而无需3D表2：多视图立体。我们显示了DTU数据集上扫描65，106和118的定量结果。对于基线，我们使用修剪参数0、5和7执行筛选泊松曲面重建（sPSR）[34]以获得最终输出。它表明，我们的通用方法实现的结果相比，高度优化的MVS方法。监督，与通过完整的3D监督学习的模型相媲美。此外，我们发现，我们的模型也可以用于多视图三维重建。我们相信DVR是一种有用的技术，它拓宽了隐式形状和纹理表示的应用范围在未来，我们计划研究如何规避对对象掩模和相机信息的需求，例如，通过预测软掩模以及如何不仅估计纹理，而且估计更复杂的材料属性。致谢这项工作得到了NVIDIA研究礼物的支持。作者感谢国际马克斯普朗克智能系统研究学院（IMPRS-IS）对Michael Niemeyer的支持。修剪参数精度完整性倒角-L1[78]第78话02.4091.2421.826Furu [18] + sPSR02.1460.8881.517Colmap [67] + sPSR01.8810.7261.303Camp [9] + sPSR02.2130.6701.441[78]第78话51.5311.2671.399Furu [18] + sPSR51.7330.8881.311Colmap [67] + sPSR51.4000.7821.091Camp [9] + sPSR51.9910.6701.331[78]第78话70.3961.4240.910Furu [18] + sPSR70.7230.9550.839Colmap [67] + sPSR70.4461.0200.733Camp [9] + sPSR71.4660.7191.092我们的（LRGB）-1.0540.7600.907我们的（LRGB+L深度）-0.7890.7750.7823514引用[1] Henrik Aanæs，Rasmus R. Jensen，George Vogiatzis，Engin Tola，and Anders B.达尔多视点立体视觉的大规模数据 InternationalJournalofComputerVision（IJCV），120（2）：153-168，2016. 七、八[2] Panos Achlioptas，Olga Diamanti，Ioannis Mitliagkas，and Leonidas J.Guibas 学习3D点云的表示和在国际会议上。机器学习（ICML），2018年。2[3] Matan Atzmon，Niv Haim，Lior Yariv，Ofer Israelov，Haggai Maron，and Yaron Lipman.控制神经水平集。在神经信息处理系统（NIPS）的进展，2019年。二、四[4] 布鲁斯·G鲍姆加特计算机视觉的几何建模. 斯坦福大学，1974年。1[5] Michael Bleyer Christoph Rhemann 和 Carsten Rother 。Patchmatch stereo -支持倾斜窗口的立体匹配。在英国机器视觉会议上。（BMVC），2011。2[6] Jeremy S.德·博内和保罗·维奥拉。点元：概率体素化体积重建。在proc IEEE International Conf.计算机视觉（ICCV），1999年。2[7] 作者： Adrian Broadhurst ， Tom W. Drummond ， andRoberto Cipolla.空间雕刻的概率框架。在IEEE国际会议上。计算机视觉（ICCV），2001年。2[8] 放大图片作者：James M.里奇和尼克·韦斯顿使用卷积神经网络的生成和判别体素建模 arXiv.org ，1608.04236，2016.2[9] 尼尔·D F. Campbell，Geor geVogiatzis，CarlosHerna' ndez，and Roberto Cipolla.使用多个假设来改进多视图立体的深度图。在欧洲会议上。计算机视觉（ECCV），2008年。七、八[10] 天使X作者：Thomas A.作者：Leonidas J. Guibas、PatHanrahan、Qi-Xing Huang、Zimo Li、Silvio Savarese、Manolis Savva 、 Shuran Song 、 Hao Su 、 JianxiongXiao、Li Yi和Fisher Yu。Shapenet：一个信息丰富的3D模型存储库。arXiv.org，1512.03012，2015. 6[11] Wenzheng Chen，Huan Ling，Jun Gao，Edward Smith，Jaako Lehtinen，Alec Jacobson，and Sanja Fidler.学习用基于插值的可微分渲染器预测3d对象神经信息处理系统进展（NIPS），2019年。一、二[12] 陈志勤和张浩。学习生成式形状建模的隐式字段。正在进行IEEE会议计算机视觉和模式识别（CVPR），2019年。一、二、三[13] 克里斯托夫·B. Choy，Danfei Xu，JunYoung Gwak，Kevin Chen，and Silvio Savarese. 3d-r2 n2：用于单视图和多视图3D对象重建的统一方法。在欧洲会议上。计算机视觉（ECCV），2016年。一、二、六、七[14] Brian Curless和Marc Levoy。从距离图像建立复杂模型ACM Trans. on Graphics，1996年。2[15] ValentinDeschaintre ， MiikaAittala ， Fre' doDurand ，GeorgeDrettakis，and Adrien Bousseau.使用渲染感知深度网络捕获单图像SVBRDFACM Trans. on Graphics，2018年。1[16] Simon Donne和Andreas Geiger使用连续重投影学习正在进行IEEE会议计算机视觉和模式识别（CVPR），2019年。2[17] Haoqiang Fan，Hao Su，and Leonidas J. Guibas从单幅图像重建三维物体的点集生成网络。Proc. IEEE Conf.计算机视觉和模式识别（CVPR），2017年。一、二[18] 古川康孝和让·庞塞。精确、密集和强大的多视图立体视觉。 IEEE Trans. 模式分析和机器智能（PAMI），32（8）：1362-1376，2010。七、八[19] Matheus Gadelha，Subhransu Maji和Rui Wang。从多个对象的2D视图的3D形状归纳。在国际会议上。关于3DVision（3DV），2017年。2[20] 加利亚尼，拉辛格，辛德勒。Gipuma：大规模并行多视图立体再现。PublikationenderDeuts c henGesells chaftfur ？rPho-togrammetrie ， FernerkundungundGeoinformation e. V，25：361-369，2016. 2[21] Kyle Genova，Forrester Cole，Aaron Maschinot，AaronSarna，Daniel Vlasic和William T.弗里曼。三维变形模型回归的无监督训练。正在进行IEEE会议计算机视觉和模式识别（CVPR），2018。一、二[22] Kyle Genova ， Forrester Cole ， Daniel Vlasic ， AaronSarna，William T. Freeman和Thomas Funkhouser。使用结构化隐函数学习形状模板。在IEEE国际会议上。计算机视觉（ICCV），2019年。2[23] 本·格雷厄姆稀疏3d卷积神经网络。在英国机器视觉会议（ British Machine Vision Conf.（BMVC），2015. 2[24] 放大图片作者：David G. Kim，Bryan C.罗素和马修·奥布里。学习3D表面生成的一种纸上方法。在Proc. IEEE计算机视觉与模式识别会议（CVPR），2018年。一、二[25] Richard Hartley和Andrew Zisserman。计算机视觉中的多视几何学。剑桥大学出版社，2003年。2[26] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习在proc IEEE会议计算机视觉和模式识别（CVPR），

下载后可阅读完整内容，剩余1页未读，立即下载