基于先验知识的语义三维重建

192 浏览量更新于2023-10-13 收藏 2.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于先验知识的语义三维重建I anCherabier1，† JohannesL. Schoünberger1，* MartinR.Oswald1Marc Pollefeys1，2Andreas Geiger1，31ETHZu¨rich2Microsof3MPI-IandUivrityofTu¨bingn抽象。我们提出了一种新的语义三维重建框架，它嵌入到神经网络变分正则化我们的网络工作执行固定数量的展开多尺度优化it-erations共享的相互作用的权重。与现有的用于语义3D重建的变分方法相比，我们的模型是端到端可训练的，并且捕获语义标签和3D几何形状之间的更复杂的依赖关系。与以前的基于学习的3D重建方法相比，我们使用变分的粗到细优化来集成强大的长期依赖性。因此，我们的网络架构只需要适度数量的参数，同时保持高水平的表现力，使学习从非常少的数据。在真实和合成数据集上的实验表明，与纯变分方法相比，我们的网络实现了更高的精度，同时需要两个数量级的迭代收敛。此外，我们的方法使用相同的计算资源处理十倍以上的语义类标签1介绍从图像估计3D几何形状是计算机视觉中的长期目标之一。然而，尽管其历史悠久，许多问题仍然没有解决。特别是，由无纹理或反射区域、视点变化和图像噪声引起的模糊性使问题变得困难。因此需要强大的先验知识来稳健地解决任务。可以利用的先验知识的一个来源是语义及其与3D几何形状的交互例如，考虑城市虽然地面通常是平坦和水平的，但建筑物的墙壁大多是垂直的，位于地面的顶部。因此，可靠的语义图像分类方法的可用性最近推动了联合优化3D中的几何和语义的方法的发展。Intheheirpioneeringwork，Hüaneetal. [10，12，13]使用深度图和语义分割作为输入，提供用于关节体积3D重建和语义分割的他们将任务制定为变分多标签问题，其中每个体素由语义类或自由空间中的任一个标记Wulff形状[28]用作凸各向异性正则化器，对任何两个相邻体素标签之间的关系进行虽然已经证明了令人印象深刻的语义重建结果，但所使用的先验*这些作者都是第一作者。2I. C herabier，J. L. S cho¨nberger，M. R. 你好，M。Polleefeys，A. GeigerIputtCostHa¨neetal. [12]（50iters. ）我们的（50个））输入成本TV-L1（1 K iters.）我们的（50公升）图1：语义3D重建结果。我们学习语义和几何邻域统计来处理大量的噪声、离群值和缺失数据。与传统TV-L1和最新技术[12]相比，我们的方法需要的迭代次数和内存明显减少此外，它处理更大的标签集。是手工调整的，非常简单，因此不能完全捕捉我们的3D世界的复杂语义和几何依赖性此外，这些模型中的推理需要数千次迭代以进行收敛，从而限制了这些方法的适用性。这项工作重新审视了在多视图3D重建设置中联合估计几何形状和语义的问题，如图2所示1.一、我们的方法结合了经典变分方法[10，12，13]的优点和深度学习[32，39]的最新进展，从而产生了一种简单，通用并且比以前的解决方案更具可扩展性的方法此外，我们的方法允许从比现有的基于学习的解决方案少得多的训练数据中自动学习3D表示。因此，我们的方法比变分方法快几个数量级，同时产生更好的重建。此外，内存需求显着减少，允许更大的标签空间。总之，我们做出以下贡献：• 我们提出了一个新的框架多视图语义三维重建它将变分方法的优点与深度神经网络的优点相结合，从而产生简单，通用和强大的模型。• 我们提出了一个多尺度优化策略，加速推理，增加了感受野，并允许长距离的信息传播。• 与现有的变分重建方法[13]相比，我们的方法从数据中学习端到端的语义和几何关系与完全卷积架构相比，我们的模型是轻量级的，可以从最少五个场景进行此外，以前需要手动和场景相关的参数调整不再是必要的，所有的元参数，如步长，是隐式学习• 我们的实验表明，我们的方法是能够实现高品质的结果，只有50展开优化迭代相比，使用传统的变分优化的数千次迭代。基于先验知识的语义三维重建3方法训练模型模型运行时手册#标签语义场景复杂度参数调整交互已学习[6，8，9，36，38，40]>5K高百万分钟·>40多尺度变量（TV）[19，31，41]>0低无秒·>40无变量（伍尔夫形）[5，10，12]> 1中等10小时<单尺度Learned-Variational [Ours]>5低千秒·>40多尺度表1：语义重构方法的定性比较。数量是近似的，并分为积极的，中性的，消极的。2相关工作我们的工作建立在各种计算机视觉和机器学习工作的基础上。本节和表1提供了最相关的先前工作的概述。语义三维重建。Ladicky等人。[22]提出了一种用于联合语义分割和立体匹配的模型。他们认为简单的高度-地面上的属性之间的语义和3D几何形状的约束。Kim等人。 [17]提出了一种条件随机场（CRF）模型，用于基于单个RGB-D图像标记3D体素空间，并使用图形切割求解CRF。Hüan等人在多视图中联合进行体积3D重建和语义分割。 [12，13]使用变量优化。对这项开创性工作的扩展考虑对象类特定的形状先验[10，23]，可扩展的数据自适应数据结构[1]或更大的语义标签空间[5]。Kundu等人。 [21]定义了一个条件随机场，以联合推断单目视频序列的语义和占用。这些方法的一个共同缺点是，所采用的先验要么是手工制作的，要么不够丰富，无法捕捉我们的3D世界的复杂关系我们建议在端到端可训练模型中将变分语义多视图重建的优势与深度学习相这导致更准确的结果和更快的运行时间，因为在训练期间学习了超参数，例如此外，我们提出了一种新的多尺度优化方案，它允许快速传播信息跨越大的距离，并有效地增加了正则化的感受野。变分正则化变分能量最小化方法在处理噪声和丢失信息时取得了很大的进步各种在文献[2-4，27，28，42]中，在不同的视觉问题的背景下研究了正则化子的性质虽然这些正则化器已被证明对低级视觉问题[3，35]和3D表面重建[12，19，31，41]有效，但它们的表达能力有限，并且不能完全捕获潜在问题的统计数据在本文中，我们提出了一个更有表现力的变分正则化，联合原因在多个尺度上，可以从数据中学习学习正规化。一些作品结合了变分推理和深度学习的优点。早期的方法通过学习后续能量最小化的数据成本[43]或通过进一步正则化网络输出[14]，以顺序的方式进行组合相比之下，几个非常近期的作品将变分正则化直接集成到神经网络和神经网络中。4I. C herabier，J. L. S cho¨nberger，M. R. 你好，M。Polleefeys，A. Geiger将它们应用于2D图像处理任务，包括深度超分辨率[32]，去噪[18，25，39]，去模糊[18]，立体匹配[39]和图像分割[30]。通常，各个优化步骤被展开并作为层嵌入到神经网络中。我们的工作建立在这些想法，并将它们定制为多视图语义三维重建问题，使用一种新的多尺度神经网络架构的联合几何和语义推理。已学习形状先验。最近，已经提出了基于深度学习的方法用于深度图融合[15]、3D对象识别[16，24]或使用密集体素网格作为输入的3D形状完成[6，8，9，36，38，40]所有这些AP-虽然这些方法依赖于通用的3D卷积神经网络架构，但它们需要非常大量的参数和大量的训练数据。相比之下，我们的方法是更轻的重量，因为它明确地通过展开变分推理纳入结构约束，因此限制了所需的参数的数量尽管最近有使用数据自适应结构来改变这些方法的空间可伸缩性的努力[11，33，34，37]，但当前的结果大多限于单个对象或简单场景，并且考虑相对较小的分辨率。然而，这些工作都没有考虑语义多视图三维重建任务，这是本文的重点。此外，我们的方法是完全卷积的，因此也可以扩展到非常大的场景。3方法使用通用3D卷积神经网络进行语义3D重建需要大量的内存和训练数据。因此，在本文中，我们提出了一个更轻的重量的替代方案，它嵌入了一个多标签的优化任务到一个语义3D重建网络的层。我们首先在第3.1节中介绍我们的多尺度网络架构，然后在第3.2节中详细描述嵌入式变分问题，并在第3.3节中描述我们用于训练模型的损失函数。3.1网络架构所提出的用于语义3D重建的网络架构在图1中示出。2.我们网络的输入是一组语义标记的深度图，这些深度图聚合成截断符号距离函数（TSDF）的3D体积。更具体地说，我们遵循[12]并积累每个标签的证据，例如。使用来自立体的深度图和相应的语义图像分割。与传统的TSDF融合一样，我们跟踪每个深度图中每个像素的光线，以确定哪些体素被占用或为空。然而，我们不是使用固定的我们的网络的输出是体积语义3D重建，其中每个体素具有语义类标签或自由空间标签中的一个我们的网络包括三个组成部分（见图1）。图2）：编码器（黄色）、展开的原始对偶优化层（蓝色）和解码器（橙色）。我们基于先验知识的语义三维重建5我编码器展开多网格原始对偶解码器图2：建议的网络架构。方框表示数据实体，蓝色圆圈表示并行原始-对偶（PD）处理步骤，迭代次数作为下标。权重Wj指示信息流（为了简洁起见，省略了伴随变量、原始变量和对偶变量）。该图显示了我们针对三个尺度的多尺度优化的示例，然而，它们的数量是灵活的。在多个尺度上的方法推理，其允许（i）在不同尺度上对语义交互进行建模，以及（ii）在推理期间在较大距离上快速传播信息，例如，，以完成缺失的数据。我们发现，（i）导致更高的准确性，而（ii）与标准求解器相比，导致更快的收敛[12，42]。在第3.2节中提供详细推导之前，我们现在从高层次上描述这三个网络组件数据成本编码器。在每个体素处，数据成本由经由融合的深度图（例如，深度图）计算的TSDF编码。从立体声或Kinect）和语义场景分割（例如，从语义分割算法获得）。在我们网络的第一阶段，我们使用一个3层的浅层多尺度神经网络来预处理这个输入编码器服务于几个目的：首先，它使不同语义类相对于彼此和数据项作为一个整体的影响其次，它有助于降低输入中的低电平噪声。最后，我们的多尺度优化需要对数据成本进行下采样，我们使用每个尺度的单独编码器自动学习更具体地说，从最高分辨率开始，我们用残差单元处理输入，该残差单元具有两对卷积-ReLU操作，然后是没有激活的最终卷积。然后使用平均池化将编码输入下采样到下一尺度，随后是下一编码阶段。展开的多重网格原始对偶。而不是用一个高容量的3D卷积神经网络，我们建议利用变分优化语义3D重建作为一个轻量级的正则化在我们的模型。这种正则化器的优点在于，由于时间权重共享，它需要相对较少的参数，同时能够通过将算法展开固定次数的迭代并跨多个尺度传播信息来在大距离上传播信息。更具体地说，我们展开了Pock和Chambolle [29]的原始-对偶（PD）算法的迭代，该算法专为多标签语义3D重建任务定制，并通过用矩阵替换梯度算子对其进行参数化，该矩阵在多个尺度上对语义和几何的交互进行建模，以实现高效的标签+PD1PD2PD3PDT+输入3x Conv3x Conv输出SkipSkipAvg. 池化PD1PD2PD3PDT+3x Conv跳过Avg. 池化+PD1PD2PD3PDT3x ConvSkip季度一半充分6I. C herabier，J. L. S cho¨nberger，M. R. 你好，M。Polleefeys，A. Geiger√各向同性正则化电视标准[4]电视机[2]异方晶系电视[27][42]第四十二话（圈）（按比例缩放的圆圈）（椭圆体）（凸形）φx（u）=φx（u）=φx（u）=φx（u）=λu（x）2λg（x）u（x）2λuDxu λmaxξ∈Wφ（ξ，u∠图3：已经在体积3D重建中使用的手工制作的正则化器的概述，例如加权TV-范数：[19，41]，各向异性TV：[20，31]，Wulff-形状：[1，12]。极坐标图显示了不同梯度方向u的平滑成本φx（·）。右边的两个成本函数与给定的法线n对齐。我们从训练数据中学习这些正则化函数。传播每个PD更新方程定义网络中的一个层，如图中的蓝色圆圈所示。2.为了学习语义标签交互的参数和优化算法的超参数，我们通过展开的PD算法反向传播它们的梯度。我们的算法的详细推导在3.2节中给出概率解码器。类似于所提出的编码阶段，我们也解码后的最终PD迭代得到的解决方案。这里的主要目标是平滑和增加对比度，从而在最终标记上实现更强的决策，从而提高准确性。我们的解码器在最后一次迭代的变分优化器，并将其馈送到残差单元与两对卷积-ReLU操作，然后是最后一次卷积与softmax激活进行归一化。3.2学习变分能量最小化本节描述了多重网格原始-对偶优化算法，我们利用它作为我们网络中的轻量级学习正则化器。体积3D重建的传统变分方法[1，10，12，13，19，20，31]使能量∫。尽量减少uφx（u）联系我们+Fu联系我们ΣDx受x∈Ω：Σu（x）= 1ℓ正则化数据保真度（一）为了找到最佳标记u：Ω→ [0，1] |L|它为空间中的每个点分配每个标签∈ L的概率。（1）中的约束确保了在每个点x∈Ω处所有标签∈ L上的归一化概率。数据成本项f：Ω → R| L|聚合可能的表面位置的噪声深度测量，并且通常被建模为截断的符号距离函数（TSDF）。处理基于先验知识的语义三维重建7[0，1]ℓ对于噪声、异常值和缺失数据，通常将正则化项添加到能量泛函以获得更平滑和更完整的解。正则化的简单方法是将所有变量（T_V）或m[2，4]φx（u）=λg（x）u（x）2作为正则化的条件，其中R是对3D图形的结构进行最小化[19]。在大多数情况下，权重函数g：Ω → R≥0编码光一致性测量，以将表面与输入数据对齐。在许多作品中，该模型已被扩展以更好地处理精细几何细节[20，27，31]或多个语义标签和方向统计先验[12，42]。图3提供了已经提出用于3D重建的各种正则化器值得注意的是，所有这些正则化器是凸的，并且是等式1的全局最小化器（1）可以有效地计算[3]。这些手工制作的正则化器通常是为了优化过程中的易处理性而设计的，但不足以表示底层问题的真实统计数据[18]。建议能源。为了克服手工制作的正则化器的限制，我们遵循Vogel和Pock[39]，并将梯度算子在正则域中推广到一般的rixW，即。e. φx（u）=W u2。由于我们对在3D多标签设置中建模方向和语义交互的完整空间感兴趣，我们选择使用6维矩阵W∈R2×2×2×| L| ×| L|3、我们的使命该矩阵使用前向-后向差异（模型为2× 2× 2）计算梯度，并可以表示任何语义标签组合之间的高阶交互（模型通过|L| ×| L|）在任何空间方向上（由最后维度3建模）。对于W=，我们得到一个标准的TV正则化子。请注意，与[12]使用的Wulff形状相反，表示W直接导致参数数量的大幅减少，因此在内存中，正如我们的实验评估所证明的那样。在这项工作中，我们的目标是学习这个矩阵的权重与其他网络参数，考虑到以下能量最小化问题：尽量减少u∫。ΣWuΩDx受x∈Ω：Σu（x）= 1（2）ℓ优化. 为了最小化等式中的凸能量，(2)，我们使用一阶原始-对偶（PD）算法[3]，首先将问题转化为鞍点问题。我们引入对偶变量ξ来用其共轭代替TV-范数。我们还放宽了方程中的约束。(1)通过引入拉格朗日变量ν。然后，相应的离散鞍点能量尽量减少uMaxǁξǁ∞≤1Wu，ξ. ΣΣu−1ℓ（三）可以使用更新方程最小化.Σ1. νt+1=νt+σΣℓΣt−1Σ3 .第三章。ut+1=ΠΣut−τ（W*ξt+1+f+νt+1）Σ二、ξt+1 =Π·≤1ξt+σWu¯t4.第一章u¯t+1=2ut+1−ut（4）在时间t，总共T次迭代，W*W的伴随，步长τ和σ和p_j∈sΠ[0，1]且ΠΠ·Π≤1，s∈[3]。不是在这个操作上8I. C herabier，J. L. S cho¨nberger，M. R. 你好，M。Polleefeys，A. Geigert s tss+1W*ξ可以用可变的ξ和u′来表示。将这些操作高效地集成到CNN中，其中在原始更新和对偶更新之间以及在算法的不同迭代之间具有共享权重我们将此算法嵌入到我们的网络架构中，展开它的一个固定的迭代次数。展开的PD网络的输入是由编码器提供的预处理的数据成本项f，输出是传递到解码器进行后处理的优化的原始变量u优化展开。一次通过等式2中的更新。(4)对应于一次PD迭代。类似于[32]，我们展开PD算法，用于固定的数字的迭代。每个PD更新方程定义网络中的一个层，如图中的蓝色圆圈所示。2.这个展开的PD算法构成了我们用来学习W表示的标签交互的网络的核心。注意，出现在等式（1）中的步长σ和τ是(4)影响PD算法的收敛速度。这些参数通常手动选择或通过预处理[29]选择。在这项工作中，我们学习的步长自动将它们分解成W，从而消除他们的更新方程，有助于快速收敛的算法。多尺度优化。在上面讨论的算法中，信息仅在相邻体素之间传播，通常导致优化的缓慢因此，标签相互作用是相对低水平的，并且不能捕获在更大尺度上产生的更复杂的统计数据。虽然很容易扩大矩阵W的空间范围，但简单地增加W的缺点是参数数量的立方增加，这会减慢训练速度，并使模型易于过拟合。因此，我们在本文中考虑替代方案：我们不增加W的大小，而是同时考虑多个尺度的场景。更具体地，在每次PD迭代时，信息从较低尺度传递到较高尺度，如图1B所示。2.这使得能够实现信息的长距离传播和精细细节的恢复，同时允许在训练期间更快地反向传播梯度此外，推理在不同尺度下并行运行，这在实践中导致与传统的粗到细方法相比优化的另一加速，其中优化必须等待较粗尺度收敛。注意，即使对于每个尺度具有不同的正则化矩阵W，参数数量的增加在尺度级别的数量上至多是线性的因此，与单尺度方法的立方增加相比，感受野大小的增加是次线性的在我们的网络中，信息通过矩阵W传播。因此，我们通过修改等式中的更新步骤2和3将我们的模型提升到多个尺度（4）至ξt+1=Π·≤1Σ。ξ+σWu¯+UW su¯tΣ（五）s s s sΣ。s+1s+1s+1Σ。ΣΣut+1=Π[0，1] ut+τWs*ξt+1+Us*Ws* ξt+1 +τνt+1−f（六）s s sss+1s+1s+1s其中，s是S个比例级别之一（较低级别=较高分辨率），U是向上-从s+1到s的样本。Ws对应于s层的正则化子，而Ws% s % s+1处理从级别S+ 1到下一个更精细级别S的信息传送。Σ基于先验知识的语义三维重建93.3损失函数我们在图中训练网络架构。2使用监督学习。为了实现这个目标，我们将训练目标定义为语义重建损失，该语义重建损失是由我们的计算结果u和一个给定的计算结果u组成的。具体地，该损失被定义为分类交叉熵。然而，对这种损失的标准定义的几个重要修改在实践中是必要的，因为地面实况通常没有被完全观察或标记。我们遵循惯例，为未标记的区域引入单独的标签~未观察到的区域由标签空间中的均匀分布U_L来建模为了使损失函数对地面实况中未观察到的区域不可知，并且不惩罚未标记区域中的解决方案，我们使用以下加权损失函数∫H（u，u）=−w（x）u（x）logu（x）dx（7）Ωw（x）=∆KL（u（x），UL）∆KL（u（x），δ~）（8）如果x处的基本事实不是未观察到的或未知的，则返回零。在这里，∆KL表示KL散度。第一项测量基础事实与均匀分布之间的相似性，第二项测量与中心为如果事实与前-如果不考虑均匀分布，或者它是未标记的，具有最大的确定性，这相当于将损失掩盖为硬约束。然而，如实验中所示，我们使用传统的正则化方法生成地面实况因此，有益的是对不完美标记的地面实况使用软约束损失进行惩罚。在没有所提出的加权的情况下，训练将接收矛盾的监督信号。具体地，如果地面实况对于特定类别是不完整的，则丢失将鼓励在观察到的区域中进行重建，而在未观察到的部分中的潜在正确标记将被无意地惩罚。4结果本节介绍了我们的结果。我们首先分析内存和运行时复杂度我们的机器人。到Hüan等人的艺术作品中。 [12]第10段。接下来，我们经验验证我们的方法在一个合成的2D玩具数据集的控制设置最后，我们提出了具有挑战性的室内和室外语义重建任务的结果。4.1内存和运行时复杂性我们的一个主要广告收入来源是H？an等。 [12]这是一个信号识别系统。当H¨ane等人的应用程序启动时。 h作为mem或y复杂度（3 + d）|L| · |Ω| +（1 +d）|L|2|Ω|，我们的复杂度为（3 + d）|L|·|Ω|+3·2 d| L|二、这里，d是Ω的尺寸，|L|和|Ω|标签和体素的数量。请注意，在我们的方法中使用额外的尺度仅10I. C herabier，J. L. S cho¨nberger，M. R. 你好，M。Polleefeys，A. GeigerGT噪声TV-L1我们的学习形状先验S不1 2 3 4 3+E3+E+D TV-L11076.83 97.57 98.10 98.34 99.3799.3297.7338.58 82.11 87.43 88.74 94.9495.1479.502090.76 98.26 98.85 98.86 99.3899.4198.4049.13 88.80 91.4295.2385.945097.21 98.99 99.19 99.2199.3898.7074.36 91.56 91.42 93.2094.8688.311000––––––––––––图4：合成图像上的2D语义分割。左上角：3/1200测试场景与地面实况（GT），嘈杂的输入，TV-L1的结果和我们的比较。左下角：TV-L1和我们的方法使用不同的迭代次数T（TV-L1收敛于1000）和尺度S的重建精度。第一行示出了所有像素上的准确度，第二行示出了仅具有缺失数据成本的区域上的准确度。右图：两个标签之间的标签过渡成本取决于曲面法线。我们的学习更复杂的成本函数相比，手工制作的图。3.第三章。为了可读性，图已重新缩放，幅度以颜色编码由于每个连续的更高比例具有2D更少的体素，所以略微增加了存储量虽然他们的方法为体素网格中的每个位置处的所有标签组合保持双变量，但是我们的方法为i上的所有标签组合共享该状态。在实践中，对于|Ω|=3003（5003）体素，|L|= 40个标签和单精度浮点数据，他们的内存使用量约为668GB（3TB），而我们的内存使用量为24GB（111GB）。除了改进的内存复杂度，我们的方法是更快的计算。与Wulff形状投影的昂贵计算相比，我们案例中的卷积运算的计算成本要低得多，并且在实践中可以在GPU上有效地实现总之，我们提出的方法使得它易于处理，以执行联合语义3D重建为更大的场景和显着更多的标签，如实验中所示。4.2合成二维数据数据集。为了验证我们的模型，我们创建了一个简单的2D玩具数据集5个标签，每个标签由一种颜色定义（白色表示自由空间，灰色表示地面，红色表示建筑物，蓝色表示屋顶，绿色表示植被）。场景是用像盒子、三角形和圆形这样的形状生成的，这些形状是随机定位的，受到间隔界限和排序约束，例如：、楼顶建筑物和地面建筑物我们用高斯噪声和基于先验知识的语义三维重建112通过使用随机形状（圆形、正方形、三角形）删除大区域来模拟缺失数据。图4显示了示例及其降级版本。我们分别创建了3000张大小为160×96的图像用于训练，1200张用于测试标签∈ L的数据成本定义为f = I−c2，其中I是输入图像，c是标签对应的颜色。对于丢失像素的区域，只能通过正则化填充，我们使用统一的数据成本。定量评价。使用该数据集，我们评估了多尺度方法以及特征编码（E）和概率解码（D）网络的益处。所有网络都是从随机初始化开始训练的，批量大小为32。图4（左）示出了以TV-Ll作为基线的测试集的结果。我们显示了整个图像上计算的精度，只有在丢失的区域。后者强调正则化器的性能，因为在这些区域中，数据成本没有影响。我们的方法始终优于TV-L1，特别是在缺失区域中。这表明我们的方法学习了更强大的正则化器，编码了关于几何和语义的统计数据。此外，增加尺度的数量并且包括编码和解码网络是有益的。定性评价。图4（左）将来自我们的全网络（T= 20，S= 3）的分割与TV-L1的分割进行了当TV-L1发现（错误的）最小表面解决方案，我们的网络正确地填充这些区域并遵守排序约束（例如，地面上的建筑物学习的优先级。我们的网络在每一个尺度上都在一个小的二维邻域中该成本受过渡：建筑物和地面之间的垂直过渡应比水平过渡更不利。图4（右）绘制了所有标签组合的标签转换成本与表面法线我们看到正则化器在大多数情况下具有期望的行为，例如，对于建筑物到地面的过渡，我们看到垂直过渡受到的惩罚最大。4.3真实三维数据我们现在使用在我们的2D实验中确定的最佳性能架构，并使用两个具有挑战性的数据集将其应用于3D多标签域我们表明，我们可以复制手工制作的伍尔夫形状的学习，从so-luionproducedbyHüanetal。 [12]第10段。使用这种线性加权，我们的方法产生了等效的结果，但速度快了两个数量级，只使用了一小部分内存。此外，我们将我们的方法应用于具有比现有Wulff形状方法多十倍的标签的数据集。数据集。对于所有数据集，我们假设重力对齐的输入，并在坐标集合[ 12]处对d使用标准的multi-1a belTSDF。ForcomparingagainstHéaneet[13]，我们使用他们的3个户外场景（城堡，南楼，普罗维登斯）与5个标签（自由空间，地面，建筑物，植被，未知）。最大的场景具有大约3003个像素的大小。在另一个方面，我们评估了作为edScanNet数据集[7]的实时性，该数据集包括具有细粒度语义标记的1513个场景。我们采用纽约大学[26]的标签，有40个类别。使用5cm的体素分辨率，大的体素具有大约4003cm的大小。12I. C herabier，J. L. S cho¨nberger，M. R. 你好，M。Polleefeys，A. Geiger地面[12]建筑[12]输入图像&深度语义Ha¨ neetal. [12个](50iters.）Ha¨ neetal. [12个](2750iters.）形状先验[12]我们的（Our）建设（我们的）输入数据成本TV-L1（50 iters.）我们的（50公升）我们的形状先验图5：语义3D重建结果。左：输入。中：重建结果。我们的方法学习语义和几何邻域统计来处理大量的噪声，离群值和缺失数据。与TV-Ll和现有技术[12]相比，它需要显著更少的迭代和存储器。右：手工制作的sha ppp rior sfromHa¨ ne etal。[12]（top）vs.我们的客户都有自己的经验（基础）。训练我们的网络可以在推理和训练过程中优化任意大小的场景，因为我们的架构是完全卷积的。然而，由于反向传播过程中增加的内存需求和随机梯度下降中批处理的计算优势，我们在32 3维的固定大小的随机作物上进行训练，批量大小为4，学习率为10 −4。我们通过围绕重力轴随机旋转和翻转来执行数据增强。对于所有实验，我们使用S=3尺度展开用于T=50次迭代的PD算法。与纯学习方法相比，由于我们的网络使用了一些参数，因此过拟合对于我们的方法来说不是问题，并且训练通常在几千个小批量之后快速收敛Wulff形状比较。首先，我们有兴趣通过从他们的方法产生的数据中学习来取代更复杂和计算成本更高的Wulff形状方法[12]图图5（右）显示了Hüane等人的原始Wulff形状。我们的目标是在scale=0处创建。该计算结果等同于合成2D实验，不同之处在于，这里我们计算围绕重力轴的平均形状。我们的方法有意义地学习手工制作的形状，表明我们可以复制更复杂的武尔夫形状配方。当在全场景wrt上评估我们学习的权重时，每类98%的准确率证实了这一点[12]第10段。图1和5显示城堡和南楼的定性结果。此外，我们的结果是在50次迭代和10秒后实现的，而他们的方法需要基于先验知识的语义三维重建13浴室宿舍卧室客厅办公室图6：不同场景和方法的ScanNet [7]的3D重建结果。2750次迭代和大约4000秒的收敛。接下来，我们在具有数量级更多类标签的设置中演示了我们的方法，这对于他们的方法[12]来说是计算上难以处理的ScanNet上的评估[7]。对于ScanNet，我们使用基于所提供的相机姿势的TSDF融合来重新整合所提供的深度图和语义分割，以建立体素化的地面实况。所得到的数据成本提供了非常强有力的证据，因此我们使用W =的多标记TV-L1优化。对于我们的评估，我们还通过仅每50帧积分来生成弱数据成本。训练期间的目标是仅使用弱数据成本作为输入来恢复从强数据成本生成的高保真地面实况。我们使用312个训练场景来训练我们的网络，并在156个测试场景中评估它们的性能图图7总结了从输入数据成本中提取的重建、多标记TV-L1、我们的网络的从粗到细的版本、我们的网络的没有变分正则化的版本（0次迭代）以及我们提出的多尺度架构的定量结果请注意，我们没有正则化的方法是SSCNet[36]或ScanComplete [6]等方法的简单变体。我们得出以下结论：首先，运行TV-L1与我们的方法相同的迭代次数会导致明显更差的结果。第二，运行TV-L1一个数量级的迭代，直到收敛仍然比我们的方法表现更差第三，一个幼稚的粗到细的方法在训练过程中不会收敛，并产生不良的重建。此外，将多尺度变分正则化集成到网络中显著提高了结果的完整性最后，仅在5个场景上训练的版本此外，由于我们的网络中学习的参数很少，我们TV-L1（500it.）我们的（50它。）地面实况14I. C herabier，J. L. S cho¨nberger，M. R. 你好，M。Polleefeys，A. Geiger整体Freespace占领语义重建准确度[%]10080方法将60输入数据59.839.1九十九点七 68.440TV-L1（50 it.）92.8七十一点零91.4 87.8TV-L1（500 it.）95.886.492.388.520C2F（50 it.）21.0二十六点七 99.9 31.4我们的-5（50它。）96.795.8九十三点九86.40我们的-300（0它。）97.3九十七点六92.3 90.2我们的-300（50它。1级）98.7九十八点六94.4 91.5我们的-300（50它。三级）98.798.694.4 91.5图7：ScanNet的3D重建精度[7]。左：从输入数据的重建扩展，TV-L1用于50和500个迭代（=0次迭代），传统的粗到细网络（C2F），我们的方法具有/不具有在312个场景上训练的多尺度方案，我们的方法具有在仅5个场景的子集上训练的多尺度，我们的方法没有展开的优化（0次迭代）。右：每个标签的准确度。在训练和测试场景中达到相同的精度，这证明了我们模型的泛化能力图图1和图6示出了所选场景的定性结果令人惊讶的是，我们的方法有时产生的结果在视觉上比用于训练的地面实况更令人愉快我们将此归因于这样一个事实，即我们的方法可以从所有训练数据中联合学习正确的标签交互，然后可以将这些知识应用于单个实例。5结论提出了一种新的稠密语义三维重建方法。通过将变分正则化引入神经网络，我们可以使用有限数量的参数来学习强大的语义先验与纯粹基于学习的方法形成鲜明对比的是，我们的方法只需要很少的训练数据，并且可以在不过度拟合的情况下生成新的场景所提出的多尺度优化在不同尺度下联合地推理语义和几何，并且使得能够进行比现有技术更有效的数量级的推理。在合成数据和真实数据上的实验证明了这种方法的优点。精度、运行时间、内存消耗和算法复杂度。鸣谢。这项工作得到了地平线 2020 研究和创新计划的资助。 637221（Built2Spec），编号688007（TrimBot2020）。本研究还通过内政部/内政部商业中心（DOI/IBC）合同号D17 PC 00280得到了情报高级研究项目活动（IARPA）的支持美国政府有权为政府目的复制和分发重印本，尽管其上有任何版权注释*。*免责声明：本文所载的观点和结论是作者的观点和结论，不应被解释为必然代表IARPA，DOI/IBC或美国政府的官方政策或认可，无论是明示或暗示政府的TV-L1（500 iters.）我们的-5（50 iters.）我们的-300（50米）墙地板橱柜床椅子沙发桌子门窗书架画柜台百叶窗书桌书架窗帘梳妆台枕头镜子地板垫衣服天花板书籍冰箱电视纸巾淋浴箱白板人夜洗手盆灯浴缸包其他结构其他家具其他道具未知自由空间基于先验知识的语义三维重建15引用1. Bla'haa，M.， Vogel，C.， Ri chard，A. ，Wegner，J. D. 、P〇ck、T.、 Schindler，K. ：大规模语义3D重建：一种用于多类别体积标记的自适应多分辨率模型。在：Proc.计算机视觉和模式识别会议（CVPR ）（2016）2. B resson，X.， Esedo gu，S.， V和rgheynst，P.， Thiran，J. P. 哦她S ：F是活动轮廓/蛇模型的全局最小化。数学成像与视觉杂志（2007）3. Chambolle，A. Pock，T.：凸问题的一阶原始对偶算法及其在成像中的应用数学成像与视觉杂志（2011）4. C han，T.， Esedo gu，S.， Nikol ova，M. ：用于找到图像分割和去噪模型的全局最小化的算法。应用数学期刊（ SIAM Journal on AppliedMathematics，2006）5. C herabier，I.， Ha？e，C.， Oswald，M. R.， Polleefeys，M. ：使用体素块的多分辨率三维重建。在：3D视觉国际会议（3DV）（2016）6. Dai，A.，Ritchie，D.，Bokeloh，M.，Reed，S.，Sturm，J.，Nießner，M. ： ScanComplete ： Large-ScaleSceneCompletionandSemanticSegmentation for 3D Scans.In ： Proc. 计算机视觉和模式识别会议（CVPR）（2017）7. Dai，A.，Chang，A.X.，Savva，M.，Halber，M.，Funkhouser，T.，Nießner，M.：Scan-net：室内场景的丰富注释3D重建In：Proc.计算机视觉和模式识别会议（CVPR）（2017）8. Dai，A.，Qi，C.R.，Nießner，M.：使用3d编码器预测器cnns和形状合成的形状完成。在：Proc.计算机视觉和模式识别会议（CVPR）（2017）9. Han，X. Li，Z.，黄，H.，Kalogerakis，E.，Yu，Y.：使用深度神经网络进行全局结构和局部几何推理的高分辨率形状完成。In：Proc.国际计算机视觉会议（ICCV）（2017）10. Hüane ， C. ， Savinov ， N. ， Polleefeys ， M. ： Classpec ifi c3dobecthapepiorsussng表面法线。计算机视觉和模式识别会议（CVPR）（2014）11. Hüane，C.， Tulsiani，S.， Malik，J. ：三维重建的高效率建筑（2017年）12. Hüane ， C. ， Zach ， C. ， C 〇 hen ， A. ， Angst ， R.Polleefeys ， M. ：Jont3dscener e t r unc-tion and class segmentation. In：Proc.计算机视觉和模式识别会议（CVPR）（2013年）13. Hüane，C.， Zach，C.， C〇hen，A.， Polleefeys，M. ：定义语义三维重建。Transactions on Pattern Analysis

下载后可阅读完整内容，剩余1页未读，立即下载