曲面法线估计网络：利用不确定性和细节的预测来提高质量和效果

164 浏览量更新于2023-10-14 收藏 1.51MB PDF 举报

剑桥大学

表面法线

身份认证购VIP最低享 7 折!

30元优惠券

13137曲面法线估计英国剑桥大学{gb585，ib255，rc10001} @ cam.ac.uk摘要从单幅图像估计表面法线是三维场景理解中的一项重要任务。在本文中，我们解决了现有方法共有的两个限制：无法估计任意的不确定性和缺乏细节的预测。所提出的网络估计每像素表面正常概率分布。我们引入了一个新的参数化的分布，使其负对数似然是学习衰减的角度然后将角度误差的期望值用作任意不确定性的度量。我们还提出了一种新的解码器框架，其中基于估计的不确定性采样的像素子集上训练逐像素的多层感知器。所提出的不确定性引导的采样防止了图像倾斜SN我们的60°0°角该方法可用于对大的平面表面进行训练，并提高预测的质量，特别是在物体边界附近和小结构上。实验结果表明，该方法优于Scan-Net [4]和NYUv 2 [33]中的最新技术，并且估计的不确定性与预测误差具有良好的相关性。代码可在https://github.com/baegwangbin/surface_normal_uncertainty获得。1. 介绍从单个RGB图像估计表面法线的能力在理解3D场景几何中起着至关重要的作用。估计的法线可以用于构建增强现实（AR）应用[18]或控制自动机器人[41]。在这项工作中，我们解决了两个限制共享的国家的最先进的方法。(1) 无法估计任意不确定性。最先进的基于学习的方法[39，7，1，31，14，18，42，24，32，6，38]通过最小化一些距离度量（例如，距离度量）来训练深度网络。L2）之间的预测正常和地面真相。然而，根据测量的深度图计算的地面真实法线可能对图1.我们的方法与TiltedSN [6]的比较。建议的网络估计的表面正常的概率分布，从中可以推断出预期的角度误差我们的方法所做的预测显示出更清晰的对象边界，并保留了更高层次的细节。这是由于所提出的不确定性引导的采样，其防止训练中朝向大平面表面的偏差。深度噪声和用于计算正常的算法（见图1）。2对于不准确的地面事实的例子）。网络应该能够捕获这种任意的不确定性，以便部署在现实世界的应用中。(2) 预测中缺乏细节。室内场景通常由大的平面表面（例如，墙和地板）和具有复杂几何体的小对象。因此，如果将训练损失应用于所有像素，则学习将偏向于大表面，从而导致过度平滑的输出。这种偏差可以通过在仔细选择的像素子集上应用损失来解决。例如，在[40]中，将成对排序损失应用于实例边界附近的像素然而，对于表面法线估计还没有做出这样的努力。13138图2.由Ladicky等人生成的NYUv2 [ 33 ]的地面真实表面法线。[22 ]第20段。地面实况是不可靠的，特别是在物体边界附近和小结构上。在这项工作中，我们估计任意的不确定性，通过预测的概率分布的每像素的表面正常。虽然von Mises-Fisher分布[8]可用于此目的，但最小化其负对数似然（NLL）等效于最小化预测法线与具有学习损耗衰减的地面实况之间的L2由于我们感兴趣的误差度量是两个向量之间的角度，我们引入了一个新的参数化的分布，使其NLL是学习衰减的角度损失在测试时，从估计的分布计算预期的角度误差，并用作任意不确定性的度量我们还提出了一种新的解码器框架，以提高预测的细节水平。网络最初进行粗略预测，训练损失被应用于所有像素。然后，粗略预测和特征图以因子2进行双线性上采样，并且通过逐像素多层感知器（MLP）以产生精细输出。重复该过程直到达到期望的分辨率。在基于不确定性选择的像素子集上训练MLP：具有最高不确定性的像素被选择并且用均匀采样的像素来补充。这种不确定性引导的采样防止训练中朝向大平面表面（网络估计其低不确定性）的偏差，从而提高对象边界附近和小结构上的预测质量。我们的贡献可归纳如下：• 曲面法线任意不确定性的估计。据我们所知，我们是第一个估计任意的不确定性，基于CNN的表面正常估计。我们引入了一个新的参数化的表面正常的概率分布，并表明，估计的不确定性与预测误差相关。• 用于逐像素细化的不确定性引导采样。我们介绍了一种新的解码器模块，其中的损失被施加到基于不确定性选择的像素的子集。我们表明，该模块显着提高了定量和定性性能。• 最先进的表演。实验结果表明，所提出的方法在ScanNet [4]和NYUv2 [33]上实现了最先进的性能。定性地，由我们的方法作出的预测包含更高水平的细节（见图1）。①的人。2. 相关工作表面法线估计。在文献[9，10，22，39，7，1，37，31，18，42，24，32，6，38]中已经广泛地研究了来自单个RGB图像的表面法线估计。现有的方法通常由特征提取器和预测头组成。例如，Ladicky et al. [22]提取的手工制作的特征（例如，SIFT[26]），并应用多类Ada-boost [36]将输出回归为离散法线集的线性组合随着深度学习的成功，最近的方法用卷积神经网络（CNN）取代了这两个组件。Wang等人。[39]引入了双流CNN来学习全局和局部线索，并将它们与另一个CNN融合。Eigen和Fergus [7]提出了一种多尺度架构，以联合预测深度、表面法线和语义标签。在这些早期尝试之后，通过强制执行深度法线一致性[31，32]，将任务制定为球面回归[24]，以及引入空间整流器来处理倾斜图像[6]，做出了在这项工作中，我们解决了任意的不确定性，在以前的文献中没有研究过的表面正常。深度学习的不确定性不确定性的两种主要类型是认识性和任意性[5]。认知不确定性（即模型中的不确定性）可以通过在模型权重上近似后验来建模。例如，通过在测试时应用dropout [35]，可以从近似后验中采样N个网络，并且输出的方差可以用作不确定性的度量[11]。后验也可以通过在数据的随机子集上训练N个网络来近似[23]，或者通过在单个训练期间拍摄N个快照[17]。上述方法是任务无关的，并且可以容易地应用于表面法线估计。本文的重点是任意的不确定性，它捕获的数据中固有的噪声。我们假设不确定性是异方差的[20]（即某些像素比其他像素具有更高的不确定性对于这样的场景，常用的方法是估计输出上的每像素概率分布，并通过最大化地面真值的可能性来训练网络[20，12]。这需要一个特定任务的配方，并没有研究基于CNN的表面法线估计。单位球面上的分布。表面法向概率分布应定义在单位球面上。这种分布的一个例子是vonMises-Fisher分布[8]，一种定义在n-球面上的旋转对称单峰分布。在本文中，我们介绍了一个变体13139|II≥我我我2N我我我的von Mises-Fisher分布，使得最小化其负对数似然等效于最小化预测法线与地面实况之间的角度，这是我们感兴趣的误差度量。不确定性引导抽样。PointRend [21]是为实例/语义分割设计的神经网络模块。由于在规则网格上进行推断导致对象边界附近的像素的欠采样，PointRend使用逐点MLP来在具有高不确定性的像素子集上进行推断。我们的解码器模块是一个新的扩展，这样的框架，表面正常估计。图像GT1999年《中国日报》（最小化L（，最小化AL）3. 方法本节提供了我们的方法的细节。首先，我们介绍了一个新的参数化的表面正常的概率分布，可用于不确定性估计。其次，我们解释了网络架构和不确定性指导的采样用于训练像素细化网络。3.1. 曲面法线图3.每个直方图示出了地面实况沿虚线的分布。红色和蓝色线分别显示使L2损失和角损失最小化的方向（（a）的线重叠）。在两个示例中，沿着虚线的像素具有相似的视觉特征并且属于相同的平面。然而，（b）中的像素遭受由属于不同平面的相邻像素引起的噪声。在存在这种不对称噪声的情况下，最大化µTngt相当于最小化L2我我GT距离|µ−n |2. 对于像素概率分布pi（ni），其中i是像素索引并且是输入图像。在实践中，我们用一组参数θi来参数化分布，θi由权重W的网络估计。该网络通过最小化负对数似然（NLL）的地面真相训练GT高不确定性。方程中的前两项3防止网络预测所有像素的无穷κ总结一下，Eq. 3是具有学习衰减的L2角vonMF分布。而Eq。3最小化L2我们认为损失应该最小化预测的法线和真实值cos−1µTngt。尼岛因此，训练损失可以写为L= −1Σlog p（ngt|θ（I，W）），（1）我首先，这使得损失与误差度量一致。第二，这使得网络更鲁棒地对抗地面实况表面法线中的不对称获得像素的地面实况表面法线其中N是具有地面实况的像素的数量。为分布找到合适的参数化是重要的，因为它确定在训练期间哪个量将被最小化（或von Mises-Fisher分布我们使用von Mises-Fisher分布[8]（下文缩写为vonMF）作为基线。它是定义在Rn+1[15]中的单位n-球面上的正规分布的球面模拟对于n=2，概率密度函数（PDF）给出为κiexp（κiµTni）通过将平面拟合到由像素及其局部邻域定义的点云如果一些相邻像素属于不同的平面（例如，因为中心像素接近平面边界），因此将影响真实值，并且真实值中的噪声将围绕真实法线不对称平均方向，其最小化L2损失，对这种非对称噪声敏感。另一方面，角损耗在中值方向上被最小化，这对这种噪声更鲁棒（参见图1B）。（3）第三章。为此，我们引入一个分布故其所知，其所知。p vonMF，i（ni|µi，κi）=我4πsinhκi、（二）第PDF和NLL损失给出为，其中µi是平均方向，κi是浓度（κ2+ 1）exp（−κicos−1µTni）参数. ni和μi都是单位向量，κi0。较高的κi值意味着分布更加一致。以μi为中心，不确定性较低pAngMF，i（ni|µi，κi）=我我2π（1 +exp（−κiπ））（四）像素（当κi= 0时，分布均匀）。逐像素NLL损失可以写为和LAngMF，i=−log（κ2+ 1）+log（1 +exp（−κiπ））（一）（b）第（1）款045-4590-90045-4590-90我们的目标是学习每像素表面法线概率13140Tgt+κicos−1µTngt.（五）LvonMF，i= − log κi+ log sinh κi− κiµ ini。（3）ii13141⋯ ⋯1/8分辨率1/4分辨率1/2分辨率输入（高×宽）我L×个我×个×个（a）使用卷积编码器-解码器的3x3转换预测值正常不确定度特征图预测高×宽八八高×宽(c)逐像素加细模（n ∈ {4，2，1}）八八NLL损失NLL损失（所有像素）（采样像素）2倍上采样（双线GT正常特征图预测预测H×W不确定性导引采样2n2n高×宽n nMLPMLPMLPMLP图4.拟建管线示意图。最初，从1/8分辨率特征图进行粗略预测，并且将损失应用于所有像素。然后，细化模块通过因子2对粗略特征图和预测进行上采样，并应用逐像素MLP以产生细化的更高分辨率输出。通过应用三个细化模块获得全分辨率输出。在基于不确定性选择的像素子集上训练MLP，以防止训练中朝向低不确定性像素的偏差我们称之为 AngularvonMF 分布（以下简称为AngMF）。当量 4是通过将NLL设置为i= C（κi）+ κicos−1µTni并通过归一化（在补充材料中推导）找到C（κ i）的表达式而获得的。最小化方程5等于最小化角度误差，同时衰减具有高不确定性的像素的损失（即，低κ）。我们在实验中表明，使用所提出的AngMF导致更高的准确性比使用vonMF。不确定性的度量。在所提出的分布中（Eq. 4），κi编码网络为了将此转化为直观的量，我们计算角度误差的期望值这种偏差导致预测中缺乏细节，因为不鼓励网络对具有挑战性的像素进行准确为此，我们提出了一种新的解码器框架，其中像素式多层感知器（MLP）的像素的子集上进行训练，根据估计的不确定性选择。特征提取。拟议的管道如图所示。4.第一章网络的输入是大小为（H W）的RGB图像。我们首先生成不同的特征图- ent分辨率，使用具有跳过连接的卷积编码器-解码器我们使用与[2]相同的架构。粗略的预测。该网络最初从1/8分辨率的特征图进行粗略预测，使用3×E[cos−1µTn]=2κi+exp（−κiπ）πiiκ2+ 11 +exp（−κiπ）、（6）3卷积层。输出信道的数目4（µ为3，κ为1）。前三个通道是L2标准化的，以确保||µ||=1时。我们应用修改后的并将其用作像素方面的任意不确定性的度量。污点（补充材料中的衍生）。3.2. 用于逐像素细化的不确定性引导采样NLL损失（等式3和等式5）比它们的对应物（L2和角度损失）对噪声数据更鲁棒，因为损失对于高不确定性像素是衰减的然而，这也使得训练更偏向于具有低表面法线不确定性的大平面表面ELU函数[3]，f（x）= ELU（x）+1，用于最后一个通道，以确保κ为正。对于粗略预测，训练损失（Eq. 5）应用于所有像素。逐像素细化模块。粗略预测然后通过相同结构的三个逐像素细化模块。每个模块的输入- Ule是低分辨率特征图和尺寸预测（H/2nW/2n），并且输出是尺寸的精细预测（H/nW/n）。每个模块中的向前传递由三个步骤组成。（1）上采样：特征图13142··--···∈×个×个图像重要抽样GT覆盖早料到了！（1/8分辨率）早料到了！（全分辨率）预测值“（1/8 res）预测值“（全分辨率）等[22]。由于官方训练集仅包含795张图像，因此最先进的方法从训练序列中采样额外的图像[39，1，31，32]或补充其他数据集[24，14]。为了确保公平比较，我们使用与GeoNet++相同的训练集[32]。曲面法线精度度量。角度误差是测量，苏厄的像素与有效的地面真相。在[9]之后，我们报告了平均值、中位数和均方根误差（越低越好），以及具有误差的像素的百分比图5. (a-b)输入图像和地面实况。(c-d)在第一个时期，以粗分辨率进行预测。在（d）和（h）中，白色表示高κ。该网络对除了地板上的像素之外的大多数像素估计低κ（即高不确定性）。如果将NLL损失应用于所有像素，则地板上的像素将主导训练，因为我们的损失由κ加权。(e-f)不确定度引导抽样。我们对具有高不确定性的像素进行采样（重要性采样），并添加均匀采样的像素（覆盖率）。这样的采样有助于网络专注于具有挑战性的像素。(g-h)在最后一个历元中以全分辨率进行预测。特别是在物体边界附近的具有挑战性的像素和小结构上的预测得到改进。网络对这些像素也变得更加自信。和预测以因子2进行双线性上采样（2）不确定性引导抽样：在训练期间，基于不确定性选择像素的子集。下面更详细地解释采样策略（3）逐像素细化：具有三个隐藏层的MLP，每个隐藏层具有128个节点和ReLU [27]激活，估计采样像素的细化输出。MLP的输入是逐像素特征和预测的关联向量。与粗预测层相同，L2归一化和修改的ELU激活被应用于μ和κ。在训练期间，仅针对采样像素计算损失。在测试时，将经训练的MLP应用于所有像素。不确定性引导抽样。假设在双线性上采样预测中存在h w个像素。总的来说，我们对Ns=rshw个像素进行采样，其中rs被设置为0。4在所有实验中。首先，我们对具有最高不确定性的β UG Ns个像素进行采样（即重要性抽样）。然后，从剩余的像素（即，覆盖）。可具有从0到1的值的βUG确定采样如何偏向高不确定性像素。图5示出了采样过程。4. 实验装置数据集。我们在两个数据集上评估我们的方法：扫描-Net [4]和NYUv 2 [33]。ScanNet包含在807个不同场景中采集的1613次扫描的RGB-D帧。我们使用提供的地面实况表面法线和数据分割”[18]《明史》：NYUv 2由捕获464个室内场景的RGB-D视频序列组成。我们使用Ladicky生成的地面实况在官方测试集上进行低于阈值[11. 25◦，2 2. 5◦，30◦]（越高越好）。不确定性度量。估计的不确定性的显著性可以使用稀疏化曲线[30]来评估。基于不确定性对像素进行排序，并且在具有低不确定性的像素的顶部x%上评估误差度量ε。在[30]之后，我们通过从100%中减去它来将准确度度量（误差小于t◦的像素%）转换为误差度量。我们将x从1变化到100 ，增加 1 ，并报告稀疏曲线下的面积（AUSC），如[16]所示。AUSC受两个因素的影响：预测的准确程度，以及基于不确定性的排序与实际基于错误的排序的相似为了仅评估后者，我们还通过从估计的稀疏化中减去oracle稀疏化（通过基于错误的排序获得）来报告稀疏化误差（AUSE）[ 19 ]下的面积。实作详细数据。所提出的网络是用PyTorch实现的[28]。对于训练，我们使用AdamW优化器[25]并使用1cycle策略[ 34 ]调度学习速率，其中lrmax=3。510−4（其他超参数设置为默认值）。除非另有说明，否则批大小为4，并且epoch的数量为5。5. 实验首先，我们进行了一组消融研究，以证明所提出的方法的有效性然后，对国家的最先进的方法的准确性进行比较。最后，我们评估估计的不确定性的质量，并将其与不确定性估计的替代方法进行比较。5.1. 消融研究消融研究实验在ScanNet [4]的子集上进行，通过对训练集中20%的图像（包含190K图像）进行采样获得训练损失。NLL-vonMF（等式3）是具有学习衰减的L2损耗，并且所提出的NLL-AngMF（等式3）是具有学习衰减的L25）是具有学习衰减的角损耗（AL）。我们比较了表中的四个损失函数。 1（顶部）。作为L2和AL不能用于不确定性估计，解码器模块被移除，并且通过将3× 3卷积层添加到最终特征图来从卷积编码器-解码器直接估计表面法线以下是我们从这个实验中可以获得的关键见解（e）（f）第（1）款（g）（h）（一）（b）第（1）款（c）第（1）款（d）其他事项13143×个架构损失fn.平均中值均方根误差五、0 ◦7。5 ◦11。25 ◦22.5◦ 30◦基线L2NLL-vonMF13.5314.107.227.1921.1622.1435.10 51.4436.20 51.4665.0864.0982.38 87.8380.80 86.34（具有跳过连接的卷积编码器-解码器[2]）ALNLL-AngMF13.4513.826.706.6021.7822.4738.65 54.0439.69 54.3066.7365.9782.46 87.5381.64 86.71基线+逐像素MLPNLL-AngMF 13.596.5322.23 39.92 54.79 67.03 82.18 87.06基线+逐像素MLP+不确定性引导采样13.176.4821.57 40.09 55.19 67.62 83.10 87.97表1. (top)用不同的损失函数训练基线网络。所提出的NLL-AngMF显示出比NLL-vonMF更高的准确度，除了RMSE。 NLL-AngMF和NLL-vonMF分别是具有学习衰减的AL和L2。当训练偏向于低不确定性像素时，中值误差减小，而RMSE增加。（底部）训练中的偏差由所提出的解码器模块解决逐像素MLP和不确定性引导的采样两者导致所有度量的改进。• NLL-AngMF 与NLL-vonMF 。虽然NLL-vonMF使L2最小化，但是所提出的NLL-AngMF使角度误差最小化，这与误差度量更一致结果，除了RMSE之外，NLL-AngMF实现比NLL-vonMF显著更高的准确度• NLL-AngMFvs. AL。我们的NLL-AngMF是具有学习衰减的AL 由于训练偏向于低不确定性像素（主要在大表面上），因此中间误差减小，并且低阈值的准确性（5。0和7。5）增加。相反，平均误差和RMSE增加，并且对于更高阈值的准确度降低。这是因为网络--图像基线基线+ MLP基线GT+ MLP + UG工作不会因为对挑战像素做出不准确的预测而受到强烈的惩罚。解码器架构。选项卡. 图1（底部）展示了所提出的解码器模块的有效性。首先，我们添加逐像素的MLP并在所有像素上训练它们然后，图6.定性比较网络与不同的解码器架构（显示作物200像素200像素）。所提出的不确定性引导采样（UG）强制网络聚焦于具有挑战性的像素（即，不确定性高的这提高了预测中的细节水平。我们在训练过程中应用不确定性引导抽样(with βUG=0。（七）.这两个组成部分导致所有指标的改进。由于不确定性引导的采样防止了训练中对大平面表面的偏差，因此预测的质量得到了改善，特别是在物体边界附近和小结构上，如图所示。六、抽样策略。选项卡.2显示如何准确不同βUG值的变化。βUG决定了重要性抽样。如果βUG= 1。0，则仅对具有最高不确定性的像素进行如果βUG= 0。0时，像素被均匀地采样。在两者之间找到正确的平衡对于最小化训练中的偏差非常重要当βUG= 0时实现最佳性能。7 .第一次会议。5.2. 与最新技术水平的NYUv2. 选项卡. 3比较了NYUv2上不同方法的准确性[33]。请注意，与ScanNet [4]相比，NYUv2的地面实况质量明显较差。虽然ScanNet的地面实况是从融合数千个RGB-D的3D网格中计算出来的表2. βUG对精度的影响（rs固定为0。4）. βUG是重要性抽样的比率。当β UG = 0时实现最佳性能。7 .第一次会议。在第二帧中，从单个噪声深度图计算NYUv2的地面实况。尽管如此，所提出的训练损失（具有学习衰减的角度损失）和解码器框架（用不确定性引导的采样训练）帮助网络从噪声数据中学习。因此，我们的网络比GeoNet++ [32]有了决定性的改进。图中的定性比较7、预测--βUG 平均中值均方根误差11个国家。25◦22. 5◦ 30◦0.0 13.586.52二十二点十八分66.68 82.09 87.090.613.346.5621.7666.99 82.78 87.740.7 13.176.48二十一点五十七67.62 83.1013144图像GTGeoNet++我们的-正常我们的-不确定性60°图像GT倾斜SN0°角我们的-正常我们的-不确定性图7.与GeoNet++ [32]和TiltedSN [6]的定性比较。通过我们的方法进行的预测显示了更清晰的对象边界，并保留了场景几何体的精细细节（参见红色箭头所指的区域）。估计的不确定性是高的物体边界附近和小型结构。补充材料中提供了更多的例子。我们11.8 5.720.071.1 85.4 89.8表4. ScanNet上的表面法线精度[4]。我们的方法在所有指标上都优于其他方法。表3. NYUv2上的表面法线精度[33]。所提出的方法显示出最先进的性能。(top)网络在NYUv2上训练。（底部）网络在ScanNet [4]上进行训练，并在NYUv2上进行测试，无需微调。通过我们的方法得到的图像包含更高级别的细节。我们还在ScanNet上训练网络，并在NYUv2上进行测试，无需微调。在这个跨数据集的评估中，除了中位数误差和11之外，我们战胜了其他方法。25◦，这表明网络可以很好地推广到一个看不见的数据集。扫描网选项卡. 4比较了在ScanNet上训练和测试的不同方法[4]。本实验的批量设定为16。我们在所有指标上都优于最先进的方法。与TiltedSN的定性比较[6]在图中显示。7 .第一次会议。NYUv2ScanNet方法火车平均中值均方根误差11个国家。25◦22. 5◦ 30◦Ladicky等人[22日]33.523.1-27.549.0 58.7Fouhey等人[10个国家]35.217.9-40.554.1 58.9Deep3D [39]26.914.8-42.061.2 68.2Eigen等人[七]《中国日报》20.913.2-44.467.2 75.9SkipNet [1]19.812.028.247.970.0 77.8冲浪[37]N20.612.2-47.368.9 76.6GeoNet [31]19.011.826.948.471.5 79.5帕普[42]18.611.725.548.872.2 79.8GeoNet++[32]18.511.226.750.273.2 80.7我们N14.97.523.562.279.3 85.2FrameNet[18]18.611.026.850.772.0 79.5VPLNet[38]S18.09.8-54.373.8 80.7倾斜SN [6]16.18.125.159.877.4 83.4方法平均中值均方根误差11个国家。25 ◦22. 5◦ 30◦FrameNet[18] 14.77.722.862.5 80.1 85.8VPLNet[38]13.86.7-66.3 81.8 87.0倾斜SN [6]12.66.021.169.3 83.9 88.613145下降8月下降+8月我们的（NLL-vonMF）我们的（NLL-AngMF）我们的（NLL-AngMF）-oracle平均误差[度]×个15.0NYUv2ScanNet1212.51010.087.565.0460°2.520.0电话：020-406080100像素百分比[%]0电话：020 - 406080100像素百分比[%]0°角60°图8.通过不同的方法估计表面法向不确定性得到的稀疏化曲线。图片/GT下降+8月0°角我们的（NLL-AngMF）图9.我们比较了我们的方法估计的不确定性对应用测试时的辍学和扩增（下降+八月）估计的不确定性。由我们的方法估计的不确定性显示出较高的相关性与预测误差。表5.NYUv2上不确定度的定量评估[33]。方法AUSC↓AUSE↓平均rmse11。25○ 平均值rm s e 11。25○下降7.25 12.51 13.95 三点二四七点五五8.58Aug7.06 12.58 13.72 三点三二七点九二8.81下降+8月6.87 12.07 12.73 2.93 7.20 7.49我们的（NLL-vonMF）5.84 9.30 10.31 1.85 4.38 4.69我们的（NLL-AngMF）5.64 9.079.48 一点八八四点三八4.47表6.ScanNet上不确定度的定量评估[4]。5.3. 不确定性质量最后，我们通过绘制稀疏化曲线来评估估计的不确定性的质量。由于没有以前的工作估计表面正常的不确定性，我们比较我们的方法对任务无关的方法。（1）测试时间丢失（跌落）：2D脱落（p=0. 2）被添加在解码器中的每个2D卷积块之后。在训练后，执行8次向前传递，并启用退出。（2）试验时间增加（8月）：在[30]之后，我们通过翻转输入图像来执行2次向前传递。（3）组合方法（Drop + Aug）：我们将图像翻转应用于具有dropout的网络，以进行2 8= 16次向前传递。对于所有三种方法，测量不确定度作为相对于平均方向的平均角度误差。由于不确定性不能在单次前向传递中估计，因此禁用不确定性引导的采样，并且使用角损耗来训练网络。表中的定量结果。 5、Tab 6显示，建议方法在所有指标上都优于其他方法。图8比较了稀疏化曲线。当对所有像素求值时，所有方法的执行方式都类似。然而，由于去除了具有高不确定性的像素，我们的方法比其他方法更准确。这表明我们的不确定性与预测误差的相关性更好（见图1）。9用于定性比较）。5.4. 补充材料在补充材料中，我们提供了AngMF分布的推导、使用其他指标的定量评价、KITTI[13]和DAVIS [29]以及失效模式的讨论6. 结论在这项工作中，我们估计和评估任意的不确定性，在基于CNN的表面法线估计，在文献中的第一次。所提出的方法估计每个像素的表面正常的概率分布，从该概率分布可以推断出预期的角度误差，以量化任意的不确定性。我们引入了一个新的参数化的表面正常的概率分布，使其负对数似然是角损失与学习衰减。我们还提出了一种新颖的解码器框架，其中在基于不确定性选择的像素子集上训练逐像素MLP。这种不确定性引导的采样防止训练中朝向大平面表面的偏差，从而提高预测中的细节水平。实验结果表明，所提出的方法在ScanNet [4]和NYUv2 [33]上实现了最先进的性能，并且估计的不确定性与预测误差具有良好的相关性。下降8月下降+8月我们的（NLL-vonMF）我们的（NLL-AngMF）我们的（NLL-AngMF）-oracle平均误差[度]误差正常不确定方法AUSC↓AUSE↓平均rmse11。25○ 平均值rm s e 11。25○下降9.01 15.84 19.32 4.02九点六一十点二三Aug8.64 15.08 18.75 3.93九点一四十点二五下降+8月8.16 14.32 16.73 3.22八点一五七点七五13146引用[1] Aayush Bansal、Bryan Russell和Abhinav Gupta。Marr再访：经由表面法线预测的2D-3D对准。在proc IEEE/CVF计算机视觉和模式识别会议（CVPR），2016。一、二、五、七[2] Shariq Farooq Bhat ， Ibraheem Alhashim ， and PeterWonka. Adabins ：使用自适应箱的深度估计。IEEE/CVF计算机视觉和模式识别会议（CVPR），2021年。四、六[3] Djork-Arne 'Clevert ， Thomas Unterthiner ， and SeppHochre- iter.通过指数线性单元（elus）进行快速准确的深度网络学习。国际学习表征会议（ InternationalConference on Learning Representations ， ICLR ），2016。四个[4] Angela Dai、Angel X Chang、Manolis Savva 、MaciejHal- ber 、 Thomas Funkhouser 和 Matthias Nießner 。Scannet ：室内场景的丰富注释 3D 重建。在 procIEEE/CVF计算机视觉和模式识别会议（CVPR），2017年。一、二、五、六、七、八[5] Armen Der Kiureghian和Ove Ditlevsen。偶然的还是冲动的？有关系吗？Structural Safety，31（2）：105-112，2009. 二个[6] Tien Do、Khiem Vuong、Stergios I Roumeliotis和HyunSoo Park。倾斜图像表面法线的空间校正估计。欧洲计算机视觉会议（ECCV），2020年。一、二、七[7] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签。IEEE/CVF国际计算机视觉会议（ICCV），2015年。一、二、七[8] Nicholas I Fisher，Toby Lewis，and Brian JJ Embleton.球面数据的统计分析。剑桥大学出版社，1993年。二、三[9] David F Fouhey，Abhinav Gupta，and Martial Hebert.用于单个图像理解的数据驱动的 3d 基元 IEEE/CVFInternational Conference on Computer Vision（ICCV），2013。二、五[10] David Ford Fouhey，Abhinav Gupta，and Martial Hebert.展开一个室内折纸世界。欧洲计算机视觉会议（ECCV），2014年。二、七[11] 亚林·加尔和祖宾·加赫拉马尼。Dropout作为贝叶斯近似：在深度学习中表示模型的不确定性。在2016年的国际机器学习会议（ICML）上。二个[12] Jochen Gast 和 Stefan Roth 轻量级概率深度网络。IEEE/CVF计算机视觉和模式识别会议（CVPR），2018年。二个[13] Andreas Geiger ， Philip Lenz ， Christoph Stiller ， andRaquel Urtasun.视觉与机器人技术的结合：Kitti数据集。国际机器人研究杂志（IJRR），32（11）：1231八个[14] Steven Hickson 、 Karthik Raveendran 、 Alireza Fathi 、Kevin Murphy 和 Irfan Essa 。地板是平的：利用 se-mantics进行实时表面法线预测。 IEEE/CVF计算机视觉研讨会，2019年。一、五[15] 托马斯·希伦、凯文·J·佩因特、阿曼达·C·斯旺和艾伯特·D·默撒。冯·米塞斯和费舍尔的瞬间分布-13147选择和应用。Mathematical Biosciences Engi-neering，14（3）：673，2017. 三个[16] 胡晓燕和菲利普·莫多海。立体视觉置信度的定量评价IEEE Transactions on Pattern Analysis and MachineIntelligence（TPAMI），34（11）：2121-2133，2012.五个[17] Gao Huang，Yixuan Li，Geoff Pleiss，Zhuang Liu，John E Hopcroft，and Kilian Q Weinberger.快照集合：一号列车，免费送米。国际学习表征会议（ICLR），2017年。二个[18] Jingwei Huang，Yichao Zhou，Thomas Funkhouser，and Leonidas J Guibas. Framenet：从单个rgb图像学习3d表面的局部规范框架。在procIEEE/CVF计算机视觉国际会议（ICCV），2019年。一、二、五、七[19] Eddy Ilg、Ozgun Cicek、Silvio Galesso、Aaron Klein、Osama Makansi、Frank Hutter和Thomas Brox。光流的不确定性估计和多假设网络。在proc 2018年欧洲计算机视觉会议（ECCV）五个[20] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性？在proc 神经信息处理系统进展（NeurIPS），2017年。二个[21] 亚历山大·基里洛夫，吴宇新，何开明，罗斯·吉尔希克.点趋势：图像分割作为渲染。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年。三个[22] Lubor Ladicky，Bernhard Zeisl，and Marc Pollefeys.离散训练的稠密表面法线估计。在proc 欧洲计算机视觉会议（ECCV），2014年。二、五、七[23] Balaji Lakshminarayanan ， Alexander Pritzel ， andCharles Blundell.使用深度集成进行简单且可扩展的预测不确定性神经信息处理系统进展（NeurIPS），2017年。二个[24] Shuai Liao，Efstratios Gavves，and Cees GM Snoek.球面回归：学习视点、曲面法线和n球上的3d旋转。在proc IEEE/CVF 计算机视觉和模式识别会议（CVPR），2019年。一、二、五[25] 伊利亚·罗希洛夫和弗兰克·哈特。解耦权重衰减正则化。arXiv预印本arXiv：1711.05101，2017。五个[26] 大卫·G·洛从尺度不变关键点中提取独特的图像特征。International Journal of Computer Vi-sion（IJCV），60（2）：91-110，2004. 二个[27] Vinod Nair和Geoffrey E Hinton。修正线性单元改进受限玻尔兹曼机。国际机器学习会议（ICML），2010年。五个[28] Adam Paszke ， Sam Gross ， F

下载后可阅读完整内容，剩余1页未读，立即下载