贝叶斯深度基础拟合与不确定性估计

62 浏览量更新于2023-10-16 收藏 14.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

161470深度完成的贝叶斯深度基础拟合与不确定性0Chao Qu Wenxin Liu Camillo J. Taylor University ofPennsylvania0{quchao, wenxinl, cjtaylor}@seas.upenn.edu0摘要0在这项工作中，我们研究了图像引导深度完成的不确定性估计问题。我们在贝叶斯证据框架中扩展了深度基础拟合（DBF）[54]，以提供校准的每像素方差。DBF方法将深度完成问题表述为一个网络，该网络产生一组低维深度基础和一个可微分的最小二乘拟合模块，该模块使用稀疏深度计算基础权重。通过采用贝叶斯处理，我们的贝叶斯深度基础拟合（BDBF）方法能够1）预测高质量的不确定性估计，2）在少量或没有稀疏测量的情况下完成深度。我们进行了受控实验，比较了BDBF与常用的不确定性估计技术在各种场景下的表现。结果表明，我们的方法能够产生更好的不确定性估计和准确的深度预测。01. 引言0当我们试图将学习模块纳入诸如自动驾驶等安全关键应用中时，可靠的不确定性估计变得与预测准确性一样重要[59]。深度完成是一个需要良好校准的不确定性估计的任务，可以帮助实现强大的机器感知。深度卷积神经网络（CNNs）通常用于解决结构化回归问题，如深度预测，因为它们具有强大的表达能力和归纳偏差[12]。然而，在其原始形式中，CNN只产生一个点估计，很难判断其输出是否可信。已经提出了许多概率深度学习方法来解决这个问题[44,17]，但它们往往无法输出校准的不确定性[23]，或者容易受到分布偏移的影响[50]。此外，这些方法在计算上可能很昂贵，因为需要测试时间采样[18]或多个模型的推理[36]。在这项工作中，我们提出了一种深度完成与不确定性估计的方法，避免了上述限制。0深度预测深度GT不确定性预测误差图像0图1：我们的方法贝叶斯深度基础拟合（BDBF）的定性结果，可以输出深度完成的不确定性估计。0我们的方法建立在深度基础拟合（DBF）[54]的思想上。DBF将深度完成网络的最后一层替换为一组依赖于数据的权重。这些权重通过一个可微分的最小二乘拟合模块计算得到，该模块在次级特征和稀疏深度之间进行拟合。该网络也可以看作是一个自适应基函数，它在低维流形上显式建模场景结构[4,60]。它可以用作最后一层的替代品（不需要对网络或训练方案进行任何更改），从而大大提高深度完成性能。我们通过在贝叶斯证据框架[3]中对其进行公式化来扩展DBF。这是通过在DBF权重上放置先验分布并在推理过程中进行边缘化来实现的。这种最后一层的概率方法已被证明是完全贝叶斯神经网络的合理近似[34]，同时提供了可处理的推理优势[48]。这在概念上类似于161480神经线性模型（NLMs）[58]与我们的方法有一个显著区别，即我们对每个图像执行贝叶斯线性回归，而不是对整个数据集执行。贝叶斯处理还可以使用高度稀疏的数据进行深度完成。在DBF中，当稀疏深度的数量低于基础维度时，底层线性系统变为欠定。我们展示了通过学习图像间的共享先验知识，我们的方法能够处理任意数量的稀疏深度测量。我们将我们的方法命名为贝叶斯深度基础拟合（BDBF），并总结其优点：1）它可以用作许多深度完成网络的最后一层的替代品，并输出不确定性估计（以每像素方差的形式）。2）与其他不确定性估计技术相比，它在一个训练会话、一个保存的模型和一个前向传递中产生更高质量的不确定性，而不需要额外的参数或对损失函数的修改。3）它可以处理任何稀疏程度，当深度测量数量为零时，性能逐渐降低，向纯单眼方法过渡。02. 相关工作02.1. 神经网络的不确定性估计0我们首先回顾神经网络的不确定性估计技术。可以对不确定性进行建模的有两种类型：认知（模型）不确定性，描述模型的不确定性；和随机（数据）不确定性，反映数据中的固有噪声[33]。在神经网络中建模不确定性可以通过对网络权重进行概率分布的设定来实现。这样的网络被称为贝叶斯神经网络（BNN）[44]。对连续变量的BNN进行直接推理是困难的，因此已经探索了不同的近似技术[44, 29, 22, 5, 46,45,30]。然而，它们在大规模数据集和复杂模型上的扩展性不好，因此对于当前的视觉任务来说是不切实际的。Gal等人[18]提出了使用dropout作为BNN的近似变分推理方法。然而，他们的方法在测试时需要多次前向传递来获得蒙特卡洛模型估计。另一个研究方向是假设密度过滤（ADF）[49]，它可以被看作是一次期望传播。Gast等人[20]选择在轻量级的方式下传播激活的不确定性，而不需要概率权重，这需要基于矩匹配修改层操作。预测方法通过最小化负对数似然（NLL）损失直接输出某个参数分布的均值和方差。它们只需要对原始网络进行小的改动，添加方差预测头。这种简单性使其成为各种最新研究中的热门选择[47, 31]。0方法 #T #M #F Alea. Epis.0预测（Predictive）[47, 31] 1 1 1 �0Dropout（预测）[18, 31] 1 1 K（�）�0快照（Predictive）[26] 1 K K（�）�0Bootstrap（预测）[36] K K K（�）�0提出的方法（BDBF）1 1 1 � �0表1：不同不确定性估计技术的比较。前三列分别表示训练会话数（T）、保存的模型副本数（M）和测试时的前向传递次数（F）。最后两列表示方法是否估计数据或模型的不确定性。Dropout、快照和Bootstrap集成都可以与预测方法结合来模拟数据的不确定性。BDBF与预测方法具有相同的复杂度。0最近的研究[31,39]中，集成方法要么独立地训练多个具有不同初始化的模型（bootstrap）[36]，要么在训练过程中保存多个权重副本（snapshot）[26]。这些方法只对认知不确定性进行建模，但可以与预测方法结合来模拟数据不确定性。它们在各种实验设置中取得了良好的性能[24, 52,28]，但在测试时仍需要多次推理传递，这使它们在资源受限的平台上不太适用。表1总结了上述方法，并强调了与我们方法的区别。在第4.1节中，我们详细描述了我们评估的方法。02.2. 深度补全中的不确定性估计0在过去几年中，在深度补全方面取得了巨大的进展，从RGB-D/ToF相机的高密度补全[38, 15, 68,70]，到LiDAR传感器的中密度补全[64, 43, 10, 61, 9, 8, 71,37, 67, 69]，再到由Visual-SLAM或Visual-InertialOdometry生成的地图点的低密度补全[65, 66, 55,72]。与专为特定稀疏性或传感模式设计的系统不同，我们提出的方法可以看作是深度补全的通用组件，类似于DBF[54]。对深度补全文献的完整回顾超出了本工作的范围，我们将重点放在也估计不确定性的方法上。Gansbeke等人[19]预测了颜色和深度分支的深度和置信权重，并根据置信度图进行融合。Qiu等人[53]采用了类似的策略，但还通过表面法线预测指导深度分支。Xu等人[67]使用共享编码器和多个解码器来预测表面法线、粗糙深度和置信度，然后使用各向异性扩散过程生成精细深度。Park等人[51]则使用单个编码器-解码器网络来预测初始深度、亲和力和置信度。161490图2：深度补全的BDBF概述。网络的输入是RGB图像I和可选的稀疏深度图S。网络产生一个M维深度基Φ，其空间分辨率与I相同。然后，BDBF根据有效像素位置处的稀疏深度解决权重w。然后可以使用w将基减少为单通道潜在预测Z，然后通过激活函数g生成深度D。0然后应用非局部空间传播来生成最终的深度。请注意，上述方法产生的不确定性未经校准，仅在内部使用。因此，它们不适用于需要概率推理的下游任务。这种类型的不确定性估计也可以看作是[47]中的预测方法的简化版本，没有NLL损失。很少有研究尝试评估深度补全不确定性的质量。Eldesokey等人[13]提出了一种概率归一化卷积[14]，用于估计输入稀疏深度和输出密集预测的置信度，用于无导向的深度补全。Gustafsson等人[24]比较了几种应用于深度补全的不确定性估计方法，与[52]的精神相同。我们遵循他们的方法，并对我们提出的方法与[24,52]中表现最佳的方案进行了系统比较，并展示了在一系列数据集上的卓越性能和效率。03. 方法03.1. 问题建模0设D = {(xn,yn)}NDn=1是包含ND个样本的数据集。我们希望学习一个将x映射到y的神经网络f。在深度补全中，输入x通常是一幅图像和稀疏深度对(I,S)，输出y是预测的深度图D。我们将fθ称为基网络，其输出Φ是一组深度基[54]。然后，Φ通过线性层fw减少到z，然后通过非线性激活函数g映射为正深度值。0y = f(x) = g ◦ fw ◦ fθ(x) = g ◦ fw(Φ) = g(z) (1)0稍微滥用符号，我们称z为潜在变量，并选择g为指数函数[12]，因此z实际上对应于对数深度。我们的方法概述如图2所示。03.2. 贝叶斯深度基拟合0我们选择在潜在空间z中建模每个像素的分布，而不是在目标空间y中建模，因为深度严格为正，并且可能跨越几个数量级[57]。假设潜在空间中存在高斯噪声，我们定义我们的模型为0zi = w�φi + ϵi, ϵi � N(0, β^-1) (2)0其中φi表示与潜在像素值zi对应的基础条目，β∈R是与噪声的逆方差相对应的精度参数。假设每个像素的误差是独立的，似然函数为0p(z | x, w) = N(z | Φw, β^-1I) (3)0这里Φ是N×M设计矩阵，其中N是稀疏深度的数量，M是w的维度。它是通过在S指定的像素位置提取基础条目来组装的。给定适当的先验概率p(w) = N(m0,α^-1Σ0)，其中α∈R是一个精度参数，用于缩放协方差Σ0，可以根据贝叶斯规则[3]解析地计算w的后验分布：0p(w | x, z) = N(m, Σ) (4)0∝ N (w | m0, α^-1Σ0) ∙ N (z | Φw, β^-1I) (5)0其中均值和协方差由0m = Σ (αΣ^-10m0 + βΦ�z) (6)0Σ = (αΣ^-10 + βΦ�Φ)^-1 (7)0测试时像素的潜在预测分布为0p(z*|x, z) = ∫p(z*|w)p(w|x, z)dw (8)0= N(z*|m�φ*, φ*�Σφ*) (9)0高斯假设仅用于可处理的推断目的。在实践中，预测分布的形状严重依赖于损失函数。由于我们使用L1损失进行训练，因此我们采用拉普拉斯分布作为其参数形式来评估不确定性[28,4]。此外，如果目标中存在异常值，可以应用鲁棒范数（如Huber [27]）[63]。03.3. 训练0损失函数。学习贝叶斯回归器的标准方法是通过最大化与基函数fθ的参数θ相关的边缘似然函数θ，0log p(z|x, α, β) = 1020−E(m) + ln|Σ| - ln|Σ0|) (10)0E(w) = β∥z - Φw∥^2 + α∥w - m0∥^2Σ0 (11)α−1 = 1M�∥m − m0∥2Σ0 + tr(Σ−10 Σ)�(15)β−1 = 1N∥z − Φm∥2 + tr(Φ⊤ΦΣ)(16)µ = m⊤0 φ,σ2 = φ⊤Σ0φ(17)161500其中∥v∥A =v�A^−1v是马氏距离范数。这在文献中被称为第2型最大似然[3]。直接最大化（10）存在两个实际问题。首先，需要估计超参数α和β，这在训练过程中增加了很大的开销。其次，需要通过昂贵的操作（如矩阵求逆和行列式）进行反向传播。它们共同对训练阶段造成挑战，并且往往产生与点估计[58]相似的经验结果。我们通过假设训练中有足够的稀疏点（N�M）来避免这些问题。这使得线性系统过定，从而允许我们将先验p(w)视为无限宽广。因此，（6）中的解简化为最大似然（ML）解，可以在一次传递中高效计算[3]。0wML = (Φ�Φ)^−1Φ�z, β^−1ML 0N∥z - ΦwML∥^2 (12)0根据（9），训练时z*的预测均值和方差分别为0µ = w�MLφ, σ^2 = β^−1MLφ�(Φ�Φ)^−1φ (13)0根据上述结果，我们可以最小化负对数似然损失（NLL），假设拉普拉斯分布[28]，对于单个像素定义如下0−log p(z|µ, b) ∝ |µ -0b + log b, 2b^2 = σ^2 (14)0然而，这仍然涉及到通过昂贵的矩阵求逆进行反向传播，就像（12）中一样。我们在实验中发现，这有时会导致训练过程中的数值不稳定，并且会导致预测准确性明显降低。因此，我们选择直接最小化L1损失进行监督学习。这使得我们的网络可以在其原始形式下进行训练，而不会因为NLL损失引起性能下降[40]。0不使用似然损失存在过度自信估计不确定性的风险，因为方差预测上没有明确的惩罚。由于θ中的参数数量通常在百万数量级，噪声方差β^−1将被推向零[48]。一种解决方案是在优化器中使用L2正则化项对θ进行正则化。这引入了一个额外的需要调整的超参数：较小的正则化无法防止过拟合，而较大的正则化将使特征基函数无法表达[62]。我们在经验上注意到，我们的方法在训练和验证过程中的过度自信程度是一致的。因此，我们采取一种实用的方法，提出以估计器一致性[2]来解决这个问题，通过归一化估计误差平方（NEES）来衡量。对于拉普拉斯分布，NEES定义为ε = (µ -z)^2/b^2。我们在训练时记录最后一个时期的平均NEESε�，并在推断过程中使用它来相应地缩放方差，即¯σ^2 =¯εσ^2，这样可以解决这个问题。0尝试使最终预测保持一致。请注意，缩放因子完全是在训练过程中计算的，没有额外的数据，并且NEES不用作损失函数。0共享先验。虽然先验p(w)在训练中没有使用，但我们在推理中仍然需要它。我们做出另一个简化假设，即整个数据集存在一个共享的先验。这与我们从实验中观察到的p(w)相对尖锐的峰值相一致。根据我们的训练策略，我们采用频率学派的方法，收集一个训练周期内所有权重wML的最大似然解。然后可以从这个集合中计算均值m0和协方差Σ0。共享先验使得能够从少量稀疏深度测量中进行鲁棒的深度补全。03.4. 推理0推理遵循标准的证据框架[3]。我们使用EM[11]来估计超参数α和β。通过最大化对α和β的期望完整数据对数似然来获得重新估计的方程。0其中tr(∙)是矩阵迹运算符。然后将重新估计的α和β插入到(6)和(7)中重新计算m和Σ。我们通过经验初始化这个过程，设置α=1和β=√。0N并将最大迭代次数设置为8。在实践中，当N�M时，我们在2到3次迭代内达到收敛，因此只产生了很小的计算开销。在极端情况下，当N→0时，我们仅依靠共享先验进行纯单目预测。04. 评估0在本节中，我们展示了我们的方法在各种数据集上优于基准方法的不确定性估计结果，具有准确的深度预测，并且对稀疏性变化和领域转移具有鲁棒性。04.1. 基准方法0我们描述了三种用于不确定性估计的基准方法，这些方法在强控制条件下表现出良好的性能[52,24]，并且可以进行评估。如第3.2节所讨论的，所有方法在g(∙)之前输出潜在预测的均值和方差，并使用L1损失或其NLL变体（14）进行训练。对于经验方法，我们选择了快照集成[26]（snap），它可以在一个训练会话中完成。snapsnap+loglogbdbfµ = 1KK�i=1µi,σ2 = 1KK�i=1(µi − µ)2(18)µ = 1KKi=1µi,σ2 = 1KK�i=1�(µi − µ)2 + σ2i�(19)161510不确定性深度预测预测误差0图3：在VKITTI2上以5%稀疏度训练和测试的所有方法的定性结果。0以便所有方法具有相同的训练预算。使用K个快照计算均值和方差。0对于预测方法（log）[47]，我们在深度预测的同时附加一个方差预测头，并使用NLL损失进行训练。最后，我们将上述两种方法（snap+log）[31]结合起来形成一个预测集成方法。04.2. 数据集0Virtual KITTI 2.VKITTI2数据集[6]是其前身[16]的更新版本。我们使用序列2、6、18和20进行训练和验证，其中包括变化的克隆、早晨、阴天和日落，使用序列1中的克隆进行测试。这样一共有6717个训练图像和447个测试图像。稀疏深度是通过随机采样深度小于80m的像素[24]生成的。地面真实深度也按照常见的评估协议被限制在80m以下。所有图像都被降采样了一半。0NYU深度V2。NYU-V2[56]数据集由一台现成的RGB-D相机记录的各种室内场景组成。我们使用1449对经过对齐的RGB和深度图像进行密集标注。并将其分为大约75%的训练集和25%的测试集。采用与上述相同的深度采样策略。请注意，我们有意选择了这个小数据集（而不是完整数据集）来评估数据稀缺情况下的不确定性估计[62]。0KITTI深度完成。我们还根据KITTI深度完成数据集[64]进行评估，遵循其官方的训练/验证划分。除了官方提交之外的所有实验，我们将图像和深度都降采样一半。04.3.实现细节0网络架构。我们对所有方法使用相同的基础网络，即编码器-解码器架构。0跳跃连接类似于[54]中的方法。我们使用在ImageNet[35]上预训练的MobileNet-V2[57]。解码器输出一组多尺度基础[54]，然后将其上采样到输入分辨率并连接在一起形成最终的63维基础。对于基准方法，我们使用数据集的平均对数深度初始化深度预测头的偏置，并让方差头预测初始方差为1。然而，我们的方法不需要初始化。当使用稀疏深度作为网络输入时，我们采用[66]中的两阶段方法，首先通过插值对稀疏深度进行支撑，然后通过卷积将其与编码器的第一层融合。请注意，这个深度预处理步骤与不确定性估计技术是相互独立的，我们选择这种方法是因为它简单且适用于中低稀疏度。除非另有说明，所有网络都使用相同的设置。0训练参数。我们使用Adam优化器[32]进行训练，初始学习率为2e-4，并按照[42,54]的方法每5个epoch减半。我们的方法训练20个epoch，其他方法训练30个epoch。这是为了考虑到使用我们的方法增加的训练时间。对于快照集成，我们遵循原始论文[26]，使用来自[41]的循环退火调度器，初始学习率与之前相同。我们每个周期训练5个epoch，并丢弃最差的快照，这样我们就得到了5个快照。所有训练都在一块Tesla V100GPU上进行，批量大小和随机种子相同。对于数据增强，我们应用概率为0.5的随机水平翻转和0.02的小颜色抖动。04.4.度量标准0深度预测度量标准。我们使用标准度量标准[12]评估深度完成性能。具体来说，我们报告深度的MAE、RMSE和准确性（δ阈值）。由于空间限制，我们只报告δ1 < 1.25。0不确定性估计度量标准。与可以与真实值进行比较的深度预测不同，深度的真实概率密度函数是不可用的。这使得评估不确定性估计成为一项困难的任务。在这里，Figure 4: (a) Qualitative results of bdbf on one test imagefrom NYU-V2. (b) Absolute log depth error (blue line) and3b bounds (blue shades) for a single row of pixels (red line)from the image. (c) Normalized error density of the entireimage compared to a unit Laplace distribution (red line).All axes are of the same scale within each column.0.00.51.00.00.20.40.00.51.00.000.250.500.751.001.01.55%0.00.51.00.000.020.040.060.00.51.00.000.250.500.751.000.040.060.085%161520我们描述了文献中常见的三种常用的不确定性估计度量标准。请注意，每个度量标准都有其优点和缺点，我们希望通过报告所有三种度量标准来提供更全面的评估。01) Sparsi�cationError曲线下的面积（AUSE）↓。Sparsi�cation曲线[1]通常用于衡量不确定性估计的质量。给定一个错误度量（例如MAE），我们按照其不确定性的降序对预测错误进行排序，并通过反复删除最不确定子集的一部分（例如1%）来计算错误度量。通过使用真实预测错误进行排序，可以得到一个oraclesparsi�cation曲线。AUSE是sparsi�cation曲线和oracle曲线之间的面积。这将正常化oracle，并可用于比较不同的方法[28]。请注意，AUSE是不确定性质量的相对度量，因为其计算依赖于预测不确定性的顺序。02）校准误差曲线下的面积（AUCE）↓。为了绝对衡量不确定性估计质量，[24]提出将期望校准误差（ECE）[23]度量推广到回归问题。对于拉普拉斯分布，给定均值µ和方差σ^2，我们构造预测区间µ±Ψ^(-1)(p+1)02）b对于p∈(0,1)，其中Ψ是单位拉普拉斯分布的CDF。对于每个p的值，我们计算真实目标落在预测区间内的像素比例ˆp。对于一个良好校准的模型，ˆp应该与p非常接近。校准误差曲线定义为|p-ˆp|，AUCE是该曲线下的面积。与ECE一样，AUCE不是一个适当的评分规则[50]，因为存在可以得到完美分数的平凡解。03）负对数似然（NLL）↓。NLL（14）通常用于评估在一个保留数据集上的模型不确定性的质量[50]。它是一个适当的评分规则[21]，但过分强调尾部概率[7]，并且不能完全捕捉到后验之间的不确定性[62]。04.5.结果0中密度深度补全。在这种设置下，我们使用5％的稀疏度训练所有方法。表2显示了在相同数据集和相同稀疏度水平下进行测试时的定量结果。这被认为是一种“内分布”测试。我们看到我们的方法在几乎所有指标上都有显著的改进。图3显示了来自VKITTI2测试集的一个样本的定性结果。与其他方法相比，bdbf不仅预测出质量更高的深度，而且还预测出与真实预测误差非常接近的更锐利的不确定性。这表明我们的学习深度基底既能表达深度又能表达不确定性。请注意，当有足够的数据时，bdbf将按预期减少为dbf，但贝叶斯公式允许通过结合学习的先验知识平滑地过渡到低稀疏度水平。0（b）绝对对数深度误差和边界（c）归一化误差密度0快照快照+日志日志bdbf0归一化对数深度误差像素0（a）bdbf样本0深度预测0稀疏化误差0经验覆盖率0-2 00删除的比例0稀疏化误差0p0经验覆盖率0-3 -2 -10快照快照+日志日志 bdbf0图5：（a）稀疏化误差，（b）校准误差和（c）NLL与MAE在VKITTI2（顶部）和NYU-V2（底部）上的稀疏度变化图。稀疏化和校准图是使用5％的测试稀疏度生成的。稀疏度变化图是使用从5％到1％的不同测试稀疏度生成的。0我们在图4（a）中对NYU-V2测试集中的一个样本进行了更详细的分析，通过绘制以对数空间中的绝对预测误差e = |µ- z|和不确定性边界b = σ/√为特征的图形。0图4：（a）bdbf在NYU-V2的一个测试图像上的定性结果。（b）来自图像的单行像素的绝对对数深度误差（蓝线）和3个边界（蓝色阴影）。（c）整个图像相对于单位拉普拉斯分布的归一化误差密度（红线）。每列的坐标轴在同一比例尺内。bdbf是唯一一个边界追踪预测误差的一般形状并且其归一化误差密度类似于单位拉普拉斯分布的方法。快照无法捕捉到底层错误分布。rgbdsnap [26]5%1.1923.26795.590.4450.170-0.7140.0610.12699.350.0360.202-1.390rgbdsnap+log [31]5%1.2713.43295.330.1420.117-1.5820.0580.12399.320.0180.256-1.596rgbdlog [47]5%1.3183.42395.370.1490.125-1.4210.0570.12199.340.0180.210-1.783rgbddbf [54]5%0.7092.92897.880.1480.163-2.4880.0260.08299.640.0070.054-3.145rgbdbdbf5%0.7032.92597.880.1100.136-2.5960.0260.08299.640.0070.039-3.151rgbdsnap5002.3125.40390.140.4590.229-0.2070.0960.20697.530.0530.2610.211rgbdsnap+log5002.3965.57189.880.2730.036-1.1500.0950.21397.440.0250.205-1.393rgbdlog5002.4925.80089.130.2990.095-0.9060.0970.21297.440.0250.152-1.502rgbddbf5002.0505.06792.580.4530.051-1.1750.0650.16798.450.0200.055-2.186rgbdbdbf5002.0154.99492.710.3920.014-1.2150.0640.16698.460.0210.030-2.199rgbbdbf5002.5695.64288.670.4810.015-0.9790.0980.19998.480.0300.014-1.689rgb†log06.75811.7861.481.5910.2912.4070.3660.56175.080.1610.1910.187rgbbdbf05.8099.61062.781.3810.2640.8090.6640.94447.760.2450.0440.45902NLL2.02.53.03.54.04.55.0MAE50030020010050VKITTI2−2.50.02.55.0NLL0.100.150.200.250.3050030020010050NYU-V2deltadeltasnapsnap+loglogbdbfbdbf(rgb)161530使用5%的VKITTI2 NYU-V2进行训练0输入方法％ MAE RMSE δ 1 AUSE AUCE NLL MAE RMSE δ 1 AUSE AUCE NLL0表2：所有方法在VKITTI2和NYU-V2上使用5％稀疏度进行训练和测试的定量结果。0使用500个VKITTI2 NYU-V2进行训练0输入方法＃ MAE RMSE δ 1 AUSE AUCE NLL MAE RMSE δ 1 AUSE AUCE NLL0表3：所有方法在使用500个稀疏深度和我们提出的方法在不使用稀疏深度的情况下与单目深度预测基准（†）进行比较的定量结果。输入列下的rgbd表示基础网络使用[66]中的稀疏深度脚手架方法，而rgb仅使用彩色图像作为基础网络输入。0分布。log和snap+log产生了相对较好的不确定性（AUSE），但校准性（AUCE）不好。图5（a）（b）显示了在两个数据集上进行的分布测试的稀疏化误差和校准图，用于计算AUSE和AUCE。我们看到预测方法（log）的表现与其集成变体snap+log相似，两者都优于纯集成方法snap。这与[28，52]中的研究结果一致。我们还评估了所有方法在分布（数据集）转移[50]的影响下的表现。在这里，我们主要关注以下两个方面：稀疏度变化和领域转移。对于中等密度内的稀疏度变化，我们使用在5％稀疏度上训练的模型，并在从5％到1％的不同稀疏度水平上进行测试。结果如图5（c）所示。请注意，这些图表反映了每种方法在不确定性估计（NLL）和深度预测（MAE）方面在两个轴上的表现，更好的方法应该靠近左下角。我们看到所有方法的性能在稀疏度降低时以类似的方式下降，这主要是由于我们选择的稀疏深度脚手架方法。然而，bdbf在1％的结果上表现出色，优于其竞争对手的5％结果。关于领域转移的结果，请参阅我们的补充材料。0低密度深度补全。在这种情况下，我们使用500个稀疏点来训练所有方法，根据我们的图像大小，这大约是0.5％的稀疏度。我们还引入了我们方法的一个轻微变化bdbf(rgb)，它仅在拟合阶段使用稀疏深度（而不是作为网络输入）。因为在非常低的稀疏度水平（例如50个点），我们用于深度插值的脚手架方法[66]很难重新插值。0图6：所有方法在500个稀疏深度训练并在稀疏度从500到50的各种情况下测试的稀疏性变化图。小子图显示了每种方法在稀疏度减小时相对于其分布内测试（500）性能的变化。较短的线表示更好的稀疏性不变性。0覆盖场景结构，影响所有rgbd方法的性能。0表3的上半部分显示了所有方法的分布内测试结果。在四种rgbd方法中，bdbf再次以较大的优势胜过其他方法。bdbf(rgb)虽然没有利用插值深度提供的丰富信息，但与基准方法表现相当。这种方法的真正优势在于它不会受到非常低稀疏度区域中深度插值引起的伪影的影响，使其具有稀疏性不变性。这一观点在图6中得到验证，图中显示了每种方法在只有50个点的情况下的性能如何。最后，我们测试了没有稀疏深度的bdbf(rgb)，它仅依靠共享先验进行预测。我们忽略了所有rgbd方法，因为网络没有插值的情况下输出较差的解决方案。因此，我们只与另一个基准方法log(rgb)进行比较，它是使用NLL损失进行单目深度预测训练的。请注意，bdbf(rgb)和log(rgb)具有完全相同的架构（除了最后一层）和参数数量。我们可以看到bdbf(rgb)产生的深度比基准方法更清晰，如图7所示。定量结果可以在表3的最后两行中找到。我们方法在两个数据集之间性能的差异是由于数据的分布不同：VKITTI2主要包含连续驾驶视频，给出了一个尖峰的先验；而来自NYU-V2的数据来自各种不同场景的不同视角，因此先验信息较少。这些结果表明，我们学到的深度基和共享先验包含了基于图像的场景的几何信息，并且可以在极端条件下使用而不会发生灾难性故障。S2D [42]2.801.21814.73249.95Gansbeke [19]2.190.93772.87215.02DepthNormal[67]2.421.13777.05235.17DeepLiDAR [53]2.561.15758.38226.50FuseNet [8]2.341.14752.88221.19CSPN++ [9]2.070.90743.69209.28NLSPN [51]1.990.84741.68199.59GuideNet [61]2.250.99736.24218.83NCNN-L2 [14]258.68954.340.70--pNCNN [13]283.411237.650.055--pNCNN-Exp251.77960.050.065--161540深度GTlog(rgb)bdbf(rgb)0图7：我们方法在0个稀疏点测试的定性结果。log(rgb)是使用NLL损失训练的单目深度预测网络，作为基准。bdbf(rgb)是使用500个稀疏深度训练的。0方法 iRMSE iMAE RMSE MAE0bdbf（我们的方法） 2.37 0.89 900.38 216.440表4：在官方KITTI深度补全测试集上与选定方法的比较。0方法的性能随着稀疏度的降低而恶化。小子图显示，bdbf(rgb)即使只有50个点也能保持良好的性能。最后，我们测试了没有稀疏深度的bdbf(rgb)，它仅依靠共享先验进行预测。我们忽略了所有rgbd方法，因为网络没有插值的情况下输出较差的解决方案。因此，我们只与另一个基准方法log(rgb)进行比较，它是使用NLL损失进行单目深度预测训练的。请注意，bdbf(rgb)和log(rgb)具有完全相同的架构（除了最后一层）和参数数量。我们可以看到bdbf(rgb)产生的深度比基准方法更清晰，如图7所示。定量结果可以在表3的最后两行中找到。我们方法在两个数据集之间性能的差异是由于数据的分布不同：VKITTI2主要包含连续驾驶视频，给出了一个尖峰的先验；而来自NYU-V2的数据来自各种不同场景的不同视角，因此先验信息较少。这些结果表明，我们学到的深度基和共享先验包含了基于图像的场景的几何信息，并且可以在极端条件下使用而不会发生灾难性故障。0方法 MAE RMSE AUSE AUCE NLL0bdbf（我们的方法） 206.70 876.76 0.057 0.23 -2.680表5：在官方KITTI验证集（带有groundtruth）上与pNCNN [ 13]的变体在准确性和不确定性上的比较。请注意，pNCNN是无导向的。0进一步的比较。虽然我们的重点是评估我们的不确定性估计方案的质量，但我们也评估了深度补全性能的完整性。我们使用ResNet34编码器[25]对我们的方法进行了训练，并将其应用于KITTI深度补全基准测试，结果如表4所示。我们将我们相对简单的贝叶斯滤波方案与使用迭代细化[9,51]或带有额外约束的子网络[67,53]的SOTA方法进行了比较。我们的方法在所有指标上都表现出色，除了RMSE之外，我们观察到这种差异是由于在深度不连续处附近有少量错误像素和仅使用L1损失所导致的。这表明这些方法可以通过使用我们的模块预测初始深度和不确定性估计来进一步改进。我们还与pNCNN[13]进行了比较，因为它是唯一提供深度补全预测不确定性定量评估的工作。不幸的是，他们只使用了一种度量标准，AUSE，我们认为这不能完全捕捉到不确定性估计的真实质量。结果如表5所示，请注意pNCNN是无导向的，并且评估是在KITTI验证集上进行的，因为需要地面真值来计算不确定性度量。05. 结论0在本文中，我们在一个有原则的贝叶斯框架下扩展了深度补全的深度基础拟合方法，该方法在深度预测的同时输出不确定性估计。与常用的不确定性估计技术相比，我们的综合方法能够产生更好的不确定性估计，同时具有数据和计算效率。贝叶斯方法的好处还在于能够处理非常低密度的稀疏深度，这是原始DBF方法所困扰的情况。我们的工作使得深度补全网络能够进一步整合到机器人系统中，其中贝叶斯传感器融合是主要方法。0致谢0本工作部分得到了C-BRIC和DCIST的支持，这两个项目均由DARPA赞助。我们感谢NVIDIACorporation捐赠用于此研究的DGX Station以及NovateurResearch Solutions的支持。[5] Charles Blundell, Julien Cornebise, Koray Kavukcuoglu,and Daan Wierstra. Weight uncertainty in neural networks.arXiv preprint arXiv:1505.05424, 2015. 2[7] J. Q. Candela, C. Rasmussen, Fabian H Sinz, O. Bousquet,and B. Sch¨olkopf. Evaluating predictive uncertainty chal-lenge. In MLCW, 2005. 6[9] Xinjing Cheng, P. Wang, Chenye Guan, and Ruigang Yang.Cspn++: Learning context and resource aware convolutionalspatial propagation networks for depth completion. ArXiv,abs/1911.05377, 2020. 2, 81161550参考文献0[1] Oisin Mac Aodha, Ahmad Humayun, M. Pollefeys, and G.Brostow. 学习光流的置信度测量.IEEE模式分析与机器智能交易，35：

下载后可阅读完整内容，剩余1页未读，立即下载