面向单目深度估计的可解释深度网络

106 浏览量更新于2023-10-13 收藏 2.52MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

12879面向单目深度估计的可解释深度网络尤尊智中山大学youzunzhi@gmail.com蔡怡轩NEC美国实验室ytsai@nec-labs.com国立交通大学walon@cs.nctu.edu.tw李冠斌*中山大学liguanbin@mail.sysu.edu.cn摘要用于单目深度估计（MDE）的深度网络最近取得了令人鼓舞的性能，并且进一步理解这些网络的可解释性是非常重要的。现有方法试图通过调查视觉线索来提供在本文中，我们发现一些隐藏的单位（一）（b）第（1）款网络对某些深度范围具有选择性，因此这种行为可以用作解释内部表示的方式根据我们的观察我们...通过其隐藏单元的深度选择性来验证深度MDE网络的可解释性此外，我们还提出了一种方法来训练可解释的MDE深度网络，而不改变其原始架构，通过为每个单元分配一个深度范围来选择。实验结果表明，我们的方法是能够提高深度MDE网络的可解释性，大大提高了深度选择性的单位，而不损害，甚至提高深度估计的准确性。我们进一步提供了综合分析，以显示选择单元的可靠性，我们的方法在不同的层，模型和数据集上的适用性，并演示了模型误差分析。源代码和模型可在github.com/youzunzhi/InterpretableMDE 获得。1. 介绍单目深度估计（MDE）已经引起了很多关注，因为它对于诸如3D场景理解或自动驾驶之类的进一步应用是至关重要的，这是由于与使用立体图像对的深度估计相比要求和成本更低。Eigen等人[10]第一次使用卷积，*通讯作者为李冠斌。（c）第（1）款（d）其他事项图1.特征图的可视化。(a)以及（b）参考层MFF中的单元5和层D中的单元26的特征图可视化（参见图1）。[18]（ResNet-50）的第5节）。(c)和(d)分别参考通过我们的方法训练的可解释对应物的层D中的单元63和层MFF中的单元0（以颜色最佳观看）。我们发现（b）在不同的深度范围内具有激活，而我们在（c）和（d）中的结果专注于遥远或接近的深度，这使得模型具有更多的可解释性。执行MDE的函数神经网络;从那时起，已经提出了基于深度神经网络的许多方法，并且这些方法显著地改进了现有技术的性能[13，18，42，26]。然而，只有少数研究关注这些MDE网络的可解释性[46]。由于深度估计可能与自动驾驶等下游任务密切相关，因此MDE模型缺乏可解释性可能会导致严重后果。12880图2.以不同顺序连续消融装置时准确度下降率的比较。这些单元按其深度选择性排序，然后以两个相反的顺序连续消融。当选择性较高的单元在选择性较低的单元之前被烧蚀时，y轴上的精度下降得更快。一般来说，理解深层网络是非常必要的。关于深度网络的视觉可解释性的先前工作主要集中在图像分类[44，2]或图像生成[3]。在深度估计上，Hu等人[20]和Dijket al. [9]通过调查输入图像中的视觉线索，分别在像素或语义层面上分析深度网络如何从单个图像中估计深度。然而，他们仍然将网络视为黑箱，导致对MDE网络学习的内部表示的探索较少此外，这种事后解释可能无法呈现[33]中讨论的可解释机器学习模型的全部故事。虽然存在用于计算机视觉任务的可解释模型，例如图像分类[45，5]，对象检测[41]或人员重新识别[28]，但这些任务具有与MDE完全不同的特征，并且不直接适用于MDE。最近，许多方法试图发现神经网络中的神经元在寻找什么[30，2，11，32]。它表明，神经元单元通常提取的特征，可以解释为不同层次的语义概念，从纹理和图案的对象和场景。此外，为了学习可解释的神经网络，一种选择是解开内部过滤器学习的表示，这使得过滤器更加专业化[45，27]。受这些工作的启发，我们观察到在深度MDE网络中，一些隐藏单元对某些深度范围具有选择性。例如图1（a），我们可视化了[ 18 ]中网络层中一个单元的几个特征图。该单元在输入图像的远处区域中明显更活跃我们通过收集平均响应值（一）（b）第（1）款（c）第（1）款（d）其他事项图3.装置的解剖结果。(a)和（b）是[18]（ResNet-50）中的层D和层MFF的单元，其中它显示不同的选择性范围。使用我们提出的可解释模型，我们一致地增加了对所有单元的选择性，例如，(c)以及（d），其提高了模型的可解释性。图3（a）显示，对于某些单元，某些深度范围的激活较高。为了量化这一观察结果，我们然后计算每个单元的深度选择性（详见第3.2节）。为了评估深度选择性的意义，我们连续地烧蚀单元，看看网络的性能如何相应地下降。我们首先根据它们的选择性对来自[18]的网络的128个单元进行排序，然后从最具选择性的单元到最少的单元依次烧蚀单元，然后以相反的方式做同样的事情。在图2中，MDE模型的性能下降得更快时，更多的选择性单位被烧蚀早于选择性较低的。基于上述观察，我们认为，对于MDE深度网络，当单元具有更强的深度选择性时，它更重要，并且可以通过告诉深度范围来解释其单元的行为12881大多数是由这些单位激活的因此，深度网络对MDE的可解释性可以通过其内部单元的深度选择性来量化。然而，在现有的MDE模型中，尽管一些单元可以被解释为对于某些深度范围是有选择性的，但是它们中的大多数具有很少的可解释性。例如，Fig.1（b）和图。3（b）显示了[ 18 ]中网络中典型单元的特征图可视化和解剖结果，其可解释性较差。因此，为了实现具有更好可解释性的MDE模型，我们通过最大化内部单元的选择性，提出了一种简单而有效的可解释深度网络。我们的方法可以应用于现有的深度MDE网络，而无需修改其原始架构或需要任何额外的注释。更重要的是，我们证明了在不损害其深度性能的情况下学习我们的可解释模型是可能的，这在可解释AI中沿着可解释性和模型性能之间的权衡产生了潜在的讨论[34]。实验结果表明，我们的可解释模型取得了竞争，甚至更好的性能比原来的MDE模型，而解释性大大提高。捐款. 总之，这项工作有以下贡献：（1）我们基于模型内部单元的深度选择性来量化深度网络对MDE的可解释性;（2）我们提出了一种新的方法来学习可解释的深度网络，而无需修改原始网络的架构或需要任何额外的注释;（3）实验结果表明，该方法有效地提高了深度MDE网络的可解释性，同时没有损害甚至提高深度精度，进一步验证了该方法的可靠性和适用性。2. 相关工作2.1. 单目深度估计从图像中估计深度是场景理解中的一个重要问题，近年来单目深度估计得到了广泛的研究。已经提出了许多基于深度卷积神经网络的方法来实现此任务的更好性能，包括使用几何约束，采用多尺度网络架构，或与语义分割共享特征[25，13，18，42，22，26，48]。然而，很少有研究分析这些深层网络学到了什么。通过修改输入图像，Dijk等。[9]研究网络[15]在预测深度时利用的视觉线索。Hu等人[20]假设深度网络可以相当准确地从一组选定的图像像素中估计深度，并训练另一个网络来预测这些像素。尽管他们的一些发现很有趣，有助于理解MDE的深层网络仍然将网络视为黑盒子，并且它们的事后解释不会导致固有的可解释模型。2.2. 深度网络最近，许多研究旨在以事后方式解释深度网络。其中，一系列研究可以分为显着性方法或归因方法，其中虽然一些最近的研究讨论了它们的可靠性[23，38，1]，但这些方法并不直接适用于MDE的任务，因为MDE需要预测每个像素的深度值，因此使用突出显示的像素来归属所有像素的密集预测是不合理的。另一组关于深层神经网络可解释性的研究探索了单个单元的属性或行为[43，47，2，30，31，29，3，32]，我们的工作一般属于这一组，因为我们量化了MDE网络MDE的任务和图像分类之间的根本区别，此外，这些方法仍然专注于对深层网络的解释，而不是设计可解释的模型。2.3. 用于视觉的可解释深度网络而不是提供解释，一些研究试图设计固有的可解释的模型，以减轻缺乏模型可解释性的计算机视觉任务。Chen等人[5]提出一个可解释的对象识别模型，该模型可以找到原型部分并从中推理以做出最终决策。Liao等人[28]建议一种通过使特征图的匹配过程显式来增强个人重新识别网络的可解释性的方法。此外，与我们的方法共享类似概念的其他方法是学习更专业的过滤器。在[45]的可解释CNN中，每个过滤器表示特定的对象部分，而最近的一项研究[27]通过减轻过滤器类纠缠来训练可解释CNN，即每个滤波器仅响应一个或几个类。在本文中，我们提出的可解释的模型侧重于MDE任务，通过增加深度选择性的单元内部的MDE模型，这不同于上述方法。3. MDE的深度网络的可解释性在本节中，我们介绍了我们如何通过计算它们的深度选择性来量化单元的可解释性，其中深度选择性具有它们在不同深度范围上的平均响应。3.1. 装置对深度的平均响应我们首先通过收集其单元对深度的平均响应来剖析MDE的深度网络。表示图像12882我联系我们l，kΣ我·⊙Ll，kl，k|||R研发l，k=i=1i，（1）|Rma x|+的|R¯−max|dl，|l，k3l，k分配KL|RDK|+的|R¯−dk|·dk<$−dk我们首先想到的一个直接方法是并且深度数据集D中的对应深度图为（xi，di）D，我在哪里1，2，...，N 并且N是D中的样本数。对于深度网络的层l中的每个内部单元k，使用双线性插值将激活图A1，k（x，i）按比例放大到深度图的分辨率表示为A~l，k（x，i）。di中的深度值可以离散化以捕获有意义的深度分布。然后，对于每个离散深度值d（即，b i n）在离散深度图d（i）中的索引，我们可以获得由I（d（i=d）计算的二进制掩码M d，其中I（）是指示函数。单位k的平均响应Rd然后在整个数据集上计算深度d的层lΣNS（A~l，k（xi）⊙Md）l，kNi=1 S（ Md）4. 用于MDE的如前所述，我们在这里要考虑一个重要的问题：有没有可能在不修改其架构和损害其性能的情况下增强MDE深度网络的可解释性？在本节中，我们首先提出一个简单的想法（即，正则化选择性）以及指出其潜在问题，然后描述我们提出的方法（即，将深度范围分配给单元）。4.1. 正则化选择性由于我们有深度选择性的度量来量化可解释性，因此我们的目标反过来是增强可解释性。其中S（）对矩阵的所有元素求和，并且表示逐元素乘法。3.2.深度选择性基于平均响应，我们比较每个添加额外的正则化项regto the objec-MDE模型的有效性，其鼓励层1∈L中的所有单元的深度选择性增加：L=−λΣ1ΣDS在一个实施例中，通过不同的深度范围来激活单元，并且观察到一些单元对某个深度范围是选择性的启发regKLl∈Lkl，kMax最大值（四）通过系统神经元中常用的选择性指数，science [8，4，12]，Morcoset al.[29]提出一个度量标准=− λ1|Rl，k |− |Rl，k|、l∈LKl，kl，kKL根据其类别计算单元的类别选择性条件平均活动，用于图像分类的任务。在这里，我们采用这个度量的深度估计的域。我们将单元的深度选择性定义为：|Rma x|−|R¯−ma x|其中Kl是层1中的单元的数量，并且λ >0是用于在原始深度估计损失与深度选择性的正则化项然而，我们通过实验发现，这种幼稚的方法会导致不令人满意的结果。图4示出了DS1，k=l，kl，k、（二）通过训练的网络中的一些单元的解剖结果，|Rma x|+的|R¯−max|使深度选择性规则化。尽管有些单位l，kl，k仍然像我们预期的那样具有深度选择性，但许多其他的则不是哪里|R Max|是层l中单元k在所有离散化深度d上的最大响应的绝对值，并且R¯−max是所有其他非最大绝对响应的平均值。我们使用绝对值使其适用于可能具有负输出的单元（例如，使用ELU [7]作为激活函数的单元）。 DS的值在[0，1]的范围内，并且接近1的DS值指示对应单元是高度选择性的（例如，图3（c）（d））。为了更具体地说明这个量，我们计算了当单元的响应完全随机时的期望值E[DS]= 1，|研发|U[0，b]，（3）或塌陷（即，不响应任何深度值）。这是因为在分批优化过程中，激活单元的离散化深度在每个批次中大多是不同的这里可能有两个原因：（1）在训练开始时，单元根本没有选择性，以及（2）即使单元是深度选择性的，所选择的深度也可能在一批中不存在，然后将鼓励单元在其他深度范围上激活更多（例如，集中在它在该批次中激活最多的范围上）。4.2.为单位为了解决上述问题时发生的正则化的深度选择性，我们提出了一个模拟-其中，b是任意正数，作为|研发|，其中其值不会影响结果其选择的深度范围，其通过目标函数L赋值来实现：的期望。这种期望可以被认为是一个随机基线，以进一步与深度进行比较，实际MDE网络的选择性。L= −λ Σ1Σ |Rl，k |− |Rl，k|、（五）通过增加其深度选择性来提高MDE网络的稳定性。一种简单而有效的方法，为每个单位分配一个特定的12883l∈LKl，kl，k12884l，k||L≤LB表1.[18]和我们可解释的对应物的MDE基线网络的深度选择性和性能模型培训测试δ 1。25δ 1。252δ 1。253RMSRELlog10[18]（ResNet-50）0.46170.42860.8490.9720.9940.4430.1240.054可解释[18]（ResNet-50）0.83570.75290.8610.9730.9940.4220.1190.051[18]（SENet-154）0.49060.46910.8740.9790.9950.4090.1110.049可解释[18]（SENet-154）0.84110.76930.8820.9790.9950.3960.1090.047图4.通过（4）直接正则化深度选择性的方法训练的网络中典型单元的解剖结果其中dk是分配给单元k的离散化深度。因此，单元k的选择性的计算现在基于分配的离散化深度dk，其中R¯−dk是除dk以外的所有其他绝对响应的平均值。深度范围到单位的分配基于以下原则：Kdk=K/N，（6）其中，如果K1 Nb，则深度仓的数量Nb被设置为K1，使得每个离散化深度d被分配给至少一个单元。如果dk在一个批中不存在，则在分配的计算中将简单地忽略单位k。因此，该方法不会遭受由批量采样引起的问题此外，从另一个角度增强了深度网络的可解释性：单元的行为变得可解释和可预测，因为它现在被具体地分配给特定深度。请注意，在以下部分和实验中，除非另有说明，否则将这种所提出的将深度分配给单元的方法缩写为“我们的5. 实验结果为了简单起见，我们遵循[20]中的选择，并使用[18]中提出的网络作为我们在NYUD-V2数据集[36]上的目标模型，以显示我们方法的实验结果我们首先选择多尺度特征融合后的图层（a）（b）（c）（d）图5.来自我们的可解释模型和基线模型的特征图的比较[18]。(a)输入图像。(b)其预测深度被分配给相应单元的像素的掩码。(c)我们选择的单位的特征图。(d)基线中单元的特征图在[ 18 ]中，在解码器模块（称为层尽管如此，我们还证明了我们的方法可以应用于其他层，模型和数据集，并验证了我们的方法在第5.3节的适用性。对于来自[18]的网络，我们考虑具有不同骨干的两个变体，即，ResNet-50 [17]和SENet-154 [19]。在训练过程中，我们遵循与原始实现完全相同的训练方案，包括数据增强，优化器，总训练时期等。我们将离散化深度仓的数量Nb设置为64，因为用于MDE的大多数深度网络中的单元的数量是2的幂，这使得能够更简单地将深度分配给单元。采用[ 13 ]中提出的空间增加离散化来离散深度图，并且将（5）中的λ设置为0。1.一、5.1. 深度选择性和性能设置和评估指标。首先，我们进行实验，比较深度选择性和性能的基线模型与我们的可解释的同行。我们在训练和测试数据集上计算深度选择性对于深度估计性能，我们遵循先前关于MDE的工作以使用以下度量 < ： 25i ， i=1 ， 2 ， 3 ）、均方根误差（RMS）、平均绝对相对误差（REL）和平均log10误差（log10）。主要结果。在表1中首先观察到，基线模型的深度选择性高于随机基线1/3，表明MDE深度网络具有一定程度的深度选择性。12885表2.直接正则化选择性的比较（参见第4.1节）和为单位分配深度（参见第4.2节）。模型方法选择性↑培训测试深度精度↑δ1。25 δ 1。25 2 δ 1。253DEPRMSth错误REL↓log10[18]（ResNet-50）Lregin（4）L在（5）中赋值0.74170.83570.60390.75290.8570.8610.9730.9730.9930.9940.4280.4220.1210.1190.0520.051[18]（SENet-154）Lregin（4）L在（5）中赋值0.73140.84110.56940.76930.8810.8820.9780.9790.9950.9950.3990.3960.1090.1090.0470.047表3.校正前后的性能评估，其中R50和S154分别表示ResNet-50和SENet-154（参见第5.2节）。在每个结果中，我们使用→符号指示从未校正的模型到校正后的模型(a) 投入（b）地面实况（c）基准（d）我们的图6.通过我们的可解释模型和基线模型预测的深度图的定性比较[18]。红色框突出显示了两种型号的差异。深度选择性，而我们的可解释模型在两种训练中都实现了更高的深度选择性5.2. 通过修正的我们进一步设计了一个实验来验证可靠性-和测试数据集。图1（c）（d）还可视化了我们可解释网络中一些单元的特征图。定性地，示出了这些单元在输入图像的区域上被更多地激活，其中深度基于它们的索引被分配给它们，例如，远或近的地区。在图3（c）（d）中，我们进一步绘制了我们可解释网络中一些单元的解剖结果，显示选择性在整个数据集中是一致的。图5还示出了特征图的一些示例比较。为了证明我们的方法的有效性，如果像素的预测深度被分配给相应的单元，则像素被突出显示我们观察到，我们的模型具有与相应深度的像素更一致的特征图，显示出更好的可解释性。从这些定量和定性结果中，我们得出结论，我们的方法能够显着提高深度网络的可解释性MDE。同时，在表1中的所有深度预测指标中，我们的可解释模型都具有竞争力，甚至优于基线模型，这表明可以在不损害其准确性的情况下增强MDE深度网络图6提供了我们的可解释模型和基线之间的深度预测的一些定性比较。直接正则化与正则化。我们定量地比较了我们为单位分配深度的方法（参见。第4.2节）与正则化深度选择性的直接方法（参见第4.1节）。如表2所示，尽管通过直接正则化选择性训练的模型实现了与通过我们的分配方法训练的模型相当的性能，但由于第4.1节中所述的问题，它们的深度选择性要低得多。选择性单位。考虑到内部单元是选择性的但对模型的最终输出具有零或很小影响的情况，这些可解释单元不会增强整个模型的可解释性。先前的工作通过消融来评估单元的重要性，但结果表明，当逐个消融每个单元时，对模型[29在这里，我们提出了另一种方法来评估这些单位的可靠性，通过纠正的单位，而不是烧蚀它们。图7示出了校正的过程。这里，我们将像素的单元的正确响应定义为该像素的地面实况深度上的训练数据中的平均响应具体而言，使用最近插值将地面实况深度图然后，对于特征图的每个像素，基于其对应的地面实况深度和从训练数据收集的其平均响应来校正其值。表3示出了我们进行校正操作之前和之后的性能评估。结果表明，我们的模型的性能大大提高后，单元的响应进行了校正，这表明，单元负责网络的最终预测。此外，我们的可解释的模型表现出更大的改善相比，使用相同的校正方法的基线模型的增益。一个原因是我们的模型比基线模型更具深度选择性，因此平均响应包含更多与深度相关的信息。我们还注意到，该评估的目的是验证我们的可解释单元的可靠性及其对最终深度预测的影响，其中地面实况深度图用于实现这种验证，但不用于实际测试。模型δ 1。25↑RMS↓[18]（R50）可解释[18]（R50）0.849→ 0.7790.861→ 0.9470.443→ 0.5820.422→ 0.362[18]（S154）可解释[18]（S154）0.874→ 0.8560.882→ 0.9270.409→ 0.4660.396→ 0.35412886在GT深度联系我们校正2.02.4输入图像50单元MFF层特征图单元50的校正特征图，层MFFd=50的地面实况深度深度预测校正后图7.我们的校正操作示意图（参见第5.2节）。假设单元的特征图的像素具有值2。0，其对应的深度地面实况在离散化后为50。通过解剖，我们知道该单元在深度50上的正确响应是2.4，因此我们可以在响应被校正之后得到新的深度预测图。表4.[18]的不同层上的选择性比较模型层选择性培训↑（基数）测试选择性培训↑（我们的）测试D MFF0.46170.42860.83570.7529[18]（R50）Rconv00.48770.45310.76080.6846Rconv10.47120.43990.74360.6701D MFF0.49060.46910.84110.7693[18]（S154）Rconv00.53060.50680.75820.6945Rconv10.44040.40950.72170.66265.3. 我们方法有关图层、模型和数据集的更多结果。我们进一步将我们的方法应用于不同的层，模型和数据集，以探索其有效性。对于[18]中的网络，我们考虑了细化模块中第一个和第二个卷积层之后的层（称为层表4和表5示出了对于所有不同的层，我们的方法相对于基线模型提高了可解释性（选择性），而这些可解释模型在深度估计准确度方面表现得具有竞争力。我们进一步考虑来自[26]的当前最先进的模型，其具有DenseNet-161 [21]的骨干，使用其四个层，即，最后卷积层之前的层、最接近最后输出的第一、第二和第三上卷积层我们还提供了另一个常用的数据集在户外环境中，即实验结果。KITTI [14].我们在表7和表8中示出了选择性和深度估计精度的结果。表5.在[18]的不同层上应用我们的方法的深度估计性能。请注意，每个模型的第一行（在“层”中表示为模型层δ 1。25↑RMS↓REL↓log10↓-0.8490.4430.1240.054[18]（R50）D MFFRconv00.8610.8600.4220.4230.1190.1190.0510.051Rconv10.8620.4230.1190.051-0.8740.4090.1110.049[18]（S154）D MFFRconv00.8820.8810.3960.3960.1090.1100.0470.047Rconv10.8830.3950.1080.047表8- 1验证了我们的方法适用于另一个数据集上的这些各种模型。在深度完井中的应用为了展示我们的可解释模型的适用性，我们进行实验以将我们的方法应用于单目深度完井模型。单目深度完成是与单目深度估计高度相关的任务，同时它另外将从深度传感器（例如Li-DAR）获取的稀疏深度像素或具有地面实况深度值作为用于解决尺度模糊性和提高深度估计的性能的条件。在这里，我们选择CSPN [6]作为我们的目标模型。在此基础上，采用了阈值下的准确率（δ it，

下载后可阅读完整内容，剩余1页未读，立即下载