单目深度估计的卷积神经网络可视化方法

101 浏览量更新于2023-10-12 收藏 2.48MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3869用于单目深度估计的卷积神经网络可视化胡俊杰1，2张燕2冈谷隆之1，21日本东北大学研究生院情报科学研究2日本理化学研究所高级情报计划中心{junjie.hu，zhang，okatani}@ vision.is.tohoku.ac.jp摘要最近，卷积神经网络（CNN）在单目深度估计任务上取得了巨大成功。一个基本但尚未回答的问题是：CNN如何从单个图像中推断深度。为了回答这个问题，我们考虑通过识别输入图像的相关像素来进行深度估计来可视化CNN的推理。我们将其公式化为识别最小数量的图像像素的优化问题，CNN可以从中估计深度图，与整个图像的估计值相差最小为了解决通过深度CNN进行优化的困难，我们建议使用另一个网络来预测前向计算中的相关图像像素在我们的实验中，我们首先展示了这种方法的有效性，然后将其应用于室内和室外场景数据集上的不同深度估计网络结果提供了几个发现，有助于探索上述问题。1. 介绍在过去的几十年里，使计算机能够从单目图像中感知深度已经吸引了很多关注最近的研究表明[6]，深度卷积神经网络（CNN）的使用从那时起，许多研究[25，5，2，3，16，40，26，8，19]已经发表了这种方法，导致显着提高估计精度。另一方面，CNN为什么以及如何从单眼图像中估计场景的深度在很大程度上这将是该方法在现实世界应用中采用的障碍，例如自动驾驶汽车和服务机器人的视觉，尽管它可能是现有3D传感器的廉价替代解决方案。在这些应用中，出于安全原因，可解释性是必要的。心理物理学的长期研究表明，图1.所提出的单视图深度估计的可视化的示例上：输入图像。下：由我们的方法生成的掩模，显示用于深度估计的相关像素人类视觉使用若干线索来进行单目深度估计，例如线性透视、相对大小、插入、纹理梯度、明暗、空中透视等。[24，13，23，32，30，18]。一个自然的问题出现了，CNN利用这些线索吗？探索这个问题将有助于我们理解为什么CNN可以（或不能）从给定的场景图像中估计深度。据我们所知，本研究是第一次尝试分析CNN如何在单目深度估计任务上工作。然而，很难找到上述问题的直接答案;毕竟，即使有人类的视觉，也是困难的。因此，作为实现这一目标的第一步，我们考虑将CNN可视化。具体来说，与以前的CNN对象识别可视化研究一样，我们试图识别与深度估计相关的图像像素;例如参见图1。为此，我们假设CNN可以从一组选定的图像像素相当准确地推断深度。一个不成熟的想法是人类视觉的观察，大多数线索被认为与视野中的小区域有关。然后，我们制定的问题，确定相关像素的稀疏优化的问题我们特别3870图2.拟议方法的示意图可视化的目标是训练的深度估计网N。为了识别N用来估计其深度图Y的输入图像I的像素，我们将I输入到网络G以预测相关像素的集合或掩码M。输出M与I逐元素相乘并被输入到N，从而产生深度图的估计Y（）。G被训练，使得Y将尽可能接近来自整个图像I的原始估计Y，并且M将是最大稀疏的。注意，在这个过程中N估计选择最小数量的像素的图像掩模，目标CNN可以从这些像素提供与其从原始输入估计的深度图最大相似的深度图。这种优化需要相对于其输入优化CNN的输出。如之前的可视化研究所示，通过CNN在其反向方向上进行的这种优化为了避免这个问题，我们使用了一个额外的CNN来在前向计算中从输入图像中估计掩码;这个CNN独立于可视化的目标CNN我们的方法如图所示。二、我们进行了大量的实验来评估我们的方法的有效性我们将我们的方法应用于在室内场景（NYU-v2数据集）和室外场景（KITTI数据集）上训练的CNN。我们通过实验证实，• CNN可以仅从输入图像中的稀疏像素集推断深度图，其精度与它们从整个图像推断的精度相似;• 选择相关像素的掩模可以通过CNN稳定地预测该CNN被训练为预测用于深度估计的目标CNN的掩码。CNN在室内和室外场景中的可视化提供了几个发现，包括以下内容，我们认为这有助于理解CNN如何在单目深度估计任务中工作。• CNN经常使用输入图像中的一些边缘，但不是全部。它们的重要性并不取决于这必然取决于它们的边缘强度，但更多地取决于对于把握场景几何形状的有用性。• 对于室外场景，大的权重往往被赋予场景中消失点周围的遥远区域。2. 相关工作有许多研究试图解释CNN的推理，其中大多数集中在图像分类任务上[1，43，37，36，44，31，33，17，7，28，38]。然而，只有少数方法被公认为在社区中实际有用[11，20，21]。基于梯度的方法[36，28，38]计算显着图，该显着图可视化输入图像的每个像素对最终预测的灵敏度，该最终预测通过计算模型输出相对于每个图像像素的导数来获得。有许多方法可以屏蔽部分输入图像以查看其效果[42]。为解释机器学习模型的推理而开发的通用方法，例如LIME [31]和预测差异分析[44]，当它们应用于对输入图像进行分类的CNN时，可以归类为此类。到目前为止，用于分类的CNN可视化的最可靠方法可以说是类激活图（CAM）[43]，它计算其通道维度中最后一个卷积层激活的线性组合。它的扩展Grad-CAM [33]也被广泛使用，它将基于梯度的方法与CAM集成在一起，以便能够使用CAM无法处理的通用网络架构。然而，主要为解释分类而开发的上述方法不能直接应用于执行深度估计的CNN。在深度估计的情况下，CNN的输出是二维图，而不是类别的分数。这立即排除了基于梯度的方法以及CAM及其变体。采用固定形状掩模[44]或使用低级图像特征[31]获得的超像素的掩模方法也不适合我们的目的，因为不能保证它们的形状与CNN使用的输入图像中的深度线索匹配良好。38713. 方法3.1. 问题公式化假设网络N从其单个RGB图像预测场景的深度图，Y=N（I），（1）其中Y是估计的深度图，I是输入RGB图像的归一化版本。在之前的研究之后，我们通过z分数归一化来归一化每个图像。该模型N是可视化的目标。人类视觉被认为使用若干线索来推断深度信息，其中大多数线索与视野中具有小区域的区域相关联。因此，我们在这里假设CNN可以从I的一组选定的稀疏像素同样很好地推断深度图，只要它们与深度估计相关。具体来说，我们表示a二进制掩码选择I乘M的像素和I乘M的掩码输入，其中I表示逐元素乘法。我们的网络N对屏蔽输入为Y=N（IM）。（二）我们的假设是，当掩码M被适当地选择时，Y = N（I）可以变得非常接近原始估计Y = N（I）。现在，我们希望为给定的输入I找到这样一个掩码M，使得Y=N（I<$M）尽可能接近Y=N（I）由于我们的目的是了解深度估计，我们还希望M尽可能稀疏（即，具有最小数量的非零像素）。为此，我们放宽M是二进制的条件，即其元素为0或1。我们假设M的每个元素都有一个连续的(a)（b）（c）（d）图3.从左到右，（a）RGB图像，（b）通过求解（3）获得的M，（c）通过求解（4）获得的M，（d）通过求解（5）获得的M在[35]中，计算在对象识别上训练的CNN的最佳输入，其最大化出于可视化目的而选择的对象类的得分。尽管它们提供了一些关于CNN所学习的内容的见解，但由此计算的图像是不稳定的（例如，对初始值敏感）;它们与自然图像相距甚远，不那么容易解释。为了获得更多视觉上可解释的图像，研究人员对要优化的输入图像采用了几种约束，例如，使它们看起来是自然的图像[10，29]。此外，网络输出（函数）的优化有时会产生不可预测的结果;典型的例子是对抗性的例子[7]。因此，我们不是相对于M的各个元素最小化（3），而是使用附加网络 G 来预测最小化（ 3 ）的 M∈G（I）。更具体地说，我们考虑以下优化：在[0，1]范围内的值。我们将在实验中验证这种弛豫，在实验中我们还将检查最小值Gdif（Y，N（I<$G（I）+λ1nG（I）1，（4）以上假设是根据稀疏像素进行深度估计。最后，我们将我们的问题表述为以下优化-其中，<$G（I）<$1表示向量化G（I）的<$1范数。我们使用sigmoid激活函数作为输出层化：minldif（Y，Y）+λM1第1章（3）[001-00200000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000000我们训练G的方法的细节在算法1中示出。图3示出了通过以下公式计算的M的比较其中ldif是Y和Yd 之间的差异的度量;λ是M的稀疏性的控制参数;n是像素的数量;并且M1是M的（向量化版本的）1范数。3.2. 学习预测掩码现在我们考虑如何执行优化（3）。网络N出现在目标函数中，通过变量Y=N（I<$M）。我们需要仔细考虑不同方法可以看出，直接优化(3) （图3（b））产生噪声，比我们的方法（图3（c））更难解释的地图。我们已经考虑尽可能多地去除I的不重要像素，同时最大限度地保持原始预测Y=N（I）。还有另一种方法来识别重要/不重要的像素，其是识别I的最重要的像素，如果没有它，预测的像素将是最重要的。将最大程度地恶化。这被公式化为3872这种优化与CNN的输出相对于其输入相关，因为它经常提供意想不到的结果，如以前的研究所示。以下优化问题：min−ldif（Y，N（I<$G（I）+λG1n<$（1−G（I））<$1. （五）3873nn该公式类似于[7]中所采用的公式，[7]是一项用于对象识别的CNN可视化研究，其中输入图像中最重要的像素是通过屏蔽最大限度地降低所选对象类得分的像素来识别的。与我们的方法不同，作者直接优化M;为了避免优化中出现的伪影，他们对M采用了除稀疏性1之外的其他约束。通过优化（5）得到的结果如图所示。第3段（d）分段。可以看出，这种方法不能提供有用的结果。算法1用于训练网络G以预测M的算法。输入：N：用于深度估计的目标、完全训练的网络;N：训练集，即，RGB图像和场景的深度图的对;λ：控制RGB图像和深度图的参数M.的稀疏性超参数：亚当优化器，学习率：1e−4，重量衰减：1e−4，训练时期：K。输出：G：预测M的网络。对于稀疏深度图，我们使用NYU-v2数据集的深度完成工具箱来内插具有缺失深度的像素。目标CNN模型对于单目深度估计有许多研究，其中提出了各种架构。考虑到这里的目的，我们选择了具有简单架构的估计精度表现出色的一个是基于[16]中提出的ResNet-50的编码器-解码器网络，截至发布时，它的性能大大优于以前的网络。我们还考虑了[14]中提出的更近期的方案，为此我们选择了三种不同的骨干网络，ResNet-50 [12]，DenseNet-161[9]和SENet- 154 [15]。为了更好地进行比较，所有模型都在相同的实验条件下实现。在最初的实现之后，第一个和后三个模型使用不同的损失进行训练。具体地说，第一个模型是使用深度误差2的101范数训练的。对于后三种模型，使用三种损失之和，即，1：冻结N;l=1nF（e），l=1n（F）（e））2：对于j= 1至K，深度ni=1我毕业了i=1x我3：对于i= l至T，doF（εy（ei），且lnormal=1ni=1 （1 − cos θ i），其中4：从RGB中选择RGB批量的RGBi;5：将G的梯度设置为0;6：计算深度图的深度：7：Yi=N（i）;8：计算目标函数的值（L）9： L=1dif（Yi，N（iG（i））+λ1G（i）1;10：反向传播L;11：更新G;12：结束13：结束4. 实验4.1. 实验装置数据集我们使用两个数据集NYU-v2 [34]和KITTI数据集[39]进行分析，这两个数据集在以前的单目深度估计研究NYU-v2数据集包含464个室内场景，我们使用官方分割，249个场景用于训练，215个场景用于测试。我们获得了大约50K个图像及其相应深度图的唯一对。按照以前的研究，我们使用相同的654个样本进行测试。KITTI数据集包含户外场景，由车载摄像头和LIDAR传感器收集。我们使用官方的训练/验证分割;存在用于训练的86 K图像对和来自用于测试的官方裁剪子集的1 K图像对。因为数据集只提供在我们的实验中，我们证实了他们的方法在VGG网络中运行良好，但在现代CNN（如ResNets）中表现不稳定F（e i）= ln（e i+0. 5）;ei=yi−yi<$1;yi和yi为真和估计深度;而θ i是曲面之间的夹角，根据真实深度图和估计深度图计算的面法线。网络G用于预测M我们对G采用一种编码器-解码器结构.对于编码器，我们使用[41]中提出的具体来说，我们使用在ImageNet [4]上预训练的22层DRN（DRN-D-22），从中删除最后一个完全连接的层。它产生一个具有512个通道和1/8分辨率的输入图像的特征图。对于解码器，我们使用一个由三个上投影块组成的网络[16]，产生一个具有64个通道和与输入图像相同大小的特征图，然后是输出M的3×3卷积层。编码器和解码器被连接以形成网络G，其具有：共2530万个参数对于用于训练G的损失，我们使用ldif=ldepth+lgrad+ lnormal。4.2. 从稀疏像素估计深度如上所述，我们的方法是基于网络N可以仅从选定的稀疏像素集合准确地估计深度的假设。我们还放宽了二进制掩码的条件，允许M在[0，1]范围内具有连续值为了验证该假设以及该松弛，我们检查了[2]我们已经发现，[16]中最初使用的berhu损失比[27]中使用的berhu损失表现得更好3874(a)RGB(b)地面(c)当(d)当(e)当(f)当λ=1时，M(g)当λ=3时，M(h)当λ=5时，M图像真相λ=1λ=3λ=5图4.针对稀疏参数λ的不同值的近似深度图和估计掩模（M）的视觉比较表1.不同稀疏参数λ值的深度估计精度。使用ResNet-50模型对NYU-v2数据集的结果[14]。表中的稀疏度指示M’中非零像素的平均数目。1.81.61.41.21.00.80.61.00.90.80.70.60.50.40.30.2稀疏性图5.使用M和使用输入图像的边缘图选择输入图像像素时的深度估计精度的比较。当对G.具体地说，对于I计算M = G（I），我们使用阈值λ = 0将M二值化为二值映射M ′。025 然后，我们比较预测深度图N（IM′）和N（IM）的准确度。由于M的稀疏性由参数λ控制，如在等式2中。(4)，我们评估准确性对于不同的λ我们使用NYU-v2数据集和基于ResNet- 50的模型[14]。我们在训练集上训练了10个epoch，并通过RMSE来衡量其准确性。表1示出了结果。首先观察到，在深度估计的准确性和掩模M的稀疏性之间存在折衷。请注意，RMSE值是根据地面实况深度计算的。误差从0.555（λ=0）增加到0.740（λ=5，我们在随后的实验中使用的值），仅增加了33%。我们相信这是可以接受的，考虑到在许多可视化研究中也可以看到的准确性-可解释性的权衡。图4示出了针对四个不同输入图像的不同λ的掩模M和估计深度图Y的从表1中还可以看出，当λ不是太大时，用二值化掩模M'估计的深度与用连续M估计的深度基本相同;对于小λ，它这验证了我们的允许M具有连续值的关系。考虑到估计精度和λ之间的权衡以及利用M和M’的预测之间的差异，我们在以下所示的分析中选择λ=54.3. 预测掩模4.3.1NYU-v2数据集图6示出了不同输入图像和不同深度预测网络的预测掩码。首先观察到，不同网络之间只有很小的差异。这将证明所提出的视觉化方法可以稳定地识别深度边缘图MRMSEλRMSE（M）RMSE（M′）稀疏性原始0.5550.5551.0λ= 10.6050.5680.920λ= 20.6680.6170.746λ= 30.6990.6680.589λ= 40.7310.7330.425λ= 50.7400.7580.361λ= 60.7720.8820.2153875（一）（二）（三）（四）（五）（六）（七）（八）（九）（十）(a) RGB图像(b) 边映射（c）M对于[16]（ResNet-50）(d) M代表[14]（ResNet-50）(e) [14]第14话（一）第161页）(f) M代表[14]（SENet-154）图6.不同深度估计网络的不同输入图像的预测掩码，[16]的基于ResNet-50的模型和[14]的三个模型，其主干分别是ResNet-50，DenseNet-161和SENet-154。为了比较，还示出了输入I估计为了比较，I的边缘图也示于图1中。六、通过与它们的比较可以看出，M在图像边缘上倾向于具有非零值;一些非零像素确实正好位于图像上边缘（例如，在（1）中的远侧上的垂直边缘）。然而，仔细观察发现，M和边缘图之间也存在差异;M倾向于在对象的填充区域上具有非零像素，而不是在3876RGB图像边缘地图M代表[16]（ResNet-50）M代表[14]（ResNet-50）M代表[14]（DenseNet-161）M代表[14]（SENet-154）图7.针对来自测试分割的不同输入图像，在KITTI数据集上训练的不同网络的预测掩码它们的边界，如（5）中的桌子，（7）中的椅子等。此外，非常强的图像边缘有时在M中消失，如（2）中的橱柜的底部边缘的情况;相反，M沿着在橱柜和墙壁的边界上出现的较弱图像边缘具有非零像素。（6）中地板和床之间的相交线也是如此;M沿着它们具有大的值，而它们的边缘强度非常弱。为了进一步研究M和边缘图之间的相似性，我们通过将边缘图设置为M来比较它们，并评估预测深度N（I<$M）的准确性。图5显示了结果。可以看出，边缘图产生较不准确的深度估计，这清楚地表明边缘图和G.对于小对象，不仅突出显示边界，而且突出显示填充区域。我们推测CNN可以识别物体，并以某种方式将其用于深度估计。4.3.2KITTI数据集图7显示了KITTI数据集上三个随机选择的图像的预测掩码及其边缘图。补充材料中给出了更多的例子与NYU-v2数据集一样，预测的掩模往往由边缘和填充区域组成，并且明显不同于边缘图。据观察，在掩模中可以看到一些图像边缘，但也有一些没有。例如，在第一个图像中，左侧的护栏具有强边缘，这也在遮罩中看到。另一方面，在一项研究中，3877路面上的白线在边缘图中提供强边缘，但在掩模中不存在。这表明CNN利用了护栏，但由于某种原因没有使用白线进行深度估计。这也与第二幅图像中路边的白色垂直狭窄物体相同。该数据集上的预测掩模的显著特征是场景的消失点周围的区域在预测掩模中被强烈地突出显示数据集中的所有图像都是这种情况，不限于这里显示的三个。我们对这一现象的解释将在下面的讨论中给出。4.3.3总结和讨论总之，从上述可视化结果中有三个发现重要/不重要的图像边缘图像边缘在M中被加亮，而一些没有。这意味着深度预测网络N选择深度估计所需的重要边缘。该选择似乎或多或少与边的强度无关我们推测，所选择的那些对于推断3D结构是必不可少的（例如，方向、视角等）一个房间和一条路。对于场景中的对象，不仅其边界而且其内部区域往往被突出显示。这种情况更多的是与3878场景表面的法线）;以及L法线（场景表面的法线的方向差异）。我们使用三种损失的不同组合在NYU-v2 上训练了 [14] 的基于 ResNet- 50 的模型，即，ldepth、ldepth+lgrad和ldepth+lgrad+lnormal。图8显示了使用三种损失组合训练的网络生成的掩码。据观察，包含l梯度在对象的表面上更加突出。进一步添加l法线可以在小对象上突出显示更多，并使边缘更直（如果它们应该）。5. 总结和结论(a) RGB图像(b) l深度（c）l深度+l级(d)l深度+l级+l正常为了回答CNN如何从单目图像中推断场景深度的问题，我们考虑了它们的可视化。假设CNN可以从少量的图像中准确地推断出深度图，图8.损失函数的三种组合的估计掩码M的比较较小的对象，尽管这可能部分归因于稀疏约束的使用。与提供场景的几何结构的图像边缘不同，我们推测深度估计网络N可以消失点在KITTI的户外场景中，消失点周围的区域（或简单的远处区域）几乎无一例外地总是高亮显示。这表明这些区域对于N提供准确的深度是重要的。这可以归因于这样的事实，即由于评估绝对深度的差异的损失，远场景点倾向于产生大的误差;然后这样的远场景区域将被给予比其他区域更多的权重。另一种可能的解释是，这是由于消失点的自然重要性;它们自然是理解场景的几何形状的强烈提示。虽然这两种解释似乎是正交的，但在实践中它们可以相互结合。一个可能的假设是，CNN（和/或人类视觉）学习查看消失点，因为它们很远并且被赋予了更多的权重。进一步的研究将是今后研究的方向。4.4. 培训损失在最近的研究中，有几个讨论是关于我们应该如何我们通过可视化在不同损失上训练的网络N来比较损失的影响。在[14]之后，我们考虑了三种损失，l_d_p_h（最广泛使用的一种是测量深度值的差异）; 1.Grade（Grade的区别）像素，我们考虑了在每个输入图像中识别这些像素的问题，或者等效地，考虑了隐藏其他像素的掩模的问题。我们将该问题公式化为选择最小数量的像素的优化问题，CNN可以从该像素估计深度图，该深度图与它从整个图像估计的深度图具有最小差异。指出通过深度CNN进行优化存在困难，我们建议使用额外的网络来预测前向计算中输入图像的掩码。我们已经证实，通过几个实验，上述假设成立，所提出的方法可以稳定地预测每个输入图像的掩模具有良好的准确性。然后，我们将所提出的方法应用于室内和室外场景数据集上的一些单目深度估计CNN。结果提供了几个发现，例如i）CNN的行为，它们似乎选择输入图像中的边缘，而不是取决于它们的强度，而是取决于场景几何推断的重要性;（2）注意力不仅集中在单个物体的边界上，而且集中在内部区域的趋势;iii）消失点周围的图像区域对于室外场景的深度估计的重要性。我们还展示了所提出的方法的应用，即可视化使用不同损失训练深度估计CNN的效果。我们认为这些发现有助于推进我们对CNN在深度估计任务上的理解，为社区中尚未探索的问题提供了一些线索。致谢：这项工作是部分由JSPS KAKENHI资助号JP 15 H 05919和JP 19 H 01110以及JST CREST资助号JP-MJCR 14 D1支持。3879引用[1] Chunshui Cao，Xianming Liu，Yi Yang，Yinan Yu，Jiang Wang ， Zilei Wang ， Yongzhen Huang ， LiangWang，Chang Huang，Wei Xu，Deva Ramanan，andThomas S.煌仔细看，三思而后行：用反馈卷积神经网络捕获自上而下的视觉注意力。ICCV，第2956-2964页[2] AyanChakrabarti ， JingyuShao ， andGregoryShakhnarovich.深度从一个单一的图像，通过协调过完整的局部网络预测。在NIPS，第2658-2666页[3] 陈伟峰，赵甫，杨大伟，邓佳。在野外的单一图像深度感知在NIPS，第730[4] J. 邓，W。东河，巴西-地索赫尔湖J. Li，K.Li和L.飞飞ImageNet：一个大规模的分层图像数据库。CVPR，2009。[5] David Eigen和Rob Fergus。使用通用多尺度卷积架构预测深度、表面法线和语义标签ICCV，第2650-2658页[6] David Eigen、Christian Puhrsch和Rob Fergus。使用多尺度深度网络从单个图像进行深度在NIPS，第2366-2374页[7] 露丝·方和安德里亚·维达尔迪通过有意义的扰动对黑匣子的可解释ICCV，第3449[8] Huan Fu ， Mingming Gong ， Chaohui Wang ， KayhanBat- manghelich，and Dacheng Tao.用于单目深度估计的深度有序回归网络在CVPR中，第2002[9] Huang Gao，Liu Zhuang，Weinberger Kilian Q，and vander Maaten Laurens.密集连接的卷积网络。CVPR，2017年。[10] Google.https://deepdreamgenerator.com网站。[11] 里卡多·吉多蒂，安娜·蒙雷阿莱，佛朗哥·图里尼，迪诺·佩德雷斯基，福斯卡·吉亚诺蒂.黑箱模型解释方法综述。CoRR，abs/1802.01933，2018。[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。CVPR，第770-778页，2016年[13] 伊恩·P·霍华德深入观察，卷。1、基本机制。多伦多大学出版社，2002年。[14] Junjie Hu ， Mete Ozay ， Yan Zhang ， and TakayukiOkatani.重新审视单幅图像深度估计：实现具有准确对象边界的更高在WACV，2019年。[15] 杰虎，李申，孙刚。挤压-激发网络。在CVPR，2018年。[16] Laina Iro、Rupprecht Christian、Belagiannis Vasileios、Tombari Federico和Navab Nassir。使用全卷积残差网络进行更深的深度预测。在3DV中，第239-248页[17] 放大图片作者：Nicholas A.李南勋和菲利普H. S.乇学会注意。CoRR，abs/1804.02391，2018。[18] DH凯利。视觉对比敏感度。光学学报：InternationalJournal of Optics，24（2）：107 -129，1977.[19] 亚历克斯·肯德尔和亚林·加尔贝叶斯深度学习在计算机视觉中需要哪些不确定性？在NIPS，2017年。[20] 作者： Peter Jan Kindermans ， Sara Hooker ， JuliusAdebayo ， MaximilianAlber ， KristofT.Schu¨tt ，SvenD¨hne，DumitruEr-han，和Been Kim.显着性方法的可靠性。CoRR，abs/1711.00867，2017年。[21] 放大图片作者：Peter Jan Kindermans，Kristof T.放大图片创作者：K. Muller，Dumitru Erhan，Been Kim，andSven Dahne. 学习如何解释神经网络： Patternnet 和Patternatural。CoRR，2017年。[22] Tobias Koch，Lukas Liebel，Friedrich Fraundorfer，andMarcoK ¨ rne r. 基于cnn的单幅图像深度估计方法的评价CoRR，abs/1805.01328，2018。[23] 迈克尔·S·兰迪，劳伦斯·T·马洛尼，伊丽莎白·B·约翰斯顿，马克·扬。深度线索组合的测量和建模：为弱融合辩护视觉研究，35（3）：389[24] 皮埃尔河 Lebreton ， Alexander Raake ， MarcusBarkowsky，and Patrick Le Callet.测量自然图像中的感知深度及其与单眼和双眼深度线索的关系。在Stereoscopic Displays and Applications XXV，卷9011，页90110C中。国际光学与光子学会，2014年。[25] Bo Li ， Chunhua Shen ， Yuchao Dai ， Anton van denHengel，and Mingyi He.基于深度特征和层次crfs回归的单目图像深度和表面法线估计。CVPR，第1119-1127页[26] 李俊，莱因哈德·克莱恩，姚安琪。一种用于从单个rgb图像估计精细缩放深度图的双流网络。在CVPR中，第3372-3380页[27] Fangchang Ma和Sertac Karaman。稀疏到密集：从稀疏深度样本和单个图像进行深度预测。ICRA，2018年。[28] Aravindh Mahendran和Andrea Vedaldi。显著的反革命网络。在ECCV，2016年。[29] Anh Mai Nguyen，Jason Yosinski和Jeff Clune。多面特征可视化：揭示深度神经网络中每个神经元学习的不同类型的特征。CoRR，abs/1602.03616，2016。[30] 斯蒂芬·莱歇特，拉尔夫·哈塞尔，杰拉尔德·福特雷和诺伯特·莱斯特.人类视觉中的深度线索及其在3d显示器中的实现。在Three-Dimensional Imaging，Visualization，and Display 2010和Display Technologiesand Applicationsfor Defense，Security，and Avionics IV中，第7690卷，第76900 B页。国际光学与光子学会，2010年。[31] Mar c oT u'lioRibeiro，SameerSingh，andCar l osGuestrin.我为什么要相信你？：解释任何分类器的预测。第22届ACM SIGKDD国际知识发现和数据挖掘会议论文集，第1135-1144页。ACM，2016。[32] Ashutosh Saxena，Jamie Schulte，Andrew Y Ng，等.使用单眼和立体提示的深度估计。在IJCAI，第7卷，2007中。[33] 兰普拉萨河 Selvaraju ， Michael Cogswell ， AbhishekDas，Ramakrishna Vedantam，Devi Parikh，and DhruvBa-3880tr. Grad-cam：通过基于梯度的定位从深度网络进行视觉解释。ICCV，第618-626页[34] Nathan Silberman、Derek Hoiem、Pushmeet Kohli和RobFergus。室内分割和支持从rgbd图像推断。ECCV，2012年。[35] Karen Simonyan Andrea Vedaldi和Andrew Zisserman深入卷积网络：可视化图像分类模型和显着图。CoRR，abs/1312.6034，2013年。[36] Daniel Smilkov，Nikhil Thorat，Been Kim，Fernanda B.Vi eg as和MartinWattenbe r g。Smoothgrad：通过添加噪音来消除CoRR，abs/1706.03825，2017。[37] Jost Tobias Springenberg、Alexey Dosovitskiy、ThomasBrox和Martin A.里德米勒追求简单：全卷积网络。CoRR，abs/1412.6806，2014年。[38] Mukund Sundarararajan，Ankur Taly，and Qiqi Yan.深度网络的公理化属性。ICML，2017。[39] Jonas Uhrig ， Nick Schneider ， Lukas Schneider ， UweFranke，Thomas Brox，and Andreas Geiger.稀疏不变cnn。在3DV，2017年。[40] Dan Xu，Elisa Ricci，Wanli Ouyang，Xiaogang Wang，and Nicu Sebe.多尺度连续crfs作为单目深度估计的顺序深度网络。CVPR，第161-169页[41] Fisher Yu，Vladlen Koltun，and Thomas Funkhouser.扩张的剩余网络。在CVPR，2017年。[42] Matthew D. Zeiler和Rob Fergus。可视化和理解卷积网络。2014年，在ECCV[43] BoleiZhou ， AdityaKhosla ， A`gataLapedriza ， AudeOliva，and Antonio Torralba.学习深度特征以区分本地化。CVPR，第2921-2929页[44] 路易莎·M. Zintelton，Taco Cohen，Tameem Adel，andMax Welling.可视化深度神经网络决策：预测差异分析。ICLR，2017年。

下载后可阅读完整内容，剩余1页未读，立即下载