DeFeat-Net:无监督表示学习和鲁棒深度估计的跨域网络

185 浏览量更新于2023-10-24 收藏 22.43MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

{jaime.spencer, r.bowden, s.hadfield}@surrey.ac.uk144020DeFeat-Net: 通过同时无监督表示学习进行通用单目深度估计0Jaime Spencer, Richard Bowden, Simon Had�eldSurrey大学视觉、语音和信号处理中心（CVSSP）0摘要0在当前的单目深度研究中，主流方法是在大规模数据集上进行无监督训练，以扭曲的光度一致性为驱动。这些方法缺乏鲁棒性，无法推广到挑战性的领域，如夜间场景或恶劣的天气条件，其中关于光度一致性的假设会失效。我们提出了DeFeat-Net（深度和特征网络），一种同时学习跨域密集特征表示和基于扭曲特征一致性的鲁棒深度估计框架的方法。所得到的特征表示是在无监督的情况下学习的，不需要明确的真实对应关系。我们展示了在单一领域内，我们的技术与当前单目深度估计和监督特征表示学习的最新技术相当。然而，通过同时学习特征、深度和运动，我们的技术能够推广到具有挑战性的领域，使DeFeat-Net在更具挑战性的序列（如夜间驾驶）上的所有误差指标都减少约10%。01. 引言0最近在与自动驾驶车辆相关的计算机视觉任务中取得了许多进展，包括单目深度估计[22, 83, 73]和特征学习[13, 61,65]。然而，如图1所示，这些方法往往在最复杂的场景中失败，即恶劣的天气和夜间条件。在深度估计的情况下，这通常是由于光度一致性的假设，在昏暗的环境中开始失效。特征学习可以克服这种强烈的光度假设，但是0图1.左：夜间驾驶中具有挑战性的光照条件。右：经过专门针对这种情况训练的最新单目深度估计框架在深度图估计中发生灾难性失败。0这些方法往往需要准确的像素级对应关系，而在跨季节情况下获得这种准确的对应关系是非常困难的。GPS测量与视觉里程计（VO）的漂移导致自动点云对齐非常不准确，而手动标注成本高且耗时。我们观察到深度估计和特征表示本质上是互补的。估计场景深度的过程还允许计算场景任意视图之间的真实特征匹配。同时，鲁棒的特征空间对于创建具有光照和外观变化不变性的可靠深度估计系统是必要的。尽管存在这种关系，但所有现有方法都是独立地解决这些挑战。相反，我们提出了DeFeat-Net，这是一个能够联合学习单幅图像的深度以及世界和连续帧之间的自我运动的密集特征表示的系统。更重要的是，这是完全自我监督的，除了单目图像流之外不需要任何真实的标签。我们展示了所提出的框架如何利用这些任务之间的关系相互补充，并在复杂环境中提高性能。正如已经变得常见的[23]，预测的深度和自我运动可以用来生成对应关系图。144030连续图像之间的对应关系，可以用于基于光度误差的损失函数。然而，这些对应关系也可以用作相对度量学习损失函数中的正样本[65]。反过来，学到的特征可以在光度误差失效的情况下提供更鲁棒的损失，即夜间条件。本文的其余部分在先前的工作背景下更详细地描述了所提出的DeFeat-Net框架。我们广泛展示了我们的联合优化方法的好处，并在各种数据集上进行评估。最后，我们讨论了当前的最新技术和未来工作的机会。本文的贡献可以总结如下：01.我们引入了一个能够同时学习单目深度、密集特征表示和车辆自我运动的框架。02.这完全是自我监督的，消除了昂贵且不可靠的地面真实数据收集的需求。03.我们展示了该系统如何在所有天气和光照条件下提供稳健的深度和不变特征，建立了新的最先进性能。02.相关工作0在这里，我们回顾了一些最相关的先前工作，即深度估计和特征学习。02.1.深度估计。0传统上，深度估计依赖于在图像对中找到每个像素之间的对应关系。然而，如果图像已经进行了立体矫正，问题可以简化为在目标图像的单行中搜索最佳匹配，称为视差估计。最初的视差估计方法依赖于基于平方差和平滑性以及能量最小化的手工匹配技术。Ladick`y [33]和ˇ Zbontar[79]展示了学习匹配函数如何显著提高这些系统的性能。Mayer等人[46]提出了DispNet，这是一个能够直接预测两个图像之间视差图的全卷积网络（FCN）[40]，并由[50]进一步扩展。Kendall等人[30]引入了GC-Net，其中视差被处理为3D卷积网络中的匹配代价体积。PSMNet [9]和GA-Net[81]通过引入空间池化金字塔（SPP）特征和局部/半全局聚合层来扩展这些代价体积网络。在没有这些视差和透视线索的情况下，从单个图像中估计深度似乎是一个不可能的任务。0然而，Saxena[58]展示了如何基于超像素分割来近似世界的几何形状。使用训练好的线性模型和MRF估计每个超像素的3D位置和方向。Liu等人 [38,39]通过使用CNN学习这些模型来改进了这种方法，而Ladick`y等人 [34]则将语义信息作为替代线索。Eigen等人 [14,15]通过使用尺度不变损失引入了首个使用端到端深度学习进行单目深度回归的方法。Laina [35]和Cao[7]将单目估计任务视为分类问题，并引入了更强大的损失函数。同时，Ummenhofer等人[66]引入了DeMoN，通过联合训练单目深度和自我运动来执行运动结构。在本文中，我们更进一步，同时学习深度、自我运动和用于支持它们的特征空间。无监督-立体训练。为了避免昂贵的地面真实训练数据的需求，越来越多的方法使用光度变形误差作为替代。例如，Deep-Stereo[17]使用来自任意附近视图的原始像素合成新视图。Deep3D[74]也执行新视图合成，但将其限制为立体对，并引入了一种新的图像重建损失。Garg [18]和Godard[23]通过引入额外的自动编码器和左右一致性损失，大大改进了这些方法的性能。UnDeepVO[37]通过对齐预测的深度点云并强制两个立体流之间的一致性，还学习了连续帧之间的单目VO。最近，有几种方法利用了GANs [1,53]。尤其是，[62]使用GANs进行昼夜转换，并提供额外的一致性以改善夜间条件下的性能。然而，缺乏任何明确的特征学习使得在不同领域之间进行泛化变得具有挑战性。无监督-单目训练。为了在没有立体信息的情况下学习无监督的单目深度，需要学习一个允许使用光度变形损失的替代任务。Zhou等人 [82,83]首次使用VO估计来扭曲先前和下一帧以重建目标视图。Zhan[80]后来通过另外加入基于特征的扭曲损失来扩展了这一方法。Babu等人 [3, 44]提出了DeMoN[66]的无监督版本。其他已发表的方法基于使用RNN[69]和LSTM [51]进行视频处理，或者额外预测场景运动[67]或光流 [29, 70,78]。当前的最新技术是通过结合额外的约束[68]推动的，例如时间 [45]、语义 [10]、边缘和法线 [75,76]、跨任务 [84]和循环 [52, 73]一致性。Godard等人 [22]144040通过结合前一帧的信息并使用最小重投影误差来处理遮挡，扩展了这些方法。他们还引入了一种自动遮罩过程，用于去除目标帧中的静止像素。然而，他们仍然在原始的RGB颜色空间中计算光度损失，使得在不同领域之间的学习变得具有挑战性。02.2. 特征学习0手工制作。最初的特征描述方法通常依赖于图像中的强度梯度的启发式方法。由于这些方法计算成本高昂，因此有必要引入能够在图像中找到有趣点（即关键点）的方法。一些最著名的方法包括基于高斯差分和非极大值抑制（NMS）的SIFT [41]及其变种RootSIFT[2]，以及基于HOG描述符的关键点检测。随后的研究集中在提高这些系统的速度上。SURF [5]、BRIEF [6]和BRISK[36]就是这种情况。ORB特征 [56]改进了BRIEF[6]的准确性、鲁棒性和速度，并且仍然广泛使用。稀疏学习。最初的特征学习方法利用决策树 [55]、凸优化[63]和进化算法 [31,32]来提高检测可靠性和判别能力。智能成本函数[24]进一步利用高斯过程来学习光流/场景流的适当成本函数。自从深度学习的广泛应用以来，已经提出了几种方法来学习特征检测和/或描述。Balntas等人[4]提出了一种使用三元组硬负样本挖掘来学习特征描述符的方法。LIFT[77]提出了一个顺序流水线，包括关键点检测、方向估计和特征描述，每个步骤由一个单独的网络完成。LF-Net[49]在此基础上进行了改进，同时生成密集的得分图和方向图，无需人工监督。另一方面，一些方法利用共享编码器参数的网络来同时学习特征检测和描述。Georgakis等人[20]使用共享的Fast R-CNN[21]编码器来学习3D兴趣点。与此同时，DeTone引入了SuperPoint[12]，其中两个解码器都没有可训练的参数，提高了整体速度和计算成本。最近，D2-Net[13]提出了一种先描述后检测的方法，网络生成密集的特征图，然后使用NMS检测关键点。密集学习。尽管SuperPoint [12]和D2-Net[13]生成了密集的特征图，但它们仍然专注于兴趣点的检测，并没有以密集的方式使用它们的特征。Weerasekera等人[72]通过最小化多视图匹配的重投影误差来在SLAM的上下文中学习密集特征。然而，他们仍然在原始的RGB颜色空间中计算光度损失，使得在不同领域之间的学习变得具有挑战性。0成本体积，而[60]则使用生成式特征学习与场景补全作为辅助任务进行视觉定位。通用对应网络[11]使用光学对应关系创建像素级版本的对比损失。Schmidt [59]则提出了使用从KinectFusion[47]和DynamicFusion[48]模型获得的对应关系进行半监督训练。Fathy[16]和Spencer[65]通过粗到精的网络和空间负样本挖掘将像素级对比损失扩展到多尺度特征。另一方面，SDC-Net[61]专注于网络架构的设计，通过堆叠扩张卷积来增加感受野，并将学到的特征应用于光流估计。在这项工作中，我们尝试将最先进的特征学习与单目深度和里程计估计统一起来。这样做的方式是，单目深度估计中的像素级对应关系可以在没有地面真值标签的情况下支持密集特征学习。与此同时，在学习的特征空间中计算匹配成本大大提高了在具有挑战性的跨领域场景中的深度估计的鲁棒性。03. 方法0DeFeat-Net的主要目标是联合学习单目深度和密集特征，以在恶劣天气条件下提供更稳健的估计。通过利用这两个任务之间的协同作用，我们能够以完全自监督的方式实现这一点，只需要单目图像流。此外，通过训练损失的副产品，系统还学习了在连续帧之间预测VO。图2显示了DeFeat-Net的概述。每个训练样本由目标帧I t和一组支持帧I t +k组成，其中k∈{−1, 1}。利用I t的预测深度和到I t +k的预测变换，我们可以获得这些图像之间的一系列对应关系，进而可以在光度变形和逐像素对比损失中使用。该技术的代码和预训练模型将在https://github.com/jspenmar/DeFeat-Net上提供。03.1. 网络0DispNet。给定单个输入图像It，通过以下方式获得其对应的深度图。0D t = 0aΦ D(I t) + b，(1)0其中，a和b将最终深度缩放到[0.1, 100]的范围内。ΦD表示视差估计网络，由具有跳跃连接的ResNet[25]编码器和解码器组成。�l(y, f1, f2) =144050DispNet I t0PoseNet0对应模块0K0平滑损失0FeatNet对比损失0光度变形损失0I t+k0P t+k0F t+k0C t+k0D t0F t0L S0L P0L C0光度变形损失L F0输入网络输出损失模块损失0图2. DeFeat-Net的概述，它结合了互补的网络，同时解决特征表示、深度和自我运动。引入特征变形改善了在复杂场景中的鲁棒性。0该解码器还在每个阶段产生中间视差图，从而得到四个不同的尺度。PoseNet。类似地，姿态预测网络ΦP由多图像ResNet编码器和4层卷积解码器组成。形式上，0P t → t + k = Φ P(I t, I t + k)，(2)0其中，P t → t + k是时间t和t +k时刻相机之间的预测变换。与[22,68]类似，预测的姿态由轴角表示的旋转和缩放0.001的平移向量组成。FeatNet。最终的网络生成给定输入图像的密集n维特征图Φ F：NH×W×3 →RH×W×n。因此，我们将对应的L2归一化特征图定义为0F = ||Φ F(I)||，(3)0在这种情况下，ΦF由一个具有跳跃连接的残差块编码器-解码器组成，其中最终的编码器阶段由一个具有四个尺度的SPP [9]组成。03.2. 对应模块0利用预测的D t和P t → t +k，我们可以获得目标帧和每个支持帧之间的逐像素对应关系。给定图像中的2D点p及其齐次坐标˙p，我们可以通过以下方式获得其在3D世界中的对应位置q。0q = π − 1(˙p) = K − 1t˙pD t(p)，(4)0其中，π − 1是反投影函数，K t是相机的内参，Dt(p)是使用(1)估计的2D像素位置处的深度值。0然后，我们可以通过将得到的3D点投影到新图像上来计算对应点c t → t + k。0c t → t + k ( p ) = π(˙ q) = K t P t → t + k ˙ q, (5)0其中P t → t +k是到新坐标系的变换，即从(2)得到的下一个或上一个相机位置。因此，最终的对应关系映射定义为0C t → t + k = { c t → t + k ( p ) : � p } . (6)0现在可以使用这些对应关系来确定光度变形损失的采样位置和像素级对比损失中的正匹配，以学习适当的特征空间。03.3. 损失0再次值得注意的是，DeFeat-Net完全是自我监督的。因此，唯一需要的地面真实输入是原始图像和相机的内参。像素级对比。为了训练Φ F，我们使用了广泛使用的像素级对比损失[11, 59,65]。给定来自密集特征图的两个特征向量，f 1 = F 1 ( p 1)和f 2 = F 2 ( p 2 )，对比损失定义为01 2 ( d ) 2 if y = 1 1 2 { max(0 , m − d) } 2 if y = 0 0 otherwise (7)0其中y是指示该对是否为对应关系的标签，d = || f 1 − f 2||，m是负对之间的目标间隔。在这种情况下，正对应关系的集合为+(1−α) ||I1−I2|| (11)�p|∂Dt(p)| e−||∂It(p)||,(14)µ =�mink Ψ(It, It+k) < mink Ψ(It, It+k→t)�,(16)144060由C t → t +k给出。同时，使用[65]中的一种空间负样本挖掘技术生成负样本。从这两个集合中，创建一个标签掩码Y，指示每对像素是否为正样本、负样本或应该被忽略。因此，最终的损失定义为0L C = �0p 2 l ( Y ( p 1 , p 2 ), F t ( p 1 ), F t + k ( p2 )) . (8)0该损失用于推动学习密集特征空间，从而实现匹配，无论天气和季节外观的变化如何。光度和特征变形。我们还使用可微分的双线性采样器[28]中的对应关系来生成扭曲的支持帧和特征图0I t + k → t = I t + k � C t → t + k � (9)0F t + k → t = F t + k � C t → t + k � (10)0其中��是采样运算符。最终的warp损失是SSIM[71]和L1的加权组合，定义为0Ψ(I 1, I 2) = α 1 − SSIM(I 1, I 2)0L P = Ψ(I t, I t + k → t), (12)0L F = Ψ(F t, F t + k → t), (13)0光度损失L P主要用于在特征空间仍在学习的早期阶段提供支持。平滑性。作为一种额外的正则化约束，我们引入了平滑性损失[27]。这强制预测的深度在原始图像的边缘强度∂It的基础上具有局部平滑性。定义为0L S = λ0其中λ是一个通常设置为0.001的缩放因子。该损失旨在通过减少强度梯度区域的权重来避免平滑边缘。03.4. 掩蔽和滤波0最近在单目深度估计中的一些改进来自于明确处理边缘情况[22]。这包括遮挡滤波和静止像素的掩蔽。我们将这些自动处理程序应用于用于训练深度和密集特征的对应关系。最小重投影。随着捕捉单目流的相机在场景中移动，各种元素将变得遮挡和非遮挡。0基于光度误差的损失，这意味着系统生成的一些对应关系将无效。然而，当使用多个连续帧时，即 k ∈ {− 1 , 1 }，每个图像中都会发生不同的遮挡。通过假设在存在遮挡的情况下，光度误差会更大，我们可以通过简单地传播具有最小误差的对应关系来过滤掉这些对应关系。这被定义为0� c t → t − 1 where Ψ( I t , I t → t − 1 ) < Ψ( I t , I t → t+1 ) c t → t +1 otherwise (15) Automasking.由于训练方法的性质和隐式深度先验（即。远离的区域变化较小），静止帧或移动物体可能导致预测深度图中的无限深度孔洞。使用自动遮罩程序将这些静止像素从损失中去除，0其中 µ 是结果掩码，指示对应关系是否有效， []是Iverson括号。换句话说，光度误差较低的像素到非扭曲帧的误差小于到扭曲帧的误差，这些像素将被屏蔽在成本函数之外。04. 结果0DeFeat-Net中的每个子系统都遵循U-Net结构，使用在ImageNet上预训练的ResNet18编码器，后跟一个类似于[23]的7层卷积解码器。代码和预训练模型将在https://github.com/jspenmar/DeFeat-Net上提供。在我们的所有实验中，warp损失参数设置为 α = 0 . 85，与[28]一致。在KITTI数据集[19]上，我们遵循[23,83]的Eigen-Zhou评估协议。该数据集提供39,810个训练图像和4,424个验证图像。这些图像都来自一个单一的领域（晴朗的白天驾驶）。我们还使用了RobotCarSeasons数据集[57]。这是RobotCar数据集[43]的一个精选子集，包含49个序列。该数据集特意选择了各种季节和天气条件，外观上比KITTI更具多样性。与提供稀疏地面真实深度的KITTI数据集不同，RobotCarSeasons不包含任何深度真实深度。我们提出的技术是无监督的，仍然可以在这个多样化的数据集上进行训练，但缺乏真实深度使得在RobotCarSeasons上进行定量评估变得不可能。为了解决这个问题，我们返回到原始的RobotCar数据集，并手动创建了一个包含12,000个图像的验证数据集，其中包含它们对应的地面真实LiDAR深度图。ORB [56]N/AN/A85.83N/A84.06ResNet [26]8.511725.987294.7711.133568.26ResNet-L20.3411.039199.250.437171.80VGG [64]4.007712.654392.945.908870.03VGG-L20.39051.223599.570.56577.06SAND-G [65]0.0930.74699.730.26687.06SAND-L0.1560.59298.880.50594.34SAND-GL0.1830.99699.280.64293.34144070方法绝对相对误差平方相对误差均方根误差对数均方根误差 A1 A2 A30LEGO [75] 0.162 1.352 6.276 0.252 - - - Ranjan [54] 0.148 1.149 5.464 0.226 0.815 0.935 0.973EPC++ [42] 0.141 1.029 5.350 0.216 0.816 0.941 0.976 Struct2depth (M) [8] 0.141 1.026 5.2910.215 0.816 0.945 0.979 Monodepth V2 [22] 0.123 0.944 5.061 0.197 0.866 0.957 0.980 DeFeat0.126 0.925 5.035 0.200 0.862 0.954 0.980 表1. 在KITTI数据集上的单目深度评估0方法 µ + 全局 µ − 全局 AUC 局部 µ − 局部 AUC0DeFeat 0.105 1.113 99.10 0.294 83.64 表2. 在KITTI数据集上学习特征的评估0它们对应的地面真实LiDAR深度图，平均分布在白天和夜晚驾驶场景中。04.1. 单域评估0我们首先在只涵盖单一领域的KITTI数据集上评估我们的方法。为了评估深度准确性，我们使用标准的KITTI评估指标，即绝对相对深度误差（ABS REL），相对平方误差（SQREL）和均方根误差（RMSE）。对于这些指标，数值越低越好。我们还包括[23]的内点比例指标（A1，A2和A3），它们衡量了相对深度误差在真实值的25％、25^2％和25^3％内的分数。对于这些指标，分数越大越好。为了评估学习到的特征表示的质量，我们遵循[65]的协议。我们计算正样本（ µ + ）和负样本（ µ −）在特征空间中的平均距离。自然地，正样本之间的距离越小，负样本之间的距离越大越好。我们还计算了曲线下面积（AUC），可以解释为随机选择的负样本具有比相应的正匹配真实值更大的距离的概率。因此，数值越高越好。根据[65]，这三个错误都分为局部（在25个像素内）和全局测量。深度评估结果如表1所示，特征评估结果如表2所示。我们可以看到，在这个单一领域的情况下，我们的技术性能与MonodepthV2相竞争，并明显优于大多数其他用于单目深度估计的最先进技术。[22]的结果是通过使用作者提供的代码训练网络获得的。0关于特征，L2表示L2归一化版本，而G、L和GL表示[65]中的不同负样本挖掘变体。我们还可以看到，尽管是无监督的，我们学到的特征空间在与当代监督特征学习技术竞争时具有竞争力，并且在局部评估时远远优于预训练特征。有趣的是，简单地进行L2归一化可以改善预训练特征的全局性能。我们的特征空间在全局评估指标上的表现往往比局部评估指标更好。这并不奇怪，因为（7）中对比损失的负样本是在整个图像范围内全局获取的。04.2. 多领域评估0然而，在更具挑战性的RobotCarSeasons数据集中，同时学习深度和特征表示的真正优势得到了展示。RobotCarSeasons涵盖了多个领域，传统的基于光度的单目深度算法在这些领域中表现困难，而缺乏跨领域的基准真值历来使特征学习成为一项挑战。对于这个评估，我们从表1中选择了最佳的竞争方法（MonodepthV2），并在RobotCarSeasons数据集上重新训练它和DeFeat-Net。所有技术都是从头开始训练的。结果显示在表3中，深度图比较示例显示在图3中。我们可以看到，在这个更具挑战性的任务中，所提出的方法在所有误差度量上都优于先前的最先进技术。虽然在白天场景中改进不大，但在夜间数据中，所有误差度量都有显著改善，减少了约10%。我们认为这种差异的主要原因是144080测试领域方法 Abs-Rel Sq-Rel RMSE RMSE-log A1 A2 A30白天 Monodepth V2 [22] 0.271 3.438 9.268 0.329 0.600 0.840 0.932 白天 DeFeat 0.265 3.1298.954 0.323 0.597 0.843 0.9350夜间 Monodepth V2 [22] 0.367 4.512 9.270 0.412 0.561 0.790 0.888 夜间 DeFeat 0.335 4.339 9.111 0.3890.603 0.828 0.914 表3. RobotCar数据集上的单目深度评估0图3. 顶部：RobotCar数据集的输入图像。中间：Monodepth V2 [22]估计的深度图。底部：DeFeat-Net估计的深度图。0在光照条件良好的情况下，光度损失已经是一个很好的监督信号。在这种情况下，加入特征学习会增加任务的复杂性。然而，夜间场景使得光度匹配的区分度较低，导致监督变得更加困难。特征学习为损失提供了所需的不变性和鲁棒性，从而显著提高了性能。0有趣的是，所提出的方法在估计的异常值数量方面特别稳健。对于所提出的技术，A1、A2和A3误差度量在白天和夜晚的情况下都相对一致。这表明，即使在深度不确定的区域（由于曝光不足和过度饱和），所提出的技术也能够优雅地失败，而不是产生灾难性的错误估计。0由于以前的最先进表示无法进行无监督训练，并且RobotCarSeasons没有提供任何基准深度，因此无法在多领域场景中重复表2中的特征比较。相反，图4比较了学习到的特征空间的定性示例。对于这些可视化，我们找到最能显示特征图与图像之间相关性的线性投影，并将其映射到RGB颜色立方体。这种降维可以去除一个重要的0描述符的区分能力量，但允许某种形式的可视化。在所有情况下，特征描述符可以清楚地区分场景结构，例如道路。有趣的是，特征中已经编码了相当程度的上下文，并且它们能够轻松地区分道路中间的补丁与左侧或右侧的补丁以及类似颜色的路面补丁。在单一领域KITTI数据集上训练的特征图有时可能比在RobotCarSeasons上训练的特征图显示更多对比度。虽然这意味着不同图像区域之间的区分度更大，但这很可能是因为后者的表示可以涵盖其他领域的更广泛外观范围。关于夜间特征，有趣的是在单一领域上训练的特征似乎在外部光源（如路灯、交通信号灯和车头灯）周围表现出奇怪的行为。这很可能是由于训练数据中的偏差，整体图像内容更亮。04.3.消融0最后，对于每个数据集，我们通过禁用FeatNet子系统进行重新训练，探索并发特征学习的好处。如表4所示，移除了144090图4.在单一领域KITTI数据集（中心）和多领域RobotCar Seasons数据集（右侧）上训练的DeFeat-Net的特征空间可视化。0数据集方法 Abs-Rel Sq-Rel RMSE RMSE-log A1 A2 A30KITTI DeFeat（无特征）0.123 0.948 5.130 0.197 0.863 0.956 0.980 KITTI DeFeat 0.126 0.9255.035 0.200 0.862 0.954 0.9800RobotCar Day DeFeat（无特征）0.274 3.885 8.953 0.335 0.640 0.853 0.934 RobotCar Day DeFeat0.265 3.129 8.954 0.323 0.597 0.843 0.9350RobotCar Night DeFeat（无特征）0.748 13.502 8.956 0.657 0.393 0.624 0.759 RobotCar Night DeFeat 0.3354.339 9.111 0.389 0.603 0.828 0.914 表4.每个数据集上进行并发特征学习的性能0我们的技术从并发特征学习中学到的特征会对KITTI和RobotCar Day数据产生轻微且不一致的变化。然而，在RobotCarNight数据上，我们的完整方法明显优于不学习专业匹配表示的版本。在这些具有挑战性的场景中，许多错误度量的性能翻倍，异常值的减少导致Sq-Rel误差减少了三倍。这些发现强调了一个观察结果，即常用的光度变形损失对于在具有挑战性的现实世界领域中估计深度是不足够的。05.结论与未来工作0本文提出了DeFeat-Net，这是一个统一的框架，用于学习稳健的单目深度估计和密集特征表示。与以前的技术不同，该系统能够在广泛的外观领域中运行，并可以进行特征表示学习。0没有明确的真实标准。这种无监督特征表示的共同训练思想在计算机视觉的许多领域具有潜在的应用。当前方法的主要限制是无法在季节之间强制执行特征一致性。尽管深度估计和特征匹配在任何给定季节内都能够稳健地工作，但目前尚不清楚在不同季节之间进行特征匹配是否可行。未来有趣的研究方向是探索跨季节一致性作为额外的训练约束。然而，这将需要收集具有跨季节对齐的新数据集。0致谢本工作部分资助来自EPSRC的授予协议（EP/R512217/1，EP/S016317/1和EP/S035761/1）。我们还要感谢NVIDIACorporation提供的Titan Xp GPU赠款。144100参考文献0[1] Filippo Aleotti, Fabio Tosi, Matteo Poggi, and StefanoMat- toccia.生成对抗网络用于无监督单目深度预测。在计算机科学讲座笔记（包括子系列计算机科学讲座笔记和生物信息学讲座笔记）中，卷11129 LNCS，页337-354，2019年。[2] ReljaArandjelovic。每个人都应该知道的三件事来改进对象检索。在2012年IEEE计算机视觉和模式识别（CVPR）会议论文集中，页2911-2918，2012年。[3] Madhu Babu，Swagat Kumar，AnimaMajumder和KaushikDas。通过深度图像采样改进的深度和自我运动估计。arXiv预印本，2018年11月。[4] Vassileios Balntas，Edgar Riba，DanielPonsa和KrystianMikolajczyk。使用三元组和浅层卷积神经网络学习局部特征描述符。在2016年英国机器视觉会议BMVC2016中，卷2016-Septe，页119.1-119.11，2016年。[5] HerbertBay，Tinne Tuytelaars和Luc VanGool。SURF：加速鲁棒特征。在计算机科学讲座笔记（包括子系列计算机科学讲座笔记和生物信息学讲座笔记）中，卷3951LNCS，页404-417，2006年。[6] Michael Calonder，VincentLepetit，Christoph Strecha和PascalFua。BRIEF：二进制鲁棒独立基本特征。在计算机科学讲座笔记（包括子系列计算机科学讲座笔记和生物信息学讲座笔记）中，卷6314 LNCS，页778-792，2010年。[7] Yuanzhouhan Cao，ZifengWu和ChunhuaShen。使用深度全卷积残差网络将单目图像的深度估计为分类。IEEE Transactions on Circuits and Systems for VideoTechnology，28（11）：3174-3182，2016年11月。[8]Vincent Casser，Soeren Pirk，Reza Mahjourian和AneliaAngelova。在无监督学习单目视频中利用结构进行深度预测。AAAI人工智能会议论文集，33：8001-8008，2019年7月。[9] Jia-RenChang和Yong-ShengChen。金字塔立体匹配网络。CVPR，2018年。[10] Po-YiChen，Alexander H. Liu，Yen-Cheng Liu和Yu- Chiang FrankWang。朝向场景理解：具有语义感知表示的无监督单目深度估计。在CVPR中，页2619-2627，2019年。[11] Christopher B.Choy，Jun Young Gwak，Silvio Savarese和ManmohanChandraker。通用对应网络。在神经信息处理系统的进展中，页2414-2422。神经信息处理系统基金会，2016年。[12] DanielDetone，Tomasz Malisiewicz和Andrew Rabi-novich。SuperPoint：自我监督兴趣点检测和描述。在IEEE计算机学会计算机视觉和模式识别研讨会上，卷2018-June，页337-349，2018年。0[13] Mihai Dusmanu, Ignacio Rocco, Tomas Pajdla, MarcPolle- feys, Josef Sivic, Akihiko Torii, 和 Torsten Sattler.D2-Net: 一种可训练的用于联合检测和描述局部特征的CNN.CVPR, 2019年5月. [14] David Eigen 和 Rob Fergus.使用共同的多尺度卷积架构预测深度、表面法线和语义标签.在IEEE国际计算机视觉会议论文集中, 卷2015 Inter, 页2650-2658,2015年11月. [15] David Eigen, Christian Puhrsch, 和 RobFergus. 使用多尺度深度网络从单幅图像预测深度图.在神经信息处理系统进展中, 卷3, 页2366-2374, 2014. [16]Mohammed E Fathy, Quoc-Huy Tran, M. Zeeshan Zia, PaulVernaza, 和 Manmohan Chandraker.用于2D和3D几何对应的分层度量学习和匹配. ECCV, 2018年. [17]John Flynn, Ivan Neulander, James Philbin, 和 Noah Snavely.深度立体: 从世界图像预测新视角.在IEEE计算机学会计算机视觉和模式识别会议论文集中,卷2016-Decem, 页5515-5524, 2016年6月. [18] Ravi Garg, B. G.Vijay Kumar, Gustavo Carneiro, 和 Ian Reid.无监督的用于单视图深度估计的CNN: 几何拯救.在计算机科学讲义中(包括子系列计算机科学讲义和生物信息学讲义), 卷9912 LNCS, 页740-756, 2016年3月. [19] Andreas Geiger,Philip Lenz, 和 Raquel Urtasun. 我们准备好自动驾驶了吗?KITTI视觉基准套件. 计算机视觉和模式识别会议(CVPR), 2012年.[20] Georgios Georgakis, Srikrishna Karanam, Ziyan Wu, JanErnst, 和 Jana Kosecka.用于姿态不变的3D匹配的关键点检测器和描述器的端到端学习.在IEEE计算机学会计算机视觉和模式识别会议论文集中,页1965-1973, 2018年. [21] Ross Girshick. 快速R-CNN.在IEEE国际计算机视觉会议论文集中, 卷2015 Inter, 页1440-1448,2015年. [22] Cl´ement Godard, Oisin Mac Aodha, 和 GabrielBrostow. 深入自监督单目深度估计. ICCV, 2019年6月. [23]Cl´ement Godard, Oisin Mac Aodha, 和 Gabriel J. Bros- tow.无监督的单目深度估计与左右一致性.在第30届IEEE计算机视觉和模式识别会议(CVPR 2017)论文集中,卷2017-Janua, 页6602-6611, 2017年9月. [24] Simon Had�eld 和Richard Bowden. 使用智能代价函数的场景流估计.在2014年英国机器视觉会议(BMVC 2014)论文集中, 2014年. [25]Kaiming He, Xiangyu Zhang, Shaoqing Ren, 和 Jian Sun.深度残差学习用于图像识别.在IEEE计算机学会计算机视觉和模式识别会议论文集中,卷2016-Decem, 页770-778. IEEE计算机学会, 2016年12月.144110[26] Kaiming He, Xiangyu Zhang, Shaoqing Ren, and Jian Sun.深度残差学习用于图像识别.在IEEE计算机学会计算机视觉和模式识

下载后可阅读完整内容，剩余1页未读，立即下载