相机感知多尺度卷积能够提高单视图深度估计的泛化能力

118 浏览量更新于2023-10-18 收藏 1.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1CAM-Convs：用于单视图深度的相机感知多尺度卷积何塞·M·Facil1 Benjamin Ummenhofer2，3 Huizhong Zhou2jmfacil@unizar.esintel.comzhouh@cs.uni-freiburg.deLuis Montesano1，4 Thomas Brox*，2 Javier Civera*，1montesano@unizar.esbrox@cs.uni-freiburg.dejcivera@unizar.es1萨拉戈萨大学2弗莱堡大学3英特尔实验室4Bitbrain摘要单视图深度估计遭受的问题是，在来自一个相机的图像上训练的网络不能推广到用不同相机模型拍摄的图像。因此，改变相机模型需要收集全新的训练数据集。在这项工作中，我们提出了一种新型的卷积，可以考虑相机参数，从而允许神经网络学习校准感知模式。实验证实，这大大提高了深度预测网络的泛化能力，并且在使用不同相机获取训练图像和测试图像时明显优于现有1. 介绍从2D图像中恢复3D信息是计算机视觉中的基本问题之一，由于最近的进展和应用，现在正在重新受到关注。其中，在诸如6D对象姿态检测的问题上最近已经有图1.CAM-Convs允许通过将相机特定参数馈送到网络中来针对各种相机模型有效地专门化Lic基准，其中图像已经用与训练数据相同的RGBD相机记录。因此，对这些基准的评估没有揭示深度估计方法是否推广到来自另一相机的RGB图像。过拟合是计算机视觉研究中的一个常见问题。其他工作[36]表明，数据集可能具有强烈的偏见，使研究人员对他们的方法的性能过于自信。特别是，同类数据的训练测试划分[17，30，32]，3D模型重建[9，34]，深度估计，从单个视图[21，10，22]和多个视图[38，16]，6D相机姿态恢复[19，18]或相机跟踪和映射[46，2，33，35]。虽然传统的多视图方法（例如，[29]）主要基于几何和优化，因此在很大程度上独立于数据，但这些最近的深度学习方法依赖于展示从图像到深度的映射的训练数据。收集此类数据的常见策略是使用RGBD传感器，如Kinect相机，其方便地提供RGB图像和可以被认为是地面真实深度的内容。隐含地假设对这种类型的数据的训练将推广到不提供深度的其他RGB传感器。然而，最近的基于学习的方法的评估在很大程度上依赖于出版物，*同等贡献在webdiis.unizar.es/~jmfacil/camconvs中查找我们的代码不足以证明泛化。在这项工作中，我们表明，事实上，国家的最先进的单视图深度预测网络不泛化时，测试图像的相机参数是从训练的不同。此外，我们表明，对于单视图深度预测，对来自不同相机的图像的泛化缺失的问题甚至更加严重：它不能通过对来自具有不同参数的不同相机集合的图像进行训练来解决。对于适应不同相机模型的现有方法，它们需要改变架构。我们提出了一个用于单视图深度预测的深度神经网络，它首次解决了相机内部参数的可变性我们表明，这允许使用来自不同摄像机的图像在火车和测试时间没有性能下降。这一点特别令人感兴趣，因为它可以利用任何相机的图像来训练数据饥渴的深度11826编码器*解码器CAM-转换相机模型11827网络.具体来说，在我们提出的网络中，我们的主要贡献是一种新型的卷积，我们将其命名为CAM-Convs（摄像机感知多尺度卷积），它将摄像机内部参数连接到特征图，因此允许网络从这些参数中学习深度的依赖性。图1示出了CAM-Convs如何在典型的编码器-解码器深度估计流水线中起作用的图示。该网络可以用来自不同相机的混合图像进行训练，而我们表明，网络泛化也从相机的图像，它还没有被训练。与单图像深度估计中的现有技术的比较表明，更好的泛化性质不降低深度估计的准确性。2. 相关工作使用深度学习估计3D结构和6自由度运动最近已经从几个角度得到了解决：监督[21]和无监督[47]，从单视图[6]和多视图[33]，使用端到端网络[21]并融合多视图几何[8]，完成深度图[45，42]，估计地理位置[43，19]，相对运动[38]，视觉测距[40，41]，以及同时定位和地图绘制（SLAM）[35，2，46]。在这项工作中，我们处理单视图监督深度学习，因此我们将重点关注这种情况下的文献综述。在开创性的工作中，我们可以参考[15]，类似于弹出式插图，基于分割成几何类和一些几何假设切割和折叠2D图像。[28]是另一个开创性的工作，在现场的最小假设下，学习了一个基于MRF的模型。[7]是第一篇使用深度学习进行单视图深度预测的论文，提出了多尺度深度网络。其结果后来得到了改善，[6、24、21、3、14]。许多方法专注于特定的数据集，这些数据集可以为特定的任务训练基于学习的方法。例如，Eigen和Fergus [6]将[7]中的多尺度架构扩展到NYU数据集[31]上的表面法线和语义标签的预测。类似地，Wanget al.[39]训练一个网络，在同一数据集上联合预测深度和分段。对于深度，Laina等人。[21]，Liuet al. [24]和Eigenet al. [6]表明他们的方法可以适用于其他数据集，如Make3D [28]或KITTI [11]。然而，它们将数据集视为不同的任务，并需要对每个数据集进行再训练以实现最先进的性能。Chen等人[4]受[49]的启发，在Wild数据集中引入了深度，并使用点对之间的顺序关系训练CNN。虽然这些图像来自于使用许多不同相机拍摄的互联网照片集，但它们在训练过程中并没有使用相机参数。*****CAM-转换图2.将CAM转换添加到编码器-解码器U-Net架构。Li和Snavely [23]使用来自运动管道的结构从互联网照片集合中提取深度，并使用它来训练CNN预测深度到比例因子。同样，关于相机参数的信息没有被利用，泛化仅由大型不同的数据集驱动对于其他任务，例如立体声估计[38]或视点变化的合成[48]，已经考虑了非固有参数内在参数通常在深度学习管道中被忽略，除了He等人。[14 ]第10段。它们将焦距信息嵌入到一个完全连接的方法中，使得不可能在不同的图像尺寸下进行训练和测试，而我们的建议是灵活的，可以处理不同的图像尺寸。在下一节中，我们将描述如何将内部摄像机参数显式地实现到网络中，从而通过CAM-Convs提高泛化能力。3. 相机感知多尺度卷积CAM-Convs （代表 Camera-AwareMulti-ScaleConvolutions）是本文中提出CAM-Conv在卷积中包含具体来说，我们在从RGB特征到3D信息（例如深度、法线）的映射中添加CAM-Convs如图2所示，我们在每个级别添加它们，这样我们也在每个skip-connection上包含CAM-Convs。请注意，所有CAM-Conv都添加在编码器之后，允许使用预训练模型。CAM-Convs的基本原理如下：我们预先计算像素坐标和视场图，并将它们与输入特征一起提供给卷积运算。CAM-Convs使用Coord-Convs [25]背后的想法，添加每个像素的归一化坐标，但包含有关相机校准的信息。CAM-Convs额外通道如何工作的示意图如图3所示。所包括的不同地图是使用相机内部参数（焦距f）和主点坐标（cx，cy））和传感器尺寸（宽度w和高度h）：中心坐标（cc）：为了将主点位置的信息添加到卷积中，我们包括*11828·。D.相机参数更改参考焦距传感器尺寸主点像素尺寸图3.我们的CAM-Convs（摄像头感知多尺度卷积）的附加通道概述我们计算中心坐标（cc从红色到蓝色）和视野（fov从绿色到粉红色）地图。在应用卷积之前，我们将这些映射与输入特征连接起来cc和fov都依赖于相机型号，并且对相机的变化很敏感。底部显示cc和fov贴图如何随相机参数变化（红色边框表示贴图已从原始更改）。以主点为中心的CCX和CCY主点具有坐标（0，0）。具体而言，渠道包括其中ch可以是x或y（参见等式1和2）。它们给出了关于捕获的上下文和焦距的信息。这些地图对传感器尺寸和焦距很敏感。在图3中，我们用从绿色到粉红色的颜色梯度表示FOV;黄色表示视场图中的角度为0。请注意图的底部，当改变相机焦距、传感器尺寸或主点时，fov图的值是如何变化的。像素大小的变化会改变地图的分辨率，但视野和图像中的可用上下文保持不变。归一化坐标（nc）：我们还包括归一化坐标的Coord-Conv通道[25]。归一化坐标的值随图像坐标在[−1，1]之间线性变化。此通道不依赖于相机传感器。然而，描述在每个方向上留下的上下文的空间范围（在特征空间中）是非常有用的（例如，，如果x通道上的值接近-1，则意味着该位置处的特征向量接近左边界，并且左侧几乎没有上下文）。请注意，nc在图3中没有显示，因为它保持不变。3.1. 焦距归一化由具有不同焦距的两个相机成像的对象的实例以不同的图像大小出现，尽管深度相同。焦距归一化是避免这种不一致的替代方案。为此目的，0 −cx⊺1−cx· · ·w−cx我们预测的深度值标准化为默认焦距fn. 给定一个度量深度图d，我们得到归一化深度1−cx1。..f为实际焦距，f为fnd。注意ccx= 0。w-cxw×1。1小时×1=。. ..−cx· · ·w−cxF归一化深度值取决于焦距。对于我们的网络的原始逆深度预测，我们1⊺0 −cy−c···−cy（一）将值归一化为F11 −c.=nccy= 0。阿夫里=。. . ..。F1w×1h−cyh×1h-cy· · ·h-cy（二）其中，m = 1是逆深度图。[35]类似的本文提出了一种在测试时校正深度值的方法我们调整这些地图的输入功能的大小，使用双耳插值和连接它们作为新的输入通道。这些通道对相机的传感器大小和分辨率（像素大小）敏感，因为它们的值取决于它。我们假设传感器尺寸以像素为单位测量。在图3中，我们用从红色（负坐标）到蓝色（正坐标）的颜色梯度表示cc，白色表示0。请注意图中的cc值在相机传感器大小、主点或像素大小改变时如何改变视场图（fov）：水平和垂直fov图是从cc图计算出来的，也取决于相机焦距f. ccch[i，j]我们建议在训练中首次使用它。这个标准化可以和我们的CAM-Convs一起使用.虽然CAM-Convs允许网络自己学习这种归一化，但我们在实验中发现，使用这种归一化可以加速收敛。然而，应当注意的是，焦距归一化假设在整个图像集上的恒定像素大小，并且因此仅可以在这种情况下使用CAM-Convs是一种更通用的模型，它克服了这一限制。4. 模型和培训4.1. 网络架构我们在这项工作中使用的网络具有编码器-解码器fovch[i，j]=arctan、（3）F相机模型CAM-Conv通道中心坐标（cc）视场图·y11829受DispNet启发的架构[26]。因此，我们添加跳过-11830DΣ..Ld=0尺度不变梯度损失：我们使用由[ 38 ]提出的尺度不变梯度损失，以便有利于平滑和边缘保持深度估计。基于深度的损失是你好....Lg=.. gh[]（i，j）− gh[]（i，j）.. . （六）....2h={ 1， 2， 4， 8， 16}i，j对于梯度，我们使用与他们工作中定义的相同的离散尺度不变有限差分算子g，.g[d]（i，j）=Σ⊤d（i+h，j）−d（i，j） d（i，j+h）−d（i，j）、H|d（i + h，j）+d（i，j）| |d(i, j + h)+ d(i,j)|（七）ResNet-50LR-1Mr-1Mr-2HR-1 HR-2并且我们将尺度不变损失应用于5个不同间距h处的覆盖梯度。图4.我们的网络架构受到DispNet [26]的启发，我们在其中添加了连接编码器和解码器的CAM-Convs我们在前三个中间分辨率水平（LR-1、MR-1和MR-2）中预测深度、置信度和法线（D+C+N），并且在最后两个分辨率水平（HR-1和HR-2）中仅预测深度和置信度（D+C）。从编码器的低级特征映射到解码器中相同大小的特征映射的连接，并将它们连接起来[27]。此外，我们还估计中间金字塔分辨率的预测，收敛更快，并确保网络的内部功能更有针对性的任务。正如在文献中常见的那样[21，20]，我们的信心丧失：置信度图的真实值必须在线计算，因为它取决于预测。置信度基础真值计算为c（ i ， j ） =e−| （ i ， j ） −| ，（8），其相应的损失函数定义为：Σ。.Lc=. c（i，j）−c（i，j）. .（九）i、j正常损失：对于正常损失，我们使用L2范数。法线（n）的地面实况是从地面实况深度图像导出的法线的损失为网络geNet分类数据集[13]。就像升中所建议的那样如下所示：Ln= Σ...... n（i，j）−n（i，j）|.. .（十）Nature [12]和我们的实验，在一般的图像识别任务上预训练编码器，如ImageNet，有助于减少准确性和收敛时间。我们的网络架构示意图如图4所示。网络预测由以下各项组成：：反深度我们选择逆深度是因为它与像素变化的线性关系。c：深度置信度。如[38]，我们强制网络为每个深度预测置信度图。n：曲面法线。法线仅针对小分辨率（除了最后两个）进行预测，因为地面实况法线在全分辨率下太嘈杂。4.2. 损失在这一节中，我们将介绍所有的损失和它们的组合。深度损失：我们最小化预测的逆深度的L1范数减去地面真实逆深度的L1范数，是..... （i，j）−.（五）i、j请注意，对于焦距归一化的实验，我们相应地缩放深度值（见第3.1节）。RGB输入ConvBlock上转换Leaky-ReLUConv 7x7BN + ReLU身分─块D+C+NConv3x3+ReLUConvMaxPool 3x3*CAM-转换D+CConv3x3+ReLUConv64*64256 *256512 *5121024 **2048 *、11831....2i、j总损失：单个损失由经验获得的因素加权，因此总损失L为L=λ1Ld+λ2Lg+λ3Lc+λ4Ln，（11）其中λ1、λ2、λ3和λ4分别为150、100、50和25。5. 多相机实验和结果大多数单视图深度预测网络已经使用相同或非常相似的相机模型进行了训练和测试推广到不同的相机模型有几个含义，并不简单。为此，我们首先对现有方法的泛化能力进行了深入的分析。为此，我们在没有特殊卷积（如图4所示，但没有CAM-Convs）的网络上训练时应用了朴素的泛化技术（焦点最后，我们使用 CAM-Convs 训练和评估我们的网络（如图 4 所示），并展示了针对不同相机参数的改进的泛化性能11832姓名s1s 2s 3传感器 256×192 192×256 224×224姓名s4s 5sS SsK传感器128×96 320×320 256×192 384×128测试列车绝对相对误差sc.inv sq.rel：1m lg（m）1s1f64s1f640.1703780. 0347 0. 048s1f128s1f1280. 1950.51003870. 0606最小最好表2.受环境影响，不同的焦距。产品名称f72f 128f 64fn焦点72 128 64 100表1. 不同传感器尺寸和焦距的符号。5.1. 实验装置我们的实验的主要部分是在包含RGB-D等矩形图像的2D-3D语义数据集[1]上完成的。该数据集允许我们生成具有不同相机内在特性但具有相同内容的图像。我们已经观察到深度估计网络过拟合相机参数和图像内容分布（例如，后者在室内和室外数据集中是不同的）。通过这种方式，我们消除了内容失真因素，并隔离了摄像机参数的影响所有实验均使用[1]中建议的3重交叉验证进行。在本节中，我们将介绍最相关实验的中值。要查看完整的结果，有关数据集和图像生成过程以及其他实验的更多细节，我们请读者参阅补充材料。评估期间使用的传感器尺寸和焦距的符号见表1。作为一个例子，如果一个网络已经训练了传感器大小为192×256，224×224，焦距72，我们将此模型命名为如s2s3f72。在某些实验中，我们使用焦距的随机分布。例如，如果合成焦距均匀分布在72和128之间，该模型将被表示为Uf72f128。我们评估了深度和逆的深入我们在实验中使用的所有误差度量都是来自文献的标准。此外，我们还使用了[7]中提出的相对度量和尺度不变度量，这些度量在深度估计中得到了广泛的应用。5.2. 语境的影响修改相机参数会影响视野，因此会影响图像捕获的上下文量。我们通过两个不同的实验评估了上下文在标准U-Net编码器-解码器架构（图4中的网络，没有CAM-Convs）的深度预测中的影响。首先，我们比较了两个用传感器尺寸为s1的图像和两个不同焦距f128和f64训练的网络（表2）。其次，我们比较了两个具有相同焦距但不同传感器尺寸的图像的网络：s1和s4（表3）。正如预期的那样，上下文会有所帮助。最小焦点f64的性能更好，这导致更宽的FOV，测试火车abs.relRMSEsc.invsq.rels1f64s1f64：10的情况。17M0的情况。378lg（m）0的情况。0347：10的情况。048s4f64s4f640的情况。2040的情况。540的情况。03840的情况。0637最小最好表3.环境的影响，不同的传感器尺寸。因此有更多背景。此外，性能更好的传感器尺寸更大的s1，这也提供了更多的上下文. 为了消除我们分析中的上下文依赖性，对于下一小节中的一些实验，我们将生成具有均匀分布焦距的图像。5.3. 标准网络在本实验中，我们评估了标准U-Net架构在训练集和测试集上相机参数变化时的性能我们将重点研究两个参数：（a）焦距和（b）传感器尺寸。首先，我们将传感器尺寸固定为s1，并在焦距为f64、f72和f128的图像上进行测试（表4中的前三个测试集）。其次，我们将从f72和f128之间的均匀分布中随机采样焦距，并对传感器尺寸为s1和s2的图像进行评估（表4中的最后两个测试集）。对于每个测试集，有4到5个不同的训练集（在表的第2列中引用）。对于每个测试集，我们将参考来自训练集和测试集的相机与相同相机基线相同的情况。我们没有使用焦距归一化的训练集用“X”表示。在具有两个传感器尺寸的训练集上训练的网络已经被训练为具有权重共享的连体网络或具有大小为s1的图像（用“0”表示值得注意的是，对于所有实验，测试和训练数据都是从完全相同的图像中生成的，并且网络具有相同的架构，并且训练了相同的迭代次数因此，任何在表4中注意到，一般来说，相同的相机基线优于其余相机，证明了相机参数的过拟合。这些实验的结论如下。(a) 单焦点训练过度。当在来自特定相机的图像上进行训练并在来自不同相机的图像上进行测试例如，请参见所有指标中第1行（test：s1f64，train：s1f64）与第2行（test：s1f64，train：s1f72）和第3行（test：s1f64，train：s1f128）之间的性能下降11833测试集训练集l1.invRMSEsc.inv测试火车abs.relrmse.invsc.invsq.relpixels像素1/MMlg（m）%1/kmlg（m）100%s1f 64*0的情况。1840的情况。3780的情况。0347SK9 .第九条。1610个。54十三岁3二、33S1F720的情况。1930的情况。3950的情况。0354SKS SK二十四岁58三十六82二十六岁519 .第九条。28s1f64 s1f1280的情况。3180的情况。5720的情况。0483sS sK†9 .第九条。0810个。55十三岁98二、56s1f 72f 128*0的情况。6590的情况。8640的情况。0614s1f 72f 1280的情况。1890的情况。3870的情况。0361abs.rell1.invrmse.invsq.rels1f 72*0的情况。170的情况。40的情况。0354：11/M1/M：1s1f1280的情况。2720的情况。5640的情况。0459Ss0的情况。120的情况。090的情况。120的情况。03S1F72s1f 72f 128*0的情况。5520的情况。8880的情况。0609SsS SK0的情况。260的情况。130的情况。160的情况。18s1f 72f 1280的情况。1750的情况。4040的情况。0364sS sK†0的情况。120的情况。090的情况。120的情况。03s1f128s1 f72 f128 *0。2080. 8130. 063表5.在KITTI [37]和ScanNet [5]上进行简单训练和测试。看到在多个图像大小（sKsS）中训练FCN不会生成-s2Uf 72f128s1 U f72 f1280.1510四四零。038s2 U f72 f1280. 1330. 412 0. 0323最小最好alize。调整大小是有效的，但仅在这种特殊情况下，因为视觉特征的重叠很小。概括。使用多个传感器尺寸的训练比使用错误的传感器尺寸的训练效果更好，但无法达到与相同相机基线相同的性能。此外，训练一堆权重共享网络也不* 在没有焦距归一化的情况下训练。†在训练期间将图像大小调整为s1表4.标准编码器-解码器架构的相机参数的过拟合从图像中训练的网络在本质上的变化比相同的相机基线表现得更差。多焦点训练与正常化有帮助。当训练集包含具有不同焦距的图像并进行焦点归一化时，结果得到改善。例如，测试集s1f64与训练集s1f72f128的结果接近同一相机基线。然而，注意，多焦点列车组没有达到相同相机基线的性能。节中5.4我们将展示CAM-Convs如何能够在训练数据不包含测试焦距的情况下超越同一相机基线在没有焦点归一化的情况下，性能降低。例如，比较训练集s1f72f128n和s1f72f128 n的误差度量。事实上，在f72f128xmls上训练的网络并不容易收敛。焦点正常化的局限性。关于焦点正常化，应该注意两件事：首先，它没有对传感器尺寸和分辨率的变化进行建模，现在我们将看到它们的变化如何降低性能。第二，只有当训练集和测试集中的每个相机的像素大小都相同时，公式4才成立，而通常情况下并非如此。(b) 单传感器尺寸训练过度。在传感器尺寸上训练并在其他传感器尺寸上测试的网络并不像相同相机基线那样表现良好。这可以在表4中的最后两个测试集s1Uf72f128和s2Uf72f128中看到。单视图深度估计是依赖于上下文的任务，并且网络过拟合到训练传感器大小的上下文。具有权重共享的多传感器大小训练不s1f 128*0的情况。1410的情况。510的情况。0387最小最好s1f 72f 1280的情况。1320的情况。5040的情况。038s1Uf 72f 1280的情况。150的情况。460的情况。037s1s 2Uf 72f 1280的情况。1390的情况。4360的情况。0352118342可扩展到大量不同的传感器尺寸。调整大小不起作用。作为一种简单的方法，它可以扩展到多个传感器尺寸，我们使用了x2（在表4中用“†”表示），它在训练过程中将所有图像转换为尺寸（s1）。请注意，缩放会更改纵横比。它还意味着重新计算一个新的平均焦距fr=frx+ry 为了正常化。性能由氧化物引入的降解是显著的。调整大小在训练和测试中产生不一致的数据，这导致学习和收敛困难。调整大小仅在特定情况下有帮助（视觉特征的非重叠分布）。表5显示了两个公共数据集上的实验结果，与前一个相似： KITTI [37] ，传感器大小为 sK ，ScanNet [5]，传感器大小为sS。在这种情况下，使用两种传感器尺寸（通过权重共享）进行训练会降低性能。然而，ESTA将误差降低到了相同相机基线的水平。其原因是两个数据集的分布完全不同，视觉特征的交集为空（例如，KITTI上没有椅子，ScanNet上没有汽车）。然而，这是一个非常特殊的情况下，调整大小，降低了显着的准确性一般。5.4. CAM卷积的鲁棒泛化在这个实验中，我们表明CAM-Convs一般化到不同的相机模型。为了评估CAM-Convs的影响，我们使用两种不同的传感器大小（s1和s2）和权重共享来训练我们的模型在训练过程中，从均匀分布Uf72f128中随机抽样Fo- cal长度。我们在四个不同的测试集中评估了经过训练的模型，见表6。前两个包括用于训练网络的摄像机模型，第三个具有在训练期间看不到的传感器大小，最后一个（s5f64）是从完全不同的摄像机生成的11835输入S地面实况CAM-CONVSNO CAM-CONVS最小最好接受过传感器尺寸s1、s2和U f72 f128的重量分担培训。表6.使用CAM-Convs进行相机参数泛化。在不同相机上训练和测试的结果。第1列：测试集的摄像机参数。第2列：在训练期间看到的相机参数。这是表4的延续。请注意，在大多数测试集上，具有CAM-Convs的网络是唯一一个比相同相机基线获得更好性能与具有较大传感器尺寸和较小焦距的训练图像不同。这个案例大大增加了背景这在先前的实验中被图5.测试集S5F64的定性结果。第一列：RGB输入.第二列：地面实况深度. 第 3列：使用我们的网络进行预测，使用在s1s2U f72f128上训练的CAM-Convs。第4列：在没有CAM-Convs的情况下训练的网络的预测。请注意，测试摄像机参数是sig-与训练集显著不同，并且图像具有更宽的视野。尽管相机参数差异很大，但CAM-Convs网络可以生成清晰的深度图，房间角落清晰可见。0.40.31.30.20.9表4）。CAM-Convs在相机本质上进行了推广，超过了相同相机基线。表6中测试集s1Uf72f128和s2Uf72f128的结果表明，在两种尺寸的图像上训练CAM-Convs的网络绝对绝对相对0.150.1l1_inverse0.80.70.6RMSE明显优于基线，基线是在精确的测试大小上训练的CAM-Convs的添加允许网络从校准参数中学习图像特征的依赖性CAM-Convs推广到训练期间看不到的传感器大小。值得注意的是，具有CAM-Convs的网络在传感器尺寸为s3的测试集（表6中的第三个测试集）上的性能也优于相同的相机基线，该测试集未包括在训练数据中。此外，它比在完全相同的条件下训练但没有CAM-Convs 的网络更好地泛化（参见表中的s1s2Uf72f128CAM-Conv一般化到训练期间不可见的摄像机。使用表6中的最后一个测试集（s5f64），我们在相机参数的极端情况下评估我们的网络，非常宽的视野和与训练传感器非常不同的传感器尺寸表6显示CAM-Convs大大提高了对新的不可见相机的泛化能力。图5显示了在测试集s 5 f64中，我们使用CAM-Convs 的网络与不使用 CAM-Convs 的网络（s1s2Uf72f128）之间的定性比较。5.5. 多数据集实验在我们的最后一个实验中，我们演示了CAM-Convs如何通过在四个具有不同相机的数据集上进行训练来泛化测试（KITTI [37]，ScanNet[5]，图6.NYUv 2测试集上的误差分布，具有6个不同的-输入相机参数。橙色是我们使用CAM-Convs的网络[21]第21话，我的朋友[23]和Sun3D[44]，并在不同的一个（NYUv2 [31]）上进行测试。训练：我们使用权重共享为三种不同的传感器尺寸（320×320，256×256和224×224）训练了我们的网络。我们通过缩放图像和移动主点来增加训练数据，以增加相机参数的变化，然后将图像裁剪为目标传感器尺寸之一我们在这个实验中没有使用焦距归一化，因为我们不能确保跨数据集的恒定像素大小由于MegaDepth仅具有最大尺度的地面实况，因此我们仅应用尺度不变损失并添加了[7]的尺度不变成本函数没有CAM-Convs的相同网络校准信息的缺乏产生不一致性（例如，相同大小的对象可能由于不同的焦距而具有不同的深度测试：我们在NYUv 2的官方测试集上评估了我们的网络，并与最新技术[21]（没有CAM-Convs的类似网络）进行了比较。请注意，网-0.30.250.2试验列车abs.rell1.invRMSEsc.inv：11/MMlg（m）sUf fs1Uf72f1280的情况。1890的情况。150的情况。460的情况。0371 72 128CAM-Convs0的情况。1750的情况。1440的情况。4330的情况。0312sUf fs2Uf72f1280的情况。1660的情况。1330的情况。4120的情况。03232 72 128CAM-Convs0的情况。1580的情况。1310的情况。390的情况。0265莱娜我们的s5f640的情况。1630的情况。2270的情况。3090的情况。03565f64s1f 640的情况。2450的情况。2920的情况。3370的情况。059811836我288x16096x256288x16096x256288x16096x256输入GT Ours Laina320x224128x320640x480640x480128x320256x256128x320图7.定性结果，NYUv2测试集，具有内在变量。第1列：输入RGB图像. 每一行显示原始的一个和缩放和裁剪的版本第2列：输入我们的480x160288x96224x224480x160288x96224x224图8.KITTI验证集的定性结果第一列：输入RGB图像.每行显示原始版本以及缩放和裁剪版本。第二列：来自我们网络的预测。深度地面实况。第3列：使用CAM-Convs从我们的网络中进行预测，在不包括NYUv 2的几个数据集上进行训练。我们的网络为所有图像产生接近地面真实的一致深度。第四纵队：莱娜[21]，只接受过NYUv2的训练。它的误差在训练分辨率上很低，但不能推广到新的内在函数。输入GT我们[21]的工作仅在NYUv2上进行训练，而我们的网络在一组数据集上进行训练，这些数据集不包括NYUv2，具有不同的相机和数据分布（一些数据集在户外，参见图8和图9）。这很重要，因为我们的模型不能从数据集偏差中受益[36]。我们预测了来自6个不同相机的图像的深度：NYUv2数据集的原始相机和5个模拟相机，通过裁剪（以移动主点并减小传感器尺寸）和调整大小（以改变焦距）。图6示出了针对6个不同相机获得的常用度量以来[21]是在NYUv2数据集上训练的，当它预测来自它所训练的相机的图像时（误差最小的点），它的效果稍微好一点。然而，当相机改变时，性能会下降，CAM-Conv总是有更小的误差和方差.图7说明了CAM-Convs深度预测对于不同相机是如何稳定的，而[21]的预测变化很大。回想一下，CAM-Conv没有在NYUv 2上训练，这表明它们能够在不同的相机模型上泛化，并且优于[21]，尽管它们在相同的数据集上训练。图 7 、图 8 和图 9 显示了来自 NYUv 2 、 KITTI 和MegaDepth测试集的图像（以及裁剪/调整大小的版本）的深度预测。同样，请注意具有不同数据分布和摄像机内在特性的数据集之间的出色性能。所有预测都是使用完全相同的网络完成的，而没有进一步微调特定的数据集或相机参数。图9. MegaDepth测试集的定性结果。第1列：输入RGB图像. 每行显示原始版本以及缩放和裁剪版本。第二列：深度地面实况。第三列：来自我们网络的预测.预测被掩盖为地面实况以便于可视化。6. 结论本文介绍了CAM-Convs，这是一种新型的卷积，允许深度预测网络独立于相机。实验结果表明，当前网络过拟合训练相机模型，导致：1）缺乏对来自其他相机的图像的泛化，以及2）当用来自不同相机的图像训练时性能下降。CAM-Convs学习如何使用相机固有特性与图像特征联合来预测深度;解决这两个局限性。它们保持了新相机的预测精度，并更好地利用来自不同相机的训练数据。后者是一个有趣的方向，扩大系统，取决于相机参数。鸣谢：该项目部分由西班牙政府（ DPI 2015 -67275），欧盟地平线2020项目Trimbot 2020，Ara go'ngovernment （ DGA-T4517 R/FSE ）和 Fundac io' nCAI-Ibercaja资助。我们也感谢Facebook的P100服务器捐赠和礼物资金;和英伟达的泰坦X和XP捐赠。11837引用[1] I. Armeni，S. Sax，A. R. Zamir和S. Savarese用于室内场景理解的联合2D-3D语义数据。arXiv预印本arXiv：1702.01105，2017。5[2] M. Bloesch ， J. 恰尔诺夫斯基河克拉克， S 。Leutenegger，以及A. J·戴维森CodeSLAM-学习密集视觉SLAM的紧凑，可优化的表示。在IEEE计算机视觉和模式识别会议上，2018年。一、二[3] A. Chakrabarti，J.Shao和G.沙赫纳洛维奇通过协调过完备局部网络预测从单个图像中获得深度第30届神经信息处理系统国际会议论文集，NIPS'16，第2666-2674页，美国，2016年Curran Associates Inc. 2[4] W. Chen，Z. Fu，D. Yang和J.邓小平更野外单图像深度感知。In D. D.李，M。Sugiyama，U.卢克斯堡岛Guyon和R.Garnett，编辑，神经信息处理系统进展29，第730Cur-ran Associates，Inc. 2016. 2[5] A. Dai ， A. X. 张， M 。 Savva ， M. Halber ， T.Funkhouser和M.尼斯纳ScanNet：室内场景的丰富注释3D重建在proc 计算机视觉和模式识别（CVPR），IEEE，2017。六、七[6] D. Eigen和R.费格斯。预测深度，表面法线和语义标签与一个共同的多尺度卷积架构。在IEEE计算机视觉国际会议论文集，第2650-2658页2[7] D.艾根角Puhrsch和R.费格斯。使用多尺度深度网络从单个图像进行深度图预测。神经信息处理系统的进展，第2366-2374页，2014年。二、五、七[8] J. M. F a'south，A. 孔查湖 Montesano和J. C iv era. 单视图和多视图深度融合。IEEE Robotics and AutomationLetters，2（4）：1994-2001，2017。2[9] H.范，H. Su和L.吉巴斯一种从单幅图像重建三维物体的点集生成网络。在CVPR中，第2463-2471页，2017年。1[10] H.傅，M。贡角，澳-地Wang，K. Batmanghelich和D.涛.用于单目深度估计的深度有序回归网络。在IEEE计算机视觉和模式识别会议论文集，第2002-2011页1[11] A. Geiger，P. Lenz，和R.盖革，等.乌塔松我们准备好了吗？Kitti Vision基准套件。在计算机视觉和模式识别（CVPR），2012 IEEE会议，第3354-3361页中IEEE，2012。2[12] C.戈达尔湖，澳-地Mac Aodha和G.布罗斯托深入研究自我监督的单目深度估计。 arXiv 预印本 arXiv ：1806.01260，2018。4[13] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 770-778，2016中。4[14] L.他，G. Wang和Z.胡使用深度神经网络嵌入焦距从单幅图像学习深度。 IEEE Transactions on ImageProcessing，27（9）：4676-4689，2018。2[15] D. Hoiem，A. A. Efros，

下载后可阅读完整内容，剩余1页未读，立即下载