零样本的昼夜领域自适应方法以物理先验为基础

196 浏览量更新于2023-10-14 收藏 20.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

built-in as a visual inductive bias. The champion of sucha bias is the convolution operator added to a deep net-work which yields a Convolutional Neural Network (CNN).The CNN is translation invariant, and thus saves a massiveamount of data as the deep network no longer needs train-ing samples at all possible locations. Here, we replace databy an inductive photometric bias. We introduce a novelzero-shot domain adaptation method for addressing day-night domain shifts exploiting learnable photometric invari-ant features as a physics-based visual inductive prior. Incontrast to unsupervised domain adaptation, our zero-shotmethod reduces the data dependency by removing any re-liance on the availability of test data.Illumination changes to the source domain induce a dis-tribution shift of feature map activations throughout all lay-ers of a CNN. This is shown as the baseline in the top rowof Fig. 1, where the activations of a CNN trained on day-time data are shown for a ‘Normal’ (source) and ‘Darker’(target) test set. Such a distribution shift, in turn, has a se-vere detrimental effect on the accuracy of the CNN [39].Because the distribution shift is between the training dataand unavailable test data, this shift cannot be addressed ina data-driven manner using, for example, variants of BatchNormalization [29, 39]. Instead, we normalize feature map143990具有物理先验的零样本昼夜领域自适应0Attila Lengyel 1 Sourav Garg 2 Michael Milford 2 Jan C. van Gemert 10代尔夫特理工大学1 QUT机器人中心20{ a.lengyel, j.c.vangemert } @tudelft.nl { s.garg, michael.milford } @qut.edu.au0摘要0我们探索了零样本设置下的昼夜领域自适应。传统的领域自适应设置是在一个领域上进行训练，并通过利用测试集中的无标签数据样本来适应目标领域。由于收集相关的测试数据既昂贵，有时甚至不可能，我们消除了对测试数据图像的任何依赖，而是利用基于物理反射模型推导出的视觉归纳先验来进行领域自适应。我们将一些颜色不变的边缘检测器作为可训练层添加到卷积神经网络中，并评估它们对光照变化的鲁棒性。我们展示了颜色不变层如何减少整个网络中特征图激活的昼夜分布差异。我们在合成数据集和自然数据集上展示了零样本昼夜领域自适应在分类、分割和地点识别等各种任务中的改进性能。01. 引言0深度图像识别方法对由意外的记录条件引起的光照变化非常敏感，例如摄像机视角、光线颜色以及由白天或天气引起的光照变化[1, 16,78]。例如，使用白天训练的模型无法推广到夜晚。对于自动驾驶和其他安全关键的计算机视觉应用程序，对这些记录条件的鲁棒性至关重要。训练数据和测试数据之间的光照变化通常通过无监督领域自适应[55, 57,76]来解决，其中有标签的训练集来自一个领域，而测试集来自另一个领域。主要的假设是测试数据是可用的，挑战在于如何在无监督的设置中利用无标签的测试数据来解决领域转移问题。然而，添加测试数据通常是非常困难的，因为获取测试数据可能既昂贵又耗时，并且由于现实世界的长尾效应，不可能提前收集到所有可能的场景。与添加更多数据不同，先验知识可以作为视觉归纳偏差内置。这种偏差的代表是添加到深度网络中的卷积运算符，从而产生卷积神经网络（CNN）。CNN具有平移不变性，因此可以节省大量数据，因为深度网络不再需要在所有可能的位置上进行训练样本。在这里，我们用归纳光度偏差替代数据。我们引入了一种新颖的零样本领域自适应方法，利用可学习的光度不变特征作为基于物理的视觉归纳先验来解决昼夜领域转移问题。与无监督领域自适应相比，我们的零样本方法通过消除对测试数据可用性的依赖来减少对数据的依赖。源领域的光照变化会导致CNN所有层的特征图激活发生分布变化。这在图1的顶部行中显示为基准情况，其中显示了在‘Normal’（源）和‘Darker’（目标）测试集上训练的CNN的激活情况。这种分布变化对CNN的准确性有严重的不利影响。由于分布变化发生在训练数据和不可用的测试数据之间，这种变化无法通过数据驱动的方式来解决，例如BatchNormalization的变体。相反，我们对特征图进行归一化处理。0图1：基准ResNet-18和颜色不变的W-ResNet-18在‘Normal’和‘Darker’测试集（右侧的样本）中各层的特征图激活情况（对所有样本求平均）。测试集之间的强度变化导致基准模型所有层的内部分布发生了变化。W对输入进行归一化处理，从而产生更具领域不变性的特征。44000在无数据的情况下，通过利用光度不变特征来激活光度不变特征，这些特征是专门设计用来解决由照明变化引起的分布偏移的。光度不变特征或颜色不变特征表示与偶然记录条件无关的对象属性[24,25]，包括1）场景几何，影响阴影和明暗的形成，2）光源的颜色和强度，改变场景的整体色调和亮度，以及3）在光线直接从表面反射而不与材料颜色相互作用的光滑材料上发生的菲涅尔反射。由于它们对这些光照变化的稳健性，颜色不变特征在经典计算机视觉应用中被广泛使用[6,46]，但在深度学习环境中的使用仍然很少探索。我们将[24]中的颜色不变边缘检测器实现为可训练的颜色不变卷积（CI-Conv）层，可以用作任何CNN的输入层，将输入转换为域不变表示。图1的底部行显示，CIConv减小了源域和目标测试集之间的分布偏移，改善了目标域的性能。我们有以下贡献：（i）我们引入了CIConv，一种可学习的颜色不变CNN层，用于减小在基于照明的域偏移下的CNN中的激活分布偏移；（ii）我们在我们精心策划的两个分类数据集上评估了几种颜色不变特征在日夜域自适应设置中的性能；（iii）我们展示了与自动驾驶相关的任务的性能改进，包括分类、分割和地点识别。所有数据集和代码将在我们的项目页面上提供。02. 相关工作0域自适应域自适应的目标是在源域数据集上训练模型，使其在不同但相似的目标域数据集上表现良好。这减轻了为新领域的应用程序注释数据集的负担，因为训练数据不足。流行的方法依赖于生成对抗网络（GANs）生成合成目标域样本[27]，或通过对抗项[28,65]或损失函数中的差异度量[66,45]来最小化两个域之间的特征差异。日夜域自适应设置特别重要，因为自动驾驶汽车的承诺，因此包括许多用于语义分割的工作[13,16,18,55,56,57,58,69,73,78]，以及用于地点识别的工作[7,32,51]。然而，所有上述方法（除了[13]）都需要来自目标域的训练数据或额外的模态，而我们的方法仅使用源域。01 https://github.com/Attila94/CIConv0域图像数据。我们的方法不需要额外的信息来源，因此可以避免昂贵的数据收集成本。0零样本域自适应零样本学习的研究[2,37,48,49,79,83]已经从未见过的类别扩展到未见过的领域，其中进行域自适应而无需访问目标域。然而，当前的零样本域自适应方法需要额外的信息，包括：（i）额外的与任务无关的源域和目标域数据对，以适应任务相关的目标域[50,75]；（ii）通过属性对域偏移进行参数化，需要知道未见目标域的属性概率分布[30]；（iii）除源域和目标域之外的域的额外数据，以学习域不变子空间投影[80]，或者；（iv）部分标记的目标域的额外数据[77]。这四种类型的信息通常在日夜域偏移中是未知的，因此不直接适用。AdaBN[39]认为，模型的批量归一化（BN）[29]层中存储了领域特定的知识，并通过从目标域重新采样BN统计量来执行域自适应。这再次需要访问目标域数据集。如果仅使用当前批次的统计量，AdaBN[39]可以被认为是零样本的。然而，这使得该方法依赖于大批量大小，其中类别均匀表示。相反，我们的方法不需要来自目标域的任何信息，除了任务不可知的基于物理的照明先验，这些先验可以从文献中轻松获取。0物理引导神经网络将物理模型的先验知识添加到神经网络中，有可能在不增加额外训练数据的情况下提高性能。典型的例子是通过卷积先验添加平移等变性[33,68]，最近的工作表明通过添加先验知识可以获得好处，例如在线检测[43]、频谱泄漏[61]和CNN中的抗锯齿[82]。在物理图像形成模型的情况下，最近的例子包括固有图像分解[10]、水下图像增强[84]或雨图像恢复[38]。在这里，我们添加了物理图像形成先验来弥补零样本领域自适应中数据不足的问题。我们研究了将深度学习与物理颜色和反射不变性相结合的相对较少探索的方向。0颜色不变性使用基于物理反射模型的物理模型来提高对光照变化的不变性，在经典计算机视觉领域中已经有大量研究[8,11, 23, 25, 70, 71, 72]。早期的工作包括导出不变性的方法44010基于Kubelka-Munk（KM）反射模型[36,24]。根据[20]中引入的图像形成模型，已经提出了各种方法来进行阴影去除或固有图像分解[19,21]，并应用于地点识别[15, 46]、道路检测[5, 6, 34,35]和街景图像分割[67]等领域。最近的研究表明，通过将颜色不变变换作为预处理步骤[3, 4,47]或在合成数据集上使用地面真实反射率作为输入[9]，可以提高分割性能。[1]证明了CNN对白平衡（WB）设置变化的敏感性，并展示了如何通过自动WB预处理步骤来提高鲁棒性。我们的工作进一步探索了将经典颜色不变性作为可训练的深度网络层的使用。03. 方法0我们的颜色不变层利用了[24]中的不变边缘检测器。这些边缘检测器是基于基于Kubelka-Munk理论[36]的物体反射的图像形成模型导出的，该模型描述了从物体在观察方向上反射的光谱 E。0E(λ, x) = e(λ, x) × (1 - ρf(x))^2R∞(λ, x) + ρf(x) × (1)0其中 x 表示图像平面上的空间位置，λ 表示光的波长，e(λ,x) 表示光源的光谱，R∞ 表示材料的反射率，ρf表示菲涅尔反射系数。E 对 x 和 λ 的偏导数分别用 E_x 和E_λ表示。颜色不变表示不依赖于光照和观察方向等意外场景属性，只依赖于材料属性R∞。通过在公式（1）中探索简化假设，我们可以得到各种不变表示，如表1所总结的那样。导出的不变表示E、W、C、N 和 H表示对各种光照变化具有不变性的边缘检测器，包括场景几何（即不检测阴影和阴影边缘）、菲涅尔反射以及光照强度和颜色。有关表1中颜色不变性的完整推导，请参阅补充材料的第1节。高斯颜色模型[24]用于从RGB相机响应中估计E、E_λ 和 E_λλ，如下所示：0� E(x, y)E_λ(x, y)E_λλ(x, y)0�0� =0� 0.06 0.63 0.27 0.30.04 -0.35 0.34 -0.60.170�0�0� R(x, y)G(x, y)B(x, y)0�0其中 x、y 是图像中的像素位置。空间导数 E_x 和 E_y是通过将 E 与标准差为 σ 的高斯导数核 g进行卷积计算得到的。0E x ( x, y, σ ) =0t ∈ Z E ( t, y ) ∂t, σ )0∂x (3)0输入σ = 0.50 σ = 2.000图2：输入图像的颜色不变表示W的两个不同σ值。注意细节（小σ）和噪声鲁棒性（大σ）之间的权衡。0以及E y，E λx，E λλx，E λy和Eλλy同样地，颜色不变边缘图被定义为所有相关空间导数的梯度幅值，如表1所示。方程（3）中的σ参数决定了图像与高斯导数滤波器卷积的尺度，以及在图像的颜色不变表示中保留的细节量。小的σ会得到详细的边缘图，但对噪声更敏感，而大的σ更加稳健，但可能会忽略重要的细节。图2给出了颜色不变W的可视化。我们将边缘检测器实现为可训练层，以学习任务特定的最佳尺度，而不是事先固定σ。得到的颜色不变卷积（CIConv）用作CNN的输入层，并输出一个单通道表示，后续的卷积层可以叠加在其上。为了简化计算，我们省略了颜色不变量的梯度幅值的平方根，并应用对数变换和逐样本归一化，使得边缘图的分布接近标准正态分布。此外，我们训练一个尺度参数s来代替直接优化σ，使得σ=2s。这通过减小s的反向传播梯度来稳定训练，并确保σ始终为正值。因此，CIConv被定义为0CIConv ( x, y ) = log � CI 2 ( x, y, σ = 2s ) + ε � - µ S0σ S (4)0其中CI是Tab. 1中选择的颜色不变量，µ S和σ S是log � CI 2 + ε�的样本均值和标准差，ε是为了数值稳定性而添加的一个小项。04. 实验04.1. CNN的照明鲁棒性0我们通过在一个合成图像数据集上进行分类实验来研究CIConv在CNN对意外记录条件的稳健性方面的改进程度，在该数据集中，我们对场景的照明有精确的控制。这些图像是从ShapeNet[12]数据集中的一个子集中渲染得到的，使用基于物理的渲染器Mitsuba[31]。场景由一个温度在[1900,20000]K之间变化的黑体辐射体模拟的点光源和一个环境光源照明。训练集包含每个10个物体类别的“正常”照明条件（T =6500K）下的1000个样本。多个测试集中，每个类别有300个样本，用于表示各种光源强度和颜色。图3显示了测试集中所表示的照明条件的概述。x ,Wλx = EλxE ,Wλλx = EλλxEλxE−EλExE2,Cλλx = EλλxE−EλλExE2EλxE−EλExE2, Nλλx = EλλxE2−EλλExE−2EλxEλE+2E2λExE3H2x + H2y,Hx = Eλλ44020不变性定义SG FR II IC0E E = �0E 2 x + E 2 λx + E 2 λλx + E 2 y + E 2 λy + E 2 λλy � � � �0W W = �0W 2 x + W 2 λx + W 2 λλx + W 2 y + W 2 λy + W 2 λλy，0E0� � � �0C C = �0C 2 λx + C 2 λλx + C 2 λy + C 2 λλy，0� � � �0N N = �0N 2 λx + N 2 λλx + N 2 λy + N 2 λλy，0� � � �0H H = �0E 2 λ + E 2 λλ � � � �0表1：颜色不变边缘检测器[24]及其对场景几何、菲涅尔反射、照明强度和照明颜色的不变性属性的概述。E是基线强度边缘检测器，对任何变化都不具有不变性。下标表示偏导数，其中λ是光谱导数，x是方程（1）的空间导数。y方向的空间导数直接从给定的x方向的导数得到。0使用基于物理的渲染器Mitsuba[31]对ShapeNet[12]数据集的一个子集进行渲染，场景由一个温度在[1900,20000]K之间变化的黑体辐射体模拟的点光源和一个环境光源照明。训练集包含每个10个物体类别的“正常”照明条件（T =6500K）下的1000个样本。多个测试集中，每个类别有300个样本，用于表示各种光源强度和颜色。图3显示了测试集中所表示的照明条件的概述。0CIConv提高了光照鲁棒性。我们训练了一个基线的ResNet-18[26]和五个带有CIConv层的不变性E、W、C、N和H的模型。训练使用批量大小为64的SGD进行，动量为0.9，权重衰减为1e-4，初始学习率为0.05，每50个epoch按0.1的因子进行步长减少。数据增强采用随机水平翻转、随机裁剪和随机旋转的形式进行。模型在两个测试集上进行评估，并在三次运行中的平均分类准确率如图4所示。基线RGB模型的准确率在光照条件开始与训练集不一致时迅速下降。颜色不变性网络的性能更加稳定，其中W始终优于其他模型。0CIConv减少了特征图分布的偏移。与基线相比，颜色不变性网络的鲁棒性可以通过分析网络的特征图激活来解释。我们计算了网络不同层的平均特征图激活，平均了三次运行的结果。0在正常和暗测试集的所有样本上计算。图1中的直方图显示了基线模型在正常和低光测试集之间的强度变化引起的分布偏移。相比之下，具有不变性W的CIConv层产生了一个域不变的特征表示，因此网络中的分布在两个域之间更加对齐。我们将分布偏移量量化为两个域的特征图之间的L2距离，其中W再次产生最小的距离。其他颜色不变性的L2距离以及特征图激活的分布的直方图在补充材料的第2节中提供。04.2. 昼夜自然图像分类0为了验证颜色不变性的属性是否也适用于自然图像，我们在一个新的昼夜数据集上进行了分类实验。我们提供了Common Objects Day andNight（CODaN）数据集，其中包含10个常见物体类别的昼夜图像。它包含每个类别1,000个样本的白天训练集，每个类别50个样本的白天验证集，以及每个类别300个样本的白天和夜晚测试集。CODaN由ImageNet[17]、COCO[42]和ExDark[44]数据集组成。昼夜测试集的样本如图5所示。0自然图像的性能。我们在CODaN上训练了ResNet-18的颜色不变性版本，使用与4.1节相同的设置，但没有随机裁剪，并进行了随机亮度、对比度、色调和饱和度的增强。表2显示了基线和颜色不变性网络的准确率。44030更暗暗正常亮更亮 2500K 4000K 6500K 12000K 20000K0图3：从ShapeNet[12]渲染的合成分类数据集的样本，显示了测试集中的所有光照条件。最左边的五个样本对应于不同的光源强度，而最右边的五个样本显示了一系列光源温度。“Normal”和“6500K”是等效的。0图4：在合成的ShapeNet数据集上，使用不同颜色不变性的ResNet-18的分类准确率。当训练集和测试集之间的光照条件不同时，RGB（非不变性）的性能下降，而颜色不变性保持更稳定。W表现最好。0颜色不变性网络的性能，平均了三次运行的结果。此外，还评估了其他颜色不变性（亮度、归一化RGB、综合归一化[22]和其他[6,46]）作为预处理步骤。我们还考虑了稍微调整的AdaBN版本作为可能的零样本域自适应方法，它通过在测试时为每个单独的批次采样批量归一化层的批次统计信息，提供了显著的性能提升。这与原始的AdaBN方法相反，在原始方法中，批次统计信息是从目标域数据集中预先计算的。W在夜间测试集上的表现远远优于其他模型。亮度基线的表现出人意料地好，而其他不可训练的颜色不变性甚至导致性能下降。0自然图像上的颜色不变转换我们在图6中可视化了一张白天和夜晚测试样本（RGB）的E、W、C、N和H颜色不变转换。E作为非不变边缘检测器，在暗图像的低强度部分具有较低的边缘强度。另一方面，W对强度进行了归一化，产生了更一致的边缘图。C、N和H对场景几何变化和0方法白天夜晚0基线 80.39 ± 0.38 48.31 ± 1.33 E 79.79 ± 0.40 49.95 ±1.60 W 81.49 ± 0.49 59.67 ± 0.93 C 78.04 ± 1.08 53.44± 1.28 N 77.44 ± 0.00 52.03 ± 0.27 H 75.20 ± 0.5650.52 ± 1.34 亮度 80.67 ± 0.32 51.37 ± 0.58 归一化RGB63.44 ± 1.52 41.66 ± 1.56 综合归一化[22] 70.52 ± 1.1044.34 ± 1.57 Alvarez和Lopez[6] 64.41 ± 0.74 30.06 ±0.57 Maddern等人[46] 60.83 ± 0.98 33.04 ± 1.28AdaBN[39] 79.72 ± 0.59 55.55 ± 1.070消融白天夜晚0基线+归一化 63.43 ± 1.32 42.15 ± 0.98基线+对数+归一化 63.49 ± 0.55 41.90 ± 0.69基线无颜色增强 78.99 ± 0.59 36.00 ± 0.59 W无颜色增强79.71 ± 0.57 53.62 ± 0.880表2：使用各种颜色不变量的ResNet-18架构在CODaN分类准确性上的表现（顶部）。W表现最好。消融研究（底部）显示了归一化、对数缩放和光度增强的个别效果。0因此，不会检测到颜色饱和度低的边缘，导致了显著的信息丢失。此外，这些不变量似乎更加放大了图像低强度部分的噪声。总体而言，W能够1）检测到低强度和低饱和度的边缘，2）抑制图像低强度部分的噪声，因此产生了最稳健和信息丰富的边缘图。0学习的尺度与固定尺度我们通过训练具有一系列固定σ值的模型来验证CIConv是否学习到了最优尺度，使用不变的W。图7显示了五次运行的平均准确性。我们观察到选择错误的尺度σ对准确性有负面影响。当尺度是可学习的时候，它会收敛到最优值，如图中的红色交叉点所示。这个值也被证明对夜间数据集是最优的。44040自行车船瓶子公共汽车汽车猫椅子杯子狗摩托车0图5：CODaN数据集的白天（源域）和夜晚（目标域）测试集样本。0RGB E W C N H0图6：CODaN白天和夜晚样本的颜色不变可视化（红色：正值；蓝色：负值）。E不能检测到低强度边缘，而C、N和H不能检测到颜色饱和度低的边缘。W产生了最稳健和信息丰富的边缘图。0图7：在CODaN白天（左y轴）和夜晚（右y轴）测试集上的性能，对于不同固定值的σ。通过交叉点表示学习到的σ和相应的准确性。CIConv学习到了最优值。0消融研究我们评估了简单的对数缩放和样本归一化RGB图像，而不应用颜色不变转换，是否能够实现0在夜间测试集上，性能得到了改进。此外，我们还研究了在没有亮度、对比度、色调和饱和度增强的情况下，基线模型和W网络的表现。结果如表2底部所示。归一化，无论是带有对数缩放还是不带对数缩放，都不能提高基线模型的性能。这表明，解决网络中特征图激活的源域和目标域之间的分布偏移问题，需要更多的比简单的输入样本强度归一化。此外，光度增强似乎主要有利于基线网络，而具有颜色不变性的W模型对光照变化更具鲁棒性。这两个结果强调了颜色不变性转换的重要性和有效性。04.3. 语义分割0我们使用Re�neNet [41]架构和在ImageNet[17]数据集上预训练的ResNet-101和W-ResNet-101特征提取器进行语义分割实验。分割模型在训练集上进行训练。44050方法夜间驾驶黑暗苏黎世0仅在源数据上训练0Re�neNet [41] 34.1 30.6 W-Re�neNet [ours] 41.634.5 Re�neNet-AdaBN [39] 36.3 31.30在源数据和目标数据上训练0ADVENT [74] 34.7 29.7 BDL [40] 34.7 30.8AdaptSegNet [64] 34.5 30.4 DMAda [16] 41.6 32.1Day2Night [58] 45.1 - GCMA [56] 45.6 42.0MGCDA [57] 49.4 42.50表3：在夜间驾驶[16]和黑暗苏黎世[56]上的分割性能，以mIoU得分报告。W-Re�neNet优于仅在白天数据上训练的其他方法，并且在使用夜间图像的方法中具有竞争性能。0训练集包含2975个密集注释的白天街景图像，并在夜间驾驶[16]的50个粗略注释的街景图像和黑暗苏黎世[56]的151个密集注释图像上进行评估。我们使用带有动量0.9的SGD进行训练，权重衰减为1e-4，初始学习率为0.1，每30个epoch后按0.1的因子逐步减小。所有输入图像都被调整为1024x512像素，并随机裁剪为768x384像素，允许在2个GeForceGTX 1080 TiGPU上进行批处理大小为6。通过随机缩放、亮度、对比度和色调变化以及水平翻转进行数据增强。推理时，使用1024x512的样本进行，不进行裁剪。结果以平均交并比（mIoU）的形式在表3中显示。其他方法的结果来自于对应论文。颜色不变的W-Re�neNet在性能上明显优于普通的Re�neNet和Re�neNet-AdaBN模型，这些模型也仅在源域数据上进行训练，并且与同时在源域和目标域数据上训练的方法具有竞争性能。定性的分割结果在图8中显示。详细的每类得分在补充材料的第4节中包含。04.4. 视觉地点识别（VPR）0我们首先与基于可学习归一化的地点识别类似的工作进行比较，然后我们0方法 Tokyo 24/7（mAP）0仅在源数据上训练0VGG GeM [52] 79.4 W-VGG GeM [ours] 83.3ResNet101 GeM [52] 85.0 W-ResNet101 GeM[ours] 88.3 EdgeMAC [53] 75.9 U-Net联合[32]79.8 CLAHE [85] 84.1 EdgeMAC + VGG GeM[32] 85.40在源数据和目标数据上训练0VGG GeM [52] 79.8 U-Net联合[32] 86.5 CLAHE[85] 87.0 EdgeMAC + CLAHE [32] 90.5EdgeMAC + U-Net联合[32] 90.00表4：在Tokyo24/7数据集[62]上的地点识别结果。具有我们的CIConv层的VGGGeM优于所有仅在白天数据上训练的其他方法。+表示不同模型的集成。0基于颜色不变的训练CNN在额外的数据集上进行基准测试，评估指标和描述符类型，以展示在VPR中的更广泛适用性。可学习的归一化。我们使用东京24/7昼夜地点识别数据集[62]，并按照[32]中描述的评估过程进行操作。为了获得地点表示，我们在VGG广义均值池化（GeM）[52]网络之前添加了我们的CIConv层（W-VGGGeM），并按照[52]中描述的方法在Retrieval-SfM数据集上进行训练。训练数据集包含白天条件下拍摄的查询图像以及正负目标图像。结果以平均平均精度（mAP）的形式在表4中报告。竞争方法的结果来自[32]中的表1和表2。可以观察到我们的方法优于仅在白天数据上训练的所有模型，并且达到了与当前最先进方法相竞争的结果，该方法是在白天和夜晚数据上训练的两个模型的集成。更广泛的VPR适用性。在这里，我们使用VPRBench[81]的两个户外昼夜数据集：Gardens Point和Tokyo24/7，后者的评估与前一个实验类似，但在这种情况下使用Recall@1作为评估指标，适用于两个数据集。对于GardensPoint数据集，我们考虑两种设置：A（仅外观）仅具有昼夜变化，更具挑战性的A+V（外观+视点）还具有横向偏移的视点。我们考虑三个描述符池。44060输入 GT Re�neNet [41] (S) W-Re�neNet [ours] (S) AdaptSegNet [64] (S+T) DMAda [16] (S+T) MGCDA [57] (S+T)0图8：Dark Zurich [56]数据集上的定性语义分割结果。S和T分别表示模型是在源域还是目标域上进行训练。0方法 GP:A+V GP:A Tokyo 24/70AP-GeM [54] 0.87 0.92 0.91 DenseVLAD [63] 0.810.89 0.89 R101 MAC [60] 0.51 0.56 0.20 R101 Flat[59] 0.56 0.68 0.84 R101 GeM [52] 0.90 0.96 0.91W-R101 MAC [ours] 0.53 0.70 0.20 W-R101 Flat[ours] 0.61 0.91 0.85 W-R101 GeM [ours] 0.94 0.970.930表5：使用不同的特征池化类型进行VPR的Recall@1结果，包括Gardens Point (GP)和Tokyo24/7数据集。基于颜色不变性层（W）的网络优于其普通对应物，其中W-R101-GeM实现了最先进的结果。0我们在这里使用ImageNet训练的ResNet-101（R101）作为骨干网络来评估三种不同的描述符类型：卷积最大激活（MAC）[60]，扁平张量（Flat）[59]和GeM，其中只有GeM在图像检索任务中进行了进一步的训练，如前一小节所述。对于这三种描述符类型，我们计算了使用和不使用前置颜色不变性层进行训练的结果。此外，我们还与最先进的VPR方法进行了比较：DenseVLAD [63]和AP-GeM[54]。从表5中可以观察到，W-R101GeM在所有数据集上都实现了最先进的结果。此外，所有基于颜色不变性的方法都比它们的普通对应物表现更好，包括Flat和MAC描述符。这表明，即使没有进行VPR特定的训练，颜色不变性网络也能为不同的池化类型提供稳健的地点表示。05. 讨论0CIConv层中使用的颜色不变性的基础是图像形成模型0在某些简化假设下，如纯粹的哑光反射、非透明材料和单一的空间均匀光源。尽管大多数自然场景不满足这些严格条件，但我们的结果表明，CNN仍然从这些近似模型中得到了先验信息的好处。此外，当前公开可用的数据集，包括我们实验中使用的数据集，在后处理步骤中引入了各种伪影（请参见[47]中的讨论）。因此，CIConv和其他基于物理的方法只有在在图像捕获过程中足够注意保持数据的物理正确性时才能发挥其全部潜力。0颜色不变性对光照变化的鲁棒性是以牺牲一些区分能力为代价的[24]。CIConv层将输入图像转换为不再对光源的强度和颜色敏感的边缘图表示，但副作用是移除了宝贵的颜色信息。我们发现，简单地将颜色不变性与RGB输入串联会降低性能，请参见补充材料的第3节。因此，未来的研究应该集中于实现一种自适应机制，以最佳地组合颜色信息和颜色不变性边缘信息。0零样本域自适应是一种有望减少计算机视觉中数据依赖性和相应的数据收集和注释成本的方法。因此，我们希望本文能激发未来将物理先验融入神经网络的研究。0致谢0本项目得到了NWO（项目VI.Vidi.192.100）、澳大利亚机器人视觉中心和昆士兰科技大学机器人中心的部分支持。[14] Marius Cordts, Mohamed Omran, Sebastian Ramos, TimoRehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe[17] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, and L. Fei-Fei.ImageNet: A Large-Scale Hierarchical Image Database. InCVPR09, 2009. 4, 644070参考文献0[1] Mahmoud A��和Michael Scott Brown.还有什么可以欺骗深度学习？解决深度神经网络性能中的颜色恒常性错误。2019年IEEE/CVF国际计算机视觉会议（ICCV），第243-252页，2019年。1，30[2] Zeynep Akata, Florent Perronnin, Zaid Harchaoui, andCordelia Schmid.标签嵌入图像分类。IEEE模式分析和机器智能交易，38(7)：1425-1438，2015年。 20[3] N. Alshammari, S. Akcay, and T. P. Breckon.关于现代汽车语义场景理解的照度不变图像预处理的影响。在2018年IEEE智能车辆研讨会（IV）上，第1027-1032页，2018年。30[4] Naif Alshammari, Samet Akc¸ay, and T. Breckon.通过对照度不变表示进行领域适应的多任务学习用于汽车雾天场景理解。ArXiv，abs/1909.07697，2019年。 30[5] J. A. Escobedo Alvarez, Antonio Lopez, and Ram´onBaldrich.基于模型的光照不变道路分割。2008年IEEE智能车辆研讨会，第1175-1180页，2008年。 30[6] J. M. A. Alvarez and A. M. Lopez.基于光照不变性的道路检测。IEEE智能交通系统交易，12(1)：184-193，2011年3月。 2 , 3 , 50[7] Asha Anoosheh, Torsten Sattler, Radu Timofte, MarcPolle- feys, and Luc Van Gool.夜间到白天图像转换用于基于检索的定位。2019年国际机器人和自动化会议（ICRA），第5958-5964页，2019年。 20[8] Kobus Barnard, Graham Finlayson, and Brian Funt.用于具有不同照明的场景的颜色恒常性。计算机视觉和图像理解，65(2)：311-321，1997年。 20[9] A. S. Baslamisli, T. T. Groenestege, P. Das, H. A. Le, S.Karaoglu, and T. Gevers.内在图像和语义分割的联合学习。在欧洲计算机视觉会议上，2018年。 30[10] Anil S. Baslamisli, Hoang-An Le, and Theo Gevers.基于CNN的学习，使用反射和Retinex模型进行内在图像分解。CoRR，abs/1712.01056，2017年。 20[11] Gertjan J Burghouts and Jan-Mark Geusebroek.本地颜色不变性的性能评估。计算机视觉和图像理解，113(1)：48-62，2009年。 20[12] Angel X. Chang, Thomas Funkhouser, Leonidas Guibas,Pat Hanrahan, Qixing Huang, Zimo Li, Silvio Savarese, Mano-lis Savva, Shuran Song, Hao Su, Jianxiong Xiao, Li Yi, andFisher Yu. ShapeNet:一个信息丰富的3D模型库。技术报告arXiv:1512.03012[cs.GR]，斯坦福大学 - 普林

下载后可阅读完整内容，剩余1页未读，立即下载