颜色恒定性问题在深度神经网络中的性能影响

62 浏览量更新于2023-10-12 收藏 2.77MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

243校正WBWB不正确校正WB墙树WB不正确人还有什么能愚弄深度学习？解决深度神经网络性能上的颜色恒定性错误Mahmoud Afifi11约克大学，多伦多mafifi@eecs.yorku.caMichael S Brown1，22三星人工智能中心，多伦多mbrown@eecs.yorku.ca摘要有针对局部图像处理的积极研究，可以欺骗深度神经网络（DNN）产生不正确的结果。本文研究了一种可以产生类似的负面效果的全局图像操作。具体来说，我们探讨了如何强烈的偏色所造成的不正确应用的计算色彩恒常性-此外，我们还讨论了用于提高DNN鲁棒性的现有图像增强方法如何不适合对WB错误进行建模。为了解决这个问题，提出了一种新的增强方法，可以模拟准确的颜色恒常性退化。我们还探索了预处理训练和测试图像与最近的WB校正算法，以减少不正确的白平衡图像的影响我们在不同的数据集上检查了增强和预处理策略，并在CIFAR-10、CIFAR-100和ADE 20 K数据集上证明了显著的1. 介绍人们对可用于欺骗深度神经网络（DNN）产生错误结果的局部图像操作非常感兴趣这种“对抗性攻击”往往导致严重的分类错误。我们研究了一个较少探索的全局图像操作问题，该问题可能会对DNN的性能产生类似的不利影响。特别是，我们感兴趣的计算色彩恒定性，这使得数码相机的白平衡（WB）例程的作用。我们专注于计算的颜色恒定性，因为它代表了一个共同的来源，在真实图像中发现的全球图像误差。当WB在相机上应用不正确时，它会导致捕获的图像中出现不期望的偏色具有如此强烈的偏色的图像通常会被丢弃类别：波斯猫类别：纸箱 class：WalkerHoundclass：snorkel校正WBWB不正确校正WBWB不正确车植物绘画草路岩石地板架图1.正确/不正确的计算颜色恒定性的影响（即，白平衡）（顶部）ResNet [29]的分类结果;（底部）RefineNet [39]的语义分割。用户。因此，在线图像数据库和存储库偏向于包含大多数正确白平衡的图像。这是一个隐含的假设，对于从网络和在线抓取的图像组成的数据集来说，这是不明确的。然而，在现实世界的应用中，不可避免的是，在某些时候，图像将被捕获与不正确的WB应用。具有不正确WB的图像可能对在白平衡偏置训练图像上训练的DNN产生不可预测的结果，如图所示。1.一、贡献我们研究了与计算颜色恒定性相关的错误如何对专注于图像分类和语义分割的DNN产生不利此外，我们表明，用于扩大训练图像的变化的图像增强策略并不适合模仿由颜色恒定性误差引起的图像退化类型。为了解决这些问题，我们引入了一种新的增强方法，可以准确地模拟语义分割结果分类结果244逼真的色彩恒定性退化。我们还研究了一种新提出的WB校正方法[2]来预处理测试和训练图像。使用所提出的增强和预处理校正在CIFAR-10、CIFAR-100和ADE 20 K数据集上进行的实验表明，在测试具有颜色恒定性误差的图像输入时，性能得到了显著改善。2. 相关工作计算色彩恒定相机具有板上图像信号处理器（ISP）将原始RGB传感器值转换为标准RGB输出图像（称为sRGB图像）[33，47]。计算颜色恒定性，通常在摄影中被称为WB，用于模拟人类在任何类型的照明下将物体感知为相同颜色的能力。 WB用于通过从输入图像（例如，[1、6、7、9、17、25、30、51]）。在WB应用于原始RGB图像之后，ISP进一步应用许多额外的非线性照片整理颜色操作来渲染最终的sRGB图像[2]。这些照片整理操作包括但不限于色调/饱和度操纵、一般颜色操纵和局部/全局色调映射[8，27，33，44，47]。相机通常有多种照片整理风格，用户可以选择[2，33，34]。sRGB图像中的WB后校正当WB应用不正确时，会导致sRGB图像具有强烈的色偏。由于WB后ISP应用的非线性照片加工操作，因此校正sRGB图像中的错误是不平凡的[2，45]。当前的解决方案需要从辐射校准或原始图像重建方法（例如，[14，34，45]），其包含撤销由ISP应用的特定非线性照片洗印处理的必要信息。通过转换回原始RGB空间，可以使用对角校正矩阵来应用正确的WB，然后由ISP重新渲染。不幸的是，用于反转相机流水线和重新渲染图像的元数据很少可用，特别是对于从网络上收集的sRGB图像，就像现有的计算机视觉数据集一样。最近，研究表明，可以通过估计高次多项式校正矩阵来实现白平衡sRGB图像[2]。[2]中的工作，称为WB for sRGB images（WB-sRGB），引入了一个数据驱动的框架来估计给定测试图像的这种多项式矩阵。我们通过扩展此框架来构建WB-sRGB[2]，以在最终sRGB图像上模拟WB错误，而不是校正WB。我们还使用WB-sRGB方法[2]来检查在训练t= 4800Kt= 2850Kt= 3800Kt= 5500Kt= 7500K(A) 使用正确的WB渲染图像(B)不同WBRGB抖动交换HSV抖动下降t=2850Kt= 3800Kt=5500Kt= 7500K(C)传统的颜色增强（D）我们生成的图像图2.（A）来自应用了正确WB的相机的sRGB图像(B)来自同一台相机的图像，应用了不正确的WB色温（t）。(C)通过使用现有增强方法处理图像（A）生成的图像-这些图像显然不代表（B）中的图像（D）图像生成(A)使用我们提出的方法，详细介绍了第2节。4.第一章测试图像，以提高DNN模型对不正确的白平衡图像的性能。对抗性攻击DNN模型容易受到局部图像操纵形式的对抗性攻击（例如，见[18，26，37，54]）。这些图像是通过向原始图像添加精心制作的不可感知的扰动层创建的[26，54]。这种扰动层通常由局部非随机对抗噪声[3，26，41，54，58]或局部空间变换[57]表示。广告示例能够误导预先训练的模型来预测某个错误的响应（即，有针对性的攻击）或任何错误的响应（即，无目标的，在粘性）[3，12，40]。虽然不正确的颜色恒定性不是对抗性攻击的明确尝试，但这种全局修改产生的故障类型很像非目标攻击，并且可能对DNN的性能产生不利影响。为了克服有限的训练数据并增加视觉变化，图像增强技术被应用于训练图像。现有的图像增强技术包括：几何变换（例如，旋转，平移，剪切）[19，28，28，46]，合成遮挡[60]，像素强度处理（例如，均衡、对比度调节、亮度、噪声）[19，56]，以及颜色处理（例如，RGB颜色抖动和基于PCA的移位、HSV抖动、颜色通道丢弃、颜色通道交换）[15、19、23、32、36、38、42、48、49]。传统的颜色增强技术随机改变训练图像的原始颜色，旨在提高训练模型的泛化能力和鲁棒性，245推理阶段。然而，现有的颜色增强方法通常生成在现实中很少发生的不真实的颜色（例如，绿色皮肤或紫色草）。更重要的是，现有色彩增强的视觉外观输入图像ReLU激活（第44层）输入图像ReLU激活（第44层）技术并不能很好地代表不正确的WB应用机载相机产生的色偏，如图所示。二、如[4，13，22]所示，图像形成对不同计算机视觉任务的准确性具有重要影响。最近，相机成像管道的简化版本被用于数据增强[13]。然而，[13]中的这种增强方法明确地没有考虑由于WB之后应用的后续非线性操作而导致的不正确WB的影响。为了解决这个问题，苏，我们提出了一个基于相机的增强技术，可以合成生成具有现实的WB设置的图像。DNN Normalization Layers标准化层通常用于提高训练过程的效率。这些层将简单的基于几何学的移位和缩放操作应用于网络层的激活。可以从整个小批量（即，批归一化[31]）或从每个训练实例（即，实例规范化[55]）。最近，引入了批量实例规范化（BIN）[43]，通过基于当前任务在批量和实例规范化之间进行平衡来改善与训练图像虽然BIN被设计为使用简单的基于统计的操作来学习保持或减少原始训练风格变化之间的权衡，但是[43]中的工作没有提供关于不正确的WB设置的任何研究。我们工作中提出的增强和预处理方法直接针对训练和测试图像，不需要对DNN架构或训练机制进行任何更改。3. WB错误对预训练DNN我们首先研究了不正确的白平衡图像对预训练的DNN模型的影响，用于图像分类和语义分割。作为一种激励，Fig。3显示了应用于同一图像的两种不同WB设置。图3显示DNN为了进行定量评估，我们采用了几个DNN模型，这些模型是为 ImageNet 大规模视觉识别挑战赛（ILSVRC）2012 [21]和ADE 20K场景解析挑战赛2016[61]训练的生成一个由不正确WB图像组成的全新标记测试集是一项艰巨的任务-ImageNet分类包括1，000个类和像素精确的语义注释，每幅图像需要60分钟[50]。代替一个新的测试集，我们应用我们的方法，模拟WB错误，(A) 色温：2850 K; ResNet-50响应：蜜蜂相机内WB合成WB(B) 色温：7500 K; ResNet-50响应：油菜籽图3.使用摄像机内渲染和我们的方法渲染两种不同色温（用t表示）的图像。(A)形象课是蜜蜂。（B）图像类是油菜籽。分类结果由ResNet-50获得[29]。每个数据集的验证图像。我们的方法将在第二节中详细介绍。4.第一章分类我们将我们的方法应用于ImageNet的验证集，以生成具有五种不同颜色温度和两种不同照片加工风格的图像，每个验证图像总共有十种WB变化; 899张灰度图像被排除在此过程之外。我们总共生成了491，010张图像。我们检查了以下六个著名的DNN模型，这些模型是在原始ImageNet训练图像上训练的：AlexNet[36] 、 VGG-16& VGG-19 [52] 、 GoogLeNet [53] 和ResNet-50& ResNet- 101 [29]。表1显示了在我们生成的验证集（即，与原始相比，最终验证集。在大多数情况下，准确度会下降10%。图4显示了一个例子的影响，正确的WB。语义分割我们对2，000张图像使用了ADE 20 K验证集，并为每张图像生成了10张具有不同WB/照片整理设置的图像。最后，我们总共生成了20，000张新图像。我们测试了以下两个在原始ADE 20 K训练集上训练的 DNN 模型： DilatedNet [16 ， 59] 和 Re- fineNet[39]。表2显示了不适当的白平衡图像对交叉-联合（IoU）的影响，(A)原始图像（B）使用不同WB设置生成的三个图像图4.预先训练的模型会受到错误WB设置的负面影响。(A)原始图像。(B)生成具有不同WB色温的图像（由t表示）。VGG-16 [52]、GoogLeNet [53]和ResNet-50 [29]的分类结果写在每个图像的顶部术语E和S分别代表埃及人和暹罗人相机内WB合成WBVGG：candleGoogLeNet：ScatResNet：t=3800Kt= 7500KVGG：蜡烛GoogLeNet：蜡烛ResNet：蜡烛VGG：candleGoogLeNet：ScatResNet：t=2850KVGG：EcatGoogLeNet：ScatResNet：Ecat246表1. ImageNet [21]上的不良性能是由于其验证图像的不正确WB版本。这些模型是在原始ImageNet训练集上训练的报告的数字表示每个模型达到的前1精度的变化模型对top-1准确度AlexNet [36]-0.112VGG-16 [52]-0.104VGG-19 [52]-0.102[53]第五十三话-0.107[29]第二十九话-0.111ResNet-101 [29]-0.109表2. ADE20K [61]上的不良性能，原因是包含了其验证图像的错误WB版本。模型在ADE20K的原始训练集上进行训练。所报告该数据集（1，797个正确的sRGB图像，每个图像具有十个相应的图像，这些图像用五种不同的颜色温度和两种不同的照片整理风格（Camera Standard和AdobeStandard）呈现）。4.2. 颜色映射接下来，我们计算正确的白平衡sRGB图像到其十个对应图像中的每一个之间的映射我们遵循与WB-sRGB方法相同的过程[2]，并使用核函数，将RGB颜色投影到高维空间中。然后，我们对这些投影值进行多项式数据拟合。具体cally，我们使用[R，G，B]T→[ R，G，B，RG，RB，GB，R2，G2，B2]T [24].数据拟合可以用颜色表示数字表示交并（IoU）的变化，由每个模型在原始验证上实现的逐像素精度（pxl-acc）变换矩阵M最小化方程：tcorr→t 计算公式如下：模型对IoU的对pxl-acc的DilatedNet [16，59]-0.023-0.024RefineNet [39]-0.031-0.026由原始验证集上的相同模型获得的逐像素精度（pxl-acc）。虽然用于分割的DNN比用于分类的结果更好，但我们仍然会导致性能下降超过2%。4. 提出的模拟WB误差的方法给定一个sRGB图像，表示为Itcorr，假设它是用正确的色温进行白平衡的，我们的目标是修改Itcorrargmin Mtcorr→t（Itcorr）−ItF，（1）Mtcorr→t其中Itcorr和It是用正确色温渲染的白平衡图像的3×ntcorr和分别以目标不同色温t渲染的相同图像的颜色值， n 是每个图像中的像素总数，弗罗贝纽斯（Frobenius）范数，Mtcorr→t表示为非线性3×9全模矩阵我们计算每对正确的白平衡图像和其对应的目标图像之间的颜色变换矩阵，该目标图像用特定的色温和照片加工渲染。最后，我们有十个矩阵与我们的训练数据中的每个图像相关联。由于我们没有获得信息，Corr’s4.3. 颜色特征年龄，我们不能重新渲染图像从raw-RGB到sRGB使用标准的摄像机流水线。相反，我们采用了一种数据驱动的方法，直接在sRGB颜色空间中模拟这种操作我们的框架在很大程度上借鉴了WB-sRGB数据驱动框架[2]，该框架被提出用于纠正不适当的白平衡sRGB图像。然而，我们的框架在渲染的 sRGB 图像上“模拟”WB错误。图5提供了我们的方法的概述。4.1. 数据集我们的方法依赖于[2]生成的sRGB图像的大型数据集。此数据集包含使用不同WB设置和照片整理样式渲染的图像。存在地面实况sRGB图像（即，以“正确”色温呈现）。使用五种不同的色温渲染训练sRGB图像：2850开尔文（K）、3800 K、5500 K、6500 K和7500K。此外，每个图像都使用不同的相机照片整理风格渲染。在我们的WB仿真框架中，我们使用了来自如图5，当增强输入sRGB图像以具有不同的WB设置时，我们在数据集中搜索与输入图像相似的sRGB图像。这种搜索不是基于场景内容，而是基于图像的颜色分布。因此，我们用RGB-uv投影颜色直方图在[2]中使用。每个直方图特征表示为m×m×3张量。为了进一步减小直方图特征的大小，我们将主成分分析（PCA）应用于三层直方图特征。该变换将零中心矢量化直方图映射到新的低维空间我们的实现使用了55维PCA向量。因此，我们的最终训练数据由每个训练白平衡图像的压缩特征向量、相关的颜色变换矩阵以及PCA系数矩阵和偏置向量组成。4.4. KNN检索给定一个新的输入图像Iin，我们提取它的压缩颜色特征v，然后用247SKS输入sRGB图像图5.我们的WB仿真框架。(A)一个包含1,797张正确白平衡的sRGB图像的数据集[2];每张图像都有10张对应的sRGB图像，使用五种不同的色温和两种照片整理风格（相机标准（CS）和Adobe标准（AS））渲染。对于每个白平衡图像，我们生成其紧凑的直方图特征和十个颜色变换矩阵到相应的十个图像。(B)我们的WB仿真管道（详细信息见第4）. (C)输入图像的增强图像表示不同的色温（由t表示）和照片加工风格。颜色分布类似于输入图像的颜色分布。采用L2距离作为v与训练压缩颜色特征之间的相似性度量。最后，我们检索与最近的k个训练图像相关的颜色变换矩阵。检索到的可能由于计算色彩恒定性误差而具有强的全局色偏。基于WB-sRGB框架[2]和第2节中讨论的修改后的框架。4.我们研究了三种策略来提高DNN模型的鲁棒性。矩阵的集合由M={M（j）}j=k表示，其中s sj=1M（j）表示颜色变换矩阵，其将第j个白平衡训练图像颜色映射到以色温t渲染的它们的对应图像颜色。4.5. 变换矩阵在计算v和最近的训练特征之间的距离向量d之后，我们计算加权向量α如下[2]：.Σexp−d2/ 2σ2(1) 第一个策略是将WB校正应用于每个测试图像，以消除任何意外的颜色在推理期间进行强制转换。请注意，这种方法直接假设训练图像是正确的WB。在我们的实验中，我们使用WB-sRGB方法[2]校正测试图像，因为它目前在白平衡sRGB渲染图像方面达到了最先进的水平。我们研究了调整简单的基于对角线的校正-αj=αK′k=1 exp.J−d2′/2σ2 ，j∈[1，.， k]，（2）灰色世界[10]）-实际上，直接其中σ是径向基函数参数。我们使用σ= 0。25在我们的实验中我们将最终的颜色变换矩阵Mtcorr→t构造为检索到的颜色变换矩阵Ms的线性加权组合。该过程如下所示[2]：Σk在训练图像上类似于乘法颜色抖动。这就是为什么我们需要使用非线性颜色操作（例如，[2]估计的多项式校正），用于sRGB图像的更准确的差异的一个例子如图所示。六、值得一提的是，姆拉特Corr→t=j=1α jM（j）.（三）WB-sRGB方法具有五个固定色温（2850 K、3800 K、5500 K、6500 K、7500 K），所有色温都具有颜色最后，“重新渲染的色温T校正矩阵映射到其对应的校正WB。在大多数情况下，这五个固定的色温之一将在视觉上类似于正确的WB。因此，在本发明中，t=Mt5. 实验Corr→t（Iin）。（四）如果将WB-sRGB方法应用于已经正确白平衡的输入图像，则计算的变换将充当恒等式。鲁棒性策略我们的目标是提高DNN方法在面对测试图像时的性能，(2) 第二种策略考虑的情况是，一些训练图像可能包括一些不正确的(A)训练数据不同WB/照片处理的CS具有正确WB的图像ASt= 2850Kt= 3800Kt= 7500K训练直方图特征…一组颜色变换矩阵与每个压缩要素相关联压缩特征M2850K（AS）φ（I）M2850K（CS）φ（I）(C)我们生成的图像t= 2850Kt= 3800K&CSASt= 2850Kt= 3800Kt= 7500K训练图像（一）…t= 5500Kt = 7500KM7500K（AS）φ（I）M7500K（CS）φ（I）(B)WB仿真直方图特征将颜色变换矩阵应用于输入图像从类似的训练示例生成颜色变换矩阵M^1KNN检索压缩特征……………………合成WB渲染248白平衡图像因此，我们还将WB校正步骤应用于所有训练图像以及测试图像。这再次在测试和训练图像上使用WB-sRGB方法[2(3) 最后一个策略是根据我们在第二节中描述的方法来增加训练数据集。4.第一章与其他增强方法一样，不需要预处理这个增强过程背后的假设是，DNN模型的鲁棒性可以通过在作为颜色恒定性误差样本的增强图像上进行训练来提高。测试数据类别测试图像分为两类。在第1类（Cat-1）中，我们通过应用我们的方法来模拟摄像机WB误差（在第2节中描述），扩展了CIFAR-10、CIFAR-100和ADE 20 K数据集中的原始测试图像。4）.每个测试图像现在具有共享相同的地面实况标签的十（10）个变体。我们承认这不是最佳的，因为修改测试图像的相同方法用于增强训练图像。然而，我们有信心在所提出的方法的能力，以模拟WB错误，我们觉得Cat-1图像代表现实世界的例子。也就是说，我们不将策略1和2应用于Cat-1，因为WB-sRGB方法基于用于生成测试图像的类似框架。为了完整起见，我们还包括类别2（Cat-2），它由直接从原始RGB图像生成的新数据集组成。具体而言，使用完整的相机内流水线将原始RGB图像渲染为具有相机内颜色恒定性误差的sRGB图像。因此，Cat-2图6. (A)使用不正确的WB设置渲染的具有不同类别的“狗”的图像(B)使用灰色世界（GW）校正图像[10]。(C)使用WB-sRGB方法校正图像[2]。AlexNet的预测类写在每个图像的顶部。（A）和（B）中的图像被错误分类。5.1. 实验装置我们将上述三种策略与两种现有的和广泛采用的颜色增强过程进行比较：RGB颜色抖动和HSV抖动。我们的方法使用k=25应用最近邻搜索。所提出的WB增强模型在7.3秒（CPU）和1.0秒（GPU）内运行以生成十个1200万像素的图像报告的运行时间是使用英特尔至强E5-1607@3.10 GHz CPU 和 NVIDIA™ Titan X GPU 计算的。现有的颜色增强就我们所知，现有的颜色增强方法没有标准化的方法。因此，我们测试了不同的设置，并选择了产生最佳结果的设置。对于RGB颜色抖动，我们通过对图像的每个颜色通道应用随机移位x<$N（µx，σ2）来生成10个具有新颜色的图像。对于HSV抖动，我们通过将随机移位x应用于色调通道并将每个饱和度和数值通道，通过随机比例因子s <$N（µs，σ2）。我们发现µx=−0。3，µs=0。7，σ = 0。6在增强过程中为我们提供了色彩多样性与低色彩伪影之间的最佳折衷过程5.2. 网络训练对于图像分类，在Ima-geNet数据集上训练新模型需要付出无法承受的努力-例如，ILSVRC 2012包含100万张图像，1000万图像后，应用任何颜色augmen-站技术。因此，我们进行实验在CIFAR-10和CIFAR-100数据集[35]上，由于每个数据集中的图像数量更易于管理。我们在CIFAR-10上从头开始训练SmallNet [46]。我们还微调了AlexNet [36]，以识别CIFAR-10和CIFAR-100数据集中的新类。对于语义分割，我们在ADE 20K数据集[61]的训练集上微调了SegNet [5我们训练每个模型：（i）原始训练图像，(ii)WB-sRGB方法[2]应用于原始训练图像，以及（iii）原始训练图像与通过颜色增强方法产生的广告图像。对于颜色增强，我们检查了RGB颜色抖动，HSV抖动和WB增强。因此，我们为每个CNN架构训练了五个模型，每个模型都是在上述训练设置中训练的。为了公平比较，我们对每个模型进行了相同次数的迭代训练。具体来说，培训是为了图像分类的29，000次和550，000次迭代睡袋鸭嘴兽虎鲸通气管河豚灰鲸吉娃娃狗德国牧羊犬(B)GW校正(C)WB-sRGB校正(A)原始图像249和语义分割任务。我们调整了epoch的数量，以确保每个模型都是在相同数量的mini-batch上训练的，以便在增强集和原始集的训练之间进行公平的比较请注意，通过使用固定次数的迭代来使用原始训练数据和增强数据训练模型，当我们使用额外的增强数据训练模型时，我们训练使用NVIDIA™ Titan X GPU进行。补充资料中给出了训练参数的详细信息。5.3. Cat 1Cat-1使用我们在第2节中描述的方法生成的测试图像来测试每个模型。4.第一章我们使用CIFAR-10测试集（10，000张图像）来测试在同一数据集的训练集上训练的SmallNet和AlexNet模型我们还使用CIFAR- 100测试集（10，000张图像）来评估在CIFAR-100上训练的AlexNet模型。在将我们的WB仿真应用于测试集之后，我们对于CIFAR-10和CIFAR-100的每个测试集具有100，000个图像每个训练模型获得的前1个准确度如表3所示。我们的扩展测试图像，其中包括强烈的色偏，最好的结果是使用我们提出的WB增强数据训练的模型有趣的是，实验表明，在大多数情况下，对训练数据应用WB校正[2]可以提高使用原始测试集和扩展测试集的准确性。与使用其他颜色增强器相比，在WB增强训练图像上训练的DNN在原始测试图像上实现了最佳改进语义分割我们使用的是ADE 20K验证集，其设置与第2节中所述的设置相同。 3 .第三章。表4示出了所获得的经训练的SegNet模型的pxl-acc和IoU我们的WB增强获得了最佳结果;图7示出了定性示例。补充材料中还提供了其他示例。5.4. Cat 2Cat-2数据要求我们使用原始RGB图像生成和标记我们自己的测试图像数据集。为此，我们从以下数据集中收集了518张包含CIFAR-10对象类的原始RGB图像：HDR+ Burst Photography数据集[27]，MIT-AdobeFiveK数据集[11]和Raise数据集[20]。我们渲染了所有原始RGB图像表3. [Cat-1] SmallNet [46]和AlexNet [36]在CIFAR数据集[35]上的结果。所示的精度由在以下方面训练的模型获得：原始训练、“白平衡”和色彩增强集。使用以下设备进行测试：原始测试集和具有不同合成WB设置的测试集（表示为diff.WB）。基准模型的结果（即，在原始训练集上训练的）以绿色突出显示，而每个测试集的最佳结果以粗体显示。我们突出显示通过颜色增强技术获得的最佳结果。对基线模型结果的影响显示在括号中。Cat-1[35]第三十六话：我的世界训练集原始Diff. WB原始训练集0.7990.655“White-balanced”0.801（+0.002）0.683（+0.028）HSV增广集0.801（+0.002）0.747（+0.092）RGB增广集0.780（-0.019）0.765（+0.11）WB增广集（我们的）0.809（+0.010）0.786（+0.131）Cat-1[35]第三十六话：我的世界原始训练集0.9330.797“White-balanced”0.932（-0.001）0.811（+0.014）HSV增广集0.923（-0.010）0.864（+0.067）RGB增广集0.922（-0.011）0.872（+0.075）WB增广集（我们的）0.926（-0.007）0.889（+0.092）Cat-1[35]第三十六话：我的世界原始训练集0.7680.526“White-balanced”0.757（-0.011）0.543（+0.017）HSV增广集0.722（-0.044）0.613（+0.087）RGB增广集0.723（-0.045）0.645（+0.119）WB增广集（我们的）0.735（-0.033）0.670（+0.144）表4. [Cat-1] SegNet [5]在ADE 20 K验证集[61]上的结果。所示的交联（IoU）和逐像素精度（pxl-acc）是通过使用以下各项训练的模型实现的：原始训练、“白平衡”和颜色增强集。使用以下设备进行测试：原始测试集和具有不同合成WB设置的测试集（表示为diff. WB）。对在原始训练集上训练的SegNet的结果的影响在括号中示出。高亮标记如表3所述。Cat-1IOU原始Diff. WB原始训练集0.2080.180“White-balanced”0.210（+0.002）0.197（+0.017）HSV增广集0.192（-0.016）0.185（+0.005）RGB增广集0.195（-0.013）0.190（+0.010）WB增广集（我们的）0.202（-0.006）0.199（+0.019）Cat-1pxl-acc原始训练集0.6030.557“White-balanced”0.605（+0.002）0.579（+0.022）HSV增广集0.583（-0.020）0.536（-0.021）RGB增广集0.544（-0.059）0.534（-0.023）WB增广集（我们的）0.597（-0.006）0.581（+0.024）并且产生与相机内处理将产生的结果几乎相同的结果[2]。包含多个对象的图像被手动裁剪为仅包含感兴趣的对象-即CIFAR-10类。最后，我们生成了15，098个渲染测试图像，反映了真实的相机内WB设置。我们在实验中使用了以下测试集：使用Adobe Camera Raw模块，可以使用不同的色温和两种照片处理风格。Adobe Camera Raw可准确模拟摄250像机内置的ISP(i)相机内自动WB包含图像在Adobe Cam- eraRaw中使用自动WB（AWB）校正设置渲染251别人壁建筑天蓬草水栅土房子砂杆植物板凳人行道SeaRoad桥运舟车天花板地板(A) 原始(B) 地面实况(C) 结果w/o(D) WB结果(E) 图像与(F) 结果w/o(G) WB结果看台van塔山楼梯楼梯(H) 颜色验证图像语义掩码颜色扩充增强不同WB设置颜色扩充增强代码图7.SegNet [5]在ADE 20K验证集[61]上的结果（A）原始验证图像。（B）Ground Truth Semantic Mask。（C）&(D)分别使用（A）中的图像进行颜色增强的训练模型的结果（E）具有不同WB的图像（F）（G）分别使用（E）中的图像的w/o和颜色增强的（H）颜色代码。术语表5. [Cat-2] SmallNet [46]和AlexNet [36]的结果。所示的准确度是使用原始训练、“白平衡”和颜色增强集上的训练模型获得的括号中显示了对在原始训练集上训练的模型结果的影响。高亮标记如表3所述。Cat-2SmallNet训练集凸轮内AWB摄像头内差异WBWB预处理原始训练集0.4670.4040.461“White-balanced”0.496（+0.029）0.471（+0.067）0.492（+0.031）HSV增广集0.477（+0.001）0.462（+0.058）0.481（+0.02）RGB增广集0.474（+0.007）0.475（+0.071）0.470（+0.009）WB增广集（我们的）0.494（+0.027）0.496（+0.092）0.484（+0.023）Cat-2AlexNet原始训练集0.7920.7340.772“White-balanced”0.784（-0.008）0.757（+0.023）0.784（+0.012）HSV增广集0.790（+0.002）0.771（+0.037）0.779（+0.007）RGB增广集0.791（-0.001）0.779（+0.045）0.783（+0.011）WB增广集（我们的）0.799（+0.007）0.788（+0.054）0.787（+0.015）AWB有时会失败;我们手动删除了有明显偏色的图像。这组图像旨在等同于在现有图像分类数据集上测试图像。(ii) 相机内WB设置包含以不同色温和照片整理风格渲染的图像。此集合表示包含WB偏色错误的测试图像。(iii) WB预处理校正应用于设置(ii) 包含应用WB-sRGB校正后的集合（ii）的图像[2]。这一套是用来研究潜在的在推断阶段中应用预处理WB校正的改进。表5显示了Small- Net和AlexNet在外部测试集上获得的前1名准确率。实验表明，当测试集是经过Incor修改的图像时，准确率降低了1.6%。rect WB设置与使用相机内AWB获得的“正确”白平衡图像的原始精度进行比较。我们还注意到，通过在训练/测试图像上应用预处理WB或以端到端的方式应用WB增强，可以获得最佳精度。错误分类图像的示例如图所示。8. 其他例子也在Sup.类别：猫类别：猫分类：狗分类：狗(A) 相机内自动WB类别：鸟class：汽车class：船舶类别：飞机类别：鸟分类：狗类别：船舶类别：飞机(B) 不同的机内WB设置图8.（A）正确分类的图像渲染与相机内自动WB。(B)使用相机内不同WB渲染的错误分类图像。请注意，（B）中的所有图像都是通过在 WB 增强数据上训练的相同模型（AlexNet [36]）正确分类的。补充材料。6. 结论这项工作研究了计算颜色恒定性误差对DNN图像分类和语义分割的影响。介绍了一种精确模拟WB误差的增强方法。我们表明，预处理WB校正和使用我们的增强WB图像训练DNN都改善了针对CIFAR-10，CIFAR-100和ADE 20 K数据集的DNN的结果。我们相信我们的WB增强方法将有助于DNN寻求图像增强的其他任务。致谢这项研究的部分资金来自加拿大第一卓越研究基金的愿景：科学应用程序（VISTA）计划和NSERC发现补助金。布朗博士作为约克大学的教授，以他个人的能力对这篇文章做出了贡献。所表达的观点是他自己的观点，并不一定代表三星研究院的观点。pxl-acc = 0.8261 pxl-acc = 0.8631pxl-acc = 0.6900 pxl-acc = 0.8568pxl-acc = 0.4910 pxl-acc = 0.8734pxl-acc = 0.4119 pxl-acc = 0.8469252引用[1] Mahmoud Afifi和Michael S Brown。DNN模型的传感器独立照明估计。在BMVC，2019。2[2] Mahmoud Afifi，Brian Price，Scott Cohen，and MichaelS Brown.当颜色恒定性出错时：纠正不适当的白平衡图像。在CVPR，2019年。二、四、五、六、七、八[3] Naveed Akhtar和Ajmal Mian。对抗性攻击对计算机视觉中深度学习的威胁：一个调查。IEEE Access ，6：14410-14430，2018。2[4] 亚历山大·安德烈奥普洛斯和约翰·K·措措索斯。比较兴趣点、显著性和识别算法的实验方法中的传感器偏差。IEEE Transactions on Pattern Analysis and MachineIntelligence，34（1）：110-126，2012。3[5] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet：用于图像分割的深度卷积编码器-解码器架构。IEEE Transactions on Pattern Anal-ysis and MachineIntelligence，39（12）：2481-2495，2017。六七八[6] 乔纳森·巴伦。卷积颜色恒定性。在ICCV，2015年。2[7] Jonathan T Barron和Yun-Ta Tsai。快速傅立叶颜色恒常性。在CVPR，2017年。2[8] Tim Brooks ， Ben Mildenhall ， Tianfan Xue ， JiawenChen，Dillon Sharlet，and Jonathan T Barron.不处理图像以进行学习的原始去噪。 arXiv 预印本 arXiv ：1811.11127，2018。2[9] 格申·布克斯鲍姆物体颜色感知的空间处理器模型。富兰克林研究所杂志，310（1）：1-26，1980。2[10] 格申·布克斯鲍姆物体颜色感知的空间处理器模型。富兰克林研究所杂志，310（1）：1-26，1980。五、六[11] Vladi mirBychko vsky，Syl vainParis，EricChan，andFre´doDurand.使用输入/输出图像对的数据库学习摄影全局色调调整CVPR，2011。7[12] N. Carlini 和 D. 瓦格纳。评估神经网络的鲁棒性。IEEESymposium on Security and Privacy （SP），2017年。2[13] 亚历山德拉卡尔森，凯瑟琳A斯金纳，和马修约翰逊罗伯逊。对相机效果进行建模，以改善真实和合成数据的深度视觉。在ECCV，2018。3[14] A. Chakrabarti，Ying Xiong，Baochen Sun，T. Darrell，D. Scharstein，T.Zickler和K.萨恩科用色调映射彩色图像模拟视觉辐射不确定性IEEE Transactions on Patt

下载后可阅读完整内容，剩余1页未读，立即下载