照明作为风格概念的建模及自动白平衡校正方法研究

126 浏览量更新于2023-10-15 收藏 1.19MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4903场景照明建模为自动白平衡校正的样式FurkanKınl1Dog aYılmaz2BarsOüzcan3FurkanKırac4视觉和图形实验室，Oüzyegin Uni versity，Türkiye1 4{furkan.kinli，furkan.kirac} @ ozyegin.edu.tr，2 3{doga.yilmaz.11481，baris.ozcan.10097} @ ozu.edu.tr摘要风格可以指不同的概念（例如，绘画风格、发型、纹理、颜色、滤镜等）这取决于如何形成特征空间。在这项工作中，我们提出了一个新的想法，解释照明在单一和多光源场景的风格的概念。为了验证这个想法，我们引入了一种增强的自动白平衡（AWB）的方法，模型的照明在单一和混合照明的场景的风格因素。我们的AWB方法不需要任何照明估计步骤，但包含一个网络学习，以生成具有不同WB设置的图像的加权图。所提出的网络利用的风格信息，从场景中提取的多头风格提取模块。在混合这些加权图和场景后完成AWB校正。在单光源和混合光源数据集上的实验表明，我们提出的方法取得了令人满意的校正结果相比，最近的作品。这表明，在多个照明场景中的照明可以通过风格的概念来建模。源代码和训练模型可在https://github.com/birdortyedi/lighting-as-style-awb-correction上获得。1. 介绍感知系统通常旨在分离观察的内容和风格因素[63]。以不熟悉的口音说出的单词、以新颖的手写风格书写的字母或在不同照明条件下显示的对象可以被认为是分别集成到音频、文本或图像的内容中的风格因素的一些示例。早期的研究[44，24，43，63]用不同的计算因子模型攻击这个问题，以提供这些因子的表达表示。因子项用于表示观察结果的良好表征表示[35]。特别是在自然图像中，将内容与风格分离是一个挑战性的问题。卷积神经网络具有产生通用特征表示的能力，其可用于独立地处理自然图像的内容和风格。以前的研究试图分别处理内容和风格的纹理识别[23]和合成[33，41，57]，分类艺术风格[48]和过滤风格[66，53]，风格转换[32，36，46]，风格去除[53]和生成图像合成[51，49，50]。这些研究表明，风格表示可以通过形成一个特定的特征空间的图像，通过学习目标来提炼。风格的概念可以用不同的方式来解释例如，它可以将人的年龄、发型类型和是否戴眼镜表示为面部图像的紧凑风格[51]。仿射参数可以由映射网络来表示，在映射网络中，仿射参数形成特征映射，作为将不同属性打包在特征空间中的方式。为了实现这一点，映射网络利用随机向量或由预先训练的网络（例如VGG[62]）提取的特征向量。另一方面，风格的概念可以指艺术家的绘画风格[32]或应用于自然图像的过滤器[53]。此时，仿射参数代表特征之间的相关性，并且它们可以直接用于操纵图像的绘画风格或去除应用于图像的滤波器。基于这些发现，人们可能会认为，任何破坏性或修改性的因素，整个图像可以建模为风格因素。图像信号处理器（ISP）对原始RGB传感器图像进行连续处理操作，以获得标准RGB（sRGB）输出图像。这些操作的一些示例是降噪、白平衡（WB）、伽马校正、自动曝光和色调映射。WB是应用于原始RGB传感器图像的最早的ISP操作之一，其将捕获场景中不同照明条件的效果归一化 [25]。自动白平衡（AWB）通过估计场景的光源颜色来校正捕获的图像，假设场景中的光源是全局的。该操作使得当在不同照明下观看时，可以将场景内容中的特定颜色感知为相同的，类似于在不同照明下观看时的场景内容。4904人类视觉系统[40]。关于AWB校正的先前工作[61，45，10，12]主要集中在全局照明估计上。最近的研究[67，42，54]在单光源场景的这项任务上取得了显着的改进。作为一种常见的做法，基于对角线的校正矩阵[38]被应用于图像以执行WB。最近示出了对角校正矩阵可以由不同的静态非线性函数[6，5]或可学习函数[2]代替。在单光源场景之外，在由多个光源照明的场景上执行单光源AWB算法会导致在sRGB输出图像中产生色彩代替直接估计场景中的照明，混合由不同WB设置照明的场景的加权图[4]是最近提出的解决方案，其引入了用于增加AWB在混合照明场景上的鲁棒性的方法。出资额：在这项工作中，我们提出了一种新的AWB方法，模型的照明在单一和混合光源的场景风格。我们提出的方法包含一个网络，学习不同的照明条件的效果，场景的风格信息的帮助下，在现场。假设场景中的多个光照基本上代表了注入到场景中的附加样式信息，我们的模型通过自适应的方式利用样式信息对编码器的特征图进行归一化。然后，它简单地采用这些归一化的特征图的学习过程中的像素加权地图的相同场景与不同的WB设置。我们的AWB策略不需要应用任何照明估计算法，但学习混合场景和像素加权图，如[4]中所实践的。我们在众所周知的单光源数据集[9，18]，合成混合光源数据集[4]和夜间摄影渲染集上评估了我们的方法。此外，我们评估我们的方法的性能时，改变补丁大小的训练和WB设置用于生成加权地图。2. 相关作品本节简要回顾了以往关于照明估计、WB校正方法和学习风格因子的工作。2.1. 光源估测在以往的研究中，光源估计的主要目的是预测全局场景的照明颜色。在文献中，这个问题已经用不同的策略来解决。现有的研究工作可以分为两大类，即统计方法和基于学习的方法.统计光源估计方法大多采用一定的统计假设来估计场景光源的颜色。虽然这些方法计算效率高，他们努力预测正确的照明颜色为现实世界的情况。这些方法可以被列为灰色世界假设[17]，白色斑块假设[16]，灰色阴影[29]，灰色边缘[65，39]，亮和暗颜色PCA [22]，亮像素[47]，灰色像素[60]和灰度指数[59]。最近提出的基于学习的方法可以产生更准确的结果，由于使用的信息，从现实世界的例子，这更好地代表了现实世界的照明。基于学习的illuminant估计方法包括基于色域的方法[27，30，28，37]，贝叶斯方法[15，14，34，42]和基于神经网络的方法[31，20，55]。基于高级神经网络的方法还涉及不同的学习策略，例如分块学习[61，45]、消色差像素检测[13]、度量学习[67]、对比学习[54]、跨相机照明估计[1]和加权图混合[4]。2.2. WB校正给定场景的估计照明颜色，采用简单的基于对角线的校正矩阵[38]来对原始图像进行白平衡。在真实世界场景中，多个发光体可能出现在同一场景中，因此AWB模块容易误解场景的特定部分中发光体的强度和颜色这使得WB校正在捕获后中成为具有挑战性的问题。为了克服多个illuminant情况下的这个问题，提出了一些尝试，用非线性校正函数代替基于对角线的校正矩阵[3，5，7]。此外，最近的基于深度学习的策略[2，4]用于在多光源场景中执行WB。2.3. 学习风格因素分离内容和风格因素是一个众所周知的话题，旨在独立地处理内容和风格在这个想法的帮助下，观察的内容可以以更紧凑的方式表达[63，44，24，43，63]，观察的风格可以被重新识别[23，48，66]并被操纵为所需的风格[32，36，46，53]，甚至可以生成新的内容，一个特定的风格[33，41，51，49，50]。对于图像域，可以通过设计图像的指定特征空间来捕获样式表示[32]。该特征空间主要建立在由预训练网络的特定层（通常为VGG-16 [62]）提取的不同滤波器响应之间的相关性之上。直觉上，风格可以指一个抽象的概念。取决于学习目标如何塑造空间，特征空间可以将艺术品的艺术绘画风格、个人的发型、服装项目的纹理或猫的颜色建模先前的工作[53]表明，图像过滤器4905··Σ图1：加权图的拟议学习机制的总体设计。具有不同WB设置（即日光（D）、阴影（S）、钨（T））的图像的潜在表示被馈送到样式提取器模块中，然后计算仿射参数，并将其发送到对应的AdaIN层以从特征图中丢弃外部样式解码器部分为所有WB设置（即，WD、WS、WT）生成加权映射。破坏原始版本的图像可以被修改为样式。从这个角度来看，我们提出了一种方法，建模的照明场景中的单一或多个光源作为风格。注意，该方法并不将图像的特定风格转移到另一图像，而是旨在归一化附加注入的风格信息，其中照明被认为是风格因子。3. 方法我们提出的AWB策略模型的照明场景中的多个光源作为风格注入到场景中的不同光源。通过使用由风格提取器模块学习的仿射参数来提取不同WB设置的加权图，该风格提取器模块改编自[53]。建议的网络自适应归一化不同的滤波器响应在任何层的编码器通过一个特定的风格的潜在代码。为了完成捕获，我们遵循是映射在更高维空间中表示的初始图像的颜色的矩阵，并且是将初始图像的颜色投影到更高维空间中的多项式通过最小化目标图像和源图像颜色之间的平方和误差来优化RISK（），如[4]所示。与[4]不同的是，我们将这部分视为训练的预处理，并在训练之前保存目标图像，而不是在运行中计算它们。在提取小图像之后，遵循[4]中的方法，我们采用了一种学习机制，用于具有预定义的WB设置集的不同场景的加权图。学习机制的细节在第3.2节中解释。我们使用该学习的加权图通过将它们与小图像线性组合来生成最终的sRGB输出图像，如以下等式所示：[4]中用于推理时间后处理的方法。3.1. 改进的摄像机图像信号处理器我的朋友=Wi我⊙I˜ci（二）根据修改后的相机ISP[2，4]的现有工作，其中I_corr是校正的小sRGB图像，我们采用了一种产生高分辨率im-Hadamard乘积，Wi表示使用固定的WB设置（即日光）和使用一组预定义的WB设置渲染的附加小图像。用于渲染小图像的公式可以是第i个WB设置（i. e. ci）和Ic用ci渲染。表示小图像描述如下我的天=Mci 中文（简体）init）（1）3.2. 按风格给定一组小图像Ii，学习机制学习估计{Wi}。在这项工作中，我们采用了一种风格重新-其中Init是利用固定WB设置渲染的初始高分辨率图像（即，e. daylight），Ici代表在[53]中提出的移动网络作为学习机制的加权映射。这个网络由一个编码器组成我4906.Σ×∇∇我FFF图2：通过混合这些映射预测加权映射和AWB结果的示例我们在不同的WB设置中渲染MIT-Adobe FiveK数据集[18]（id：2808）中图像的线性在第一行中呈现了具有给定WB设置的渲染图像和传统相机流水线的AWB结果第二行展示了我们方法的预测解码器结构，其对编码器部分的所有层采用自适应特征归一化策略。在这种策略的帮助下，图像中的任何内部因素都可以建模为外部风格，需要丢弃或调整为另一种风格。实现这一目标的主要组件是每个编码器层的自适应实例归一化（AdaIN）[46]AdaIN只是将内容图像x的特征映射到样式输入y的统计数据的通道平均值μ和方差σ，如这些WB设置的地图。如[53]中所建议的，我们使用编码器层之间的跳过连接来保留相关信息，同时提取风格。拟议学习机制的总体设计如图1所示。我们通过最小化地面实况和校正补丁之间的反射误差来优化该网络，如等式5所示。Lr=||Pgt−WiPc||二（五）我在方程式3中表示。其中，Pgt和Pci表示地面实况片，并且输入AdaIN（x，y）=σ（y）x−μ（x）σ（x）+μ（y）（3）使用WB设置ci渲染的面片，Wi是权重ci的映射，作为网络的输出。我们将平滑损失[4]包含到最终目标函数中。为了提取图像的样式输入，我们使用了一个多头映射模块来映射特征表示由预先训练的VGG网络编码到风格潜在Ls=0||瓦伊奇||2个以上||瓦吉 ·阿吉||第二章（六）我空间样式潜码w被馈送到用于不同编码器级别的不同头中，并且每个头hi被附接到投影层pi（即，完全连接的），其适配编码器中的每个归一化层的仿射参数yi。w=M（z），yi=pi（hi（w））⑷其中z是由VGG提取的输入图像x的特征表示，并且M表示将输入潜在空间映射到风格潜在空间的风格提取器模块。在我们的设计中，风格提取器模块由5层MLP组成。编码器包含5个残差块，每个残差块具有特定的AdaIN层，以利用由相应的头投影的仿射参数来归一化特征映射该网络将使用不同WB设置渲染的小图像的级联特征表示作为输入，并学习产生权重其中x和y是水平和垂直Sobel滤波器，具有3 × 3核大小。我们没有包括视觉损失，因为它大大增加了训练的计算复杂性。我们的最终目标函数可以表示如下：L=Lr+λLs（7）其中λ表示正则化系数，在我们的实验中设置为100。3.3. 后处理我们有两个后处理操作，可以应用于学习的加权图，以进一步提高最终sRGB图像的质量。在前人工作的基础上，我们首先对权值映射进行多尺度集成。这4907个策略主要是基于生成一个集合4908--联系我们(A) 相机AWB（B） Deep WB（C）Mixed WB（D） Ours图3：我们的AWB方法和其他方法对MIT-Adobe FiveK数据集[18]中选定样本的定性结果比较。我们将我们的结果与传统相机AWB，Deep WB [2]和Mixed WB [4]进行比较。图像索引从上到下：2882，606，659，2431，2550。多尺度加权贴图，双线性上采样到高分辨率，然后针对每个WB设置对它们进行平均。其次，我们在快速双边求解器[11]的帮助下将边缘感知平滑（EAS）在我们的实验中，我们选择应用这两种操作，因为性能显著增加，如先前的工作所示。4. 实验4.1. 实验细节在我们的实验中，我们使用RenderedWB数据集[5]作为训练集。数据集包含65，000个由不同相机拍摄的sRGB图像，每个相机都有特定的预定义WB设置。在先前工作中的设置之后，我们有两组预定义的WB设置，它们是t，f，d，c，s和t，d，s 。 t 、 f 、 d 、 c 、 s 分别指钨（ 2850K ）、荧光（3800K）、日光（5500K）、多云（6500K）和阴影（7500K）。每个图像具有对应的精确白平衡sRGB图像作为地面实况。我们没有对图像应用任何数据增强技术。对于所有设置，我们使用Adam opti- mizer [52]（β 1 = 0）从头开始训练我们提出的模型的每个构建块。9，β2= 0。999）。学习率设置到1e-4，我们没有采用任何调度策略。4909--×表1：单光源Cube+数据集上的基准[9]。在之前的工作[5]之后，我们报告了均方误差（MSE），平均角误差（MAE）和色差（MANE 2000）度量的平均值，第一（Q1），第二（Q2）和第三（Q3不同的WB设置被表示为t、f、d、c、s，其分别指的是钨、荧光、日光、多云和阴影。p是指贴片大小。顶部结果用彩色单元格表示，最佳：绿色，第二：黄色，第三：红色。MSEMae∆E 2000表2：混合光源评估集的基准[4]。亮点和符号与表1相同。MSEMAE2000我们已经应用了两个后处理操作，这是多尺度加权映射和边缘感知平滑。我们使用大小为64和128的裁剪图像进行训练，批量大小设置为32。我们已经在一台NVIDIA RTX 2080Ti上进行了200次实验。我们的实现建立在以前的工作之上[4，53]，并在PyTorch [58]中完成。推理：在推理过程中，我们产生低分辨率版本（即。384 384），并将它们连接起来，以便馈送到所提出的模型中。该模型生成权重贴图作为输出，以混合最终的sRGB输出。在后处理之前，我们将权重映射调整为输入分辨率。4.2. 评价集为了评估我们的方法，我们使用了四种不同的评估集用于两种场景，即 Cube+[8] 和 MIT-Adobe FiveK[19]，以及[4]提出的混合光源评估集和夜间摄影渲染集[26]。Cube+包含1，707张在不同季节使用CanonEOS 550D相机拍摄的单照明颜色校准图像。MIT-Adobe FiveK数据集包含5,000张由不同数码单反相机拍摄的图像，每张图像都由多位专家手动修饰，以校正图像的白平衡。此外，我们使用混合光源的情况下，我们的评估。混合光源测试集有150个由多种光源组成的合成图像，这些图像由Autodesk 3Ds Max中建模的3D场景渲染而成[64]。方法大小是说Q1Q2Q3是说Q1Q2Q3是说Q1Q2Q3FC-4[45]371.9079.15213.41467.336.49米3.34分5.59磅8.59分10.386.609.7613.265.89 MB[13]第十三话292.1815.5755.41261.586.12分1.95公斤3.88美元8.83◦7.252.895.2110.37622 MBKNN WB[5]194.9827.4357.08118.214.12.1.96◦3.17分5.04◦5.683.224.616.7021.8 MB的内存交互式WB[3]159.8821.9454.76125.024.64磅2.12◦3.64磅5.98美元6.203.285.177.45简体中文Deep WB[2]80.4615.4333.8874.423.45公斤1.87磅2.82◦4.26米4.592.683.815.5316.7兆字节混合WB[4]结果p= 64，WB={t，d，s}168.388.9719.87105.224.20美元1.39◦2.18分5.54磅5.032.073.127.195.09兆字节p= 64，WB={t，f，d，c，s}161.809.0119.3390.814.05磅1.40公斤2.12◦4.88◦4.892.163.106.785.10兆字节p= 128，WB={t，f，d，c，s}176.3816.9635.91115.504.71米2.10米3.09分5.92磅5.773.014.277.715.10兆字节方法是说Q1Q2Q3是说Q1Q2Q3是说Q1Q2Q3灰色像素[60]4959.203252.144209.125858.6919.67分11.92米17.21分27.05分25.1319.0722.6227.46灰色指数[59]1345.47727.901055.831494.816.39米4.72磅5.65公斤7.06分12.849.5712.4914.60KNN WB[5]1226.57680.651062.641573.895.81磅4.29◦5.76磅6.85公斤12.009.3711.5613.61交互式WB[3]1059.88616.24896.901265.625.86磅4.56磅5.62磅6.62磅11.418.9210.9912.84Deep WB[2]1130.60621.00886.321274.724.53◦3.55公斤4.19分5.21分10.938.599.8211.96混合WB[4]结果p= 64，WB={t，d，s}819.47655.88845.791000.825.43米4.27分4.89美元6.23◦10.619.4210.7211.81p= 64，WB={t，f，d，c，s}938.02757.49961.551161.524.67磅3.71米4.14○5.35◦12.2610.8011.5812.76p= 128，WB={t，d，s}830.20584.77853.01992.565.03◦3.93◦4.78磅5.90公斤11.419.7611.3912.53p= 128，WB={t，f，d，c，s}1089.69846.211125.591279.395.64磅4.15磅5.09分6.50公斤13.7511.4512.5815.594910--联系我们模型MSE MAE∆E 2000单光源数据集，WB ={t，d，s}，p= 64ms= 0，eas= 098.55 2.71磅3.32ms= 1，eas= 093.78 2.59美元3.15ms= 0，eas= 197.20 2.66磅3.28ms= 1，eas= 192.65 2.47磅2.99混合光源数据集，WB ={t，d，s}，p= 128ms= 0，eas= 0878.585.05分12.12ms= 1，eas= 0843.505.04◦11.70ms= 0，eas= 1843.645.04◦11.98ms= 1，eas= 1822.775.11.11.65表3：使用多尺度加权标测图和将边缘感知平滑应用于加权标测图的消融研究。P：块大小，MS：多尺度加权图，EAS：边缘感知平滑。(a) WD(b) WT(c) WS(d) AWBAdobe FiveK数据集[18]，其索引为323和2808（自上而下）。结果表明，风格图4：先前工作[4]以及我们在混合光源数据集上的方法。：（奇数）混合WB结果，（偶数）我们的结果。WD：日光，WT：钨，WS：阴影的权重图4.3. 结果在这项工作中，我们建议在单一和混合光源场景中建模照明作为风格，以改进[4]中提出的AWB策略。为了证明我们策略的定性结果，我们使用了一组包含来自MIT-Adobe FiveK数据集[18]的多光源场景的图像。在这一点上，我们首先通过使用[6]共享的MATLAB代码渲染具有不同WB设置（例如日光，钨，阴影）的线性原始DNG图像文件。然后，我们将这些渲染图像馈送到建议的网络中，以提取它们的加权映射来混合最终的AWB校正图像。请注意，使用这些图像的不同修改版本可能会产生不同的结果。此外，对于单光源场景，我们将我们提出的策略的性能与Cube+数据集[9]上的最近研究[45，13，5，3，2，4]进行了比较。接下来，我们将我们的结果纳入混合光源评估集的基准[4]。在前人工作的基础上，我们分别给出了两个数据集的均方误差、平均角度误差和色差误差的均值、第一分位数（Q1）、第二分位数（Q2）和第三分位数（Q3）。图2展示了不同WB设置的预测权重图的示例以及由这些图混合的AWB结果。样品选自MIT-因子可以以更面向细节的方式表示光源，从而产生更可解释的该方法不需要粗略地表示场景中照射到物体上的光的区域，而是可以准确地这导致了在先前的工作中提出的AWB策略的性能的改善[4]。注意，我们的方法不需要任何光源估计步骤。此外，在图3中，我们介绍了我们的AWB方法和最近的方法[2，4]对来自同一数据集的选定样本的定性结果结果表明，与最近的方法相比，我们所提出的方法在sRGB空间中的AWB校正上实现了具有竞争力的每像素性能表1给出了我们的方法和最近的方法的定量结果，这些结果在Cube+数据集上进行了评估。我们进行了我们的实验与不同的补丁大小（即。64和128）和WB设置的不同集合（即，t，d，s和t，f，d，c，s）。我们所有的结果优于其他比较方法的结果在所有指标的大部分部分特别地，在具有不同设置的其他模型中，使用64的补丁大小和t，d，s的WB设置训练的模型实现了最佳性能如[4]中所述，我们认为较小的贴片尺寸可以更好地模拟光源。然而，与[4]相比，增加训练WB设置集合中的WB设置的数量不会在对单光源场景中的照明进行建模我们认为，较少数量的WB设置，以混合为最终输出，使更容易建立在相应的知识4911（a）标准ISP（b） ISP与[4]（c）ISP与我们的ISP图5：标准相机流水线，先前工作[4]和我们的方法的夜间摄影渲染结果比较。通过加权映射在像素之间进行分割。我们还认为，使用具有更多通道的输入进行训练可能会增加对发光体进行建模所需的架构复杂性，并且将它们与完全相同的架构进行比较可能不公平。最后，由于所提出的网络的风格提取部分，我们的方法相比最近的方法具有更大的内存开销。我们对合成混合光源评估集[4]进行了相同的实验，总体结果见表2。根据这些结果，很难选出一个优于所有其他方法的方法，因为这取决于度量。我们的方法在均方误差上进行评估时表现更好，同时与最近的平均角度误差和色差度量方法相比，实现了有竞争力的结果此外，图4展示了加权图和先前工作的混合AWB结果以及我们在该合成数据集上的方法的视觉比较。由于多个照明源可以同时影响单个对象的不同部分，因此将照明建模为样式有助于生成更详细的权重贴图，尤其是对于包含对象的部分。与先前的工作相比，我们提出的网络产生的加权映射给出了更多面向细节的结果，即使它在一些定量指标上落后于先前的工作合成数据可能比真实世界的图像具有更清晰的边缘。当我们使用这种混合策略与面向细节的加权映射，而不包括这些样本进行训练时，它可能会导致最终输出的边缘上的颜色差异。这可能会降低我们的方法在该数据集上的定量性能。为了消除[4]中提出的两种后处理方法对我们策略性能的影响，我们对两个数据集的最佳性能设置进行了额外的实验，其中后处理方法在推理时间期间交替排除。表3给出了所应用的后处理方法的不同组合的结果。实践证明，这些方法有助于提高加权图的质量，从而提高定性结果。在这一点上，可以认为将全变差正则化项添加到最终目标函数也可以实现类似的改进，并且解决后处理的需要。这一增加将需要重新考虑[4]提出的平滑损失和管道，这超出了本研究的范围。此外，夜间摄影渲染[26]是另一项具有挑战性的任务，包含受多个光源影响的不同场景。通过假设场景中的发光体是全局的，可能不容易处理在夜间捕获的图像的校正AWB。为了证明我们的策略的有效性，我们将我们的AWB方法集成到相机时代的ISP处理夜间图像。图5呈现通过标准相机流水线渲染的夜间图像，及其变体，包括混合WB[4]和我们的AWB方法。结果表明，包括我们的AWB方法的管道产生更自然和逼真的图像在广泛的夜间图像。在这一点上，我们根据场景中物体的颜色与人类视觉感知的相似程度来评估结果，而不是视觉可分辨性。请注意，我们以相同的顺序将相同的操作（即去噪[21，56]，伽马校正，色调映射和自动对比度）包括到流水线中，除了白平衡策略。5. 结论在这项工作中，我们提出了一个新的想法，modeling照明作为风格的因素，以改善目前的AWB校正方法的单一和混合光源的场景。我们提出的网络提取额外的风格信息注入的照明源的场景，并学习加权不同WB设置的地图，以混合它们的AWB校正。我们在主要包含单光源场景的数据集、合成的混合光源评估集和夜间摄影渲染集上进行了多次实验。实验结果表明，该方法可以利用风格因子对光源进行建模，并且在真实场景和不需要光源估计的合成场景中均能取得较好的校正效果。此任务的下一步可能是设计一个具有较低内存开销的样式提取模块，而不牺牲性能。4912引用[1] 马哈茂德·阿菲菲，乔纳森·T·巴伦，克洛伊·勒根德，蔡云达，弗朗索瓦·布莱贝尔.跨相机卷积颜色恒定性。IEEEInternational Conference on Computer Vision（ICCV），2021年。[2] Mahmoud Afifi和Michael S.布朗深度白平衡编辑。IEEE/CVF计算机视觉和模式识别会议（CVPR），2020年6月。[3] Mahmoud Afifi和Michael S Brown。交互式白色平衡，为相机渲染的图像。在Color and Imaging Conference，2020卷，第136科学与技术协会，2020年。[4] 放大图片作者：Mahmoud Afifi，Marcus A.Brubaker和Michael S.布朗混合光源场景的自动白平衡校正。在IEEE/CVF计算机视觉应用冬季会议（WACV）论文集，第1210-1219页[5] Mahmoud Afifi，Brian Price，Scott Cohen，and Michael SBrown.当颜色恒定性出错时：纠正不正确的白平衡图像。在IEEE/CVF计算机视觉和模式识别会议论文集，第1535-1544页[6] Mahmoud Afifi、Abhijith Punnappurath、AbdelrahmanAbdelhamed、Hakki Can、Abdullah Abuolaim和MichaelBrown。色温调节：允许准确的拍摄后白平衡编辑。彩色和成像会议，2019：1[7] Mahmoud Afifi、Abhijith Punnappurath、AbdelrahmanAbdelhamed、Hakki Can Karaimer、Abdullah Abuolaim和Michael S Brown。色温调整：允许准确率后捕捉白平衡编辑。InColor and Imaging Conference，volume2019，pages 1-6.科学与技术协会，2019年。[8] Ni k olaBanic´、KarloKosˇcˇevi c´和S v enLo ncˇ ar ic´。非监督学习的颜色恒常性。 arXiv 预印本 arXiv ：1712.00436，2017。[9] Ni k olaBanic'，KarloKo sce v ic'，andS v enLon car ic'. 颜色恒定性的非监督学习，2019年。[10] 乔纳森·T.巴伦卷积颜色恒定性。2015年IEEE计算机视觉国际会议（ICCV），第379-387页[11] 乔纳森·T.巴伦和本·普尔。快速双边求解器。在BastianLeibe，Jiri Matas，Nicu Sebe和Max Welling，编辑，计算机视觉施普林格国际出版社.[12] 乔纳森·T.巴伦和蔡云达快速傅立叶颜色恒常性。在CVPR，2017年。[13] 西蒙·比安科和克劳迪奥·库萨诺。准无监督颜色恒常性。在IEEE/CVF计算机视觉和模式识别会议（CVPR）的会议记录中，2019年6月[14] David H. Brainard和William T.弗里曼。从光传感器响应恢复表面和光源特性的贝叶斯方法在Bernice E.Rogowitz和Jan P. Allebach，编辑，人类视觉，视觉处理，和数字显示V，卷2179，页364 - 376。国际光学与光子学学会，SPIE，1994年。[15] David H Brainard和William T Freeman。贝叶斯颜色恒常性JOSA A，14（7）：1393[16] David H. Brainard和Brian A. Wandell色觉的视网膜理论分析。美国光学学会杂志。A，光学和图像科学，310：1651-61，1986。[17] 格申·布克斯鲍姆物体颜色感知的空间处理器模型。富兰克林研究所学报-工程与应用数学，310：1[18] Vladimir Bychkovsky，Sylvain Paris，Eric Chan，andFredo Durand. 使用输入/输出图像对的数据库学习摄影全局色调调整第97 - 104页[19] Vladi mirBychko vsky ， Syl vainParis ， EricChan ，andFre´doDurand.使用输入/输出图像对的数据库学习摄影全局色调调整CVPR 2011，第97IEEE，2011年。[20] 弗拉德角Cardei，Brian Funt，and Kobus Barnard.用神经网络估计场景照明色度。光学学会杂志Am. A，19（12）：2374-2386，Dec 2002.[21] 孟昶，李琦，冯华军，徐志海。用于单幅图像去噪的空间自适应网络。在Andrea Vedaldi，Horst Bischof，Thomas Brox和Jan-Michael Frahm，编辑，计算机视觉施普林格国际出版社.[22] 陈栋梁，Dilip K. Prasad，and Michael S.布朗用于颜色恒定性的照明体估计：为什么空间域方法的工作和颜色分布的作用。光学学会杂志Am. A，31（5）：1049 -1058，2014年5月。[23] Mircea Cimpoi、Subhransu Maji和Andrea Vedaldi。用于纹理识别和分割的深度滤波器组在IEEE计算机视觉和模式识别会议（CVPR）的论文集中，2015年6月。[24] 放大图片作者：Peter Dayan，Geoffrey E.作者：HintonNeal，and Richard S.泽梅尔亥姆霍兹机器。神经计算机。，7（5）：889[25] 马克·艾伯纳颜色恒定性。Color Constancy，第1-390页[26] 叶戈尔·厄绍夫和其他人Ntire 2022挑战夜间摄影渲染。在IEEE/CVF计算机视觉和模式识别会议（CVPR）研讨会上，第1287-1300页[27] 芬莱森，霍德利，和塔斯托。色域约束光源估计。在Proceedings Ninth IEEE International Conference onComputer Vision，第2卷，第792-799页[28]G. Finlayson和S.霍德利改善色域映射颜色恒定性。IEEETransactions on Image Processing，9（10）：1774[29]第二十九话Finlayson和Elisabetta Trezzi。灰色阴影和颜色恒定性。在彩色成像会议，2004年。[30]第30话提出了一种新的颜色变换算法，stancy. International Journal of Computer Vision，5：5[31] 布莱恩·方特弗拉德·卡戴和科布斯·巴纳德学习颜色恒定性。第58-60页，12月。一九九七年。4913[32] 莱昂·盖提斯，亚历山大·埃克，马蒂亚斯·贝斯格。艺术风格的神经算法。arXiv，08 2015.[33] Leon Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络进行纹理合成。In C. Cortes，N.Lawrence，D.李，M。Sugiyama和R. Garnett，编辑，神经信息处理系统进展，第28卷。Curran Associates，Inc.2015年。[34] Peter Vincent Gehler、Carsten Rother、Andrew Blake、Tom Minka和Toby Sharp。贝叶斯颜色恒常性的重新审视。2008年IEEE计算机视觉和模式识别会议，第1-8页。IEEE，2008年。[35] 祖宾·格拉马尼析因学习与EM算法。In G.特绍罗角Touretzky和T.Leen，编辑，Advances in NeuralInformation Processing Systems，第7卷。麻省理工学院出版社，1994年。[36] Golnaz Ghiasi，Honglak Lee，Manjunath Kudlur，VincentDumoulin，and Jonathon Shlens.探索实时、任意神经艺术风格化网络的结构ArXiv，abs/1705.06830，2017年。[37] Arjan Gijsenij，Theo Gevers，and Joost van de Weijer.利用图像导数结构实现颜色恒定性的通用色域映射。International Journal of Computer Vision，86（2-3）：127[38] Arjan Gijsenij，Theo Gevers，and Joost van de Weijer.计算颜色恒定性：调查和实验。IEEE Transactions onImage Processing，20（9）：2475[39] Arjan Gijsenij，Theo Gevers，and Joost van de Weijer.用光度边缘加权法改善颜色恒常性。IEEE Transactions onPattern Analysis and Machine Inteligence，34（5）：918[40] 艾伦·吉尔克里斯特《看见黑与白》，卷17，430页。2006年6月[41] David J. Heeger和James R.卑尔根基于金字塔的结构分析/合成。在1995年美国纽约州纽约市SIGGRAPH'95的第22届计

下载后可阅读完整内容，剩余1页未读，立即下载