没有合适的资源?快使用搜索试试~ 我知道了~
深度可理解颜色滤波器学习框架应用于高分辨率图像协调
+v:mala2255获取更多论文DCCF:用于高分辨率图像协调的深度可理解颜色滤波器学习框架薛本1人,冉胜辉2人,陈泉2人,贾荣飞2人,赵斌强2人,唐兴2人1中国北京大学高级跨学科研究院2阿里巴巴集团,中国抽象的。 图像颜色协调算法的目的是自动匹配在不同条件下拍摄的前景和背景图像的颜色分布。以前基于深度学习的模型忽略了两个对实际应用至关重要的问题,即高分辨率(HR)图像处理和模型可理解性。在本文中,我们提出了一种新的深度可理解颜色滤波器(DCCF)学习框架,用于高分辨率图像协调。具体来说,DCCF首先对原始输入图像进行下采样,得到低分辨率(LR)图像,然后以端到端的方式学习4个人类可理解的神经滤波器(即色调、饱和度、值和注意渲染滤波器),最后将这些滤波器应用于原始输入图像,得到协调的结果。受益于可理解的神经过滤器,我们可以为用户提供一个简单而有效的处理程序,以便在必要时与深度模型合作以获得所需的结果。大量的实验证明了DCCF学习框架的有效性,它比最先进的后处理方法在iHarmony4数据集上的图像的全分辨率7。63%,1。MSE和PSNR分别有69%的相对改善我们的代码可在https://github.com/rockeyben/DCCF上获得。1介绍图像合成是照片编辑中应用最广泛的技术之一,其目的是生成具有给定前景和背景然而,由于前景和背景可以在不同的条件下捕获,简单的剪切和粘贴操作不能使它们在颜色空间中兼容,如图1所示。因此,照片编辑在完成真实世界的构图任务时,需要花费大量时间手动调整颜色分布。在过去的几十年里,人们提出了大量的自动色彩协调算法.传统方法[3,17,22-在阿里巴巴集团实习期间完成这项工作。邮箱:xueben@pku.edu.cn。作者:陈文彬邮箱:myctllmail@163.comarXiv:2207.04788v3 [cs.CV] 2022年7+v:mala2255获取更多论文×××前景背景Copy Paste2Xue等人自动协调人类互动1人类互动2图1:颜色协调以匹配背景,当前景和背景的内容相差很大时,这可能具有较差的性能。自Tsai et al.[32]提出了一个用于颜色协调的数据驱动的深度学习框架,研究界在短时间内迅速取得了很大进展。基于深度学习的方法已经成为主流。然而,我们认为以前基于深度学习的颜色协调方法[4,6,7,11,20,28,32]忽略了两个对实际应用至关重要的问题。首先,高分辨率(HR)的图像很少考虑在以前的作品时,深颜色协调模型的设计和评估。颜色协调中的先前深度模型遵循Tsai等人提出的评估系统。[32],其将原始图像的大小调整为256 256或512 512分辨率,并在此低分辨率下计算客观度量(即MSE和PSNR)以评估模型的性能,而不是原始图像分辨率。主要原因是这些方法简单地采用UNet风格[26]网络来直接预测像素级RGB值,这是内存和计算成本高的,即使是现代GPU也无法负担HR图像。然而,色彩协调需要经常应用于现实世界中的应用,其分辨率为3000 - 3000甚至更高的HR图像因此,在低分辨率上表现良好的先前深度模型在应用于真实世界HR图像时可能具有其次,模型的可理解性和人工控制机制在以往的工作中很少考虑。 想象一下网络的协调结果有缺陷的场景,照片编辑器希望根据网络的预测进行一些修改,以避免从头开始调整,例如图1中的色调调整。因此,提供人类可理解的与深层模型的协作模式对于一个友好的色彩协调系统至关重要。然而,以前的方法利用变体网络,遵循直接预测协调结果的常见图像到图像转换框架[16]几乎不可能为人类提供可理解的工具,+v:mala2255获取更多论文×DCCF:深度可理解的颜色过滤器学习框架3与这些深层模型交互,因为预测过程是受学习所需图像变换的想法的启发,可以大幅减少图像增强的计算和内存负担[8],在本文中,我们提出了一种新的深度可理解颜色滤波器(DCCF)学习框架,用于高分辨率图像协调。具体地说,我们首先将输入降采样到低分辨率(如256 - 256)对应部分,然后在RGB和HSV颜色空间的监督下,以一种新的端到端的方式学习四种可理解的神经过滤器(即色调、饱和度、值和注意渲染过滤器),最后将这些过滤器应用于原始输入图像,以获得协调的结果。与以前基于深度学习的颜色协调方法相比,这些方法可能会在高分辨率图像上失败,我们的神经过滤器学习框架对图像分辨率不敏感,并且可以在分辨率范围从480p到4K的数据集上表现良好此外,由于滤波器中的参数(特别是色调、饱和度和值滤波器)被迫学习解耦的有意义的色彩函数的机制,使得人们可以以他们熟悉的传统色彩方式与这些深度模型进行交互值得注意的是,学习可理解的神经过滤器并不容易。我们的实验表明,直接从色调,饱和度和值通道的超视角学习权重可能会导致性能不佳。为了解决这个问题,我们构建了三个新的监督映射,它们近似于HSV颜色空间的效果,同时使深度模型收敛得很好。我们在开源的iHarmony4数据集中训练和评估我们的方法[6] 原始图像分辨率从480p(HCOCO)到4K(HADobe5k)。由于以前基于深度学习的颜色协调模型在直接应用于HR图像时表现不佳,因此我们将其与不同的后处理方法进行比较。大量的实验表明,我们的方法可以使预测过程的理解和优于这些方法。我们还提供了一个简单的处理程序,人类可以与学习的深度模型合作,根据网络的预测能力进行一些所需的修改,以避免从头开始进行简而言之,我们的贡献是三方面的。– 我们提出了一个有效的端到端深度神经过滤器学习框架,该框架对图像分辨率不敏感,这使得基于深度学习的颜色协调对于现实世界的高分辨率图像变得实用。– 据我们所知,我们是第一个设计四种类型的新的神经过滤器(即色调,饱和度,值和注意渲染过滤器)的学习功能和学习策略,使预测过程和结果的理解人类在图像协调任务。同时,我们提供了一个简单而有效的处理程序,让用户与深度模型合作,以获得所需的结果,在必要时,很少的努力– 我们的方法在高分辨率图像的颜色协调基准上实现了最先进的性能,并优于最先进的+v:mala2255获取更多论文4 Xue et al.后处理方法7. 63%,1。MSE和PSNR分别有69%的相对改善2相关工作形象协调。 在本小节中,我们将重点讨论基于深度学习的方法。这些方法将颜色协调视为黑盒图像到图像翻译任务。[32]应用众所周知的具有跳跃连接的编码器-解码器U网结构,并使用多任务学习来训练网络,同时预测像素值和语义分割。[28]将预训练的语义分割分支插入编码器主干,并引入可学习的阿尔法混合掩码以从输入图像借用有用的信息它们都在网络中使用语义特征[4,6]试图通过域转移使复合图像和谐[7,13]两者都使用了网络中的注意力[1]提出了一种用于自动图像合成的生成对抗网络(GAN)架构,该架构同时考虑几何,颜色和[11]寻求通过反射率和照明的可分离协调来解决图像协调,其中通过材料一致性惩罚来协调反射率请注意,最近一些图像协调工作开始关注高分辨率图像。[18]使用自监督学习策略来训练网络,使用高分辨率图像的小[15,27]学习全局参数以调整图像属性,例如亮度和饱和度。[10]学习像素曲线以执行低光图像增强。智能上采样。 由于深度学习网络的巨大计算负担和有限的GPU内存,处理高分辨率图像变得困难。加速高分辨率处理的常见方法是首先对图像进行下采样,在低分辨率下应用耗时的算子,然后再进行上采样。为了保持边缘梯度,引导滤波器上采样[14]使用原始高分辨率输入作为引导图。[9]从压缩的输入和输出中拟合转换配方,然后将配方应用于高质量的输入。双边引导上采样[2]用局部仿射变换的网格来近似运算符,并将其应用于高分辨率输入,从而控制运算符的复杂性。[8]用全卷积网络预测局部仿射模型,通过端到端学习训练,获得多尺度语义信息。[33]提出了一种引导滤波层,利用逐点卷积逼近中值滤波,从而可以嵌入网络中进行联合优化。[19]引入额外的网络来学习每个像素的可变形偏移[5,34]学习3D查找表(LUT)以获得高分辨率结果,但学习的变换仍然缺乏可解释的意义。+v:mala2255获取更多论文××××××××××DCCF:深度可理解的颜色过滤器学习框架5图2:我们提出的颜色协调框架的概述。它由两个主要部分组成:可理解神经滤色模块和高分辨率装配模块。给定输入图像和对应的前景掩模,低分辨率特征提取主干首先将它们下采样到低分辨率版本,诸如256 × 256,并且采用编码器-解码器网络来提取前景感知的高级语义特征。可理解的神经颜色过滤器模块,然后学习值过滤器,饱和度过滤器,色调过滤器和注意渲染过滤器同时基于从主干中提取的特征。每个滤波器以每个像素的方式学习变换函数 高分辨率拼接模块最后对每个DCCF输出的特定通道进行提取和上采样,以拼接最终结果。简而言之,输入图像I是不协调的,I1是V-协调的,I2是V、S-协调的,I3是V、S、H-协调的,I4是通过注意力模块对I 3的细化。3方法3.1框架概述用于高分辨率图像颜色协调的神经滤波器学习框架如图2所示。它由两个主要部分组成:可理解神经滤色模块和高分辨率装配模块。首先,给定原始输入图像(H W3)和对应的前景掩模(H W1),低分辨率特征提取主干将它们下采样为低分辨率对应物(256 256),然后将它们连接为输入(256 256 4)以提取前景感知高级语义表示(256 25632)。主干结构的选择是灵活的,本文使用iDIH-HRNet架构[28]随后,可理解神经滤色器模块生成一系列形状为(256×256× D)的深度可理解滤色器(DCCF),其中每个像素具有D个可学习参数q=[q1,q2,.,qD]来构造可以对输入图像I进行运算的变换函数f(I; q)。每个像素的函数f的聚集DCCF的设计及其协作机制将在第3.2节中 详 述 。最后,高分辨率汇编模块将这些滤波器映射上采样到其全分辨率(HW)副本,以便适用于决议原始输入图像。同时,由于每个DCCF仅改变图像的特定方面,因此需要组装策略来确保没有任何改变。+v:mala2255获取更多论文×ΣM输入全球调整DCCF6 Xue et al.每个过滤器的操作程序之间的冲突。细节将被讨论第3.3节。整个网络以端到端的方式进行训练,并受益于全分辨率图像的监督。此外,我们观察到RGB颜色空间中的传统损失不足以实现最先进的质量。因此,我们在第3.4节中为每个DCCF3.2可理解的神经颜色过滤模块可理解性神经颜色过滤模块在我们提出的高分辨率图像颜色协调框架中起着核心作用我们的灵感来自于著名的HSV颜色模型,它被广泛应用于照片编辑社区。与RGB颜色空间相比,HSV更直观,更容易让人类与计算机进行交互进行颜色调整。我们的模块由四个神经过滤器组成,即值过滤器,饱和度过滤器,色调过滤器和注意渲染过滤器,分别如图2中的Fval,Fsat,Fhue和Fattn所示。每个滤波器由11卷积层生成(除了专注渲染滤波器具有用于归一化的额外S形层),该卷积层建立在低分辨率特征提取主干上。像素1Pixel 2掩模平均曲线点态曲线图3:像素级值调整函数/曲线的图示。I1=Fval(I),如图所示。2可以被认为是其值被很好地调谐的结果缩放以获得更好的视图。值过滤器自定义的逐点非线性值转换函数fval定义为:f值(x;V)min)=VminM+ii=1Maximum(x−i−1,0)(1)+v:mala2255获取更多论文∈ −→→ −DCCF:深度可理解的颜色过滤器学习框架7其中x表示HSV颜色空间中输入图像的V通道,Vmin 和m是可学习的参数,m是超参数,我们设置为8在这张纸上它可以被认为是一个任意的非线性曲线,它是由一堆参数化的ReLU近似。Vmin控制取值范围的下限,m和Vmini控制曲线的非线性。参数Vmin和Vmini(i= 1,.,8)在值滤波器F val的通道方向上为每个像素存储。我们认为,不同的地方应该有不同的调整曲线,以更好的协调质量。如示于图3、两个标记点在原始值分布上有很大的差距(左边更暗,右边更亮),我们的DCCFFval成功地为这两个区域分配了合适的曲线,而全局调整降低了整体美感。1−1屏蔽输入DCCF图4:像素级饱和度调整的图示。I2= Fsat(I1),如图所示。2是中间结果。饱和度的变化与预测的σ分布一致缩放以获得更好的视图。饱和度滤波器我们使用单个参数σ [ 1,1]来控制每个像素的饱和度。针对每个像素的定制的非线性饱和度变换函数fsat被定义为:fsat(x;σ)=x+(x−Cmed)clip(σ)(2)其中x表示每个像素中的R、G或B值,Cmax=max(R,G,B),Cmin=min(R,G,B),Cmed=(Cmin+Cmax)/2,σ是我们学习的参数,clip(σ)是避免饱和溢出的单调函数如果σ1,低于中值的值将被抑制,而高于中值的值将被增强,结果饱和度增加,反之亦然。我们在图4中直观地看到了σ的有效性。DCCF为该去饱和输入图像中的大多数像素分配正σ,并且获得增强的结果。+v:mala2255获取更多论文8 Xue et al.我们为RGB颜色空间中的每个像素定义仿射颜色变换函数fcol,如下所示:fcol(x;t)=Rx+tδ11δ12δ13xRδ31δ 32δ 33XBδ14δ34(三)=δ21δ 22δ 23xG+δ 24其中,X指示图像中的一个像素的RGB值,并且R是包含旋转矩阵R和平移向量t的可学习的3X4仿射变换矩阵。我们假设可以在RGB颜色空间中找到一个合适的旋转矩阵R,它等价于HSV颜色空间中色调环上相应的弧度移动r[12],这将在补充中进一步讨论。基于该假设,等价于学习RGB颜色空间中的仿射颜色变换函数fcol(x;R),其包含旋转函数R,其可以是HSV颜色空间中的对应色调旋转函数fhue(h;R)的参数。我们建议读者参考[12]了解技术细节。请注意,[12]需要在sRGB和RGB空间之间进行额外的线性化,这主要是一个伽马校正,因此与我们的可学习曲线函数fval兼容。注意渲染过滤器我们采用简单而有效的注意渲染过滤器Fattn,它类似于[28]中的注意力遮罩,以进一步改善色调过滤器后的协调结果。对于推理,我们采用前面的滤波器I执行阿尔法混合,如图所示2I4=I<$α+Wref<$I3<$(1−α)(4)其中α是Fattn上的每像素参数,范围在[0, 1]中,以巧妙地从输入图像借用信息,Wref是额外的仿射矩阵,以细化I3的外观。3.3高分辨率组件模块计算量的最大减少来自于每个DCCF在低分辨率分支处生成然后,我们对DCCF的滤波器映射进行上采样这种行动的有效性是由共同的假设,即附近地区需要类似的调谐滤波器。之后,我们提出了一个分裂和concat的策略来组装每个过滤器的应用结果。具体地,如图2所示,我们利用值滤波器Fval、饱和度滤波器Fsat和色调滤波器Hhue分别提取协调值通道V1、饱和度通道S2和色调通道H3,然后将V1、S2和H3组装成协调图像I3,最后使用注意渲染滤波器得到最终的协调图像I4。我们在图1中举例说明了饱和组装的实现细节五、+v:mala2255获取更多论文RGBRGB∼,LVal,L211���2′22221DCCF:深度可理解的颜色过滤器学习框架9图5:组装模块细节的图示。以饱和滤波器Fsat的 实 现 过 程为例。被占用的通道(即, S2)是彩色的可视化。3.4训练损失在下面的描述中,我们将使用上标l表示低分辨率,h表示高分辨率。由于前景区域的面积在训练示例中变化很大,我们在地面实况Igt和中间结果I3,最终预测结果I4之间采用前景归一化MSE损失[28]。这种损失使用前景蒙版的面积作为归一化因子来稳定前景对象上的梯度当然,我们的损失可以从两个方面来计算低分辨率流和高分辨率流,即Ll和Lh。辅助HSV损失监督Fval、Fsat、Fhue的直接解决方案是使用标准HSV分解方程来获得HSV通道。然而,我们观察到,这种策略可能包含高频内容在输出通道中,如图6a和图6f所示,这可能会降低网络的收敛性,根据我们在图6a和图6f中的实验。6g。因此,我们巧妙地设计了一个近似的HSV损失版本来稳定网络训练。它主要基于几种不同的基本图像处理滤波器(例如白化、模糊、混合)的组合来获得这三个属性H、S、V的平滑近似,这有利于训练过程。实施细节见补充资料。辅助HSV损失Ll我坐下了升色调在低分辨率下使用MSE计算,由于内存的考虑,仅限我们还应用全变分对预测的过滤器进行正则化以增加平滑度。总体训练损失定义如下,其中λi(i = 1,.,5)超参数:l h l l l lL=λ1Lrgb+λ2Lrgb+λ3Lval+λ4Lsat+λ5Lhue(5)4实验在本节中,我们首先描述了实验设置和实现细节,然后将我们的方法与最先进的定量和定性比较。最后,我们进行了一些消融研究,并提供了一个简单的可理解的接口与我们的模型进行交互。我们还在补充材料中提供了更多的结果和潜在的限制。+v:mala2255获取更多论文×××[10] Xue et al.(a) 标准V(b)平滑V(c)标准S(d)平滑S(e)标准H(f)平滑H(g)损失函数的消融在iHar上测试错误#24444;不同的损失贡献。图6:标准HSV和我们的ad-hoc平滑版本的可视化。平滑后的V,S,H保持了全局色性,同时使网络更好地收敛,如子图(g)所示。方法MSE↓ PSNR↑ MSE↓PSNR↑ MSE↓ PSNR↑ MSE↓PSNR↑ MSE↓ PSNR↑输入图像177.9931.2273.0333.53354.4627.63270.9928.20113.0733.91[28]第二十八话--19.9638.25--93.5032.4271.0135.77[28]第二十八话43.5634.9834.4035.4537.8235.47104.6930.9150.8737.41[14]第28话我的世界35.4736.0025.9336.7034.5136.0385.0532.0149.9037.67[2]第28话:我的世界26.8537.2418.5337.9026.7137.5066.2633.1951.9637.23DCCF24.6537.8717.0738.6623.3437.7564.7733.6055.7637.40表1:iHarmony 4测试集的定量性能比较我们是第一个在这个数据集中对原始分辨率进行评估的。最佳结果以粗体显示。我们使用最新的最先进的网络iDIH-HRNet[28]和几种后上采样方法作为我们的基线。’-’ 我们的方法是以端到端的方式训练的,通过比较,是的。补充资料中给出了不同主链的更多定量结果4.1实验设置我们使用iHarmony4[6]作为我们的实验数据集,其中包含73146张图像。它由4个子集组成:HCOCO,HFlickr,Hadobe5k,HDay2night。图像的分辨率从640 480到6048 4032不等,这对于基于学习的颜色协调算法很难在原始图像的全分辨率上进行处理我们建议读者参考[6]以了解数据集的详细信息。由于缺乏高分辨率处理能力,以前的方法[4,6,7,11,20,28,32]将数据集中的所有图像调整为256 256,以在此极低分辨率下通过均方误差(MSE)和峰值信噪比(PSNR)处理和评估其性能。然而,我们认为,评价算法上的图像的原始全分辨率是更科学的实际应用。在本文中,我们采用MSE和PSNR作为我们的客观指标,对图像的原 始 全 分 辨 率 , 而 不 是 2 5 6 × 2 5 6 。整个数据集HCOCOHadobe5kHFlickrHday2night+v:mala2255获取更多论文××DCCF:深度可理解的颜色过滤器学习框架11(a) 输入(b)BU(c)GF(d)BGU(e)DCCF(f)GT图7:高分辨率结果的可视化。前景用红色轮廓线标出。双线性上采样、引导滤波器上采样和双边引导上采样分别表示为BU、GF[14]和BGU[2]。GT代表地面真理。DCCF方法不仅具有更好的全局外观,而且还能细化高分辨率细节。缩放以获得更好的视图。更多的视觉结果请参考文献资料。4.2实现细节我们的DCCF学习框架是可区分的,可以堆叠在任何深度特征提取网络的领导者在本文中,我们采用最新的最先进的协调网络iDIH-HRNet[28]作为我们的骨干进行实验。对于特征提取骨干,我们将输入(图像和相应的前景遮罩)下采样到256 256,遵循先前的深度协调模型的公共设置。有关详细的训练过程和超参数设置,请参阅我们的官方Pytorch[21]代码3。4.3与基线的为了评估我们提出的DCCF学习框架的有效性,我们构建了两种基线。(1)将最新的最先进的方法直接应用于原始输入图像,以获得全分辨率协调结果。(2)将最新的最先进的方法应用于低分辨率输入(256256)预测低分辨率协调图像,并采用变量最先进的后处理方法,以获得最终的全分辨率均匀化结果。在本文中,我们选择iDIH-HRNet[28]作为Sofiiuk等人提供的深度模型。[28]和双线性上采样(BU),引导滤波器上采样[14](GF),双边引导上采样[2](BGU)作为后处理3https://github.com/rockeyben/DCCF+v:mala2255获取更多论文×××12Xue等人方法.为了公平比较,我们采用与[28]相同的低分辨率(即256 256)特征提取器用于DCCF学习框架。性能比较如表1所示。一些协调结果如图7所示。有关推理时间和内存使用等效率指标的比较,请参阅补充资料了解详细信息。直接在全分辨率(表1中的第一行)上应用[28]的方法效果不佳。主要原因是[28]是设计和训练的在256 × 256分辨率下,直接将该模型应用于测试阶段的原始图像全分辨率会导致严重的特征错位。此外,由于内存限制,该策略在Hadobe 5 k子集(最大分辨率:6048 - 4032)上失败。在[28]中使用低分辨率输入的低分辨率预测结果之后应用后处理的方法解决了记忆问题。然而,BU会导致模糊效应,特别是对于高分辨率的亚像素,设置Hadobe5k,参见图7。因此,我们采用了更先进的后处理算法GF[14]和BGU[2],它们将原始全分辨率图像作为详细指导,以减轻上采样操作带来的模糊效应。表1表明,这些上采样方法大大优于双线性上采样方法,最好的一种BGU[2]在MSE上达到26.85,峰值信噪比37.24然而,后处理方法的最佳性能落后于我们的方法DCCF。我们的方法取得了24.65的MSE和37.87的PSNR,7。63%,1。与[28]+ BGU [2]相比,MSE和PSNR分别相对改善69%。4.4定性结果我们进行了两次评估,以比较DCCF与其他方法的主观视觉质量,如表2所示。首先,我们采用LPIPS[35]以评估协调图像和地面实况参考的视觉感知相似性。它计算两幅图像之间的特征距离,分数越低表示结果越好。其次,随机选取20幅图像,在屏幕上显示DCCF结果和基线结果,并要求12名用户对图像的整体外观和细节纹理进行判断,并从15、越高越好。我们的DCCF在这两个指标上都取得了最好的结果,这与定量性能是一致的。LPIPS[35]↓0.04590.02910.02010.0186用户评分↑2.05412.65833.30413.5583表2:定性结果。我们通过基于DNN的图像质量评估LPIPS[35]和用户研究来评估视觉感知质量。4.5消融研究在这一小节中,我们从滤波器和损失函数设计的角度进行了一些消融来分析我们的DCCF学习框架。方法iDIH-HRNet[28] +BU iDIH-HRNet[28]+GF[14] iDIH-HRNet[28]+BGU[2] DCCF+v:mala2255获取更多论文L方法DBL[8]MSE↓ PSNR↑方法27.92 37.48LrgbMSE↓ PSNR↑36.81DCCFs with attention 24.65 37.87Lrgb+ smooth Lhsv24.65三 十 七点八七DCCF w.o. 关注度26.36 37.80Lrgb+标准Lhsv27.8637.39DCCF:深度可理解的颜色过滤器学习框架13过滤器设计:过滤器设计评价见表3a。 DBL [8]是在图像增强中提出的一种端到端的“黑盒”双边学习方法。我们调整它到我们的DCCF学习框架来处理高分辨率图像协调。DCCF w.o. attention是我们的DCCF学习方法,不包括attentive rendering filter。甚至DCCF w.o.注意,DBL滤波器[8]的性能在MSE上提高了1.56(5.58%)这表明我们的模型的性能不仅仅是从端到端的训练,我们的分裂,征服和组装策略,学习显式有意义的参数也有利于颜色协调任务。具有attn的DCCF进一步将DBL滤波器[8]在MSE上提高了3.27(11.71%)。损失函数:损失函数对DCCF学习框架的影响如表3b所示。请注意,标准H通道是角度值而我们的近似H是一个标量值,所以我们用余弦距离训练标准Lh,而用欧氏距离训练近似光滑h数值结果表明,来自HSV颜色空间的监督对于我们的DCCF学习框架至关重要,这表现在简单地添加标准HSV通道的损失将显着降低MSE从35.17到27.86。主要原因可能是我们的DCCF的参数(除了最后一个潜在的渲染过滤器)是从颜色艺术家使用的HSV颜色空间中的实际调整标准的灵感设计的,并且具有明确的色度学意义。因此,当添加来自HSV颜色空间的监督信号时,模型收敛得更好,这在图6g中示出。值得注意的是,添加第3.4小节中描述的平滑近似HSV损失而不是标准HSV损失将进一步将MSE降低到24.65,这证明了所提出的平滑HSV损失的有效性。(a) 用于滤波器设计的烧蚀(b)用于损失函数的烧蚀表3:iHarmony4数据集上的消融研究(1)对于滤波器设计,DBL[8]是一种具有注意力的DCCF达到最佳效果。(2)至于损失,来自HSV的监督是DCCF学习框架的必要条件。我们从HSV构建的监督(即平滑Lhsv)在MSE上将标准HSV提高了3.21(11.65%)4.6可理解的与深层模型的交互受益于可理解的神经过滤器,我们可以为用户提供一个简单而有效的处理程序,以便在必要时与深度模型合作以获得所需的我们在色调、饱和度和明度三个维度上分别提供了两个可调参数,供用户表达自己的色彩调整意图。由于篇幅所限,我们仅以色调调整为例进行说明。其他两个维度类似,将在补充中详细说明。+v:mala2255获取更多论文∈∈−−−∈∈3∗−∗33333333[14] Xue et al.图8:在色调调整的参数空间上具有深度协调模型的可理解交互的图示。横坐标表示参数α,纵坐标表示参数θ。列出了(α,θ)中的采样值及其结果。缩放以获得更好的视图。对于色调,我们定义参数θ[0,360]和α [0,1]分别表示色调圆的角度和用户颜色意图的量。我们计算在等式中提到的期望的旋转矩阵R(3)作为:12cosθ331−cosθ−sinθ3331−cosθ+sinθ1−cosθ+s√inθ12cosθ1−cosθ−s√inθ(6)1−cosθ+sinθ3 1−cosθ+sinθ12 cosθ最后得到最终的旋转矩阵R:Fh′ue=αR+(1α)Fhue,它可以应用于考虑全局用户意图和来自深层模型的局部复杂自适应的图像。总之,用户可以通过参数θ[0,360]来表达他们的颜色意图,并通过控制α [0,1]来决定注入颜色的量,如图8所示。值得注意的是,当用户在一个维度(如上面的色调),他们不必担心网络预测的其他两个维度的副作用变化5结论在本文中,我们提出了可理解的图像处理滤波器来处理图像协调问题。通过逐步修改图像的属性:明度、饱和度和色调,可以得到既高质量又易于理解的结果。这也有助于人类与深度模型合作以执行图像协调。我们还利用这些过滤器来处理高分辨率图像在一个简单而有效的方式。我们希望DCCF能为形象协调树立一个全新的方向。333+v:mala2255获取更多论文DCCF:深度可理解的颜色过滤器学习框架15引用1. Chen,B.C.,Kae,A.:对抗学习下的真实感图像合成。IEEE/CVF计算机视觉和模式识别会议(CVPR)。pp.电话:84152. 陈杰,Adams,A.,Wadhwa,N.,Hasinoff,S.W.:双向引导上采样。ACM Transactions on Graphics(TOG)35(6),13. Cohen-Or,D.,Sorkine,O.,加尔河,Leyvand,T.,Xu,Y.Q.:色彩协调。In:ACM SIGGRAPH,pp.第6244. Cong,W.,牛湖,张杰,梁杰,Zhang,L.:Bargainnet:用于图像协调的背景引导域翻译。IEEE International Conference on Multimedia and Expo(ICME)pp. 15. Cong,W.,Tao,X.,牛湖,梁杰,高,X.,太阳,Q.,Zhang,L.:通过协作双重转换实现高分辨率图像协调IEEE/CVF计算机视觉和模式识别会议(CVPR)。pp. 184706. Cong , W. , 张 杰 , 牛 湖 , 刘 , L. , Ling , Z. , 李 伟 , Zhang , L. :Dovenet:通过域验证进行深度图像协调。IEEE/CVF计算机视觉和模式识别会议(CVPR)。pp. 8394-8403(2020)7. Cun,X.,Pun,C.M.:利用空间分离注意模块提高合成图像的协调性.IEEE Transactions on Image Processing(TIP)29,47598. Gharbi,M.,陈杰,巴伦,J.T.,Hasinoff,S.W.,Durand,F.:用于实时图 像 增强 的 深 度双 边 学 习 。 ACM Transactions on Graphics ( TOG ) 36(4),19. Gharbi,M.,Shih,Y.,Chaurasia,G.,Ragan-Kelley,J.,巴黎,S.,Durand , F.: 高 效 的云 照 片 增 强 的 转换 形 式 配 方ACM Transactions onGraphics(TOG)34(6),110. Guo,C.,Li,C.,郭杰,Loy,C.C.,Hou,J.,Kwong,S.,Runmin,C.:用于弱光图像增强的零参考深度曲线估计。pp. 178011. 郭志,郑洪,江,Y.,顾志,Zheng,B.:内在的形象协调。IEEE/CVF计算机视觉和模式识别会议(CVPR)。pp. 1636712. Haeberli,P.:图像处理的矩阵运算。Grafica Obscura网站(1993年),http://graficaobscura.com/matrix/index.html13. Hao,G.,Iizuka,S.,福井,K.:基于注意力的深层特征调制的图像协调。在:英国机器视觉会议(BMVC)(2020)14. 他 , K. , 孙 , J. , 唐 X : 引 导 图 像 滤 波 。 IEEE Transactions on PatternAnalysis and Machine Intelligence(TPAMI)35(6),139715. Hu,Y.,他H徐,C.,王,B.,Lin,S.:Exposure:一个白盒照片后处理框架。ACM Transactions on Graphics(TOG)37(2),26(2018)16. Isola,P.,Zhu,J.Y.,周,T.,Efros,A.A.:使用条件对抗网络进行图像到图像的翻译。IEEE计算机视觉和模式识别会议(CVPR)。pp. 112517. 贾,J.,孙,J.,Tang,C.K.,沈浩贤:拖放粘贴。ACM Transactions onGraphics(TOG)25(3),63118. 江 , Y. , 张 洪 , 张 杰 , 王 玉 , 林 芝 , Sunkavalli , K. , 陈 淑 仪 ,Amirghodsi,S.,孔,S.,Wang,Z.:SSH:一个图像协调的自我监督框架。在:IEEE/CVF国际会议论文集计算机视觉(ICCV)pp. 4832+v:mala2255获取更多论文[16] Xue et al.19. Kim,B.,Ponce,J.,Ham,B.:用于引导深度图上采样的可变形内核网络。CoRRabs/1903.11286(2019)20. Ling,J.,Xue,H.,松湖,加-地Xie,R.,古X:用于图像协调的区域感知自适应实例归一化。IEEE/CVF计算机视觉和模式识别会议(CVPR)。pp. 936121. Paszke , A. , 格 罗 斯 , S. Massa , F. , Lerer , A. , 布 拉 德 伯 里 , J ,Chanan,G.,基林,T.,林芝, Gimelshein, N.,安提加 湖等:Pytorch:一个命令式风格的高性能深度学习库。神经信息处理系统进展(NeurIPS)32,802622. P'erez,P.,Gangnet,M., Bla ke,A.:图像编辑。In:A CM SIGGRAPH,pp. 31323. F., Ko karam,A.: 线性monge-k是一 种用于基于示例的颜色转移的线性颜色映射。欧洲视觉媒体制作会议(CVMP)。pp. 第124. Pitie,F.,Kokaram,A.C.,Dahyot,R.:n维概率密度函数传递及其在颜色传递中的应用。IEEE/CVF计算机视觉国际会议(ICCV)论文集。卷第2页。143425. 莱因哈德,E.,Adhikhmin,M.,Gooch,B.,Shirley,P.:图像之间的颜色转移。IEEE Computer Graphics and Applications(CG A)21(5),3426. Ronneberger,O.,Fischer,P.,Brox,T.:U-net:用于生物医学图像分割的卷积网络。在:Navab,N.,Hornegger,J.,Wells,W.M.,Frangi,A.F.(编辑)医学图像计算和计算机辅助干预(MICCAI)。pp. 23427. 施,J.,Xu,N.,徐,Y.,Bui,T.,Dernoncourt,F.,Xu,C.:通过规划学习:图像引导的全局图像编辑。在:IEEE/CVF计算机视觉和模式识别会议(CVPR)的会议记录。pp. 13590-13599(2021)28. Sofiiiuk,K.,Popenova,P.,Konushin,A.:用于图像协调的前景感知语义 表 示 。 IEEE/CVF Winter Conference on Applications of Computer Vision(WACV). pp. 162029. 孙,K.,Xiao,B.,Liu,D.,中国科学院,王杰:用于人体姿势估计的深度 高 分 辨 率 表 示 学 习 。 在 : IEEE/CVF 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR)论文集(2019)30. Sunkavalli,K.,约翰逊,M.K.,Matusik,W.,Pfister,H.:多尺度图像和谐化。ACM Transactions on Graphics(TOG)29(4),131. 陶,M.W.,约翰逊,M.K.,巴黎南部:容错图像合成。在:欧洲计算机视觉会议(ECCV)的开幕式上。pp. 第三十一32. 蔡永宏,Shen,X.,林芝,Sunkavalli,K.,卢,X.,Yang,M.H.:深层图像协调。IEEE计算机视觉和模式识别会议(CVPR)。pp. 378933. 吴,H.,Zheng,S.,张杰,Huang,K.:快速端到端可训练引导滤波器。IEEE计算机视觉和模式识别会议(CVPR)。pp. 183834. 曾,H.,Cai,J.,Li,L.,Cao,Z.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 黑板风格计算机毕业答辩PPT模板下载
- CodeSandbox实现ListView快速创建指南
- Node.js脚本实现WXR文件到Postgres数据库帖子导入
- 清新简约创意三角毕业论文答辩PPT模板
- DISCORD-JS-CRUD:提升 Discord 机器人开发体验
- Node.js v4.3.2版本Linux ARM64平台运行时环境发布
- SQLight:C++11编写的轻量级MySQL客户端
- 计算机专业毕业论文答辩PPT模板
- Wireshark网络抓包工具的使用与数据包解析
- Wild Match Map: JavaScript中实现通配符映射与事件绑定
- 毕业答辩利器:蝶恋花毕业设计PPT模板
- Node.js深度解析:高性能Web服务器与实时应用构建
- 掌握深度图技术:游戏开发中的绚丽应用案例
- Dart语言的HTTP扩展包功能详解
- MoonMaker: 投资组合加固神器,助力$GME投资者登月
- 计算机毕业设计答辩PPT模板下载
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功