基于深度学习的实时风格感知图像增强方法

164 浏览量更新于2023-10-13 收藏 2.8MB PDF 举报

图像增强

深度学习

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4126StarEnhancer：学习实时和风格感知的图像增强Yuda Song1 Hui Qian1 Xin Du，广州，中国1浙江大学计算机科学与技术学院杭州2浙江大学信息科学与电子工程学院杭州{syd，qianhui，duxin}@ zju.edu.cn摘要图像增强是一个主观的过程，其目标随用户的偏好而变化。在本文中，我们提出了一种基于深度学习的图像增强方法，该方法仅使用称为StarEnhancer的单个模型来覆盖多种色调风格。它可以将图像从一种色调风格转换为另一种色调风格，即使该风格是不可见的。通过简单的一次性设置，用户可以自定义模型，使增强的图像更符合他们的审美。为了使该方法更实用，我们提出了一个设计良好的en-(a) 前期工作(b) StarEnhancer3一CNN2OPSB1C该增强器可以处理超过200 FPS的4K分辨率图像，但在PSNR，SSIM和LPIPS方面超过了同期的单一风格图像增强方法最后，我们提出的增强方法具有良好的交互性，这允许用户使用直观的选项来微调增强的图像。1. 介绍智能手机相机的发展大大降低了拍照的门槛，但业余爱好者仍然缺乏获得高质量照片的技能。为此，已经提出了各种图像后处理技术通常，这些技术倾向于改善图像细节的质量，这是广泛客观的。然而，一张照片的质量不仅取决于图像细节，还取决于照片是否符合人们的审美，这完全是主观的。因此，提出了各种基于深度学习的方法[7，15，22]来修饰照片，使这些照片更美观。但只有少数作品[12，25]实现了图像增强和其他低级视觉任务之间的差异。在我们看来，一个实用的图像增强方法不应该采用一个通用的图像恢复网络，但旨在是实时和风格感知。很简单，不同的用户有不同的审美偏好，因此目标图像*通讯作者。图1：以前的作品和我们的亲之间的比较置位法(a)以前的工作需要训练多个模型来学习源样式和目标样式之间的映射。(b)StarEnhancer提供了使用单个模型将图像从一种风格转换为另一种风格的能力。不是常数[19，25，28]。并且不同的相机具有不同的相机响应函数（CRF）和图像信号处理（ISP）流水线[1，14]，这意味着输入图像的色调风格也不是恒定的。同时，用户可能希望将修饰过的图像变换成他们喜欢的风格，而未修饰的图像不可用。因此，我们认为实际的图像增强方法需要在多个色调风格之间变换图像的能力最后，由于用户偏好难以精确量化，因此直观的手动调节选项很有吸引力[16，29]。目前常见的图像恢复策略是训练一个全卷积网络（FCN）[33]来重建输入网络的图像。然而，FCN的计算复杂度随着输入图像的空间维度成二次方增长[18]。基于FCN的网络更难以训练，并且可能会引入伪影[12]，特别是在采用生成对抗网络（GAN）[3，7，13]时。此外，FCN相比之下，基于颜色变换的图像en-1FCN一FCNFCN2FCNB修改过原4127↓×增强方法[12，49]仅使用卷积神经网络（CNN）来从图像的固定大小、低分辨率版本编码颜色变换的学习的颜色变换函数可以应用于全分辨率图像，其计算复杂度极低。因此，我们认为基于颜色变换的图像增强方法可能是可行的解决方案。如图1（a）所示，大多数现有的图像增强方法需要为每个变换训练单独的FCN。更关键的是，需要为每个新的样式变换收集新的数据集此外，考虑到FCN在处理高分辨率图像时的高计算复杂度，这样的方法只能向用户提供有限的能力。为此，我们提出了一种更实用的图像增强方法，是实时和风格感知，以弥合这些差距。我们将我们的方法命名为StarEnhancer以适应StarGAN [8，9]，尽管我们的方法与StarGAN有很大如图1（b）所示，StarEn-hancer利用多个音调风格角模型具体来说，我们首先训练一个风格分类器来分类图像，并将分类器的倒数第二层的输出嵌入向量作为潜在代码。映射网络然后将这些潜在代码编码为一组样式代码，其使用从自适应实例归一化（AdaIN）修改的Dual AdaIN来定制曲线编码器[20]。曲线编码器从图像的低分辨率版本预测曲线与现有的基于颜色变换的图像增强方法不同[5，12，24，28，31，38，46，49]，StarEnhancer考虑了颜色通道和像素坐标之间的相关性总体而言，我们的贡献如下：• 我们提出了一种高效的基于曲线的增强器，可以在单个GPU上增强超过200 FPS的4K分辨率图像。并且它是尺度不变的和无伪影的，这对于高分辨率图像是至关重要的。• 我们提出了一个灵活的方法，名为StarEnhancer多风格之间的图像增强它可以通过简单的一次性设置进行定制，以满足不同的相机• StarEnhancer提供直观的选项，允许用户手动微调每个图像的结果。• StarEnhancer在MIT-Adobe-5 K数据集上的效率和有效性方面达到了最先进的性能[4]。2. 碱性增强剂图像增强器的有效性和效率可以实质上影响该方法的实用性。因此，我们首先讨论如何设计一个表现力和快速的图像增强器。最后，我们提出了单一风格转换的基本增强器2.1. 问题公式化与强调网络架构设计的实时图像分类方法不同[18，42，52]，实时图像恢复方法还涉及输入图像大小对处理效率的影响基于深度学习的图像恢复方法通常基于FCN，使其计算复杂度与输入图像的空间维度成二次关系并且大多数图像增强方法还采用FCN类网络架构[2，6，7，16，27，48]。如果使用具有参数θ的网络G来直接增强输入图像I，则输出图像O可以用公式表示如下：O= G（I; θ）。（一）幸运的是，标准图像增强任务更了解全局信息，使得可以利用下采样图像来获得信息特征，就像在高级视觉任务中应用的策略一样。作为权衡，将这种方法应用于细节相关的图像增强任务并不容易，甚至包括低光图像增强任务[30，34，43，47，53]。具体地，具有参数θ的网络G从下采样的输入图像I中提取特征，并且这些特征用于如下公式化应用于输入图像I的变换函数FO=F（I; G（I↓;θ））。（二）以这种方式，骨干网络的计算复杂性提取特征几乎不随输入图像的设计一个强大的图像增强器的关键是开发一个高效和富有表现力的转换功能。2.2. 现有技术大致有三类函数要遵循：颜色变换矩阵[5，12，31]，基于曲线的颜色变换矩阵[5，12，31]。转换函数[15，24，29，38]和3D查找标记。表（LUT）[49]。颜色变换矩阵是将像素的输入颜色映射到输出颜色的3 ×4仿射变换矩阵作为示例，HDRNet [12]预测双边网格中的低分辨率仿射颜色变换系数矩阵。在全分辨率单通道引导图的引导下，这些矩阵被切片成全分辨率系数矩阵，然后将其应用于原始图像。4128∈×--联系我们联系我们↓×J、、、图2：所提出的基本图像增强器的框架然而，颜色变换矩阵的能力是不够的并且引导图由构建有若干逐点卷积层的FCN生成，这对于高分辨率图像仍然是基于曲线的颜色变换函数模仿润饰软件（例如Lightroom和Photoshop）中的颜色调整曲线工具，并且更符合人类润饰。为了使用有限数量的参数来量化曲线，骨干网络回归曲线的节点[24，29，38]或预定义函数（例如伽马函数，多项式函数）的系数[15，19，39]。然而，现有的基于曲线的颜色变换函数大多忽略了颜色通道之间的关系，这符合颜色调整曲线工具3D LUT是已经使用的表达运算符在ISP [23]中。通常，3D LUT通过专家调整获得，并且在调整之后是固定的。为此目的，颜色变换矩阵和3DLUT都考虑了颜色通道之间的相关性。换句话说，输出图像的每个通道与输入图像的每个通道相关。此外，我们相信引入坐标映射x，y可以使变换函数更有表现力。因此，输入像素I（x，y）（I，x，y[0，1]）的修正变换可以公式化为：Oj（x，y）=F（I（x，y），x，y;G（I↓;θ）j）。（四）图2示出了我们提出的图像增强器如何处理具有HW分辨率的高分辨率图像。首先，基于CNN的曲线编码器从具有KK分辨率的下采样输入图像预测所有曲线的节点的参数向量u然后，我们将u=G（I;θ）分成15个子向量，其中ui，j对应于将输入通道i r，g，b，x，y映射到输出通道j的曲线r、g、b。我们提出了一个非常使用分段三次插值[11]和索引以利用节点的参数向量的基于曲线的快速变换使用分段三次插值在函数SM，N中，我们对M维向量ui，j=[ui，j，0，...，ui，j，M-1]T映射到N维向量vi，j=[vi，j，0，...，M-1] T。vi，j，N-1]T如下：vi，j=SM，N（ui，j）.（五）令vi，j（k）是vi，j的第k个元素vi，j，k，我们应用以下变换以获得残差图像R：自适应3DLUT [49]从训练数据集中学习一组基础3DLUT，并使用CNN来预测内容。R（x，y）=SMr，j，2D（u+SMg，j，2D（ur，j）（Ir（x，y）·（2D−1）））（，I（x，y）·（2D−1），）从下采样图像中提取相关权重。这些权重用于将多个基础3D LUT融合成正弦3D LUT。g、j+SMb，j，2D（uG）（，Ib（x，y）·（2D− 1），）（六）然后应用于全分辨率图像的3D LUT+SMy，j，H（uy，j）（[y·（H−1））时代的转变。真诚地说，3D LUT是一个有吸引力的变换函数。自适应3DLUT是一种+SMx，j，W（ux，j）（[x·（W−1）），这是一种折衷方法，因为只有用于融合基础3D LUT的权重适应于输入图像，而基础3D LUT在训练之后仍然是固定的我们认为，它是不够灵活，被用来作为基本的图像增强器的多风格的图像增强。2.3. 多曲线增强器我们考虑基于基于曲线的颜色变换函数来构建我们的增强器。对于现有的基于曲线的图像增强方法，输出通道j∈ {r，g，b}的颜色变换可以公式化为：Oj=F（Ij;G（I↓;θ）j）。（三）结合颜色变换矩阵和3D查找表的思想，提出了一种基于曲线的变换函数来构建基本增强器。我们注意到插值曲线&颜色变换+输残余低分辨增强曲线编码器b，j4129----[·其中是地板函数，D表示每个通道的颜色深度。在实践中，由于像素的坐标是单调的，因此我们仅需要将插值向量vi，j∈{x，y}此外，它是可行的应用- 低色彩深度变换到高色彩深度图像，以降低索引成本（例如，对于48位彩色图像，D=8）。这样，我们需要渲染残差图像而不是渲染增强图像以保留高色深图像的信息最后，通过O=R+I得到增强图像。给定图像对Ia，Ib，其中Ia是输入im，年龄并且Ib是参考图像，我们计算CIELab颜色空间中的L1损失以训练增强器：LE=Lab（Ib）−Lab（F（Ia;G（Ia↓;θ）1。（七）4130----f∈{} FF˜Fj−µa，jσa，javgnfiΣ图3：我们提出的风格编码器的框架。当推断时，输入图像都来自相同的风格。3. StarEnhancer在本节中，我们将说明如何引导增强器执行自适应多样式颜色变换。有两个关键问题需要解决：如何使该方法适应于看不见的风格以及如何将风格信息馈送到网络中。3.1. Style encoder我们首先讨论如何设计样式代码来编码看不见的样式，从而使增强器适应新的相机和用户。显然，像StarGAN [8]中使用的one-hot vector这样的固定标签不是一个好的选择。相比之下，StarGAN v2 [9]中使用的潜码是更好的选择，但它是通过从已知分布中随机抽样获得的，这只能确保多样性，但不能建立与风格的明确联系受人脸识别工作的启发[10，32，44，45]，我们努力训练一个风格编码器，它可以学习图像嵌入，以建立特定风格和潜在代码之间的联系。图3示出了我们提出的方法的概述。具体来说，我们首先在包含多种色调风格的图像的数据集上训练图像分类器。给定在最终全局池化层之后的下采样输入图像的嵌入f和对应的样式类标签p，损失可以用公式表示如下：经验值fT wp·s Σ图4：将潜在代码馈送到曲线编码器中的框架。顶部是映射网络，而底部是具有双AdaIN的曲线编码器。由于平均嵌入并不总是落在单位球面上，因为单个L2-归一化嵌入，我们也对其应用L2-归一化，如下所示：f=favg.（十）favg我们将~f视为特定样式的中心嵌入，以及样式的潜码。3.2. 多风格增强器由于已经获得了样式特定的潜在代码，现在我们需要将潜在代码馈送到曲线编码器中我们假设图像增强可以被视为一种特殊类型的风格转移，因此AdaIN [20]可能是值得采用的选择。然而，我们发现卷积块中的归一化层总是导致性能不佳。为此，我们提出了双AdaIN，它不计算每个输入样本的特征映射的均值和方差，但均值和方差通过将潜在代码映射到样式代码来获得图4说明了如何将基本增强器扩展到StarEnhancer。首先，我们将Dual AdaIN插入到图2中的基本增强器的曲线编码器中。然后我们--LS=−logΣexp . fTwq、（8）·s获取源样式类a的潜在码fdd∈{a，b}以及使用样式编码器的目标样式类B鉴于q∈Q2012年12月22日潜在代码~，映射网络映射它们其中s是缩放项，Q表示样式类集合，w是不含偏置项的最后一个全连接层的权重，并且·2是L2范数。{fd}d∈{a，b}1，2，3，4，5，6，7，9，10，11，12，13，14，15，16，17，18，19 . .，µ d，L，σ d，Ld∈{a，b}，然后通过DualAdaIN输入曲线编码器：.ΣFj′=σ b，j+µ b，j、（11）fii=1，.，n在全局池化层之后。我们通过计算L2归一化嵌入的平均值来近似特定风格的嵌入：n其中，j1，. . . ，L是输入特征图，并且j′是变换后的特征图。我们还计算LE损失来训练多风格en。f=1Σfi.（九）i=1LS培训推断标签风格分享源............目标++FCFCFCFCFC块FC块Style EncoderNormLayer平均FCNormLayer转换块双AdaIN转换块下采样转换块双AdaIN转换块在推理阶段，我们将特定风格的n个图像馈送到风格编码器中并获得嵌入从所有可能的样式（a，b∈Q）中采样4131除了训练对{la，lb，〜fa，〜fb}是4132LL--L××3.3. 用户意识如果曲线编码器和映射网络仅使用训练集中特定样式的中心嵌入来训练，则它们可能倾向于过拟合这些嵌入。为此，我们使用训练集的子集来生成更多的样式嵌入，即，馈送更少的特定样式的图像以经由等式（1）生成附加样式嵌入。(9)和等式（十）、新用户可以在共享图库中选择他们的首选图像或使用他们的集合来生成新的并且源样式的潜码可以由相机制造商预先生成或者使用几个未修饰的图像来获得。请注意，此过程不需要配对图像。我们还提供了手动微调选项，当结果不符合用户偏好时，这对于专家来说，预测曲线的所有节点都可以手动调整，就像Lightning中的曲线工具一样。但是这样的曲线工具对于非专家来说仍然太难，因此我们进一步提出了基于滑块的手动微调工具。具体来说，用户可以调整对应到{βi，j}，用于调谐每个曲线ve的约束u′i，j=βi，j·ui，j.（十二）我们使用u′i，j来生成n条新曲线，并应用它们来变换图像。因为我们提出的基于曲线的由于增强器是高效的，并且手动微调过程不执行CNN推理，用户可以实时获得反馈并进一步调整滑块。3.4. 实现细节我们使用PyTorch [40]构建StarEnhancer，增强器中使用的所有操作都已高效且可区分地实现。样式编码器和曲线编码器都构建在浅ResNet [17]上，但从卷积块中删除了所有批归一化层[21]为了在删除批量归一化层后进行稳定的训练，我们对网络应用了Fixup初始化[50]以及一些架构修改。我们首先使用S loss训练风格编码器，并获得每个风格类q的潜在代码~fq，然后使用E loss训练映射网络和曲线编码器。在训练风格编码器时，我们将Sloss中的缩放项s设置为一个大常数，并将更大的学习率分配给最后一个全连接层。所有模型都使用Adam优化器[26]和余弦退火策略[35]进行训练，但不是热重启。当推断时，最初仅执行一次样式编码器和映射网络，然后存储所提取的样式代码以供将来使用。此外，用户可以将优选图像上传到服务器，服务器返回相应的样式代码，使得用户设备仅需要保持用于曲线编码器的模型权重。4. 实验4.1. 实验装置我们在MIT-Adobe-5 K数据集[4]上训练和评估了我们的方法，这是唯一一个由多种专家修饰风格的图像组成的数据集。MIT-Adobe-5 K包含5000张由DSLR拍摄的图像，每张图像对应总共12种风格，包括5种专家润饰风格（艺术家A/B/C/D/E），4种相机输入风格和3种自动润饰风格。StarEnhancer是第一种利用MIT-Adobe-5 K中所有数据的方法。单一样式增强：我们遵循MIT-Adobe-5 K-UPE基准[46]的实验设置来评估我们的方法的性能。具体来说，我们使用默认输入样式的图像作为输入，由艺术家C重新触摸的图像作为基础事实，并将数据集分成4500个训练图像对和500个测试图像对。测试集中的所有图像均保留其原始分辨率，从2160 1440到6048 4032不等。我们使用PSNR，SSIM和LPIPS [51]定量评估我们的方法，以与同期方法进行比较。多风格增强：我们将MIT-Adobe-5 K-UPE基准的实验设置扩展到 10 种风格，包括 5 种专家修饰风格（A/B/C/D/E）、3种相机输入风格（O/P/Q）和2种自动修饰风格（X/Y）。请注意，样式Y不是由MIT-Adobe-5 K提供的，而是使用最新版本的Lightroom生成的。最后，利用MIT-Adobe-5 K提供的其余3种风格和另外5种新生成的自动修图风格，测试了该方法对未知风格的处理效果。这些风格的所有图像也被分成训练集和测试集，但这些训练集实际上并不参与训练。4.2. 单一样式增强我们将我们的方法与MIT-Adobe-5 K-UPE上的同期方法进行比较，如表1所示。StarEn-hancer在PSNR，SSIM和LPIPS方面优于所有比较方法，同时能够进行多种风格的增强。此外，如果我们在未扩展的MIT-Adobe-5 K-UPE数据集上训练基本增强器，则我们提出的增强器可以实现更好的性能StarEnhancer引入了通道之间的相关性，这使得它比另一种名为CURL的基于曲线的增强器更具表达力[38]。自适应3DLUT [49]由于具有表达性的3DLUT而实现了优异的性能，但其编码器仅预测融合权重，这限制了其进一步改进。但是自适应3DLUT仍然是幸运的是，StarEnhancer的效率相当高，它们之间的差距很难被用户察觉注意所有4133输入DPE [7] HDRNet [12] DeepUPE [46] DeepLPF [37] A3DLUT [49] StarEnhancer Ground Truth图5：MIT-Adobe-5 K-UPE上单一样式转换与同期方法的定性比较。表1：MIT-Adobe-5 K-UPE上单一风格变换与同期方法运行速度（FPS）使用单个TITAN RTX在4K分辨率图像上测量。请注意，一些结果是从[37，38，49]复制的。召回@1A 24.6%B类49.2%C 50.4%D 29.0%东欧42.4%O 61.6%P 85.0%Q 73.0%X 59.0%Y 84.4%图6：通过样式编码器学习的特征的可视化，使用t-SNE将所有特征投影到单位球体上[36]。列出测试集上每个类别的Recall@1基于U-Net的方法无法在单个GPU上增强4K分辨率的图像，这使得它们不切实际。图5进一步显示了单个样品的定性比较结果。可以看出，经StarEnhancer增强后的图像无论是色调还是光照都与地面实况最为相似，尤其是天空和草原。4.3. 多风格增强我们首先观察嵌入空间中特征的分布，如图6所示。专家修饰样式和相机输入样式分布在球体的相对端上。值得注意的是，使用旧版Lightroom的自动修图风格X接近相机输入风格，而使用最新版Lightroom的自动修图风格Y此外，Recall@1示出了专家润饰风格比相机输入风格和自动润饰风格明显更难以区分，表明人类美学是主观的并且难以量化。然后，我们专注于评估StarEnhancer的多风格增强性能。图7显示了单个示例的多个样式之间的映射的一些结果。可以看出，StarEnhancer可以适应不同的源样式，即使它们在亮度和颜色上变化很大。同时，StarEnhancer可以捕捉目标风格的特征具体来说，Learned C的修饰图像中的小女孩最后，我们发现输入风格仍然影响输出图像，例如从风格P转换的输出图像总是具有较冷的色调。这可能是由于MIT-Adobe-5 K中的场景种类不足，这使得经过训练的StarEnhancer无法很好地分离样式信息。图8显示了多风格MIT-Adobe-5 K基准测试的定量评估结果我们没有添加一个明确的定期条款的损失函数，以约束相同的风格的转换，但StarEnhancer仍然表现令人印象深刻。相机输入样式之间的变换是最简单的，因为仅简单的全局颜色调整（例如，白平衡）。与此相反，方法PSNRSSIMLPIPSFPS[第19话]18.570.701-0.11[39]第三十九话20.970.841-0.009U-Net [41]22.240.850-DPE [7]CURL [38]22.1524.200.8500.880-0.108-DeepLPF [37]24.480.8870.103人类发展报告网[12]23.200.9170.12022DeepUPE [46]23.240.8930.1584.7A3DLUT [49]24.920.9340.093602基本25.460.9480.0832054134O型PSNR：34.01峰值信噪比：31.32峰值信噪比：28.70峰值信噪比：31.73峰值信噪比：31.16风格P峰值信噪比：30.11PSNR：34.85峰值信噪比：26.54峰值信噪比：27.70PSNR：30.46Q型峰值信噪比：29.68峰值信噪比：32.34峰值信噪比：25.28PSNR：31.04PSNR：31.68风格XPSNR：24.66PSNR：24.35峰值信噪比：28.14峰值信噪比：24.42峰值信噪比：25.52Y型PSNR：24.49峰值信噪比：27.31峰值信噪比：31.32PSNR：26.25峰值信噪比：29.84源A型类型B样式C风格D形式E目标图7：多个样式之间的映射示例。专家修饰样式被用作目标样式，并且其他样式被用作源样式。图8：MIT-Adobe-5 K数据集[4]的多个样式之间的映射在PSNR中的定量结果专家修饰风格之间的转换要困难得多，最困难的风格是专家修饰风格A。值得注意的是，我们认为学习风格的难度主要与其转换的复杂性有关，而风格编码器的召回主要表明转换的鲁棒性。具体地说，风格Y比风格X更容易区分，但更难学习。我们认为这是因为新的Lightroom的自动修饰工具更复杂，更强大。242322212019185 10 20 100 1000首选图像图9：StarEnhancer应用于未见过样式时的定量结果4.4. 功能灵活性引入样式编码器是为了使StarEnhancer能够在各种看不见的样式之间执行增强。我们模拟选择用户我们随机选择一个源样式和一个目标样式，并选择几个图像样本来生成新的潜在代码。然后，我们使用映射网络将这些潜在代码转换为DualAdaIN的风格代码。最后，新建目标样式新建源样式新建源目标样式PSNR4135输入原始输出手动微调地面实况R G B0.1R0.050−0.050.050−0.05G0.05BH0w的−0.050.10−0.1-0.20 0.51R0.050−0.050 0.51G−0.10 0.5 1B0.1RG0.05BH0w的−0.05−0.10 0.510 0.510 0.5 1图10：手动微调的示例，其中用户可以通过微调选项获得更优选的结果。顶行列出了输入图像、直接从StarEnhancer输出的增强图像、手动微调后的增强图像以及目标样式的地面实况图像中间行显示了StarEnhancer预测的曲线底部行显示使用基于滑块的手动微调工具调整的曲线。我们在测试集上评估定制增强器的性能由于样本数量影响潜在代码如图9所示，使用的样本越多，倾向于产生更可靠的潜在代码，从而导致更好的泛化性能。而且，概括一个看不见的源风格比概括一个看不见的目标风格更有挑战性。此外，当源样式和目标样式都是不可见样式时，增强器的性能进一步下降。但即便如此，我们的增强器可以胜过大多数在这些风格的训练集上微调的增强器。图10示出了手动微调的示例，并且可以观察到每条曲线对于此示例，在颜色通道之间映射的曲线对残差图像有明显的影响。从像素然而，我们认为像素的坐标是至关重要的因为直接从StarEnhancer输出的增强图像与从所需的图像，我们手动调整每个曲线的贡献，使用所提出的微调工具。虽然微调工具仅拉伸曲线，但微调后的图像明显更接近所需图像。5. 结论在本文中，我们提出了一种基于曲线的图像增强器，可以增强超过200 FPS的4K分辨率图像。它超越了MIT-Adobe-5 K上的同时代方法。基于我们提出的风格编码器和Dual AdaIN，我们将增强器扩展为多风格增强器，并将其命名为StarEnhancer，它可以使用单个模型执行多个风格之间值得注意的是，我们提出的方法是灵活的，足以适用于看不见的风格。最后，我们引入了一个手动微调工具，以进一步满足用户的喜好。谢谢。本工作得到了国家重点研究发展计划项目2020AAA 0107400、浙江省自然科学基金项目批准号：LZ18F 020002，阿里巴巴-浙江大学前沿技术联合研究院。手动微调原始输出4136引用[1] Mahmoud Afifi和Michael S Brown。深度白平衡编辑。在IEEE计算机视觉和模式识别会议，第1397-1406页[2] Mahmoud Afifi ， Konstantinos G Derpanis ， BjornOmmer，and Michael S Brown.学习多尺度照片曝光校正。在IEEE计算机视觉和模式识别会议，第9157-9167页[3] MarcBic k el、SamuelDu b uis和Se'bastienGachoud。多生成对抗网络分析用于预测摄影师的润饰。arXiv预印本arXiv：2006.02921，2020。[4] VladimirBychko vsky ， Syl vainParis ， EricChan 和 Fre´doDurand。使用输入/输出图像对的数据库学习摄影全局色调调整在 IEEE 计算机视觉和模式识别会议（CVPR）上，第97-104页IEEE，2011年。[5] Yoav Chai Raja Giryes和Lior Wolf参数化颜色增强的有监督和无监督学习。在IEEE计算机视觉应用冬季会议（WACV），第992-1000页[6] Qifeng Chen，Jia Xu，and Vladlen Koltun.使用全卷积网络进行快速图像处理。在国际计算机视觉会议（ICCV），第2497-2506页，2017年。[7] 陈玉生、王玉清、高满新、庄永玉。深层照片增强器：基于非配对学习的gans图像增强算法。在IEEE计算机视觉和模式识别会议（CVPR）中，第6306-6314页[8] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议（CVPR）中，第8789-8797页[9] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。在IEEE计算机视觉和模式识别会议中，第8188-8197页[10] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在IEEE计算机视觉和模式识别会议（CVPR）中，第4690-4699页[11] Frederick N Fritsch和Ralph E Carlson。单调分段三次插值。SIAM数值分析杂志，17（2）：238[12] Mi c ha e？ lGharbi ，Ji a wenChen ，JonathanTBarron ，SamuelWHasino f f，andFre？doDurand. 用于实时图像增强的深度双边学习 ACM Transactions on Graphics（TOG），36（4）：1[13] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚 · 本吉奥。生成性对抗网。 Advances inNeural Information Processing Systems （ NeurIPS ），27：2672[14] Michael D Grossberg和Shree K Nayar。从图像确定相机响应：什么是可知的？IEEETransactions on Pattern Analysis and Machine Intelligence（TPAMI），25（11）：1455 -1467，2003.[15] Chunle Guo，Chongyi Li，Jichang Guo，Chen ChangeLoy，Junhui Hou，Sam Kwong，and Runmin Cong.用于弱光图像增强的零参考深度曲线估计。在IEEE计算机视觉和模式识别会议中，第1780-1789页[16] Jingwen He，Yihao Liu，Yu Qiao，and Chao Dong.用于有效的全局图像润饰的条件顺序调制。在欧洲计算机视觉会议（ECCV）中，第679-695页。Springer，2020年。[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议（CVPR）中，第770-778页[18] Andrew G Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：用于移动视觉应用的高效卷积神经网络。arXiv预印本arXiv：1704.04861，2017。[19] 胡渊明，何昊，徐晨曦，王宝源，林志颖。Exposure：一个白盒照片后处理框架。 ACM Transactions onGraphics（TOG），37（2）：1[20] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在 International Conference onComputer Vision（ICCV），第1501[21] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在International Conference on Machine Learning（ICML）中，第448-456页PMLR，2015.[22] Yifan Jiang，Xinyu Gong，Ding Liu，Yu Cheng，ChenFang，Xiaohui Shen，Jianchao Yang，Pan Zhou，andZhangyang Wang.启迪：无需配对监督的深度光增强。IEEE Transactions on Image Processing（TIP），30：2340[23] Hakki Can Karaimer和Michael S Brown。一个软件平台，用于操纵相机成像流水线.在欧洲计算机视觉会议（ECCV）中，第429444.施普林格，2016年。[24] Han-Ul Kim，Young Jun Koh，and Chang-Su Kim.用于配对和非配对图像增强的全局和局部增强网络在欧洲计算机可视化会议中，第339-354页Springer，2020年。[25] Han-Ul Kim ， Young Jun Koh ， and Chang-Su Kim.Pienet：个性化图像增强网络。在欧洲计算机视觉会议（ECCV）中，第374-390页。Springer，2020年。[26] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年国际学习表征会议（ICLR）[27] 木下优马和木谷仁志。考虑局部和全局特征的卷积神经在IEEE图像处理国际会议，第2110-2114页中IEEE，2019。[28] Dario Kneubuehler、Shuarine Gu、Luc Van Gool和RaduTimofte。灵活的基于示例的图像增强4137任务自适应全局特征自引导网络。在欧洲计算机视觉会议（ECCV）中，第343- 345358. Springer，2020年。[29] Chongyi Li ， Chunle Guo ， Qiming Ai ， ShangchenZhou，and Chen Change Loy.用于照片增强的灵活的分段曲线估计。arXiv预印本arXiv：2010.13412，2020。[30] 梁锦秀、徐勇、权宇辉、王静文、凌海滨、季辉。用于低光图像增强的深双侧视网膜。arXiv预印本arXiv：2007.02018，2020。[31] Enyu Liu，Songnan Li，and Shan Liu.使用全局参数和局部特征学习的颜色增强。2020年亚洲计算机视觉会议（ACCV）[32] 刘未央，温延东，余智定，李明，拉吉比丘，宋乐Sphereface：用于人脸识别的深度超球面在IEEE计算机视觉和模式识别会议（CVPR）中，第212[33] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议（CVPR），第3431-3440页[34] Kin Gwn Lore ， Adedotun Akintayo ， and SoumikSarkar.Ll-net：一种用于自然低光图像增强的深度自动编码器方法模式识别（PR），61：650[35] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr：带热重启的随机梯度下降。国际学习表征会议（ICLR），2017年。[36] Laurens van der Maaten和Geoffrey Hinton使用t-sne可视化数据。 Journal of Machine Learning Research（JMLR），9（Nov）：2579[37] Sean Moran，Pierre Marza，Steven McDonagh，SarahParisot，and Gregory Slabaugh. Deeplpf：用于图像增强的深度局部参数滤波器。在IEEE计算机视觉和模式识别会议（CVPR），第12826-12835页[38] 肖恩·莫兰史蒂文·麦克唐纳和格雷戈里·斯拉博。Curl：用于全局图像增强的神经曲线层。在国际模式识别会议（ICPR），第9796-9803页中IEEE，2021。[39] Jongchan Park，Joon-Young Lee，Donggeun Yoo，andIn So Kweon.失真和恢复：使

下载后可阅读完整内容，剩余1页未读，立即下载