STAR：一种实时图像增强的轻量级架构

36 浏览量更新于2023-10-13 收藏 3.02MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4106STAR：一种用于实时图像增强的张朝阳1，2蒋伊通2蒋军2王晓刚1罗平3顾金伟2，41香港中文大学2SenseBrain Research3香港大学4上海人工智能实验室{zhaoyangzhang@link，xgwang@ee}. cuhk.edu.hk{jiangyitong，jiangjun，gujinwei} @ sensebrain.aipluo@cs.hku.hk摘要智能手机上的图像和视频增强（诸如颜色恒定性、低光增强和色调映射）是具有挑战性的，因为应该利用有限的资源预算来高效地实现高质量图像。与以前的作品，无论是使用非常深的CNN或大型的Trans-former模型，我们提出了一个结构-一个轻量级的输入CNN曲线平均值CNN_D曲线平均值STAR曲线平均值Transformer，称为STAR，用于实时图像增强。STAR被制定为捕获图像块之间的长程依赖性，其自然地且隐式地捕获图像中不同区域的结构关系。STAR是一种通用架构，可以很容易地适应不同的图像增强任务。大量的实验表明，STAR可以有效地提高许多任务的质量和效率，如照明增强，自动白平衡和照片修饰，这些都是智能手机上图像处理不可或缺的组件。例如，与MIT-AdobeFiveK数据集[ 7 ]上的最新技术水平[ 19 ]相比，STAR降低了模型复杂性并提高了图像质量（即，1.一、8dB PSNR改善，25%参数和13%浮点运算。）1. 介绍近年来，已经见证了利用基于学习的方法在各种图像和视频增强任务上的显著进展白平衡）、色调映射。然而，在边缘设备上部署这些方法仍然存在两个关键挑战。首先，这些方法必须在非常有限的计算预算内有效地处理高分辨率图像，在模型灵活性和计算效率之间进行权衡。其次，它们需要结合输入图像的结构和全局信息，以实现高质量的稳定结果，特别是对于诸如颜色控制之类的任务图1. CNN和STAR之间用于弱光增强的曲线估计结果的比较。为了公平比较，我们还训练了具有下采样的相同CNN模型（表示为CNN-D），使得STAR和CNN-D都预测每令牌曲线。增强的结果和模型的复杂性（参数的数量，FLOPS）。我们还通过绘制α的平均值来可视化预测曲线（更多细节见第4.1节）。稳定性、弱光增强和色调映射。即使对于具有局部支持的任务，例如去噪和去马赛克，基于结构感知的区域处理通常也可以产生更好的结果[33]。为了解决这两个挑战，以前的工作可以归纳为三个类别。第一种方法是使用堆叠的非常深的CNN [49，9，17，45，19]。为了保持高频细节，空间分辨率保持不变，因此这些方法具有较大的计算成本和存储占用。第二种方法是估计一组全局调整函数[52，35，24，31]，但它们缺乏处理现实世界场景复杂性的灵活性（例如，用于白平衡的混合照明、用于色调映射的HDR场景）。最后，第三种方法是显式地使用分割网络将图像划分为语义上有意义的区域，并分别处理每个区域[33，51]。然而，这种方法也有局限性，例如需要每像素注释的数据集。在本文中，我们提出了 STAR （ Structure-awareTransformer），一个通用的轻量级骨干网CNN（79.4K，5.2 GFLOPS）CNN_D（79.4K，0.31 GFLOPS）STAR（20.1K，0.07GFOPS）4107实时图像后处理任务。STAR被制定为捕获图像块之间的长程依赖关系，其自然地且隐式地捕获图像内的结构关系。STAR是一个通用的架构，可以很容易地适应各种基于学习的图像增强任务。STAR不是堆叠卷积层，而是基于Transformer模块，该模块主要由多头自注意和全连接层组成Transformer [44]因其对长距离依赖的高训练效率和巨大的模型容量而广泛用于自然语言处理。基于Transformer构建的模型实现了令人惊讶的性能，甚至超过了特定语言任务中的人类识别能力[11]。专门从事图像增强任务，我们设计的STAR网络，它可以免费的堆叠卷积，从而更有效地提取结构信息。在STAR中，图像的补丁被标记为标记嵌入，就像NLP中的单词嵌入一样。STAR不是直接计算逐像素依赖关系，而是明确地学习图像补丁的逐标记依赖关系。图1显示了一个例子。如图1、STAR提供高效率来增强图像。除了高效（0.07 GFLOPS）之外，如图所示，STAR还可以隐式地学习语义结构，从而提供比CNN更有语义意义的结果[19]。如[27，48]中所建议的，我们采用了一种专门的双分支设计，命名为长短范围Transformer，以确保STAR可以专注于捕获全局上下文，从而减少计算，而不是具有一个用于一般信息的模块。我们进一步在几种最近的图像增强方法上验证了STAR，包括照明增强[19]，白平衡[2]和使用3D查找表的照片修饰[52]。实验结果表明，STAR通常可以有效地提高这些任务的性能，显着降低模型复杂度，这为边缘设备的实时处理提供了很大的优势。例如，使用DCE-Net进行弱光增强[19]相比 CNN 主干，基于 STAR 的方法可以实现 1.8dBPSNR改善，同时仅需要25%参数和13%浮点运算（FLOPS）。2. 相关工作2.1. 摄像机成像流水线最近，随着深度卷积神经网络（CNN）的成功，许多有吸引力的基于学习的图像增强方法取得了有希望的结果，例如相机ISP [34，32，38]，去马赛克[41，14]，去卷积神经网络[41，14]。噪声[14，18]，白平衡[2，1]，HDR重建[2019-04-17][2019-04-19][2019-04][2019-05-19][2019 然而，其中许多方法依赖于繁重的计算和存储器占用，这可能阻碍它们在硬件受限的设备（诸如智能电话或其他嵌入式系统）上的部署。提出了一些最近的方法在移动平台上的有效的图像增强。第一类是估计一组全局调整函数，如[52，35，24，31]。这些方法主要处理下采样图像和预测一组全局操作函数的变量然而，许多工作，如[35，24]表明，仅应用全局函数不能提供足够和灵活的增强能力。另一类图像增强方法被公式化为语义感知预测，其训练CNN模型以估计具有语义掩码的映射或变换函数[33，43]。这些方法中的模型通常是通用的，因为预测结果以语义内容为条件，就像其他像素方式的方法一样，如[49，9，17，45，19]。但是这样的方法具有限制，例如需要额外的分割子网络和每像素注释的数据集来预测掩模。2.2. Transformer模块Transformer由[44]提出用于机器翻译，其中多头自注意和前馈MLP被堆叠以捕获单词之间的长程相关性。基于变换器的网络显示出高模型能力，并且已经成为许多NLP任务中最先进的方法[11，6，36]。Transformer的核心是通过多头自注意机制来表征两个遥远令牌的依赖关系。这个属性赋予Transformer捕获大型复杂数据源之间潜在相关性的潜力。将预训练的Transformer从NLP转移到视觉任务也成为一个热门问题。 [46，40]尝试结合视觉和语言表示，为视觉和语言数据构建全面的预训练Transformer。此外，依靠大规模外部数据[42]，最近的工作ViT [12]使用主要由Transformer层构建的网络实现了高竞争力的图像ImageNet [10]分类结果。受此启发，[8]进一步证明，在 ImageNet 上预训练这种纯Transformer模型可以提高网络在低级视觉任务（超分辨率，去噪，去噪）上的性能。然而，也需要大量参数（例如，参数的大小）的大规模预训练模型是不可能的。 IPT [8] 模型具有超过 114M 的参数和 33GFLOPS，这对于在移动平台上部署图像和视频增强是不切实际的。相比之下，STAR的设计是轻量级的，可以实现实时性能，据我们所知，这是第一个轻量级的图像增强Transformer。4108线性展平∈∈∈∈PP×我×2∈语义感知的Transformer网络长短量程变压器模块图像结果任务尾部长短量程Transformer模块降维L代币代币嵌入短程上下文长期上下文图2. 网络概述。左：我们将图像特征映射扁平化为补丁，然后在降维后将它们线性嵌入到令牌中。生成的令牌将被馈送到长-短距离Transformer模块。生成的Transformer序列将通过添加任务尾部而被下游任务进一步使用右图：长短程Transformer图示我们采用了两个分支的设计，以降低模型的复杂性，明确地分离本地和全局上下文提取。通过N个级联的Transformer编码器块提取长程依赖关系我们采用标准Transformer设计，如[12，44]中建议的位置嵌入（表示为P）3. 结构感知Transformer网络STAR模型的概述如图所示二、我们首先将图像IRH× W × CI标记为一系列扁平标记ITRL× CT，其中C I和C T是通道数。所生成的令牌将由长-短范围Transformer模块接收作为输入，其然后将分别输出长和短范围的两个结构图Sl，SsRL× L × CS。预测的两个结构图然后可以用于进一步估计用于图像增强任务的曲线或变换。3.1. 令牌化为了将图像转换为令牌，一种简单的方法是将图像展平为原始补丁，如[8]中所述。在这种情况下，特征I∈RH×W×CI被重塑为为了支持高效的实时图像增强，我们使用以下步骤实现标记化流水线。如图2，我们首先将全分辨率特征展平为一系列补丁。每个补丁的降维操作被级联在其后。之后，我们通过学习线性嵌入进一步提取每个补丁的令牌。减少内存使用的关键是适当的降维。在本文中，我们比较了三种标记化策略，如图所示。3.第三章。最典型的令牌化策略是线性头[12，8，25]，其中输入被划分为补丁，然后线性嵌入。如前所述，对于图像增强，这样的策略过于繁重。为了减少计算，我们首先尝试[15，12]中采用的Conv Head策略。而不是计算大的P2C CT（C表示输入通道尺寸，CT表示Transformer尺寸）投影，一系列的补丁，并将它们视为令牌，即，不（H×W）（P2×CI），其中P是斑块大小，L=我们使用预处理CNN，逐渐减少spa-大小令牌序列通过简单的平坦-RP P（HW）是面片的数量。然而，这种策略将导致大量的内存消耗。具体地，输入令牌向量被公式化为具有大维度t RPX Cl，i= 1，2，…N，需要大量参数进行训练（例如，[8]中的33 M参数）。另一种策略是从CNN的特征图中导出输入令牌序列[12，50]。作为特殊情况，在空间下采样之后，这里的补丁大小可以被视为1x1，并且通过堆叠卷积操作来提取令牌。使特征图的空间维度变小。我们进一步实现了平均头策略，其中空间大小直接通过自适应平均池化来减小。这是受到挤压和激励块的启发[23]。利用MeanHead，我们可以最大限度地降低令牌化复杂度，但是注意，这里我们遵循以下假设：纹理信息（即，角）对于学习特定图像增强任务的结构上下文（即，白平衡）。与[50]类似，我们应用7×7卷积N xM xMLPLeakyRelu规范P多头注意卷积规范规范令牌令牌代币嵌入4109ConvConv×HW∈×CT∈长短P22HWCT转换头线性头平均头特色特色自适应平均池变平变平具体地，对于长范围上下文（y长）和短范围上下文（y短），我们有T0=T长+p（1）Tn=MSA（LN（Tn−1））+Tn−1，n=1. N（2）Tn=MLP（LN（T~n））+T~n，n=1…N （3）y长=LN（TN）（4）y短=CNN（LN（T短））（5）MSA、MLP和LN分别表示多头自注意、多层感知器和层归一化N令牌令牌是Transformer的深度（基本Transformer块的数量）。然后可以使用所得到的y长和y短图3.STAR中使用的标记化方法的图示这里Hff表示输入的空间分辨率，并且CT表示Transformer维度。卷积头策略：输入将被馈送到具有下采样的堆叠卷积层。如[12]中所述，通过简单地使特征图的空间维度变平然后将它们投影到Transformer维度来获得令牌序列。线性头策略：将特征映射直接分割成面片，然后投影嵌入。平均头策略：使用自适应平均池化减小空间大小，然后遵循线性头策略。在图像上具有步幅4和输出通道16，然后将输出特征馈送到上述标记化模块以用于更多信息表示。我们进一步定量地比较了这三种策略。参见第5.1节。3.2. 长短量程Transformer模块与仅使用标准Transformer [ 44 ]架构的现有视觉转换器方法 [12 ， 25 ， 8] 不同，我们采用双分支Transformer设计来处理令牌序列。如图 2，而不是将整个令牌嵌入（T RP2× CT）馈送到两个分支中，我们沿着通道维度将它们分成两部分。的分割嵌入（{T、T}∈R×）将是用于各种图像增强任务。(e.g.、添加线性层以预测色调曲线）。4. 使用STAR进行为了探索模型的多功能性，我们使用最新的CNN方法在三个应用程序上评估STAR：用于照明增强的曲线估计[19]，自动白平衡[2]和照片修饰[52]。为了公平的比较，以下所有实验都基于作者发布的公共代码。我们保留除主干模型之外的所有实验设置（即，数据集、数据增强、训练策略……）不变4.1. 照明增强许多照片往往是在光线不足和不平衡的情况下拍摄的。这样的低光照片不仅suf-不仅避免了受损的美学质量，而且还挑战了许多基本的下游视觉任务，如分类和对象检测。为了解决这个问题，我们采用最近最有效的低光增强方法之一DCE-Net（据称在GPU上比以前的方法快3[45，26，47]）作为我们的基线来评估星形花.分别馈入各支路这种做法的效果-有效地减少了整体计算。如图对于左分支，我们使用如 [ 44 ] 中的正常Transformer模块。每个Transformer包含多头自注意模块和一个MLP与跳过连接。在[12]之后，我们使用LayerNorm [4]作为归一化和GELU [22]非线性函数。我们也将1D可学习位置嵌入pR2添加到变换器输入以保留位置信息，如[8，12]。对于局部关系的右分支，我们应用卷积来覆盖相邻令牌。与NLP中使用1-D卷积[48，27]来捕获1-D依赖性的处理语句不同，我们使用2D卷积来处理重新排列的图像标记。而不是嵌入卷积的内部Transformer模块，我们把卷积分支与整个变压器模块并行变平补丁线性补丁线性令牌4110−∈ −在DCE-Net [19]中，设计了深度曲线估计网络（DCE-Net）以在给定输入图像的情况下估计一组最佳拟合该框架通过迭代地应用曲线来映射输入的RGB通道的所有像素在DCE-Net中使用二次曲线LE（I（x）;α）=I（x）+αI（x）（I（x）），其中I（x）和LE（I（x）;α）分别表示调整后的图像和原始输入第i次迭代的曲线参数αi[ 1，1]H×W由具有特征级联的CNN逐像素预测为了评估我们的方法，我们用所提出的STAR替换这个CNN主干，并使用结构上下文（y短，y长）中的结果来估计αi利用导出的αi，第i次迭代的LE曲线的计算可以公式化为：α〜i=FC（[yshort，ylong]）（6）4111−××∈↓16× × ×16输入DCE-Net（5.2GFLOPS）DCE-Net_D（0.31 GFLOPS）STAR-DCE（0.04 GFLOPS）参考图4.在MIT-Adobe FiveK上对具有不同骨架的DCE-Net在低光增强上的定性比较[7]。αi=ψ（tanh（α~i））（7）LEi（I（x）;αi）=LEi−1（x）+αi LEi−1（x）（1LEi−1（x））（八）其中FC表示用于预测曲线的学习投影ψ（. ）是用于将每令牌曲线映射到的插值函数被分成16个16块（对应于原始的4级编码器），然后被投影到令牌。之后，我们将标记馈送到长短范围Transformer 和生成的具有空间大小的结构上下文[ylong，yshort然后，H×W将由随后的三个解码器使用福尔-每像素曲线。在以下部分中，我们将上述流水线称为4.2. 自动白平衡白平衡（WB）是应用于所有相机图像的基本低级计算机视觉任务具体地，WB被公式化以归一化所捕获的场景的照明的效果，使得所有所捕获的对象看起来都在理想的“白光”下。我们遵循最近的工作[2]并使用编码器/解码器方案实现用于WB的STAR。在本节中，我们将进一步演示如何在编码器/解码器网络中采用STAR（即，U-Net [37]）。根据[2]，应用CNN以产生具有目标WB设置i A，T，S1的编辑图像I W B（i）。该网络是建立在4级编码器/解码器2 2最大池和转置卷积。[2]使用由两个单元组成的多解码器架构：（1）用于提取图像的多尺度潜在表示的4级编码器。（2）对应于AWB、白炽WB和阴影WB设置的三个4级解码器为了使用Transformer，我们使用建议的STAR来代替原始编码器。我们还采用了多解码器设计，这被证明比vanilla U-Net [37]通过[2]产生更好的性能。具体地，输入图像首先被IA：AWB，T：白炽WB，S：阴影WB降低照明增强的现有实践，我们采用Mean Head标记化和双分支变换器设计。我们保留了第一个卷积（3 24 3 3）层，并使用其产生的特征映射来指导解码器的图像生成。与[2]一样，整个STAR模块由三个解码器共享，并与它们联合训练。4.3. 使用3D-LUT进行我们选择3D-LUT（查找表）学习作为一个例子来展示STAR如何提高全局调整的学习。3D-LUT通常被应用于调整相机成像流水线中的照片的色调、饱和度、曝光、颜色和色调。三维查找表作为一种最经典但应用最广泛的照片调整技术，可以在非常高的效率下实现稳定的照片增强性能我们按照[52]的框架评估3D-LUT上的STAR估计，其学习几个（例如，3)基于3D LUT来插值图像，并通过使用CNN来学习它们的线性组合来融合结果。常规的基于3D LUT的图像增强方法具有3D LUT主要是手动的并且仅提供固定变换的主要限制。为了适应不同的场景，[52]学习了几个LUT，并使用一个小的CNN预测器来融合它们。尽管如[52]中所讨论的高效且稳定，但是这种3D-LUT模型具有从全局调整继承的限制。一旦针对输入图像确定了3D LUT，则对于dif.4112××××××××在图像中的不同局部区域。自然地，对于需要局部增强的图像（例如，具有高动态范围的目标图像）。[52]打算通过应用局部色调映射[13]作为预处理来解决这个问题。然而，这种局部色调映射方法对于高分辨率图像仍然是耗时的，并且该问题由[52]留给未来的工作。为了应用我们的模型，我们直接用 STAR 替换CNN，并预测[yshort，ylong]上的组合权重。STAR不是直接预测LUT的全局调整权重，而是预测32 - 32个令牌式权重，然后将其用于融合每个LUT的内插图像。5. 实验5.1. 照明增强结果本节将我们的STAR与原始CNN模型在曲线估计上进行比较，设置如下。数据集。我们选择MIT-Adobe FiveK [7]（FiveK）来比较我们的方法与CNN。FiveK数据集包含5，000个图像对，由专家（A - E）进行了修饰。我们遵循以前的方法[45，17，24，35]仅使用专家C的输出并随机将图像分为两部分：500张图像用于验证和测试，其余4，500张图像用于训练。为了公平比较，我们使用[45]分割的数据集。训练和评估图像都根据其最长边调整为1200 900，如[19]。请注意，在这里我们选择MIT-Adobe FiveK而不是[19]发布的数据集或与特定方法相对应的其他数据集，因为我们打算表明STAR可以作为通用主干工作，应该在常见和广泛使用的数据集上进行评估。模型复杂性。DCE-Net [19]选择具有7层，32个最大输出通道的CNN作为其网络骨干（79.42k参数）。接下来，我们首先将Transformer维度（Cin）设置为相同的32。内部MLP尺寸也保持相同。CNN和STAR模型都预测了24条曲线（3个通道共8次迭代），如[19]中的实践。每个图像将在STAR中被划分为32个32个令牌。在这项任务中，我们观察到强大的过拟合时，应用星与大变换器的深度。因此，我们使用Transformer深度1的STAR作为默认值。针对模型复杂性进行了额外的消融研究，包括改变模型宽度/深度，使用平均头标记化和采用双分支设计。培训和评估。与[52]类似，在评估时以全分辨率（1200 900）处理图像，并在训练期间将大小调整为256 256。在[19]之后，Adam [30]优化器以固定的学习率1e-4应用。我们使用简单的L1范数作为CNN和STAR模型的损失函数，以公平地比较令牌化分支参数（K）FLOPS（G）峰值信噪比（dB）SSIMDCE-Net--79.45.2022.70.870DCE-NetD--79.40.5122.20.866STAR-DCE线性179.60.1724.00.882STAR-DCEConv132.60.1024.50.894STAR-DCE是说123.30.0724.50.892STAR-DCE线性277.80.1524.10.885STAR-DCEConv230.80.0824.40.894STAR-DCE是说220.10.0524.50.893表1.令牌化和双分支策略的比较。DCE-Net和DCE-NetD表示具有/不具有下采样的7层CNN模型。我们报告模型大小和总浮点运算（FLOPS）以及FiveK评估集上相应的平均PSNR。顶部的结果是粗体。模型性能我们使用以下指标评估模型效率：存储器消耗（参数数量）、模型复杂度（浮点运算，FLOPS）2、增强性能（PSNR/SSIM）和推理延迟。为了确定最有效的STAR设置，我们进行了几项消融研究：消融I：标记化和长短程捕获。我们首先比较了上述Conv / Linear / Mean Head标记化。如表所示。1，三种标记化方法带来接近的模型性能，尽管模型大小不同。作为比较，我们还使用下采样来训练DCE-Net，以确定大小32 32 ，由DCE-NetD表示。我们观察STAR模型几乎不能从复杂的链化方法中受益，特别是最广泛使用的线性头[8，12，25]。相比之下，简单地对特征图进行平均可以减少超过50%的计算和存储器使用而没有性能损失，并且可以通过应用双分支（长短范围）设计来进一步压缩模型。结果支持纹理信息，如角落是不是必不可少的，这样的调色任务。随后的实验将Mean Head标记化和双分支设计作为默认值，以提高效率。消融II：更苗条的模型。本节通过使用更少的通道/层来探索CNN和STAR的模型可扩展性我们将网络宽度减少到16（对于STAR和CNN），深度减少到3（对于CNN），以观察模型性能对模型大小的敏感性。表.2报告了定量结果。如图所示，将CNN深度降低到3将严重损害模型性能（超过10 dB PSNR下降）。此外，将CNN宽度减少到16也会导致输出质量明显下降（即，0.9 dB PSNR和0.04 SSIM下降（DCE-NetD）。定性比较可参见图1。4上述结果说明了纯CNN模型捕获结构表示的局限性。为了导出更有效的模型，简单地减少CNN的深度/宽度也可能导致性能差。运行时延迟。我们已经证明了在此应用程序中，使用大小为3 256 256的输入计算2FLOPS4113××××数据集参数（M）FLOPS（G）MaeMSE∆E2000WB编辑[2]第14.371.933.1282.553.77WB编辑+STAR第13.321.373.2479.953.62WB编辑[2]集合24.371.933.75124.974.90WB编辑+STAR集合23.321.373.67118.274.79WB编辑[2]魔方+4.371.933.4580.964.59WB编辑+STAR魔方+3.321.373.3175.84.32输入STAR（1.37 GFLOPS）CNN（1.93 GFLOPS）参考表4.CNN编码器和STAR编码器在白平衡数据集上的AWB比较”WB editting” denotes the original CNN图5. Cube+上AWB校正的定性比较[5]。我们展示了模型复杂度（FLOPS）和性能（∆E 2000，MSE）。绿色箭头表示明显的颜色差异。宽度层参数（K）FLOPS（G）峰值信噪比（dB）SSIMDCE-Net32779.45.2022.70.870DCE-NetD32779.40.3122.20.866DCE-Net16723.61.5521.60.820DCE-NetD16723.60.1021.30.824DCE-Net32324.01.5712.30.605STAR-DCE32-20.10.0424.50.893STAR-DCE16-7.20.0123.00.845表2. STAR-DCE和DCE-Net（深度/宽度减小）的比较。DCE-NetD表示具有下采样的DCE-Net。平台延迟*SRIE [16]Matlab（CPU）12.1865* 石灰[20]Matlab（CPU）0.4914[47]第四十七话Tensorflow（GPU）0.1200*DeepUPE [45]Tensorflow（GPU）0.0210*EnlightenGAN [26]PyTorch（GPU）0.0078*DCE-Net [19]PyTorch（GPU）0.0025DCE-Net [19]PyTorch（GPU）0.0037DCE-NetD [19]PyTorch（GPU）0.0027STAR-DCEPyTorch（GPU）0.0019表 3. STAR-DCE / DCE-Net 和现有方法的运行时延迟比较。”*” denotes results reported by [其余的结果来自我们的重新实现（在Nvidia1080Ti和Intel Xeon 6126上测试）的STAR-DCE在低光增强质量（即，PSNR：24.5，SSIM：0.893 vs. PSNR：22.2，SSIM：0.866）和理论复杂度（即， 20.1K 参数， 0.04G FLOPSvs. 79.4Kparame- ters，0.51G FLOPS）。为了进一步衡量STAR[19]和其他现有的方法。图像的大小调整到1200 - 900的分辨率，并测试了32次，Nvidia 1080 Ti GPU与11GB内存。我们还包括[19]测试的结果作为比较。表. 3例报告平均结果。可以看出，DCE-Net是高效率的，比现有方法快3倍通过进一步使用STAR主干网，DCE-Net甚至可以获得额外的2倍加速。5.2. 白平衡结果数据集。我们采用Rendered WB数据集[3]和Cube+数据集[5]来比较STAR与CNN。Rendered WB数据集[3]由两个子集组成：集合1（62，535编码器我们报告了每个评估集的图像MAE（平均角度误差）、MSE（均方误差）和∆ E 2000的平均值。由七个不同的DSLR相机捕获的2，881个图像）和[3]将集合1分成三个折叠。在[2]之后，我们在从Set 1的第一和第二折叠中随机选择的12，000张图像上训练我们的网络剩余的第三折叠（称为组1-测试）与组2（2，881个图像）和Cube+数据集（10，242个图像）一起用于测试。培训战略。为了公平比较，我们保持[2]中的大部分训练策略不变。对于每个图像，随机采样四个128 -128块用于与它们对应的地面实况一起训练。几何增强，包括随机旋转和翻转添加数据增强。使用MAE（平均绝对误差）损失来训练网络，以最小化生成的和地面实况补丁之间的L1范数使用Adam [30]优化模型参数，初始学习率为1e−4，每25个epoch减少0.5。定量结果。在表中。参考图4和图5，我们提供了CNN编码器和STAR编码器在三个评估集上的比较。在[2]之后，我们使用平均MAE（平均角度误差）、MSE（均方误差）和∆E2000来评估生成的结果。对于模型的大小和表中的FLOPS3，我们只计算编码器和AWB解码器，因为只有AWB结果进行评估。从桌子。我们可以看到，使用STAR编码器，这些方法可以产生接近（甚至稍微好一点）的结果，参数减少25%，计算减少30%注意，这样的压缩比仅通过替换CNN编码器来实现。我们还尝试用Transformers（具有较小的模型）替换我们把这个主题留给未来的工作，以进一步减少模型的计算。5.3. 照片修饰结果数据集。我们在HDR+ [21]上进行实验以证明STAR的性能改进。HDR+是一个突发摄影数据集，用于研究移动相机的高动态范围和低光照成像。与[52]相同，我们使用从3使用3×128×128输入计算[2]4114××峰值信噪比25.9峰值信噪比24.0峰值信噪比21.8峰值信噪比25.8峰值信噪比24.6峰值信噪比23.1输入CNN（0.07 GFLOPS）CNN（0.21 GFLOPS）STAR（0.04 GFLOPS）参考图6. 通过在HDR+数据集上使用CNN和STAR学习3D LUT来获得照片修饰的定性结果[21]。分别是全局和语义如表中所示。5、预测语义权重显著提高了方法处理HDR+图像的性能。然而，这样的改进是以繁重的计算为代价的（即，对于 [52] ，超过3FLOPS4）。实验结果表明，使用我们的STAR获得的结果达到26.8 dB的PSNR与40%的参数和接近FLOPS相比表5.CNN和STAR的照片修图比较HDR+数据集这里，全局和语义分别表示学习每图像权重/每令牌权重。 STAR-32 和 STAR-64 代表 Transformer 尺寸为 32 的STAR型号/64。对齐和合并帧的中间结果（DNG格式）作为输入，而手动微调HDR成像管道生成的JPG图像作为地面实况。按照[52]中照片修饰应用程序的数据集设置，输入和目标都以JPG格式压缩，并具有8位动态范围。由于HDR+数据集中的大多数场景在中间帧和地面实况之间没有对齐，因此我们使用对齐良好的Nexus 6p子集（由675个用于训练的场景”[52]。培训战略。我们在480p分辨率上训练和评估CNN和STAR模型。在训练过程中，每个图像将被随机裁剪成256个补丁，然后作为输入馈送到模型。如前所述，我们保持了除主干模型之外的所有训练设置不变。具体来说，我们使用Adam优化器和固定学习率1e−4优化CNN和STAR模型。输入补丁随机翻转数据增强。定量结果。我们采用三个指标来评估模型性能：PSNR、SSIM和deltaE（∆E）。较小的∆E和较高的PSNR / SSIM表示更好的性能。为了与STAR进行公平比较，我们不仅训练CNN来预测整个图像的全局LUT权重，就像[52]一样，而且还使用相同的架构来预测CNN。此外，当我们将STAR的宽度减少一半时，该模型仍然可以保持高性能，仅具有0.3 dB的PSNR下降。这表明STAR架构具有高效的语义上下文捕获能力。图6可视化了增强结果的示例。6. 结论与讨论在这项工作中，我们提出了语义感知的Trans-fomer（STAR），这是一种用于图像增强的新的轻量级深度学习骨干。所提出的方法允许快速推理与小的内存使用。我们进行实验，以评估三个常见的应用，包括照明增强，白平衡和照片修饰与三维LUT的STAR。定量和定性的结果证明了所提出的STAR的效率和有效性与国家的最先进的现有工作。在我们未来的工作中，我们计划将STAR扩展到更多的图像和视频增强任务，如去噪和超分辨率。7. 确认这项工作部分由感知及互动智能研究中心有限公司资助，部分则由香港研究资助局的综合研究基金资助。14202217、14203118、14208619、27208720），部分由研究影响基金资助号R5001-18。通过改变最后一个标记的步幅，每个标记的权重为32×32从2到1的两层我们将这两种策略表示为4使用3×256×256输入进行参数（K）FLOPS（G）PSNRSSIMΔECNN环球270.10.0723.50.8857.93CNN语义270.10.2925.60.8845.81CNN-半全球74.00.0222.80.8818.54CNN-半语义74.00.0824.40.8816.24STAR-64全球109.40.0823.70.8857.24STAR-64语义109.40.0826.80.8875.42STAR-32全球43.40.0323.50.8847.75STAR-32语义43.40.0326.50.8835.774115引用[1] 马哈茂德·阿菲菲语义白平衡：基于卷积神经网络的语义颜色恒常性。 arXiv 预印本 arXiv ： 1802.00153 ，2018。2[2] Mahmoud Afifi和Michael S Brown。深度白平衡编辑。在IEEE/CVF计算机视觉和模式识别会议论文集，第1397- 1406页二四五七[3] Mahmoud Afifi，Brian Price，Scott Cohen，and MichaelS Brown.当颜色恒定性出错时：纠正不正确的白平衡图像。在IEEE/CVF计算机视觉和模式识别会议论文集，第1535-1544页，2019年。7[4] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿.层归一化。arXiv预印本arXiv：1607.06450，2016。4[5] Ni k olaBani c´、KarloKosˇcˇevi c´和S v enLo ncˇ ar ic´。非监督学习的颜色恒常性。 arXiv 预印本 arXiv ：1712.00436，2017。7[6] Tom B Brown，Benjamin Mann，Nick Ryder，MelanieSub biah ， Jared Kaplan ， Prafulla Dhariwal ， ArvindNeelakan tan ，Pranav Shyam ，Girish Sastry ，AmandaAskell，et al.语言模型是很少机会的学习者。arXiv预印本arXiv：2005.14165，2020。2[7] Vladimi rBychko vsky，Syl vainParis，EricChan，andFre´doDurand.使用输入/输出图像对的数据库学习摄影全局色调调整CVPR 2011，第97IEEE，2011年。一、五、六[8] Hanting Chen，Yunhe Wang，Tanyu Guo，Chang Xu，Yiping Deng，Zhenhua Liu，Siwei Ma，Chunjing Xu，Chao Xu ， and Wen Gao. 预训练的图像处理Transformer。arXiv预印本arXiv：2012.00364，2020。二三四六[9] 陈玉生、王玉清、高满新、庄永玉。深层照片增强器：基于非配对学习的gans图像增强算法。在IEEE计算机视觉和模式识别会议的论文集，第6306-6314页，2018年。一、二[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。2[11] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。2[12] AlexeyDosovitskiy，LucasBeyer，Al

下载后可阅读完整内容，剩余1页未读，立即下载