自适应混合金字塔网络用于超高分辨率照片的实时局部修饰

183 浏览量更新于2023-10-25 收藏 14.53MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

biwen.lbw@alibaba-inc.com, {guoxiefan, hongyu.yang.cv}@gmail.com,miaomiao.cmm@alibaba-inc.com, xingtong.xxs@taobao.com, dhuang.cv@outlook.comhttps://github.com/youngLBW/CRHD-3K.21080ABPN:自适应混合金字塔网络用于超高分辨率照片的实时局部修饰0雷碧文†，郭协凡*，杨宏宇，崔苗苗†，谢炫松†，黄迪†，阿里巴巴集团DAMO学院0摘要0照片修饰在各个领域都有很多应用。然而，大多数现有方法都是为全局修饰而设计的，很少关注局部区域，而后者实际上在摄影流程中更加繁琐和耗时。在本文中，我们提出了一种新颖的自适应混合金字塔网络，旨在实现超高分辨率照片的快速局部修饰。该网络主要由两个组件组成：上下文感知的局部修饰层（LRL）和自适应混合金字塔层（BPL）。LRL旨在对低分辨率图像进行局部修饰，充分考虑全局上下文和局部纹理信息，然后BPL通过提出的自适应混合模块和细化模块逐步将低分辨率结果扩展到更高分辨率，从而实现了局部修饰。我们的方法在两个局部照片修饰任务上远远优于现有方法，并在运行速度方面表现出色，在单个NVIDIA TeslaP100GPU上实现了对4K图像的实时推理。此外，我们引入了第一个高清布料修饰数据集CRHD-3K，以促进局部照片修饰的研究。该数据集可在以下网址获取：01. 引言0照片修饰在各个领域都有很多应用。然而，大多数现有方法都是为全局修饰而设计的，很少关注局部区域，而后者实际上在摄影流程中更加繁琐和耗时。在本文中，我们提出了一种新颖的自适应混合金字塔网络，旨在实现超高分辨率照片的快速局部修饰。该网络主要由两个组件组成：上下文感知的局部修饰层（LRL）和自适应混合金字塔层（BPL）。LRL旨在对低分辨率图像进行局部修饰，充分考虑全局上下文和局部纹理信息，然后BPL通过提出的自适应混合模块和细化模块逐步将低分辨率结果扩展到更高分辨率，从而实现了局部修饰。我们的方法在两个局部照片修饰任务上远远优于现有方法，并在运行速度方面表现出色，在单个NVIDIA TeslaP100GPU上实现了对4K图像的实时推理。此外，我们引入了第一个高清布料修饰数据集CRHD-3K，以促进局部照片修饰的研究。该数据集可在以下网址获取：0* 郭协凡在DAMO实习期间完成了这项工作。0图1. 高保真度修饰照片。从左到右：（a）原始照片，（b）我们的修饰结果，（c）真实图像。0实际上，这是专业摄影流程中最繁琐和耗时的步骤。为了解决这类问题，我们将其总结为本地照片修饰（LPR）任务，其目标是编辑照片中的目标区域并保持其余区域不变。与一般的本地图像编辑任务（如图像修复和雨水去除）不同，LPR更注重增强目标对象的审美感知和视觉质量。图1给出了一些LPR示例。我们将LPR任务的三个主要挑战总结为：（1）准确定位目标区域；（2）具有全局一致性和细节保真度的本地生成；（3）高分辨率图像的高效处理。前两个挑战是由任务本身的特点带来的，而最后一个则是由LPR的应用场景决定的。由于超高分辨率照片已经广泛应用于各种摄影场景，处理它们的能力成为LPR方法在实践中的关键因素。鉴于上述挑战，我们在本文中分析了现有方法在LPR任务中的适用性，并尝试提出更适合该任务的解决方案。21090近年来，大量的工作致力于图像到图像的转换任务，并在风格转移[11, 16, 19, 45]、语义图像合成[7, 18,37]等方面取得了令人印象深刻的结果。其中大多数采用了深度网络和编码-解码范式来实现忠实的转换，这导致了计算量的增加，从而严重限制了它们在一些高分辨率场景中的应用。一些方法[12, 25, 47,52]尝试通过将计算负担从高分辨率映射转移到低分辨率映射上来加速模型，并成功地在高分辨率图像上实现了全局转换。然而，由于缺乏对局部区域的关注，其中很少有方法能够很好地适应LPR任务。一些方法专注于局部图像编辑任务，如图像修复[28, 39, 55]、去除阴影[15, 32,33]和去雨[40-42, 48,49]。其中大多数依赖于指示目标区域的掩码作为输入，而在LPR任务中，准确获取这样的掩码本身就是一个相当具有挑战性的问题。尽管一些方法采用了深度生成网络，并在不指定掩码的情况下进行局部编辑，但它们几乎无法直接处理超高分辨率图像。此外，AutoRetouch[46]采用滑动窗口策略实现局部建模和修饰，但在高分辨率情况下无法捕捉到全局上下文，特别是在高分辨率情况下。基于这些观察，我们提出了一种新颖的自适应混合金字塔网络（ABPN），用于超高分辨率照片的局部修饰，如图3所示。该网络通过两个组件解决了上述三个挑战：上下文感知的局部修饰层（LRL）和自适应混合金字塔层（BPL）。总的来说，给定一张高分辨率图像，LRL对其缩略图进行局部修饰，随后的BPL将LRL的输出扩展到输入的原始尺寸。具体而言，我们设计了一种新颖的多任务架构，同时实现目标区域的掩码预测和局部生成。我们提出了一种局部注意模块（LAM），可以充分捕捉和聚合目标区域的局部语义和纹理以及全局上下文，实现一致的局部修饰。对于BPL，受数字图像编辑中的混合层的启发，我们开发了一种轻量级的自适应混合模块（ABM）及其反向版本（R-ABM），以实现从低分辨率结果到更高分辨率的快速扩展，确保了良好的可扩展性和细节保真度。对两个LPR任务的广泛实验表明，我们的方法在修饰质量和处理效率方面远远优于现有方法，展示了其在LPR任务中的优越性。此外，由于编辑工作通常耗时且需要高水平的图像处理技巧，公开可用的LPR任务数据集很少。0因此，我们建立并发布了第一个高清晰度服装修饰数据集（CRHD-3K）以促进研究。我们在这项工作中的主要贡献如下：（A）我们提出了一种新颖的ABPN框架，用于超高分辨率照片的局部修饰，该框架展示了卓越的效率性能（在单个NVIDIA Tesla P100GPU上实时推理4K图像）和优秀的修饰质量，超过了现有的方法。（B）我们提出了一种局部注意模块（LAM），它能够有效地捕捉和聚合全局上下文和局部纹理。（C）我们设计了一种自适应混合模块（ABM），它为框架提供了强大的可扩展性，可以从低分辨率结果快速扩展到更高分辨率。（D）为了推动LPR（例如，服装修饰）的研究，我们引入了第一个高清晰度服装修饰数据集CRHD-3K。02. 相关工作0照片修饰。受深度卷积神经网络发展的影响，基于学习的方法[5, 10, 12, 14, 21, 46, 50,57]最近被提出用于照片修饰，取得了令人兴奋的结果。然而，当照片分辨率增加时，这些方法受到了沉重的计算和内存成本的限制。此外，这些方法设计用于全局照片修饰，不适用于车牌识别任务。图像到图像的转换。图像到图像的转换最初由[18]定义，其中许多计算机视觉任务被总结为像素到像素的预测工作，并开发了基于条件GAN的通用解决方案。在[18]之后，提出了各种方法来解决图像转换问题，使用配对图像[7, 18, 27, 37, 43, 47, 52]或非配对图像[3, 8, 9,16, 17, 23, 25, 30, 36, 38,59]。一些工作专注于特定的图像转换任务（如语义图像合成[7, 18, 37]和风格转移[11, 16, 19,45]），并取得了令人印象深刻的性能。然而，上述工作主要集中在全局转换上，对局部区域给予较少关注，这限制了它们在车牌识别任务中的能力。图像修复。图像修复是与车牌识别最接近的任务，它指的是在给定相应掩码的情况下重建图像的缺失区域的过程。深度生成方法[13, 22, 26, 28,29, 35, 39, 51, 53-56,58]由于其强大的特征学习能力而取得了显著进展。然而，获取准确的掩码本身就是一个非常具有挑战性的问题，而使用不合理的掩码往往会导致填充结果中的大误差。最近，盲目图像修复方法[6, 31,53]通过在不指定缺失区域的掩码的情况下完成视觉内容的填充来放宽限制。然而，这些方法As discussed above, subject to the lack of attention tolocal regions or the high computational costs, the existingmethods are difﬁcult to cope with the LPR task. To solvethese problems, we develop an adaptive blend pyramid net-work for local retouching of ultra high-resolution photos.Fig. 3 shows an overview of our framework. The network ismainly composed of two components: a context-aware localretouching layer (LRL) and an adaptive blend pyramid layer(BPL). Given an image I0 ∈ Rh×w×3, we ﬁrst build an im-age pyramid PI = [I0, I1, · · · , Il] and a high-frequencycomponent pyramid PH = [H0, H1, · · · , Hl−1], wherePH is acquired following Laplacian Pyramid [4] and l isthe number of downsampling operations (l = 2 as defaultin Fig. 3). Then LRL is applied to Il ∈ Rh2l × w2l ×3 to predictthe target region mask M and generate the retouched resultsRl ∈ Rh2l × w2l ×3. After that, we employ BPL to expand thelow-resolution outputs Rl to the original size of I0. Specif-ically, the reverse adaptive blend module (R-ABM) is intro-21100图2. CRHD-3K数据集示例（放大以获得更好的视图）。左：原始照片，右：由具有高图像处理专业知识的专业人员修饰的结果。0假设存在与简单数据分布或不需要的图像的污染，这使得它们无法充分利用图像的固有语义和纹理进行车牌识别。此外，现有的方法只能处理低分辨率输入，超高分辨率图像修复仍然极具挑战性。还有一些局部图像编辑任务旨在恢复图像中的局部区域，包括去除阴影[15, 32, 33]，去雨[40-42, 48,49]等。不幸的是，由于这些方法的强特异性，其中很少有适用于常见车牌识别任务的方法。高分辨率图像编辑。为了实现对高分辨率图像的转换，[12, 25, 47,52]试图通过将主要计算从高分辨率地图转移到低分辨率地图来减轻空间和时间负担。尽管产生了令人印象深刻的效率性能，但当应用于车牌识别时，由于对局部区域的忽视，仍然存在问题。03. CRHD-3K数据集0照片修饰[24]是指提高图像视觉美学质量的过程，而服装修饰是其中最具代表性的任务之一，传统上是通过手工操作实现的。然而，手动修饰的过程繁琐且耗时。为了方便基于学习的修饰方法，我们引入了第一个大规模高清服装修饰（CRHD-3K）数据集。数据收集。我们最初从Unsplash1收集了超过60000张原始照片，并进一步仔细检查了每一张照片，删除了异常值（例如严重运动模糊）和重复内容。CRHD-3K数据集最终包括3022张高清原始肖像照片。数据标注。为了获得高质量的修饰照片，该过程由一组专业图像编辑人员完成，目标是去除衣服上的皱纹、褶皱和其他瑕疵，使其看起来更加平滑和美丽。每张照片的修饰时间为3到5分钟。图2展示了一些修饰的示例。01 https://unsplash.dogedoge.com0数据统计。CRHD-3K数据集由3022对原始照片和修饰照片组成，其中2522对用于训练，500对用于测试。分辨率主要在4K到6K的范围内变化。伦理指南。为了避免数据带来的伤害风险，我们模糊和裁剪了照片中包含的个人可识别信息（例如面部），并尽可能保留了只有服装组件。由于服装图案的多样性和皱纹判断的主观性，服装修饰是一项典型且具有挑战性的任务。更重要的是，CRHD-3K数据集中的超高分辨率图像对模型的时间和空间效率要求非常严格。04. 方法04.1. 概述02 l × 3 ，记录了从I l到Rl的平移信息。通过逐步上采样和细化，得到了具有高分辨率和丰富细节的混合层B0。最后，我们使用自适应混合模块（ABM）将B 0应用于I0，生成最终结果R0。我们介绍了使用的这些子网络和损失函数ConcatUp�� R-ABMUpConcat��ABMABMMutual EncoderMPBLRBRefining ModuleLRLBPL�� In this section, we propose a context-aware local re-touching layer (LRL) to address the ﬁrst two challengesmentioned in Sec. 1: accurate localization of the targetregion and local generation with global consistency.Asshown in Fig. 3, the LRL adopts a multi-task architectureand consists of a mutual encoder, a mask prediction branch(MPB) and a local retouching branch (LRB).Mutual Encoder.The mutual encoder is composed ofsix simple convolution blocks (3 × 3 convolutions, batchnormalization, and ReLU) in series, and the output ofeach convolution block composes a feature pyramid PF =[F skipi ∈ Rh2l+i ×w2l+i ×ci]6i=0, where ci denotes the numberof channels and F skip0 = I0. Sharing the encoder with thesubsequent MPB and LRB is feasible because both of thetwo branches rely on the semantic features and contextualinformation to generate their results. It also greatly reducesthe computational complexity of the model.21110Laplacian Pyramid，� =20图3. 自适应混合金字塔网络（ABPN）的概述。0��0图4. 局部注意模块（LAM）的细节。0在下面的章节中详细介绍了训练，包括第4.2节中的LRL，第4.3节中的BPL和第4.4节中的损失函数。04.2. 上下文感知局部修饰层02 l +2 × 1用于引导后续局部区域生成的目标区域。它由四个卷积块（3×3卷积、批量归一化和LeakyReLU）和一个分类头组成。此外，我们使用跳跃连接[44]将低级特征结合起来，以提高分割的准确性。注意，0M的大小是Il的4倍小，但足以引导LRB，而不会牺牲整体性能。尽管大多数数据集不直接提供目标区域掩码Mgt进行监督，但由于LPR任务的特性，我们可以通过将Il与其目标之间的差异并对其应用阈值来获得M gt。0MPB对网络的贡献有两个方面。首先，预测的掩码M本身可以帮助LRB集中在目标区域上，提高修饰质量。其次，通过联合训练，可以更好地感知全局上下文和语义信息，从而实现一致的生成结果。0局部修饰分支。大多数图像翻译方法采用传统的编码器-解码器架构来实现全局翻译，这导致对目标区域的关注不足。基于门控卷积（GConv）[55]，我们设计了一个局部注意模块（LAM）来改进对局部语义和纹理的捕捉，如图4所示。与图像修复不同，LPR中的目标区域包含丰富的纹理信息，这对于生成详细和逼真的结果至关重要。在这种情况下，我们应用跳跃连接来合并来自相互编码器的低级特征Fskipi。此外，我们在每个LAM中连接软掩码M以指导特征融合和不同级别的更新。由于GConv的门控机制，同时使用空间注意力和通道注意力来完全融合特征并捕捉目标区域的语义和纹理。通过堆叠LAM，LRB能够产生一致和忠实的局部修饰结果。请注意，尽管预测的掩码可能存在错误，但由于掩码仅在LRB中用作软引导，因此最终的修饰区域仍然不会受到影响。211204.3. 自适应混合金字塔层0LRL在低分辨率图像上实现局部修饰，其后的目标是将结果扩展到更大的尺度，同时增强其细节保真度。受数字图像编辑中的混合层（或顶层）概念的启发，我们提出了自适应混合模块（ABM）及其逆模块（R-ABM），以实现两个具有稀疏和平滑混合层的图像之间的无损转换。然后，我们构建金字塔逐步上采样和细化混合层，并最终将其应用于原始输入以生成最终结果。我们在下面描述这些组件的实现细节。自适应混合模块。混合层通常用于与图像（或基础层）以各种模式[1]混合，以完成不同的图像编辑任务，如对比度调整、避免和烧焦。通常，给定输入图像I∈Rh×w×3和混合层B∈Rh×w×3，我们将两个层混合以产生结果R∈Rh×w×30as: R = f(I, B) (1)0其中f是逐像素函数，表示由混合模式确定的映射公式。受到翻译能力的限制，具有固定函数f的某种混合模式难以应用于各种图像编辑任务。为了更好地适应不同任务的数据分布和转换模式，我们参考了柔光混合模式[2]，设计了一个自适应混合模块（ABM）如下：g(I, i) = E ⊙ I ⊙ I ∙ ∙ ∙ ⊙ I Σ Σ i(2)0R = fa(I, B) =0i=0((jiB + kiE) ⊙ g(I, i)) (3)0其中⊙表示Hadamard乘积，ji和ki是ABM和R-ABM中共享的可学习参数，E∈Rh×w×3表示具有值1的常数矩阵。反向自适应混合模块。ABM基于混合层B的先决条件。然而，我们只获得了先前LRL中的低分辨率结果Rl。为了获得混合层B，我们解决方程（3）并构建了一个反向自适应混合模块（R-ABM）如下：0B = fr(I, R) = R - Σ2i=0(ki*g(I, i)) Σ2i=0(ji*g(I, i))(4)0其中ji，ki和g与公式（3）中的相同。总的来说，利用混合层作为中间介质，ABM和R-ABM提供了图像I和结果R之间的自适应变换。我们不直接扩展低分辨率结果，而是使用0为了实现这个目标，我们使用混合层来进行局部变换，这在两个方面具有优势：（1）在LPR任务中，混合层主要记录两个图像之间的局部变换。这意味着它包含较少的无关信息，并且可以通过轻量级网络轻松细化。（2）混合层将与原始图像混合以实现最终的修饰，这充分利用了图像本身的信息，从而以高细节保真度进行局部修饰。实际上，有很多替代函数或策略可以实现自适应混合。一种直观的方法是利用由1×1卷积和非线性激活层组成的两个网络分别替换公式（3）和公式（4）。然而，这两个网络的变换是不可逆的，可能增加训练的难度。相比之下，ABM和R-ABM之间的良好可逆性和一致性确保了所有混合层位于同一域中，从而有效减轻了模型的负担。此外，公式（3）是Pegtop公式[2]的广义形式，易于优化，并且倾向于产生平滑且稀疏的混合层（参见图7和图8）。在我们的框架中，我们通过逐步上采样和细化混合层来实现扩展。平滑性和稀疏性意味着低分辨率混合层与其高分辨率目标之间的信息差距较小，从而极大地减轻了细化模块的负担。有关其优越性，请参见第5.4节关于ABM的实验结果。ABM和R-ABM具有简单的结构，但充分考虑了LPR任务的特点，并为框架提供了强大的可扩展性，以极小的成本快速扩展低分辨率结果。细化模块。为了将低分辨率混合层应用于高分辨率图像，细化模块对于补偿由于下采样引起的信息损失至关重要。由于混合层最初是从低分辨率结果生成的，它缺乏高频分量的变换信息。因此，我们将图像的高频分量作为细化模块的附加输入。由于从R-ABM产生的混合层具有平滑性和稀疏性，我们可以构建一个轻量级的细化模块，如下所示：0Bi = φ2(h(φ1(Cat(up(Bi+1), Hi)))) + up(Bi+1) (5)0其中up表示双线性插值，Cat表示通道级串联，Hi（i∈{0,1,...,l-1}）是图像Ii的高频分量，φ1和φ2分别是带有16个和3个滤波器的3×3卷积，h表示具有负斜率0.2的LeakyReLU。给定LRL的输入和输出，我们首先采用公式（4）计算原始混合层Bl。通过连续上采样和细化混合层，我们然后获得具有详细变换的高分辨率混合层B0。Ljoint = λ1Lmse + λ2Lperc + λ3Ladv+ λ4Ldice + λ5Ltv,(6)21130（b）VCNet（a）输入（c）AutoRetouch（d）pix2pixHD（h）目标（e）ASAPNet（f）LPTN（g）我们的方法0图5. FFHQR和CRHD-3K的定性比较（放大以获得更好的视图）：（a）原始图像，（b）VCNet [53]，（c）AutoRe-touch[46]，（d）pix2pixHD [52]，（e）ASAPNet [47]，（f）LPTN [25]，（g）我们的方法，（h）真实图像。0信息。最后，将公式（3）应用于B0和I0以得到最终结果。04.4. 损失函数0该模型以端到端的方式进行训练，我们用于训练的损失函数包括（i）多尺度均方误差（MSE）损失Lmse = �li=0 || Rgti− Ri ||22，（ii）感知损失Lperc[19]仅应用于低分辨率输出Rl以节省训练内存成本，（iii）对于最终输出R0的对抗损失Ladv[18]，（iv）对于MPB的预测掩码M的Dice损失Ldice[34]，以及（v）对于每个混合层Bi（i∈{0,1,...,l}）的总变差损失Ltv [19]。总的损失可以写成：0其中 λ 1 = λ 4 = 1 且 λ 2 = λ 3 = λ 5 = 0.1 为默认值。05. 实验05.1. 实验设置0数据集。为了使得我们的实验结果能够与具有不同推理能力的方法进行比较，我们将所有图像填充和调整大小为1024×1024进行训练和评估。此外，我们在第5.5节中展示了所提出网络在不同分辨率（从480p到4K）下在CRHD-3K上的性能。CRHD-3K随机分为2522张图像的训练集和500张图像的测试集，FFHQR则按照[ 46]中的方式划分为训练/验证/测试集。实现细节。我们的模型和基线使用PyTorch1.0在Python 3.6上实现，并在单个NVIDIA Tesla P100GPU上进行训练。我们使用Adam优化器训练我们的模型。批量大小为8，学习率初始为5×10-4，经过100个epoch后减小10倍。我们在实验中将l默认设置为2。整个框架训练到收敛大约需要18小时在CRHD-3K上，约70小时在FFHQR上。0它们对应的修饰图像。为了与具有不同推理能力的方法进行比较，我们将所有图像填充和调整大小为1024×1024进行训练和评估。此外，我们在第5.5节中展示了所提出网络在不同分辨率（从480p到4K）下在CRHD-3K上的性能。CRHD-3K随机分为2522张图像的训练集和500张图像的测试集，FFHQR则按照[ 46]中的方式划分为训练/验证/测试集。实现细节。我们的模型和基线使用PyTorch 1.0在Python3.6上实现，并在单个NVIDIA Tesla P100GPU上进行训练。我们使用Adam优化器训练我们的模型。批量大小为8，学习率初始为5×10-4，经过100个epoch后减小10倍。我们在实验中将l默认设置为2。整个框架训练到收敛大约需要18小时在CRHD-3K上，约70小时在FFHQR上。05.2. 定性比较0图5比较了所提出模型与当前最先进方法在FFHQR [ 46]和CRHD-3K数据集上生成的图像。从图中可以看出，pix2pixHD [ 52 ]、ASAPNet [ 47 ]和LPTN [ 25]在处理LPR任务上受限，无法区分修饰区域，导致全局转换。此外，pix2pixHD [ 52 ]和ASAPNet [ 47]的结果中存在视觉伪影。VCNet [ 53 ]和AutoRetouch [46]产生了有竞争力的结果，但细节仍然不如我们的优雅。总的来说，所提出的模型优于其对应的方法，具有高质量的修饰结果。VCNet [53]0.03938.360.97313.3%0.08431.990.9026.0%0.197AutoRetouch [46]0.02541.830.98618.0%0.08132.700.9077.3%0.057pix2pixHD [52]0.05331.390.9522.0%0.10127.230.8921.3%0.055ASAPNet [47]0.16326.210.9100.0%0.10130.310.8874.7%0.015LPTN [25]0.06937.420.9494.0%0.04235.090.96320.0%0.035Objective evaluation. We quantitatively evaluate the pro-posed method with three metrics: LPIPS, PSNR and SSIM.Table 1 shows the results achieved on the FFHQR [46] andCRHD-3K datasets, where the proposed method achievesthe best results compared with the other approaches, clearlydemonstrating its effectiveness.User study. We evaluate the proposed method via a hu-man subjective study. 10 volunteers with image process-ing expertise were invited to choose the most elegant imagefrom those generated by the proposed method and the state-of-the-art approaches. Speciﬁcally, each participant has 15questions from FFHQR [46] and 15 questions from CRHD-3K. We tally the votes and show the statistics in Table 1.Our method performs favorably against the other methods.Inference time.We evaluate the inference time of allthe models on images of 1024 × 1024 pixels with a sin-gle NVIDIA Tesla P100 GPU (16 GB). As shown in Ta-ble 1, VCNet [53], AutoRetouch [46] and pix2pixHD [52]are computationally expensive on high-resolution images.Thanks to the proposed adaptive blend pyramid architec-ture, our model outperforms the other methods regardingthe time consumption.21140结果分析0图6.CRHD-3K上关于MPB和LAM的消融研究。最后四列右上角的掩膜显示了相对于输入的变化区域，其处理方法与第4.2节中所示的方法相同。0数据集 FFHQR [ 46 ] CRHD-3K0指标 LPIPS † PSNR ¶ SSIM ¶ 用户研究 ¶ LPIPS † PSNR ¶ SSIM ¶ 用户研究 ¶ 时间 †0我们的方法 0.018 44.35 0.993 62.7% 0.029 37.35 0.971 60.7% 0.0090表1. 客观定量比较（†越低越好；¶越高越好）。05.3. 定量比较05.4. 消融研究0为了验证提出组件的合理性和有效性，我们在CRHD-3K数据集上进行了大量的消融实验。表2显示了定量结果，包括MPB的消融比较，0LAM，细化模块（RM）和一些主要的混合方法。如表中所示，MPB在架构中起着关键作用，贡献了约4%的改进。我们用VCNet[53]中提出的PCB替换了LAM，结果显示LAM实现了约1%的改进。RM产生了约2.5%的改进。我们还比较了采用不同的图像转换混合模式的结果，ABM相对于其他方法提高了1�1.5%。下面我们根据可视化结果详细分析每个模块的有效性。关于MPB。MPB实现了目标区域的定位，以指导局部修饰。在MPB预测的掩码的辅助下，LRB在有限的模型容量下实现了更好的语义感知。如图6所示，没有MPB（列b），模型在非目标区域（顶部的局部区域）产生了一定的模糊效果，并且容易受到背景干扰。结果的变化区域显示MPB在很大程度上有助于保持非目标区域的完整性。此外，由于对局部目标区域的关注，获得了精确的修饰结果。关于LAM。我们将LAM与PCB[53]进行比较，PCB在图像修复任务中展现了其有效性。如图6（列c）所示，采用PCB的网络未能充分利用目标区域的纹理，导致了应该保留的细节的丢失。相比之下，我们的LAM以高精度的细节保真度进行局部修饰。关于ABM。为了验证ABM将低分辨率的局部修饰结果扩展到高分辨率的有效性，我们将其与各种混合方法以及其他转换策略进行了比较。如图7所示，直接上采样和细化RGB结果会丢失很多细节，导致模糊效果。我们采用了一些在数字图像编辑中使用的具有固定功能的现有混合模式，例如加法[1]和柔光[2]。采用线性变换的加法混合模式无法很好地适应局部区域颜色严重变化的情况。受到转换能力的限制，柔光混合模式无法很大程度上改变接近0和255的像素值（如列d所示）。我们还设计了两个3层卷积网络分别替代Eq.（3）和Eq.（4）进行自适应混合。然而，由于这两种转换的不可逆性，很容易产生颜色差异。由于具有强大的转换能力和良好的可逆性，提出的ABM模块实现了更加平滑和逼真的结果。关于RM。细化模块旨在逐步弥补低分辨率混合层中细节的不足。如图8所示，RM为混合层提供了大量的细节，以完成对局部区域的精确修饰。✓✓✓33.02✓✓✓36.24✓✓✓34.78✓✓✓✓35.76✓✓✓✓36.57✓✓✓✓36.10✓✓✓✓35.88✓✓✓✓37.3521150图7.CRHD-3K上不同混合方法的视觉比较，包括(b)直接细化RGB，(c)加法[1]，(d)柔光[2]，(e)卷积自适应混合和(f)我们的方法。为了便于观察，我们将所有混合层的值缩放到0�255。0图8.关于FFHQR和CRHD-3K的细化模块的消融研究。为了更好地观察，我们只展示了一些混合层的局部区域和相应的RGB结果。0细节，导致模糊效果。我们采用了一些在数字图像编辑中使用的具有固定功能的现有混合模式，例如加法[1]和柔光[2]。采用线性变换的加法混合模式无法很好地适应局部区域颜色严重变化的情况。受到转换能力的限制，柔光混合模式无法很大程度上改变接近0和255的像素值（如列d所示）。我们还设计了两个3层卷积网络分别替代Eq.（3）和Eq.（4）进行自适应混合。然而，由于这两种转换的不可逆性，很容易产生颜色差异。由于具有强大的转换能力和良好的可逆性，提出的ABM模块实现了更加平滑和逼真的结果。关于RM。细化模块旨在逐步弥补低分辨率混合层中细节的不足。如图8所示，RM为混合层提供了大量的细节，以完成对局部区域的精确修饰。05.5. 高分辨率扩展能力0BPL具有强大的向上扩展能力。通过在图3中增加l，我们可以以非常低的成本在超高分辨率照片上进行局部修饰。表3显示了我们模型在不同分辨率下的定量结果和运行时间。可以看出，即使对于4K分辨率的图像，该模型仍然以超快的速度实现了良好的修饰结果。4K图像的视觉示例见补充材料。0MPB LAM混合方法RM PSNR RGB加法柔光卷积我们的0表2. CRHD-3K上的定量消融实验。0分辨率LPIPS† PSNR¶ SSIM¶运行时间内存0512 × 512（l = 1）0.027 37.50 0.971 0.008 1043MB 1024 × 1024（l =2）0.029 37.35 0.971 0.009 1329MB 2048 × 2048（l = 3）0.029 37.240.968 0.010 2505MB 4096 × 4096（l = 4）0.030 37.19 0.969 0.0147191MB0表3.我们模型在CRHD-3K上不同分辨率情况下的评估指标、运行时间和内存消耗的比较。运行时间表示在单个NVIDIA Tesla P100GPU（16 GB）上所有测试样本的平均推理时间。0见补充材料。06. 结论0我们将一种照片修饰总结为局部照片修饰（LPR）任务，并针对该任务的内在特点开发了一种新颖的解决方案。具体而言，我们设计了一个基于多任务架构的上下文感知局部修饰层，以实现遮罩预测和局部修饰的同时进行。通过利用预测的遮罩作为指导，可以完全捕捉全局上下文和局部纹理，以实现一致的修饰效果。然后，我们基于自适应混合模块和细化模块构建金字塔，逐步将低分辨率结果扩展到高分辨率结果，具有很高的可扩展性和高保真度。因此，我们的方法在修饰质量和运行速度方面表现出色，在单个NVIDIA TeslaP100GPU上对4K图像进行实时推理。此外，我们介绍了第一个高清晰度服装修饰数据集CRHD-3K，以促进服装修饰和LPR的研究。21160参考文献0[1] 混合模式。https://en.wikipedia.org/wiki/ Blend_modes。5，80[2]Pegtop混合模式：柔光。http://www.pegtop.net/delphi/articles/blendmodes/softlight.htm。 5，80[3] Kyungjune Baek，Yunjey Choi，Youngjung Uh，JaejunYoo和HyunjungShim。重新思考真正无监督的图像到图像的转换。在ICCV，2021年。 20[4] P. J. Burt和E. H.Adelson。作为紧凑图像编码的拉普

下载后可阅读完整内容，剩余1页未读，立即下载