任意风格转换与领域综合中的特征分布匹配问题

81 浏览量更新于2023-10-25 收藏 2.81MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8035面向任意风格转换和领域综合的张亚斌1，李明汉1，李瑞煌1，贾奎2，张磊11香港理工大学2华南理工{csybzhang，csrhli，cslzhang}@ comp.polyu.edu.hk，liminghan0330@gmail.com，kuijia@scut.edu.cn摘要任意风格转换（AST）和领域泛化（DG）是视觉学习中重要而又具有挑战性的任务，可以归结为特征分布匹配问题。传统的特征分布匹配方法假设特征分布为高斯分布，通常只匹配特征的均值和标准差。然而，真实世界数据的特征分布通常比高斯分布复杂得多，仅使用一阶和二阶统计量无法准确匹配，而使用高阶统计量进行分布匹配在计算上是不在这项工作中，我们，第一次我们最好的知识，提出了执行精确的特征分布匹配（EFDM），通过精确匹配的图像特征的经验累积分布函数（eCDF），这可以通过在图像特征空间中应用精确直方图匹配（EHM）来实现。特别地，采用一种快速EHM算法Sort-Matching以即插即用的方式以最小的代价实现EFDM。我们提出的EFDM方法的有效性验证了各种AST和DG任务，演示新的国家的最先进的结果。代码可在https://github.com/YBZh/EFDM获取。1. 介绍分布匹配是一个长期存在的统计学习问题[39]。随着深度模型的普及[20，27]，匹配深度特征的分布对于解决复杂视觉任务的有效性越来越感兴趣例如，在任意风格转换（AST）[12，21]中，图像风格可以被解释为特征分布，并且风格转换可以通过交叉分布特征匹配来实现[25，34]。此外，通过使用风格转换技术来增加训练数据，可以解决领域泛化（DG）任务[13，72]，*通讯作者其目标是将在一些源域中学习的模型推广到其他未见过的域。最流行的特征分布匹配方法是通过假设特征遵循高斯分布来匹配特征均值和标准差[21，32，37，41，72]。不幸的是，现实世界数据的特征分布通常太复杂，无法用高斯模型建模，如图1所示。因此，仅使用均值和标准差的特征分布匹配精度较低。因此，迫切需要寻找更有效的方法来实现更精确的特征分布匹配（EFDM）。直观地说，EFDM可以通过匹配特征的高阶统计量来实现.实际上，高阶中心矩已在[25，63]中明确引入，以更精确地匹配分布。然而，以这种方式考虑高阶统计量将引入密集的计算开销。此外，EFDM只能在理论上通过匹配无穷阶的中心矩来实现[63]，这在实践中是禁止的。受Glivenko-Cantelli定理[ 54 ]的启发以最小化特征分布发散。不幸的是，当输入中存在等效特征值时，HM只能近似匹配eCDF，因为HM将等效值合并为单个点并应用逐点变换。（图中示出了玩具示例。2）。这通常发生在具有离散整数值的数字图像（例如，8位数字图像）。对于由深度模型生成的特征，等效特征值也是不可避免的，因为它们依赖于离散图像像素和激活函数的使用，ReLU [42]和ReLU 6[26]（更多详情请参见图3）。所有这些事实都阻碍了EFDM通过HM的有效性。为了解决上述问题，据我们所知，我们第一次提出通过精确匹配图像特征的eCDF来执行EFDM，从而得到8036321012345321012345321012345数字数字数字1e51e51e51e68853.53.04六六二点五32.0441.521.02 210.50 06值(a) 艺术绘画06值(b) 卡通值(c) 照片0.066值(d) 草图图1.随机选择的通道中的特征值直方图，其中特征是从在四个域[28]的数据集上训练的ResNet-18 [20]的第一个残差块计算的。我们首先将每个通道的平均值和标准差分别归一化为0和1，然后收集每个域中所有测试样本的特征值进行可视化。人们可以清楚地看到，现实世界的数据的特征分布通常是太复杂，高斯建模。在完全匹配的特征分布中（当样本数接近无穷大时），以及因此完全匹配的均值、标准差和高阶统计量（见图2中的玩具示例）。 eCDF的精确匹配可以通过在特征空间中应用精确直方图匹配（EHM）算法[7，18]来实现。具体而言，通过区分等效特征值并应用逐元素变换，EHM比HM进行更细粒度和更准确的eCDF匹配在本文中，一种快速EHM算法，命名为排序匹配[47]，被采用以最小成本的即插即用方式执行EFDM使用EFDM，我们在一次拍摄中执行交叉分布特征匹配（参见：当量（6））并提出一种新的风格损失（cf.当量（9）更精确地测量分布发散，在AST中产生更稳定的风格转移图像。在[72]之后，我们扩展了EFDM以生成具有混合样式的特征增强，从而导致精确特征分布混合（EFDMix）（参见。当量（10）），这可以为DG应用提供更多样化的特征增强我们的方法实现了新的国家的最先进的各种AST和DG任务的高效率。2. 相关工作任意风格转换（AST）已经在两个概念方向上进行了研究：基于迭代优化的方法和前馈方法。前者[12，25，46]以迭代方式优化图像像素，而后者[21，32，33，37，41]在一次拍摄中生成风格转换的输出我们的方法属于后者，这通常是更快，适合于实时应用。在两个方向上，通过假设图像风格可以由特征分布表示，可以将风格传递解释为特征分布匹配的问题。具体来说，[12]中的开创性工作采用了由Gram矩阵捕获的二阶矩作为风格表示。在[12]中引入的损失被重写为[34]中图像特征之间的最大平均离散度，桥接风格转移和特征分布匹配。ing.实际上，许多AST方法可以从特征分布匹配的角度来解释。基于高斯先验假设，通过匹配AdaIN中的均值和标准差进行特征分布匹配 [21]。与AdaIN相比，WCT [33]还通过一对特征变换、白化和着色来考虑特征通道的协方差。另外，通过将[12]中的内容损失纳入WCT的框架中，在[32，37，41]中给出了封闭形式的解决方案除了广泛使用的一阶和二阶特征统计量外，在[25]中引入了高阶中心矩和HM，[46]通过放松高斯特征分布的假设，分别用于更精确的分布匹配。然而，计算高阶统计量显式地引入密集的计算开销，并且通过HM的EFDM受到等效特征值的阻碍。为此，据我们所知，我们第一次提出了一种准确有效的 EFDM 方法，通过精确匹配图像特征的eCDF，得到更忠实的AST结果（请参考图5的视觉示例）。域泛化（DG）旨在开发可以泛化到未知分布的模型。典型的DG方法包括学习域不变特征表示[5，15，31，40，65-GIES [4，9，29]，数据增强[13，43，56，61，71，72]等等[57，69]。在所有上述方法中，最新技术水平[72]基于在上述AST部分中引入的特征分布匹配技术[21]来增加交叉分布特征。通过经由所提出的EFDM方法隐式地利用高阶统计量，可以实现更多样化的特征增强，并且已经观察到显著的性能改进（请参见表1）。1和2的细节）。精确直方图匹配（EHM）是为了精确地匹配图像像素的直方图。与经典HM相比，EHM算法随机区分等效像素值[47，48]或根据其局部均值[7，18]，从而导致直方图的更准确匹配。图像像素空间中的EHM和HM的输出之间的差异通常很小，这很难被忽略。321012345数字8037自适应实例归一化�� =（平等？0.26 0.260.210.21130的情况。25比0 111.18 0.97⋯⋯ ⋯直方图匹配1998年，0的情况。560.500.10= 0.00H（）=“0.40 = 0.100.500.20-0.20✔✔✘✘⋯✘平等？0.300.26✘0.190.21✘✘✘⋯✔平等？0.00 0.000.10 0.10 0.200.00 0.10 0.300.40“1“2123五块钱1 3 2 5 4o1=$ o3=1 o$ =o5=3 o=513-0 18比0 110.82 0.97中国（ 0的情况。500。500.26 0.260.21零点二一13-0 11比0 110.970.9721 4 3 5123$5⋯⋯ ⋯基于排序匹配的1998年，0的情况。500。50✔✔✔✔⋯✔输出向量输出向量˜∈∈∈^ ^您的位置：··0.000.100.000.200.100.060.310.060.310.560.100.400.100.500.40图2.使用玩具示例通过排序匹配比较AdaIN、HM和EHM，其中值精度四舍五入到0.01的水平。 AdaIN仅匹配输出向量o和目标向量y之间的均值和标准差。虽然o的eCDF通过HM近似于y的eCDF，但它们并不完全匹配，从而导致不匹配的分布，并因此导致不匹配的统计数据。经由排序匹配的EHM精确地匹配o和y的eCDF，导致精确匹配的分布，并且，因此，完全匹配的统计数据。符号µ、σ、µ3、Kurt和∞分别表示均值、标准差、第三标准化矩偏度[24，60]、第四标准化矩峰度[24，59]和无穷范数。对人类的眼睛来说。然而，这种微小的差异可以在深度模型的特征空间中被放大，导致特征分布匹配的明显分歧因此，我们虽然EHM可以用不同的策略进行，但我们凭经验发现它们在我们的应用中产生类似的结果，因此我们推广了EHM的快速排序匹配[47标准差[32，37，41]。然而，现实世界数据的特征分布通常偏离高斯分布，如图1所示。因此，用AdaIN匹配特征分布的精度较低。直方图匹配（HM）[16，58]旨在将输入向量x转换为输出向量o，其eCDF与目标向量y的目标eCDF匹配。x和y的eCDF定义为：3. 方法F^（x）=1<$n1、 F^ （y）=1微米1、3.1. AdaIN、HM和EHMX哪里ni=1xi≤x Ymi=1yi≤y（二）自适应实例归一化（AdaIN）[21]将从随机变量X采样的输入向量xRn转换为输出向量oRn，其均值和标准差与从随机变量Y采样的目标向量yRm的均值和标准差相匹配：o=x−µ（x）σ（y）+µ（y），（1）σ（x）其中，µ（）和σ（）分别表示参考数据的平均值和标准差。通过假设X和Y服从高斯分布，n和m近似，AdaIN可以通过匹配特征均值来实现EFDMC1C2C3500美元目标向量输入向量值指数输出向量0.000.300.100.500.400.100.000.400.300.5080381A是事件A的指示符，xi（或yi）是x（或y）的第i个元素。对于输入向量x的每个元素xi，我们找到满足FX（xi）=FY（yj）的y j，从而得到变换函数：H（xi）=yj。人们可以选择匹配显式直方图，如在离散IM中。年龄空间[16]。值得一提的是，匹配eCDF等同于匹配具有无限宽度的箱的直方图，然而，由于表示特征的比特的有限数量，这是难以实现的。理想情况下，HM可以在连续情况下精确匹配图像特征的eCDF。不幸的是，当输入中存在等效特征值时，HM只能近似匹配eCDF，因为HM将等效值合并为单个点，并应用逐点变换。8039所有值的数量}}×≤（请参考图2中的玩具示例）。对于由深度模型生成的特征，由于其对离散图像像素的依赖性，等效特征值是常见的所提出的EFDM不引入任何参数，并且可以以即插即用的方式使用，具有很少的代码行和最小的成本，如算法1中总结的。ELS和激活函数的使用，例如，ReLU [42]和ReLU6 [26]（更多详情请参见图3）。所有这些事实都阻碍了EFDM通过HM的有效性。精确直方图匹配（EHM）[7，18]被提出来精确匹配图像像素的直方图。与HM算法不同，EHM算法区分等价像素值并应用逐元素变换，从而可以实现更精确的直方图匹配。虽然EHM可以用不同的策略进行，但我们采用排序匹配算法[47]，因为其速度快。排序匹配是基于快速排序策略[49]，这是公认的最快排序算法，复杂度为O（nlogn）。正如其名称所述，排序匹配是通过匹配两个排序向量来实现的，它们的输入-索引以单行符号[2]示出为：算法1用于EFDM的PyTroch类伪代码。#x，y：相同形状的输入和目标向量（n），IndexX = torch.sort（x）#对x个值进行排序SortedY，= torch.sort（y）#对y值排序InverseIndex = IndexX.argsort（-1）returnx + SortedY.gather（-1，InverseIndex）-x.detach（）100806040200x：τ=.τ1τ2τ3···你好，（三）输入图像1st conv 1st block 2nd block第三区第四区y：κ=. κ1 κ2κ3· · ·κnκ，图3.等效特征值的百分比的说明（即，ResNet18特征图中的等效值数量为100），其中{xτini=1 且{yκini=1 是x和y分辨率为224 224的输入图像。 ‘1st conv’ represents第一卷积层的输出。‘1st block’, ‘2nd block’,按升序排列。换句话说，xτ1=min（x），xτn=max（x）和xτixτj，如果i

下载后可阅读完整内容，剩余1页未读，立即下载