没有合适的资源?快使用搜索试试~ 我知道了~
查询选择注意力模块:I2I翻译中的特征挑选
EED182910QS-Attn:用于I2I翻译中的查询选择注意力0Xueqi Hu 1,Xinyue Zhou 1,Qiusheng Huang 1,Zhengyi Shi 1,Li Sun 1,2 *,Qingli Li 101 上海市多维信息处理重点实验室,2高级统计与数据科学理论与应用重点实验室,华东师范大学,上海,中国0摘要0在无配对图像到图像(I2I)翻译中,通常需要最大化源图像和翻译图像在不同领域之间的互信息,这对于生成器保留源内容并防止其不必要的修改至关重要。自监督对比学习已经成功应用于I2I中。通过将来自相同位置的特征距离约束得比来自不同位置的特征距离更近,它隐含地确保结果从源中获取内容。然而,先前的工作使用来自随机位置的特征来施加约束,这可能不太合适,因为某些位置包含较少的源领域信息。此外,特征本身并不反映与其他特征的关系。本文通过有意选择显著的锚点来解决这些问题。我们设计了一个查询选择的注意力(QS-Attn)模块,它比较源领域中的特征距离,给出每行的概率分布的注意力矩阵。然后,我们根据其显著性测量从分布中选择查询。所选查询被视为对比损失的锚点。同时,减少的注意力矩阵用于在两个领域中路由特征,以保持源关系在合成中。我们在三个不同的I2I数据集中验证了我们提出的方法,结果显示它提高了图像质量而不增加可学习参数。代码可在https://github.com/sapphire497/query-selected-attention找到。01. 引言0在图像到图像(I2I)翻译中,将来自源领域X的输入映射到目标领域Y,同时保持其原始内容不受不必要的修改影响。0*通讯作者,电子邮件:sunli@ee.ecnu.edu.cn。本工作得到上海市科学技术委员会(No.19511120800)和国家自然科学基金(No.61302125)的支持。0对比损失0真实或伪造0G QS-Attn模块0源0目标0锚点:正样本:负样本:0图1.我们模型的整体结构。源领域图像Ix通过生成器G转换为目标领域图像G(Ix)。编码器E从这两个图像中提取特征,然后QS-Attn模块选择显著特征建立对比损失。我们还使用鉴别器D构建对抗损失。0在图像到图像(I2I)翻译中,通常通过一个生成器G在自编码器的结构中实现翻译,其输出受到鉴别器D的约束,以满足领域Y的要求。在许多I2I任务中,很难获得成对的数据,因此G不能直接由领域Y中的真实图像进行引导。确保输出保留输入内容对于提高其质量很重要。典型的方法提供了...CUTCycleGANCUTCycleGAN182920图2.预训练的CycleGAN和CUT在三个数据集上的特征重要性度量可视化。我们展示了每个位置的注意力矩阵的熵,较暖的颜色表示熵较小。对于每个数据集,左列是输入图像,右列是两个模型的熵可视化。0[25, 42,47]中提出的方法通过另一个生成器G'将结果翻译回领域X,并在输入和最终输出之间建立循环一致性惩罚。尽管提高了质量,但它们引入了两个生成器和判别器,大大增加了训练成本。最近,CUT[34]将G'的输出和输入之间的跨领域特征之间的对比学习纳入其中。其关键思想是约束来自编码器E的特征,要求来自相同位置的特征与来自不同位置的特征相比较接近。去除QS-Attn模块后,图1显示了CUT的整体结构。从翻译图像的特征中随机选择一个锚点,然后从输入的特征中也随机选择一个对应的正样本和多个负样本。对锚点计算对比损失,使模型最大化相应特征之间的互信息。注意,CUT只有一个方向。因此,只需要一个G,从而减少了训练成本。图像质量得到了极大的提高,表明跨领域的对比损失在I2I中是有用的。然而,CUT仍然忽略了两个潜在的问题,可以进行改进。首先,它没有有目的地选择对比学习中的锚点。由于每个锚点代表原始图像中的一个小块区域,因此选择具有目的的锚点是重要的。0最终图像分辨率很高,其中许多图像可能不反映任何与I2I相关的领域特征。我们认为只有那些包含显著领域信息的图像需要进行编辑,并且对它们施加的对比损失更有意义,以确保跨领域的一致性。其次,每个锚点特征只有有限的感受野,并且它不考虑与其他位置的关系。这种关系为保持源内容稳定和使翻译相关提供了有价值的线索。我们以一种简单的方式考虑上述两个问题,即将QS-Attn模块插入到模型中,如图1所示,而不引入额外的模型参数。为了评估不同位置的特征重要性,我们直接利用来自E的特征作为查询和键来计算源领域中的注意力矩阵,然后计算分布熵作为度量标准。图2提供了直观的说明,其中这种熵度量以热图的形式可视化。特别地,给定需要翻译的输入图像,我们应用预训练的CycleGAN [47]和CUT[34]模型的编码器来获取特征并计算注意力矩阵,然后为其每一行计算熵。我们按熵的升序排序,并在图像上显示最小的N个点。对于Horse和Cat图像,马的身体和猫的脸的熵值较小。对于Label图像,点主要位于类别的边缘。因此,熵可以作为衡量特征在反映领域特征方面的重要性的度量标准,因此我们可以对其施加对比损失,确保在与领域相关的特征上进行准确的翻译。本文旨在定量衡量每个锚点特征的重要性,并根据度量标准选择相关特征用于对比损失。基于前面的分析,我们计算注意力矩阵中每一行的熵,并保留熵值较小的行。剩余的行形成查询选择注意力(QS-Attn)矩阵,其中包含较少的查询,并且它们进一步用于路由值特征。在这里,相同的矩阵与源域和目标域的值相乘,隐式地保持源域中的特征关系,避免对结果进行过多的修改。本文的贡献在以下几个方面:0•我们在I2I任务中提出了一种QS-Attn机制。我们的方案是选择相关的锚点,并将它们用作查询来参与和吸收其他位置的特征,形成更适合对比学习的特征。QS-Attn保持了CUT中的简单设计,并且不添加任何模型参数。02. Related Works1829302. 相关工作0•我们对常用数据集进行了大量实验,并展示了所提出的方法在大多数两个域的I2I任务中达到了SOTA水平。0图像到图像的转换。GAN [2, 15, 24,31]具有描述高维分布的强大能力,因此在图像合成任务中被广泛应用,如超分辨率[26],去噪[4]和I2I。I2I首次在Pix2Pix [21]中提出,并在Pix2PixHD[40]中扩展到高分辨率,可以视为一种条件GAN。生成器G由一对连接的编码器-解码器组成,将图像从源域转换到目标域。它通过与目标域鉴别器的对抗损失一起训练。然而,无配对的I2I更加理想,因为在大多数情况下,跨域匹配的数据是不可能收集到的。CycleGAN [47]和DiscoGAN[25]基于无配对数据实现了I2I。它们同时训练两个不同的G,分别负责两个方向的图像转换。通过连续使用两个G进行相反的转换来建立循环一致性,并要求输出重构输入源,从而确保G在转换过程中使用给定的内容,并最大化输出和输入源之间的互信息。这个思想可以应用于由几个属性定义的多个域[11],或以一种灵活的方式在特征空间[12,19]中利用。同时,许多作品[20, 27,28]尝试通过混合来自不同图像的内容和风格,或支持潜在空间中的随机采样来提供多样化的翻译。与循环一致性一起,具有相同内容的翻译图像可以呈现不同的风格。然而,循环一致性通常被指责对像素的强约束[32,44],这不仅是不必要的,而且有时会降低图像质量。除了在特征级别计算之外,另一种简单的方法是进行单向转换。在这种设置下,关键问题变成了保持输入内容,并需要添加额外的损失项。Distance-GAN[1]要求生成器在两个域之间保持像素级距离。GcGAN[13]通过预定义的几何函数将源和目标连接起来。另一方面,基于特征级别的感知损失[22, 30]由预训练的VGG[38]指定,被广泛采用[5, 14,30],它保持了结果的高级语义。然而,来自预训练模型的固定层的特征可能无法反映需要保留的内容。-0tnGAN [10]和GANimation[36]学习前景掩码以指导生成器,使其在相关区域实现转换。但它们需要额外的参数来估计前景,这肯定会增加模型的复杂性。CUT[34]是将自监督对比损失引入I2I的首次尝试,它显著提高了转换质量。F-LSeSim[45]通过计算局部区域内的自相似性,并对其施加对比损失来扩展CUT。然而,它依赖于来自VGG的特征来衡量相似性,这降低了训练效率。我们强调CUT和F-LSeSim都没有有意地选择对比损失的锚点,它们的特征仍然缺乏用于表示源域图像的大感受野。自监督对比学习。尽管监督学习取得了巨大的成功,但深度神经网络被指责对大量标记训练数据的要求。最近的自监督学习研究表明,借助对比损失[33,41],它在没有标签的情况下表示图像的能力很强,特别是在执行实例级别的区分并学习特征嵌入时,通过将来自同一图像的特征聚集在一起,并将来自不同图像的特征推开。最近,它已经被应用于预训练技术[3, 6, 8, 9, 16,17],为下游任务提供初始模型或潜在嵌入。自监督学习也应用于图像生成[7, 35]。SS-GAN[7]将旋转角度预测作为辅助任务引入鉴别器,以防止由于真/假二进制分类的有限数据而导致过拟合。LT-GAN[35]在鉴别器的嵌入之上训练一个辅助分类器,以分类两对假图像是否在采样噪声向量上具有相同的扰动。除了CUT[34],工作[23]也采用了自对比学习进行I2I。它使用非局部注意力矩阵将目标图像变形到源姿势,并要求来自变形图像的特征接近源图像通过对比损失。它们都没有选择锚点,也没有像我们的方法那样利用源域中的关系。-03. 方法03.1. CUT的预备知识0在I2I任务中,给定源域X中的图像 I x ∈ R H × W ×3,模型旨在将其转换为目标域Y中的 G ( I x),使其与该域中的真实图像 I y ∈ R H × W ×3没有明显区别。通常,有两个自动编码器,一个 G X → Y用于 X 到 Y,另一个 G Y → X 用于反向。CUT专注于从 X到 Y 的单向转换,因此只需要一个生成器 G 和一个判别器D,因此省略了下标。对抗损失 L adv 的目标可以表示为����Lcon = − log�+�182940图3. QS-Attn的细节。编码器 E 从 I x 和 G ( I x ) 提取特征 F x 和 F y,然后将 F x 重塑并计算以得到注意力矩阵 A g。A g中的每一行按其重要性指标排序,并选择形成 A QS 的 N 行。我们进一步将 A QS应用于路由源域和目标域的值特征,并获得正样本、负样本和锚定特征以构建对比损失 L con。正样本和负样本来自真实图像 Ix,而锚定特征来自转换后的图像 G ( I x )。橙色、蓝色和绿色的补丁分别表示正样本、负样本和锚定特征。0计算如下。0L adv = E I y ∈ Y log D ( I y ) + E I x ∈ X log(1 − D( G ( I x )) (1) 除了公式(1)中的 L adv,CUT还利用 G的前半部分作为编码器 E,为 G的输出提供额外的约束。基本上,E比较了不同域之间的特征相似性。这种高效的方案与之前的工作[48]略有不同,在该工作中使用了另一个编码器E,并且也在[29]中采用。它从 I x 和 G ( I x )中提取特征,并在公式(2)中建立了自监督对比损失,0exp( q ∙ k + /τ ) + � N − 1 i =1 exp(0(2) 其中 q 是来自 G ( I x ) 的锚定特征,k +是一个单一的正样本,k − 是(N - 1)个负样本。这里 τ表示温度超参数。请注意,锚定特征 q总是位于假图像中,并且其正样本 k + 位于真实图像 I x中的相同位置。此外,(N - 1)个负样本 k − 是在 I x中随机选择的。L con 的梯度仅应用于锚定特征 q,以训练G 中的参数,而在 k + 和 k − 上则被分离,以使 G在单一方向的域转换中得到引导。0完整的目标表达如下。0L G = L adv + L X con + L Y con (3)0其中 L X con 是公式(2)中定义的对比损失,L Y con是身份损失,其中正样本 k + 和负样本 k −来自真实目标域图像 I y,锚定特征 q 来自 G ( I y)。这个身份损失确保了 G ( I y ) 的特征与 I y的特征相似,防止 G 对目标域图像进行更改。03.2. QS-Attn用于对比学习0如图1所示,我们保持与CUT相同的简单设置。E 用于从 I x和 G ( I x )提取特征。这些特征应该建立在公式(2)中定义的对比损失 L con。关键模块 QS-Attn 在两个域之间建立 Lcon,如图3所示。我们没有像常规注意力那样为查询、键和值使用任何分离的投影头,因此在 G 和 D中没有添加额外的模型参数。QS-Attn的详细信息在以下两个子节中给出。Hg(i) = −Ag(i, j) log Ag(i, j)(4)Hl(i) = −Al(i, j) log Al(i, j)(5)1829503.2.1 用于查询选择的注意力。0CUT随机选择锚点q,正样本k+和负样本k-来计算公式(2)中的对比损失,这可能是低效的,因为它们对应的补丁可能不来自与领域相关的区域,例如Horse→Zebra任务中的马体。注意,一些特征不反映领域特征,它们在翻译过程中往往被保留。因此,对它们施加的Lcon对G来说并不重要。我们的目的是选择锚点q,并在其中包含更多领域特定信息的显著特征上计算Lcon。全局注意力。基于上述观察,我们的目标是为每个潜在位置定义一个定量值,该值反映了该特征的重要性。采用二次注意力矩阵,因为它将每个特征与所有其他位置进行了详尽比较,准确地反映了与其他特征的相似性,如图3所示。特别地,给定源域中的特征Fx ∈ RH ×W × C,我们首先将其重塑为2D矩阵Q ∈ RHW ×C,然后将其与其转置矩阵K ∈ RC ×HW相乘。然后我们将矩阵的每一行输入到softmax函数中,得到全局注意力矩阵Ag ∈ RHW ×HW。因此,可以根据Ag中每一行的熵Hg来衡量显著特征,其计算方式如公式(4)所示。0HW×0这里i和j是查询和键的索引,对应于Ag中的行和列。当Hg(i)接近0时,意味着在第i行中,只有很少的键位置与第i个查询相似。因此,我们假设它足够不同并且很重要,需要通过Lcon进行约束。为了选择所有显著的查询,按照熵Hg的升序对Ag的行进行排序,选择最小的N行作为QS-Attn矩阵AQS。注意,AQS完全由Ix中的特征决定,与G(Ix)无关。局部注意力。虽然非局部注意力可以获得全局上下文,但它会平滑掉围绕查询的详细上下文。局部注意力在w×w的常数窗口和1的步幅内测量查询与其相邻键之间的相似性,可以捕捉局部区域的空间交互作用,并减少计算成本。给定重塑的查询矩阵Ql ∈ RHW × C,我们将其与局部键矩阵Kl ∈ RHW ×w2 ×C相乘,并将其输入到softmax函数中,得到局部注意力矩阵Al ∈ RHW ×w2。局部熵Hl在每一行中按照公式(5)计算。0w2×0这里i和j是查询和键的索引。我们通过按照熵Hl的升序对Al进行排序,选择最小的N行来形成AQS。对于值路由,我们还在局部值矩阵Vl ∈ RHW × w2 ×C中定位N个索引,并得到选择的值矩阵Vls ∈ RN × w2 ×C。03.2.2 跨域值路由用于对比学习。0减小的AQS用作从源域和目标域路由值特征的注意力矩阵。这里我们强调AQS通过将查询与键进行比较来捕捉全局或局部关系,并提供有关Ix的形状和纹理的有用的高阶描述。使用它来路由特征有助于扩大所选查询的感受野,从而可以制定考虑Ix上下文的更好特征。此外,AQS定义的关系也需要在图像翻译过程中保持。因此,AQS被施加在Ix和G(Ix)的特征上,路由相应的值以形成锚点、正样本和负样本。一个正样本和(N-1)个负样本特征位于真实图像Ix中。N个锚点来自虚假图像G(Ix)。我们使用这些特征来建立自监督对比损失,如公式(2)所示,以约束翻译过程。04. 实验04.1. 实现细节0数据集。我们的模型在Cityscapes、马 → 斑马和猫 →狗数据集上进行训练和评估。Cityscapes包含德国城市的街景,共有2,975张训练图像。猫 →狗数据集来自AFHQ数据集[12],其中猫和狗分别有5,153张和4,739张训练图像。马 →斑马的图像来自[47],其中马和斑马分别有1,067张和1,334张训练图像。对于所有实验,输入和生成图像的分辨率为256×256。Cityscapes和猫 →狗数据集中图像的初始分辨率为2048×1024和512×512,我们在实验中将它们调整为256×256。训练细节。我们使用基于ResNet的生成器和PatchGAN鉴别器[39]构建我们的模型,并在三个前述数据集上与CUT在相同的设置下进行比较。注意矩阵中的行数设置为256,用于计算对比损失的锚点、查询和关键特征的维度为256。我们采用CUT中的多层特征提取,从五个层中提取特征。考虑到计算全局注意力矩阵的高成本,我们建议在编码器的最后两层特征上应用QS-Attn,但我们仍然与应用所有层的模型进行额外比较。详细信息可以在补充材料中找到。182960QS-Attn CUT CycleGAN M入0FSeSim0CUT CycleGIT 输入 FSeSim0CUT CycleGAN MUNIT 输0QS-Attn0QS-Attn0图4. 与其他方法的视觉结果比较。我们在三个基准数据集上将我们的模型与FSeSim、CUT、CycleGAN和MUNIT进行比较。在QS-Attn的结果中,马→ 斑马和猫 → 狗的翻译图像来自QS-Attn(Global),而Cityscapes的结果是使用QS-Attn(Global+Local)生成的。更多结果可以在补充材料中找到。0方法 Cityscapes 猫 → 狗 马 → 斑马0mAP ↑ pixAcc ↑ classAcc ↑ FID ↓ SWD ↓ FID ↓ SWD ↓ FID ↓0CycleGAN 20.4 55.9 25.4 76.3 19.5 85.9 39.1 77.2 MUNIT 16.9 56.5 22.5 91.4 24.4 104.4 50.7 133.8CUT 24.7 68.8 30.7 56.4 12.9 76.2 31.5 45.5 FSeSim 22.1 69.4 27.8 54.3 13.8 87.8 37.2 43.40QS-Attn(Global) 25.5 79.9 31.2 53.5 12.8 72.8 30.3 41.1 QS-Attn(Local) 26.2 80.5 31.9 48.8 13.379.3 31.2 38.6 QS-Attn(Local+Global) 27.9 81.4 32.6 50.2 13.2 80.0 31.9 42.30表1. 与其他方法的定量比较。最后三行是我们使用不同设置的模型,详细信息请参见第4.2节。最佳性能以粗体表示。0补充材料。0评估指标。我们使用Fr´echet Inception Distance (FID)[18]和Sliced Wasserstein Distance (SWD)[37]来评估翻译图像的质量。FID和SWD都衡量了真实图像与生成图像之间的距离。0和生成图像,较低的值表示生成图像与真实图像相似。对于Cityscapes数据集,我们按照[34]的方法,使用DRN[43]对生成图像进行语义分割,并计算平均平均精度(mAP)、像素准确率(pixAcc)和类别准确率(classAcc),以展示生成图像的语义可解释性。我们在整个测试集上计算这些指标,其中Cityscapes包含500张标签图像,猫 →狗包含500张猫图像,马 → 斑马包含120张马图像。182970输入A B C D E F0G H0图5. 定性消融结果。最左列是输入图像,其余列是使用模型A-H翻译的图像。详细信息请参见表3和第4.3节。0平均类别精度(classAcc) ↑ FID ↓ SWD ↓ FID ↓ SWD ↓ FID ↓04.2. 结果0定量和定性结果。表1将我们的模型与FSeSim[45]、CUT、CycleGAN [47]和MUNIT[20]进行了比较。我们的模型有三个设置,Global、Local和Local+Global。Global表示按熵对全局注意力矩阵A g进行排序,形成QS-Attn矩阵AQS,Local表示按熵对局部注意力矩阵A l 进行排序,形成AQS。此外,为了利用局部和全局上下文,Local+Global应用A l 进行查询选择,同时在值路由中使用A g。A g的行按局部熵H l 升序排序,选择最小的N行作为AQS。这三个模型的消融研究在第4.3节中进行了说明,并且代码在补充材料中提供。对于FID指标,我们模型的翻译结果在三个数据集上比其他方法更逼真。我们的模型在Cityscapes数据集上的mAP、pixAcc和classAcc也表现更好。此外,我们的方法在G和D中都不添加额外的模型参数,并且使用与CycleGAN相同的G架构。图4显示了视觉结果。与其他方法相比,我们的QS-Attn模型能够准确地翻译与域相关的特征。此外,在Horse → Zebra和Cat →Dog的任务中,QS-Attn实现了背景的一致性。0QS-Attn FSeSim CUT CycleGAN0Q(%) 45.0 28.3 13.3 13.3 T(%) 40.0 30.0 11.718.3 C(%) 58.3 11.7 8.3 21.70表2.用户研究统计数据。方法在图像质量(Q)、目标域一致性(T)和与域无关的一致性(C)三个方面进行比较。0用户研究。为了进一步评估翻译图像的质量,我们进行了一项人类感知的用户研究。因此,反映人类感知的用户研究对于评估视觉质量很重要。我们在Horse →Zebra数据集上将我们的Global模型与CUT、FSeSim和CycleGAN进行了比较。我们请60名参与者在图像质量(Q)、目标域一致性(T)和与域无关的一致性(C)三个方面比较这些方法。Q表示图像的真实性和感知性。T表示翻译后的图像是否具有目标域的特征。C表示与源图像相比,与域无关的像素应保持不变,例如Horse图像中的背景。统计结果显示在表2中。04.3. 消融研究0注意力和选择。在QS-Attn模块中,我们应用注意力、查询选择和跨域值路由。为了分别评估它们的效果,我们在Horse →Zebra数据集上进行了消融研究。指标列在表3中,定性结果显示在图5中。A是我们完整的全局模型,包括前面提到的三个操作。在模型B中,查询是随机选择的,�qikTj√C�−1HWHW�j=1�qikTj√C�(6)182980方法 配置 FID ↓ SWD ↓ Attention Selection Cross Domain0全局 局部 全局 局部0A � � � 41.1 30.3 B � × � 52.1 34.4 C × � × 61.1 37.70D � � × 43.3 32.1 E � × × 53.4 34.90F: info � � � 43.9 33.30G � � � 38.6 31.2 H � � � 42.3 31.90表3. 消融研究的定量结果。在配置中,Attention表示计算QS-Attn矩阵AQS并将其用于路由值特征;Selection表示通过注意力矩阵中的熵选择查询;Cross Domain表示将源域中的A QS应用于路由来自源域和目标域的值特征;global和local分别指使用A g 和A l 。模型A、G和H是表1中最后3行对应的3个设置。0对应的QS-Attn矩阵A QS应用于路由源值和目标值。模型C仅计算全局注意力矩阵A g来选择查询,而不进一步使用A QS来路由值。模型A优于模型B,反映了熵排序选择的有效性。模型C的指标比模型A和B更差,表明只有当所选的A QS将值路由以建立对比损失L con时,编码器才能学习从图像中提取显著特征。自域值路由。表3中的模型D和E0在自领域中路由值特征,即源领域和目标领域分别有两个全局注意力矩阵 A x g 和 A y g。然后,在查询选择之后,源领域 QS-Attn 矩阵 A x QS和目标领域 QS-Attn 矩阵 A y QS将其自己领域的值特征路由。在模型 D 中,通过对 A x g的熵进行排序选择查询,形成 A x QS,而 A y QS 由 A y g中与 A x g 具有相同行索引的查询组成。与 D 不同,模型 E随机选择查询。这两个模型都通过相应的 A x QS 和 A y QS分别路由值。模型 D 不如模型 A好。这表明与自领域路由相比,跨领域路由可以在源领域和目标领域之间建立更密切的相关性,因为 A x QS 捕捉了 I x的全局关系,并将其施加在 G(I x)的特征上。Informer。我们还研究了其他查询选择策略。最近,Informer [46]提出了一种高效的自注意机制。它为每个查询引入了最大-均值度量,表示为:0M(q i; K) = max j0其中,q i ∈ R C 是矩阵 Q ∈ R HW × C 中的第 i个查询,k j ∈ R C 是矩阵 K ∈ R C × HW 中的第 j个键。每个0查询测量与所有键的相似性,并获得得分 M(q i;K)。然后,通过按降序对 M(q i; K) 进行排序选择 Top-N查询,这些查询相对不同。表3中的模型F采用上述方法选择Top-N 查询,并使用相应的 A QS路由源领域和目标领域的值特征。它取得了良好的结果和指标,表明最大-均值度量对查询选择也是有效的。局部和全局注意力。模型 G 和 H 对 A l应用局部注意力,并计算查询选择的 H l。不同的是,G使用 A l 中选定的行形成值路由中的 A QS,而 H使用全局注意力矩阵 A g。尽管 G 在 FID上取得了最佳性能,但视觉质量不如 H 和A,这表明全局值路由有助于重建图像的纹理。05. 结论0本文提出了一种用于I2I跨领域对比学习的QS-Attn模块。我们不再随机选择锚点、正样本和负样本来计算对比损失,而是根据度量衡量源领域特征的重要性,并选择它们,使约束对于领域转换更相关。我们首先使用源领域真实图像的特征计算一个注意力矩阵,然后测量其中每个查询的熵。那些具有较小值的查询被认为是不同的,因此被选择。剩下的重要查询被保留,得到一个行减少的注意力矩阵,进一步用于路由源领域和目标领域的特征。跨领域路由策略不仅扩大了所选特征的感受野,还帮助输出保留输入图像中的关系。我们在流行的领域转换数据集上展示了QS-Attn模块的有效性,并进行了大量的消融研究。[1] Sagie Benaim and Lior Wolf. One-sided unsupervised do-main mapping. arXiv preprint arXiv:1706.00826, 2017. 3[2] Andrew Brock, Jeff Donahue, and Karen Simonyan. Largescale gan training for high fidelity natural image synthesis.arXiv preprint arXiv:1809.11096, 2018. 3182990参考文献0[3] Mathilde Caron, Ishan Misra, Julien Mairal, Priya Goyal,Piotr Bojanowski, and Armand Joulin.通过对比聚类分配进行无监督学习视觉特征.arXiv预印本arXiv:2006.09882 , 2020. 30[4] Jingwen Chen, Jiawei Chen, Hongyang Chao, and MingYang. 基于生成对抗网络的图像盲去噪. 在《IEEE计算机视觉与模式识别会议论文集》, 页码3155-3164,2018. 30[5] Qifeng Chen and Vladlen Koltun.使用级联细化网络进行摄影图像合成. 在《IEEE国际计算机视觉会议》, 页码1511-1520, 2017. 30[6] Ting Chen, Simon Kornblith, Mohammad Norouzi, andGeoffrey Hinton. 对视觉表示进行对比学习的简单框架. 在《机器学习国际会议》, 页码1597-1607. PMLR, 2020. 30[7] Ting Chen, Xiaohua Zhai, Marvin Ritter, Mario Lucic, andNeil Houlsby. 自监督GAN通过辅助旋转损失. 在《IEEE/CVF计算机视觉与模式识别会议论文集》,页码12154-12163, 2019. 30[8] Xinlei Chen, Haoqi Fan, Ross Girshick, and Kaiming He.使用动量对比学习改进基线. arXiv预印本arXiv:2003.04297 ,2020. 30[9] Xinlei Chen and Kaiming He. 探索简单的孪生表示学习.arXiv预印本arXiv:2011.10566 , 2020. 30[10] Xinyuan Chen, Chang Xu, Xiaokang Yang, and DachengTao. Attention-gan用于野外图像中的目标转换. 在《欧洲计算机视觉会议论文集》, 页码164-180, 2018. 30[11] Yunjey Choi, Minje Choi, Munyoung Kim, Jung-Woo Ha,Sunghun Kim, and Jaegul Choo. Stargan:统一的多领域图像到图像翻译的生成对抗网络. 在《IEEE计算机视觉与模式识别会议论文集》, 页码8789-8797,2018. 30[12] Yunjey Choi, Youngjung Uh, Jaejun Yoo, and Jung-WooHa. Stargan v2: 多领域多样化图像合成. 在《IEEE/CVF计算机视觉与模式识别会议论文集》, 2020年6月. 3 ,50[13] Huan Fu, Mingming Gong, Chaohui Wang, KayhanBatmanghelich, Kun Zhang, and Dacheng Tao.一侧无监督域映射的几何一致性生成对抗网络. 在《IEEE/CVF计算机视觉与模式识别会议论文集》, 页码2427-2436,2019. 30[14] Leon A Gatys, Alexander S Ecker, and Matthias Bethge.使用卷积神经网络进行图像风格转换. 在0《IEEE计算机视觉与模式识别会议论文集》, 页码2414-2423,2016. 30[15] Ian J Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, BingXu, David Warde-Farley, Sherjil Ozair, Aaron Courville, andYoshua Bengio. 生成对抗网络. arXiv预印本arXiv:1406.2661 ,2014. 30[16] Jean-Bastien Grill, Florian Strub, Florent Altché, CorentinTallec, Pierre H Richemond, Elena Buchatskaya, Carl Doersch,Bernardo Avila Pires, Zhaohan Daniel Guo, MohammadGheshlaghi Azar, 等. 自助学习的新方法:Bootstrap your ownlatent. arXiv预印本arXiv:2006.07733 , 2020. 30[17] Kaiming He, Haoqi Fan, Yuxin Wu, Saining Xie, and RossGirshick. 动量对比用于无监督视觉表示学习. 在《IEEE/CVF计算机视觉与模式识别会议论文集》, 页码9729-9738,2020. 30[18] Martin Heusel, Hubert Ramsauer, Thomas Unterthiner,Bernhard Nessler, and Sepp Hochreiter.通过两时间尺度更新规则训练的GAN收敛到局部纳什均衡. 在 I.Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S.Vishwanathan, 和 R. Garnett (编辑), 《神经信息处理系统进展》,卷30, 页码6626-6637. Curran Associates, Inc., 2017. 60[19] Judy Hoffman,Eric Tzeng,Taesung Park,Jun-YanZhu,Phillip Isola,Kate Saenko,Alexei Efros和TrevorDarrell。Cycada:循环一致的对抗领域自适应。在国际机器学习会议上,第1989-1998页。PMLR,2018年。30[20] Xun Huang,Ming-Yu Liu,Serge Belongie和JanKautz。多模态无监督图像到图像转换。在欧洲计算机视觉会议(ECCV)论文集上,第172-189页,2018年。3, 70[21] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou和Alexei AEfros。具有条件对抗网络的图像到图像转换。在IEEE计算机视觉和模式识别会议上,第1125-1134页,2017年。30[22] Justin Johnson,Alexandre Alahi和LiFei-Fei。用于实时风格转换和超分辨率的感知损失。在欧洲计算机视觉会议上,第694-711页。Springer,2016年。30[23] Taewon Kang,Soohyun Kim,Sunwoo Kim和SeungryongKim。在线样本微调用于图像到图像转换。arXiv预印本arXiv:2011.09330,2020年。30[24] Tero Karras,Samuli Laine和TimoAila。用于生成对抗网络的基于样式的生成器架构。在IEEE/CVF计算机视觉和模式识别会议上,第4401-4410页,2019年。30[25] Taeksoo Kim,Moonsu Cha,Hyunsoo Kim,Jung KwonLee和JiwonKim。学习发现具有生成对抗网络的跨域关系。在国际机器学习会议上,第1857-1865页。PMLR,2017年。2, 30[26] Christian Ledig,Lucas Theis,Ferenc Huszár,JoseCaballero,Andrew Cunningham,Alejandro Acosta,AndrewAitken,Alykhan Tejani,Johannes Totz,Zehan Wang等。照片-183000使用生成对抗网络的逼真单图超分辨率。在IEEE计算机视觉和模式识别会议上,第4681-4690页,2017年。30[27] Hsin-Ying Lee,Hung-Yu Tseng,Jia-BinHuang,Maneesh Singh和Ming-HsuanYang。通过解缠表示实现多样化的图像到图像转换。在欧洲计算机视觉会议(ECCV)论文集上,第35-51页,2018年。30[28] Ming-Yu Liu,Thomas Breue
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM Java项目:StudentInfo 数据管理与可视化分析
- pyedgar:Python库简化EDGAR数据交互与文档下载
- Node.js环境下wfdb文件解码与实时数据处理
- phpcms v2.2企业级网站管理系统发布
- 美团饿了么优惠券推广工具-uniapp源码
- 基于红外传感器的会议室实时占用率测量系统
- DenseNet-201预训练模型:图像分类的深度学习工具箱
- Java实现和弦移调工具:Transposer-java
- phpMyFAQ 2.5.1 Beta多国语言版:技术项目源码共享平台
- Python自动化源码实现便捷自动下单功能
- Android天气预报应用:查看多城市详细天气信息
- PHPTML类:简化HTML页面创建的PHP开源工具
- Biovec在蛋白质分析中的应用:预测、结构和可视化
- EfficientNet-b0深度学习工具箱模型在MATLAB中的应用
- 2024年河北省技能大赛数字化设计开发样题解析
- 笔记本USB加湿器:便携式设计解决方案
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功