InstaFormer：基于Transformer的实例感知图像到图像翻译

135 浏览量更新于2023-10-25 收藏 28.37MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

183210InstaFormer：具有Transformer的实例感知图像到图像的翻译0Soohyun Kim Jongbeom Baek Jihye Park Gyeongnyeon Kim Seungryong Kim *韩国首尔韩国大学0{shkim1211,baem0911,ghp1112,kkn9975,seungryong kim}@korea.ac.kr0摘要0我们提出了一种新颖的基于Transformer的网络架构，用于实例感知的图像到图像的翻译，称为InstaFormer，以有效地整合全局和实例级信息。通过将从图像中提取的内容特征视为标记，我们的网络通过在Transformer中的自注意模块中考虑上下文信息来发现内容特征的全局共识。通过将这些标记与从边界框信息相对于内容特征提取的实例级特征相结合，我们的框架能够学习对象实例与全局图像之间的相互作用，从而提高实例感知性。我们用自适应实例归一化（AdaIN）替换标准Transformer中的层归一化（LayerNorm），以实现具有样式代码的多模态翻译。此外，为了改善对象区域的实例感知性和翻译质量，我们提出了一个在输入和翻译图像之间定义的实例级内容对比损失。我们进行实验证明了我们的InstaFormer相对于最新方法的有效性，并提供了广泛的消融研究。01. 引言0十年来，图像到图像的翻译（I2I）一直受到广泛研究，旨在将一个域（即源域）中的图像翻译到另一个域（即目标域），并已经在许多应用中得到部署，例如风格转移[14，21]，超分辨率[11，30]，修复[24，44]或上色[62，63]。特别是，最近的大部分工作都集中在设计更好的解缠表示，以从不成对的训练数据中学习多模态翻译[22，33，43]。虽然它们已经展示了有希望的结果，但是大多数这些方法只考虑整个图像上的翻译，并没有考虑到图像通常包含许多不同大小的对象实例，因此显示了0*通讯作者0输入图像（晴天）翻译图像（雨天）0图1.InstaFormer对实例感知图像到图像翻译的结果。我们的InstaFormer通过Transformer有效地考虑全局和实例级信息，实现了高质量的实例级翻译。0在内容丰富的场景翻译中，例如驾驶场景，性能有限，这对于一些下游任务非常关键，例如领域自适应目标检测[3]，需要良好翻译的对象实例。为了解决上述问题，一些方法[3，027，49]试图在深度卷积神经网络（CNN）中明确考虑图像中的对象实例。这一趋势由实例感知I2I（INIT）[49]发起，它将对象实例和全局图像分开处理。在此之后[49]，提出了一些变体，例如联合学习翻译网络和对象检测网络，称为基于检测的无监督I2I（DUNIT）[3]，或使用外部存储模块，称为记忆引导的无监督I2I（MGUIT）[27]。虽然这些方法在一定程度上提高了实例感知性，但它们继承了基于CNN的架构[3，27，49]的局部感受野或有限的编码关系或图像内像素或补丁之间的相互作用，这在区分对象实例和整个图像以及提升其翻译方面至关重要。为了解决这些限制，我们首次提出在I2I网络中利用Transformer[53]架构，有效地整合图像中存在的全局和实例级信息，称为InstaFormer。我们遵循常见的解缠表示方法[22，33]来提取内容和样式向量。通过将从图像中提取的内容特征视为标记，183220我们基于Transformer的聚合器通过自注意模块混合它们，通过考虑全局上下文信息来发现全局共识，从而提升翻译过程中的实例感知能力。此外，通过将全局内容特征与边界框信息提取的实例级特征相结合，我们的框架能够学习不仅是对象实例和全局图像之间的交互，还有不同实例之间的交互，然后通过一种位置嵌入技术同时考虑全局和实例级补丁，这有助于网络更好地聚焦于对象实例区域。我们还将Transformer中的层归一化（LayerNorm）[1]替换为自适应实例归一化（AdaIN）[21]，以便使用提取的或随机的风格向量进行多模态翻译。由于直接使用Transformer对原始内容和风格向量进行聚合需要非常大的计算量[12,29]，我们进一步提出在Transformer的聚合器的开头和结尾应用卷积补丁嵌入和反卷积模块。此外，为了提高对象区域的实例感知能力和翻译图像的质量，我们提出了一种在输入图像和翻译图像之间定义的实例级内容对比损失。在实验中，我们在包含丰富内容场景的几个基准数据集[8, 15,49]上展示了我们的框架。各种基准数据集上的实验结果证明了我们提出的模型在实例感知I2I方面的有效性。我们还进行了消融研究，以验证和分析我们模型中的组件。02. 相关工作0图像到图像的翻译。早期的I2I方法基于监督学习[26]，而最近的最新技术则专注于无配对设置[2, 13, 37, 61, 65,67]。CycleGAN[68]通过提出循环一致性损失来尝试解决这个问题，该损失已成为无配对I2I的标准损失之一。受CycleGAN的启发，许多方法利用循环一致性[7, 20, 22, 31, 33,59]，它们可以大致分为单模型方法[36, 59,61]和多模型方法[7, 22, 33]。具体而言，MUNIT[22]假设图像表示可以被分解为特定于域的风格和域不变的内容表示，并使用这些分解的潜在特征与循环一致性一起生成翻译。然而，翻译图像中的内容很容易失真，并且循环映射需要多个生成器和判别器。为了解决这些问题，CUT[43]和F-LSeSim [65]提出了受infoNCE[42]启发的新型损失，以在一个单向框架中直接计算输入和翻译图像之间的距离，而无需循环一致性。然而，它们在编码翻译图像中的物体感知方面仍然表现有限。0实例感知图像到图像的翻译。一些方法尝试解决上述问题[3,27, 41, 49]。INIT[49]尝试独立地翻译整个图像和对象实例。DUNIT[3]提出了进一步训练检测模块并采用实例一致性损失来实现对象感知。MGUIT[27]利用边界框读取和写入类别感知的内存模块，并在测试时可以访问内存上的类别感知特征。上述方法继承了基于CNN的架构的局部感受野或图像内部关系或交互的编码的局限性[22, 33, 68]。0最近，视觉Transformer（ViT）在各种视觉应用中表现出了极具竞争力的性能，例如图像分类[10, 12, 52,55]，目标检测[5, 9, 69]和语义分割[58, 66]。受ViT[12]的启发，我们对其进行了改进，以提高计算复杂性[29,38, 54, 55]。例如，Swin Transformer[38]提出了相对位置偏差，并将自注意力计算限制在移动的窗口内。MLP-Mixer[50]建议用MLP替换自注意力，以实现内存效率和竞争性能[35, 39,51]。在本文中，我们引入了基于ViT的聚合器，通过从局部区域和全局图像中聚合信息，进一步增强了学习实例感知能力。另一方面，已经有一些工作将ViT应用于图像生成任务[6, 23, 28, 34, 64]。作为开创性的工作，TransGAN[28]首次提出了使用纯Transformer的GAN结构，但仅在低分辨率图像上进行了验证。[64]在生成高分辨率图像方面取得了成功。[23]利用Transformer构建了二分图结构，允许长距离的相互作用。据我们所知，我们的工作是首次尝试在实例感知图像翻译中采用Transformer。03. 方法论03.1. 概述0我们的方法旨在学习两个域X � RH × W × 3和Y � RH × W × 3之间的多模态映射0在没有成对训练数据的情况下，但有一组不成对的实例X ={x ∈ X}和Y = {y ∈Y}。特别地，我们希望建模这样一个映射函数，能够同时考虑整个图像和对象实例。与传统的I2I方法[3, 16, 22, 27, 33,49]不同，这些方法在一个双边框架中利用循环一致性约束，往往会对翻译后的图像产生一些失真，并需要辅助网络进行逆映射[68]，我们在一个单边框架[43]中制定了我们的方法。具体来说，如图2所示，我们的框架...............183230ViT编码器块0（）× 60AdaIN参数0测试时间（Testtime）0特征图位置嵌入逐元素相加风格编码全局补丁实例补丁0AdaIN0AdaIN0（b）ViT编码器块0图2.网络配置：（a）图像到图像翻译的整体架构，（b）ViT编码器块的详细信息。我们的网络包括内容编码器、Transformer编码器和生成器。灰色背景表示测试阶段，在这个阶段我们无法访问对象实例的边界框（最佳观看效果为彩色）。0被称为InstaFormer的模型，由内容编码器E和生成器G组成，类似于[43,65]，并且还有额外的使用Transformers[53]的编码器T，通过考虑整个图像和对象实例之间的全局一致性来提高实例感知能力。为了将域X中的图像x翻译到域Y中，我们的框架首先从x中提取内容特征图c = E(x) ∈ Rh × w ×lc，其中h为高度，w为宽度，lc为通道数，并从先验分布q(s) � N(0, I)中随机抽取一个风格潜码s ∈ R1 × 1 ×ls来实现多模态翻译。与文献[22,33]中直接将c和s馈送给生成器G的做法不同，我们通过提议的Transformer模块T将内容c中的信息聚合起来，以发现全局图像和对象实例之间的全局一致性。具体而言，我们首先为第i个对象边界框提取对象实例内容向量cinsi，其参数为Bi= [xi, yi, hi, wi]，其中(xi,yi)表示中心点，hi和wi表示边界框的高度和宽度，i ∈ 1, ...,N，N为实例的数量，然后通过T将{c, {cinsi}i,s}混合起来，提取全局嵌入u和实例嵌入uinsi，分别用于生成全局级别的翻译图像ˆy = G(u) ∈ Rh × w ×3和实例级别的翻译图像ˆyinsi = G(uinsi) ∈ Rhi × wi ×3。在训练过程中，我们可以访问地面真实对象边界框，但在测试时无法访问它们。0为了训练我们的网络，我们首先使用对抗损失定义在从Y中的真实图像y和翻译图像ˆy之间的鉴别器上，以及在x和ˆy之间定义的全局内容对比损失来保留全局内容。为了提高内容和风格的解耦能力，0与[22]类似，我们还使用了图像重构损失和风格重构损失，通过利用额外的Y的风格编码器。为了提高对对象实例区域的实例感知能力和翻译图像的质量，我们新提出了一个实例级内容对比损失，用于x和ˆy之间的对比。03.2. 使用 Transformers 进行内容和样式混合0大多数现有的 I2I 方法 [3, 22, 27, 33, 43, 49]尝试使用带有残差连接的深度 CNN和残差块（通常插入在编码器和生成器网络之间）来聚合内容特征图。因此，它们在某种程度上受到基于 CNN的架构的限制，例如局部感受野或图像中像素和补丁之间的关系或交互的编码受限 [22, 33, 49]。在实例感知的 I2I任务中，扩大感受野并对对象和全局图像之间的交互进行编码可能非常重要。例如，如果一张图像上有一辆汽车在路上，不仅使用全局背景（如道路）的上下文信息，还使用其他实例（如其他汽车或人）的上下文信息，肯定会有助于更加关注实例的图像翻译，但现有的基于 CNN 的方法 [22, 33,43] 会受到限制。为了克服这个问题，我们提出利用Transformer 架构 [53] 来扩大感受野并对实例感知的 I2I进行特征编码。为此，从 x 提取的内容向量 c ∈ R h × w ×l c 可以被扁平化为一个序列 c' =Reshape(c)，其中令牌数量为 hw，通道数为 lc，可以直接用作 Transformer的输入。然而，这需要极高的计算复杂性，因为令牌数量hw 非常大，例如全高清翻译。183240（a）内容图像0A B0A B0（b）翻译图像0（c）w/o L ins NCE for0（d）w/o L ins NCE for0（e）w/ L ins NCE for0（f）w/ L ins NCE for0图3. 学习的自注意力可视化。对于（a）包含实例 A 和 B 的内容图像，我们的网络生成（b）翻译图像，考虑到实例 A、B的注意力图（c、d）没有 L ins NCE 和（e、f）使用 L ins NCE。0由于令牌数量 hw非常大，例如全高清翻译，这导致了非常高的计算复杂性。0补丁嵌入和扩展。为了解决这个问题，受 ViT [12]中的补丁嵌入的启发，我们首先应用连续的卷积块来降低空间分辨率。我们使用连续的重叠卷积块而不是 ViT [12]中的单个卷积来提取非重叠的补丁，以提高训练的稳定性同时减少涉及的参数数量 [57]。我们将这个过程定义如下：0p = Conv(c) ∈ R (h/k) × (w/k) × l'c，(1)0其中 k × k 是卷积的步幅大小，l'c是投影通道大小。经过前馈传递 Transformer 块，使得 z =T(p) ∈ R (h/k) × (w/k) × l'c，下采样特征图 z应该再次通过附加的反卷积块进行上采样，这些反卷积块是卷积的对称结构，定义如下：0u = DeConv(z) ∈ R h × w × l c，(2)0此外，对于多模态翻译，我们利用一个样式编码向量 s ∈ R1 × 1 × l s ，因此在与 Transformers [53]混合时应考虑这一点。传统方法 [21, 22, 33] 尝试使用串联[33] 或 AdaIN [21]来混合内容和样式向量。在我们的框架中，通过稍微改变Transformers中的归一化模块，我们能够同时混合内容和样式向量，使得T(p, s)。我们的框架中可以考虑任何形式的 Transformers[12, 38, 50, 55, 60] 作为候选模型，在实验中，我们考虑了ViT-like [12] 架构作为 T。接下来，我们将解释Transformer 模块的详细信息。0Transformer 聚合器。为了利用 Transformer处理内容补丁嵌入 p，我们的工作基于 ViT编码器，它由一个多头自注意力（MSA）层和一个带有GELU 的前馈 MLP 组成[53]，其中在两个部分之前都应用了归一化层。特别地，在I2I 中，我们采用 AdaIN 而不是 LayerNorm [1]来控制输出的样式，使用样式向量 s的仿射参数，并实现多模态输出。具体而言，内容补丁嵌入p 首先被重塑，然后通过位置嵌入实现，如下所示：0z0 = Reshape(p) + E ∈ R(h/k∙w/k)×l′c，(3)0其中E表示位置嵌入[53]，将在下文中讨论。这些嵌入的令牌z0经过顺序的Transformer编码器块进一步处理，如下所示：0zt = MLP(AdaIN(z′t, s′)) + z′t，(4)0其中z′t和zt分别表示第t个块的MSA和MLP模块的输出，t∈1，...，T，s′表示从S中提取的AdaIN参数。经过L个Transformer模块后，再重新调整到原始分辨率，最终实现Transformer块T的输出，如下所示：zT = T(p,s′)。如图3所示，我们学到的自注意力很好地考虑了对象实例和全局图像之间的交互。03.3.实例感知的内容和风格混合0到目前为止，我们讨论了一种使用Transformer[12]进行内容和风格混合的方法。这个框架可以在一定程度上提高翻译质量，特别是在实例区域，但是对象实例的不规则形状的性质可能会阻碍我们框架的性能提升。特别是，全局级别的聚合本身仅限于捕捉微小对象的细节，并且并不总是保证一个对象位于单个规则补丁中。为了克服这个问题，我们提出了一种新的技术，同时聚合实例级别的内容特征和全局级别的内容特征，使模型能够更多地关注全局场景和对象实例之间的关系。具体而言，给定带有参数Bi的真实边界框，我们通过ROI Align[18]模块提取实例级别的内容特征图，定义如下：0cinsi = RoIAlign(c; Bi) ∈ Rk×k×lc，(5)0其中k×k是一个固定的空间分辨率。这可以通过上述提出的卷积块进一步处理，如下所示0pinsi = Conv(cinsi) ∈ R1×1×l′c，(6)0在我们的框架中，通过连接p和pinsi，我们构建了一个新的输入用于Transformerˆz0，如下所示0ˆz0 = Reshape(Cat(p, {pinsi}i)) + ˆE ∈ R(h/k∙w/k +N)×l′c，(7)Regular Patch𝑥"𝑦"ℎ!𝑤!ℎ"𝑤"𝑥!𝑦!Content imageTranslated image−log�,(11)(13)183250实例补丁0�(�!) �(�!) �(�!) �(�!)0�(�") �(�") �(�") �(�")0图4.构建规则补丁和实例级补丁的位置嵌入的示意图。0其中Cat(∙,∙)表示连接运算符，ˆE是相应的位置嵌入。然后使用Transformer块对ˆz0进行类似于上述的处理，以实现ˆzT，将其分解为zT和zinsT,i。03.4.实例感知的位置嵌入0由于Transformer[53]块本身不包含位置信息，我们根据上述描述添加位置嵌入E。为此，我们的框架基本上利用现有技术[12]，但主要区别在于我们提出的策略能够同时考虑常规划分的补丁p和实例补丁pinsi的空间关系。深度网络往往偏向于学习低频函数[45]，因此我们使用高频函数来缓解这种偏差。我们将γ(∙)表示为一个正弦映射到R2K，使得γ(a)=(sin(20πa),cos(20πa), ..., sin((2K-1)πa),cos((2K-1)πa))，其中a是一个标量。具体而言，当全局特征图被划分为规则网格时，每个规则补丁可以表示为具有中心坐标(xg,yg)、规则大小为wg和hg的宽度和高度的补丁pg。通过γ(∙)对每个信息进行嵌入并沿通道轴进行连接后，它进一步添加到补丁嵌入的令牌中。0E = Cat(γ(xg), γ(yg), γ(wg), γ(hg)) (8)0与具有相同宽度和高度的常规补丁不同，实例补丁包含相应边界框的位置信息，其中包含中心点坐标(xi,yi)和宽度和高度(wi, hi)。实例级E表示为：0Eins = Cat(γ(xi), γ(yi), γ(wi), γ(hi)) . (9)0然后ˆE = Cat(E,Eins)。图4说明了如何处理常规补丁和实例补丁之间的差异。03.5. 损失函数0对抗损失。对抗损失旨在最小化两个不同特征之间的分布差异[17，0全局级0实例级0图5.全局内容损失和实例级内容损失的示意图。蓝色框表示正样本，黄色框表示负样本（最佳观看颜色）。040]。我们采用这种方法来学习将翻译后的图像ˆy与来自Y的图像y相似，其中Y的定义如下：0LGAN = Ex �X [log(1 − D(ˆy))] + Ey �Y [log D(y)] , (10)0其中 D(∙) 是鉴别器。0全局内容损失。为了定义x和ˆy之间的内容损失，我们利用infoNCE损失[42]，定义如下：0ℓ (ˆv, 0� exp(ˆv ∙ v + /τ)0exp(ˆv ∙ v + /τ) + � Nn=1 exp(ˆv ∙ v−n0其中τ是温度参数，v+和v−表示ˆv的正样本和负样本。我们设置伪正样本在输入图像x和翻译图像ˆy之间。对于来自翻译图像ˆc(s) =E(ˆy)的内容特征，我们设置正补丁c(s)和负补丁c(S \s)来自x，其中S \s表示除s之外的索引，参考[43，65]。然后定义全局内容损失函数如下：0L global NCE = Ex�X �0s ℓ (ˆcl(s), cl(s), cl(S \ s)) , (12)0其中 cl 是第l层的特征，s ∈ {1, 2, ..., Sl}，Sl是每个l层中的补丁数量。0实例级内容损失。为了提高对象区域的实例感知性和翻译图像的质量，我们新提出了一种实例级内容对比损失。我们的实例级内容损失定义如下：0L ins NCE = Ex �X 0m ℓ (ˆcinsi(m), cinsi(m), cinsi(M \m)) ,0其中 m ∈ {1, 2, ..., Mi}，Mi是每个实例中补丁的数量。图5说明了我们建议的内容损失的工作原理，以及定义正样本和负样本的过程。CISISCISISCISISCISISCISISCISISCISISCISIS(16)183260CycleGAN [68] UNIT [36] MUNIT [22] DRIT [33] INIT [49] DUNIT [3] MGUIT [27] InstaFormer0晴天 → 夜晚 0.014 1.026 0.082 1.030 1.159 1.278 1.058 1.224 1.060 1.118 1.166 1.259 1.176 1.271 1.200 1.404 夜晚 → 晴天 0.012 1.023 0.027 1.0241.036 1.051 1.024 1.099 1.045 1.080 1.083 1.108 1.115 1.130 1.115 1.1270晴天 → 雨天 0.011 1.073 0.097 1.075 1.012 1.146 1.007 1.207 1.036 1.152 1.029 1.225 1.092 1.213 1.158 1.394 晴天 → 多云 0.014 1.097 0.081 1.1341.008 1.095 1.025 1.104 1.040 1.142 1.033 1.149 1.052 1.218 1.130 1.257 多云 → 晴天 0.090 1.033 0.219 1.046 1.026 1.321 1.046 1.249 1.016 1.460 1.0771.472 1.136 1.489 1.141 1.5850平均 0.025 1.057 0.087 1.055 1.032 1.166 1.031 1.164 1.043 1.179 1.079 1.223 1.112 1.254 1.149 1.3530表1. 在INIT数据集[49]上的定量评估。对于评估，我们对每个域对执行双向翻译。我们测量CIS [22]和IS[48]（数值越大越好）。我们的结果在CIS和IS方面表现最好。0图像重建损失。我们额外使用图像重建损失来帮助区分内容和风格。为了正则化，我们使用重建损失来确保我们的G能够重建域Y的图像。具体而言，将y输入E和风格编码器S以获得内容特征图c Y = E（y）和风格编码s Y =S（y）。然后，我们将域Y的重建图像G（T（c Y，sY））与y进行比较，如下所示：0L img recon = E y �Y [ ∥G（T（c Y，s Y））− y∥ 1 ]。0风格重建损失。为了更好地学习解缠表示，我们计算从翻译图像中的风格编码和随机生成的风格编码之间的L1损失，以便将生成的风格特征映射到高斯分布中，使其满足以下条件：0L style recon = E x �X，y �Y [ ∥S（ˆ y）− s∥ 1 ]。（15）0总损失。总损失函数如下所示：0min E，G，S max D L（E，G，D）= L GAN + λ glob L global NCE + λ ins L ins NCE0+ λ style L style recon + λ img Limg recon，0其中 λ glob ， λ ins ， λ style 和 λ img是控制每个损失的重要性的权重。04. 实验04.1. 实现细节0我们首先总结了我们框架的实现细节。我们使用一块24GB的RTX 3090GPU进行实验。训练数据集被调整为352×352的大小。我们使用Adam优化器进行200个epoch的训练，使用步长衰减学习率调度器。批量大小为8，初始学习率为2e-4。NCE层数L为3。对于损失权重，我们设置 λ glob = 1，λ ins =1，λ style = 10，λ img =5。如上所述，我们使用最具代表性的视觉Transformer-based方法ViT[12]来实现我们的框架，但我们将在接下来展示我们的框架也适用于MLP-Mixer [50]。我们将公开提供我们的代码。04.2. 实验设置0我们在两个标准数据集上进行实验，即实例感知I2I的INIT数据集[49]和KITTI-Cityscapes数据集[8,15]。INIT数据集[49]提供包含4个域类别（晴天、夜晚、雨天、多云）的街景图像，并带有汽车、人和交通标志的边界框注释。我们对晴天→夜晚、夜晚→晴天、晴天→雨天、晴天→多云和多云→晴天进行翻译实验。KITTI目标检测基准[15]和Cityscapes [8]数据集用于评估KITTI →Cityscapes的域自适应目标检测。KITTI包含7,481张训练图像和7,518张测试图像，其中包含6个对象类别的边界框注释。Cityscapes数据集包含5,000张图像，其中包含30个类别的像素级注释。在本节中，我们将我们的InstaFormer与最新的实例感知I2I方法进行比较：INIT [49]，DUNIT[3]，MGUIT[27]，以及几种无监督的图像到图像翻译方法：CycleGAN[68]，UNIT [36]，CUT [43]，MUNIT [22]和DRIT [33]。04.3. 实验结果0定性评估。我们首先在INIT数据集[49]上对我们的方法与CycleGAN [68]，UNIT [36]，MUNIT [22]，DRIT[33]和MGUIT[27]进行定性比较，包括晴天→夜晚、夜晚→晴天、晴天→多云和晴天→雨天任务。如图6所示，我们的模型生成了更高质量的翻译结果，特别是在对象实例区域。特别是，如图7中突出显示的区域所示，我们的模型擅长捕捉多个实例内的局部区域，这要归功于同时考虑对象实例和全局图像的Transformer-based架构和提出的实例级对比学习。请注意，我们的注意力图可视化也证明了这一点，如图3所示。请注意，MGUIT[27]在测试时可以访问他们训练过的记忆模块，这是额外的负担。0定量评估。按照常见的做法[3, 27,49]，我们使用初始分数（IS）[48]和条件初始分数（CIS）[22]来评估我们的InstaFormer。由于上述指标与翻译图像的多样性有关，我们还使用fr´echet incep-来评估我们的方法(a)(b)(c)(c)0%20%40%60%80%100%183270(a) 输入0(b) CycleGAN [68]0(c) UNIT [36]0(d) MUNIT [22]0(e) DRIT [33]0(f) MGUIT [27]0(g) InstaFormer0图6.INIT数据集上的定性比较：（从上到下）晴天→夜晚，夜晚→晴天和多云→晴天的结果。在这些方法中，我们的方法保留了物体的细节，并展示了逼真的结果。0图7. 与MGUIT [27]的视觉比较：（a）输入，（b）MGUIT[27]和（c）InstaFormer。我们展示了晴天→雨天（左）和晴天→多云（右）的结果。0质量评估方面，我们使用真实图像和合成图像之间的分布距离来采用FID（FID）[19]和结构相似性指数（SSIM）[56]。请注意，我们对所有方法使用相同的设置进行评估。我们采用FID来衡量真实图像和合成图像之间的分布距离。此外，由于SSIM指数是在原始内容图像和合成图像之间计算的误差测量，我们应用它来测量实例级结构一致性。应该注意的是，在图像翻译任务中，定量评估和人类感知之间经常存在一些差异[4]，因此下面的用户研究将是一个更精确的度量标准。如表1所示，我们的InstaFormer在多样性（CIS，IS）方面优于当前最先进的方法。此外，如表2所示，从全局分布或实例级相似性的角度来看，FID和SSIM0风格相关性0内容相关性0最受欢迎的0CUT MUNIT DRIT MGUIT 我们的0图8. INIT数据集上的用户研究结果。与CUT [43]，MUNIT[22]，DRIT [33]和MGUIT[27]相比，我们的方法在整体质量，语义一致性和风格相关性方面最受欢迎。0评分显示我们的InstaFormer在几乎所有比较中都倾向于优于先前的方法。特别是，SSIM上的结果表明我们的网络被忠实地设计为编码实例感知性。我们的方法在INIT数据集上相对于之前的领先方法MGUIT [27]大幅提高了FID分数。0用户研究。我们还对110名参与者进行了用户研究，以评估实验中合成图像的质量，问题如下：“你认为哪个图像在整体上具有更好的图像质量/与内容图像相似/代表与目标领域相似的风格？”在INIT数据集上总结如图8所示。我们的方法在每种情况下都排名第一，特别是在内容相关性和整体偏好方面。请注意，尚未出现标准评估指标，人工评估在图像翻译任务中具有影响力。04.4. 切割研究0为了验证我们方法中每个组件的有效性，我们进行了全面的切割研究。特别是，我们分析了实例级损失（L insNCE），Transformer编码器（T）和AdaIN的有效性，如图9所示。应该注意的是，CUT [43]可以被视为没有L insNCE，T，AdaIN的InstaFormer设置。没有L insNCE，我们的自注意模块的能力受到限制。0%20%40%60%80%100%183280(a) 内容图像0（b）InstaFormer0（c）MLP-Mixer [50]0（d）无L ins NCE0（e）无L ins0（f）CUT [43]0（g）无AdaIN0图9. 不同设置的消融研究：实例级损失（L insNCE），Transformer编码器（T），归一化和另一个骨干网络（MLP-Mixer）。请注意，CUT等于无L ins NCE，T和AdaIN的设置。0方法晴天 → 夜晚夜晚 → 晴天平均0FID ↓ SSIM ↑ FID ↓ SSIM ↑ FID ↓ SSIM ↑0CUT [43] 75.28 0.698 80.72 0.634 78.00 0.666 MUNIT [22] 100.320.703 98.04 0.631 99.18 0.680 DRIT [33] 79.59 0.312 99.33 0.26689.46 0.289 MGUIT [27] 98.03 0.836 82.17 0.848 90.10 0.8420InstaFormer 84.72 0.872 71.65 0.818 79.05 0.8450表2. 使用FID [19]指标对数据分布和每个实例的SSIM[56]指数进行定量评估。0 风格相关性0 内容相关性0 图像质量0MLP-Mixer0无0无CUT无AdaIN的InstaFormer0图10. 消融研究的用户研究结果。0能够聚焦于对象，从而生成包含模糊对象的图像，如图3所示。为了验证我们模型中T的效果，我们进行了消融实验，将其替换为Resblocks（不包括L insNCE，T）。没有Transformer，它无法捕捉特征之间的全局关系。很明显，CUT[43]显示出包含伪影的有限结果，而InstaFormer通过我们的架构显著提高了对象感知和生成图像的质量。由于AdaIN通过利用仿射参数来帮助理解全局风格，没有AdaIN的结果，即用LayerNorm替换的结果，在单模态输出上显示出有限的风格保留。我们还通过人工评估验证了消融研究结果。我们要求110名参与者考虑三个方面：整体质量、语义一致性和风格一致性，总结在图10中，其中我们还验证了每个提出的组件的优越性。此外，我们使用基于MLP-Mixer[50]的聚合器进行实验，该聚合器替换了由ViT[12]块组成的T，以验证我们框架的鲁棒性。图9（c）显示了基于MLP-Mixer[50]的聚合器的结果示例。尽管在图9（b）中，基于ViT的模型在整体质量上略优于基于MLP-Mixer[50]的模型，但对象实例和风格表示得到了忠实保留，这表明我们的方法可以在另一个Transformer骨干网络中采用。0方法行人车辆卡车自行车 mAP0DT [25] 28.5 40.7 25.9 29.7 31.2 DAF [22] 39.240.2 25.7 48.9 38.5 DARL [32] 46.4 58.7 27.0 49.145.3 DAOD [47] 47.3 59.1 28.3 49.6 46.1 DUNIT[3] 60.7 65.1 32.7 57.7 54.1 MGUIT [27] 58.3 68.233.4 58.4 54.60InstaFormer 61.8 69.5 35.3 55.3 55.50表3. 领域自适应检测结果。我们比较了KITTI →CityScape的每类平均精度。04.5. 领域自适应目标检测0此外，我们还在目标检测的无监督领域自适应任务上评估了我们的方法。我们遵循DUNIT[3]中的实验设置。我们使用Faster-RCNN[46]作为基准检测器。在表3中，我们报告了KITTI →Cityscapes案例[8, 15]的每类平均精度（AP）。与DUNIT[3]和MGUIT[27]相比，我们的模型显示出令人印象深刻的结果。值得注意的是，我们在测试时不访问任何有关边界框信息的信息，而DUNIT包含对象检测网络，MGUIT可以通过读取类感知特征来访问训练的外部内存。特别是，我们的模型在几乎所有类别中明显优于其他方法，这表明我们提出的实例损失在实例感知上具有优势。05. 结论0在本文中，我们提出了基于Transformer的网络InstaFormer，用于实例感知的图像到图像的转换，它能够提升对象实例以及全局图像的转换。通过同时考虑Transformer中的实例级特征和全局级特征，我们学习了不仅对象实例和全局图像之间的交互，还学习了不同实例之间的交互。为了提高转换过程中的实例感知性，我们提出了一个实例级内容对比损失。在各种数据集上进行的评估实验证明，我们的框架优于现有的实例感知I2I解决方案。致谢。本研究得到了韩国MSIT（IITP-2022-2020-0-01819，ICT创造力计划）和韩国国家研究基金会（NRF-2021R1C1C1006897）的支持。[1] Jimmy Lei Ba, Jamie Ryan Kiros, and Geoffrey E Hin-ton. Layer normalization. arXiv preprint arXiv:1607.06450,2016.[2] Kyungjune Baek, Yunjey Choi, Youngjung Uh, Jaejun Yoo,and Hyunjung Shim.Rethinking the truly unsupervisedimage-to-image translation. In ICCV, pages 14154–14163,2021.[3] Deblina Bhattacharjee, Seungryong Kim, Guillaume Vizier,and Mathieu Salzmann.Dunit: Detection-based unsuper-vised image-to-image translation.In CVPR, pages 4787–4796, 2020.[4] Ali Borji. Pros and cons of gan evaluation measures. Com-puter Vision and Image Understanding, 179:41–65, 2019.[5] Nicolas Carion, Francisco Massa, Gabriel Synnaeve, NicolasUsunier, Alexander Kirillov, and Sergey Zagoruyko. End-to-end object detection with transformers. In ECCV, pa

下载后可阅读完整内容，剩余1页未读，立即下载