图像解纠缠：提高图像翻译质量和多样性的单一框架

23 浏览量更新于2023-10-14 收藏 1.59MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6783图像平移以色列耶路撒冷希伯来大学计算机科学与工程学院项目网页：http://www.vision.huji.ac.il/overlord摘要图像转换方法通常旨在操纵一组标记的属性（例如，在训练时作为监督给出）。结构域标记），同时保持未标记的组分完整。目前的方法实现了以下任一种：（i）解缠结，其表现出低视觉保真度，并且仅在属性完全不相关的情况下才能满足。(ii)视觉上看似合理的翻译，显然没有解开。在这项工作中，我们提出子OverLORD，一个用于分离标记和未标记属性以及合成高保真图像的单一框架，它由两个阶段组成;（i）解纠缠：学习具有潜在优化的解纠缠表示。与以前的方法不同，我们不依赖于对抗性训练或任何架构偏见。(ii)合成：训练前馈编码器以推断学习的属性，并以对抗的方式调整生成器以提高感知质量。当标记和未标记的属性是相关的，我们模型的一个额外的表示，占相关的attributes和提高解纠缠。我们强调，我们灵活的框架涵盖了多个设置，如disentangling标记的属性，姿势和外观，本地化的概念，形状和纹理。我们提出了显着更好的解纠缠，更高的翻译质量和更大的输出多样性比国家的最先进的方法。1. 介绍学习解纠缠表示不同的因素变化的一组观察是一个基础-机器学习中说话问题。这种表示可以促进下游生成和识别任务的推广，例如新图像合成[39]和人员重新识别[9]，以及改善解释性[14]，推理[34]和公平性[6]。一个受欢迎的任务，受益于解开是图像翻译，其中的目标是翻译一个给定的输入im-lation。来自源域的年龄（例如，猫）与靶结构域中的类似图像（例如，狗）。尽管该任务通常不太明确，但在假设不同域中的图像共享共同属性（例如，头部姿势），其在平移期间可以保持不变。在本文中，我们将精确定义一幅目标图像的所有属性的集合分成两个子集;（i）标记属性：在训练时间被监督的属性，例如图像是否属于“猫”或“狗”域;（ii）未标记属性：我们没有监督的所有剩余属性，例如动物的品种、头部姿势、背景等。虽然有几种方法（例如Lord [10]，StarGAN[4]，Fader Networks [20]）已经被提出用于解开标记和未标记属性，我们解释并展示了为什么它们不能处理标记和未标记属性相关的情况。例如，当将猫翻译为狗时，未标记的品种（指定皮毛纹理或面部形状）与域标签（猫或狗）高度相关，并且不能在物种之间翻译。这种依赖性激发了我们希望翻译后的图像具有的更细粒度属性的规范。MUNIT [16]，FUNIT [23]和StarGAN-v2 [5]等几种方法不幸的是，我们发现，尽管他们的视觉pleas- ing结果，翻译后的图像仍然保留了许多特定领域的源图像的属性。如图所示2、在将狗翻译成野生动物时，现有的方法将狗特有的面部形状转换成野生动物，而我们的模型将语义头部姿势转换得更可靠。在这项工作中，我们分析了不同的设置，标记和未标记的属性的解纠缠。在它们完全不相关的情况下，我们改进了LORD [10]，并通过一个新的合成阶段扩展到更高的感知质量在标记和未标记属性相关的情况下，我们依赖于空间变换的存在，该空间变换可以保留相关属性6784较年轻的原件较老的(a) 标签属性（年龄）身份性别+头发翻译(c)具有局部相关性的已标记属性（性别）（头发）姿势外观转换(b)姿势和外观形状纹理转换(d)形状和纹理图1：我们的解纠缠框架所涵盖的不同属性形式的总结同时表现出不同的或没有不相关的属性。我们提出了用于学习姿势无关或局部相关属性的简单形式的变换，通过这种变换，我们在定量和定性上都比最先进的方法（例如FUNIT [23]和StarGAN-v2 [5]）实现了更好的解纠缠。我们的方法表明，adversar- ial优化，这是典型的域transla- tion，是不必要的解开，其主要效用在于在生成感知愉悦的图像。图1总结了我们的框架所涵盖的设置。我们的贡献如下：（i）引入一种非对抗性解缠方法，该方法谨慎地扩展到属性相关的情况。(ii)在学习解纠缠表示的同时，将解纠缠方法缩放到具有最终合成阶段的高感知质量。(iii)国家的最先进的结果在一个统一的框架内的多个图像翻译设置。2. 相关工作图像翻译跨不同领域的图像内容翻译已经引起了广泛的关注。在无监督设置中，CycleGAN [38]引入了循环一致性损失，以鼓励翻译后的图像保留域不变属性（例如姿态）。MUNIT [16]认识到，给定的内容图像可以被翻译成许多不同的风格（例如，颜色和纹理），并扩展UNIT [15]以通过学习风格表示来学习多模态映射DRIT [22]在表示级别上使用对抗性约束来处理相同的设置MSGAN [26]补充道正则化项，以防止模式崩溃。StarGAN-v2 [5]和DMIT[36]将先前的框架扩展到跨两个以上的域的翻译。FUNIT [23] 进一步允许翻译成新结构域。 COCO-FUNIT [31]旨在通过在实际内容图像上调节参考图像的风格来保留图像的结构。在这种并行的工作中，目标是将每个类的语义锚定到单个表示中，同时通过残差表示对所有剩余的类独立属性进行建模。几种方法通过对抗性约束[8，32，27]鼓励解开纠缠，而其他方法则依赖于循环一致性[12]或组累积[2]。LORD [10]采用非对抗性方法，并在直接优化潜在代码的同时训练生成模型。这方面的方法我们表明，在这种假设不成立的情况下，这些方法无法解开的属性和表现不佳。此外，它们在合成和低分辨率数据集上工作，并且不能在最近的图像翻译基准中竞争。形状和纹理的解开几种方法的目的是解开从它的纹理对象的形状。Lorenz等人[25]利用合成变换图像之间的等方差和不变约束来学习形状和外观表示。 Park etal. [29]通过跨图像的不同部分的共现补丁统计来在该设置中，不使用监督，将当前方法限制到低级操纵，即，不执行显著的语义改变6785∈ X我我我我[23]第二十三届中国国际汽车工业展览会图2：AFHQ上图像转换模型中的纠缠。域标签（猫、狗或野生）及其相关属性（例如，品种）由外观图像引导，而不相关的属性（例如，头部姿势）。目前的方法和它们的架构偏差紧密地保留原始结构，并生成不可靠的面部形状，这是唯一的源域。我们解开姿势，忠实地捕捉目标品种3. 意象翻译假设一组图像x1，x2，…Xn其中每个图像x1由一组属性精确地指定。属性中的一些由yi标记，而其余的未标记并表示为ui。情况1：如果标记的和未标记的属性是近似不相关的，我们寻求表示uuncorr的未标记的属性。未知函数G将y和u映射到x：xi=G（yi，uuncorr）（1）情况2：如果标记的和未标记的属性是相关的，则y和uuncorr不唯一地指定x。例如，在动物面部图像中，y定义物种（例如，cat或dog），而u_uncorr指定不相关的属性，例如头部姿势。与物种相关的属性（例如品种）被表示为u corr，并且也应该被学习。G现在将y、ucorr和uuncorr映射到x：xi=G（yi，ucorr，uuncorr）（2）图像转换的目标是用目标图像X1的标记属性y1连同它们的相关属性ucorr替换源图像X1的标记属性y1。让我们简要回顾一下在以前的工作中提出的主要思想，并讨论其缺点。学习不相关的属性u uncorr对抗方法（例如StarGAN-v2、FUNIT、MUNIT）在翻译的图像上训练域混淆鉴别器，以仅保留不相关的属性。不幸的是，我们经验地显示在Tab中。从图2和图2可以看出，这些方法不学习解纠缠表示，并且翻译的图像不仅保留不相关的属性。然而，一些相关的属性泄漏到代表和翻译的图像。我们假设这种失败在于具有挑战性的对抗优化。当前的方法依赖于局部保持架构（例如，局部保持架构）。AdaIN [5，23，16]），其偏置不相关属性以表示图像的空间结构，并且偏置相关属性以控制其外观。不幸的是，这种类型的架构偏差不可避免地限制了相关属性在需要时改变空间特征。如图2，不相关的姿势确实是空间的，但是一些相关的属性（如不同品种的面部形状）也具有空间性质。4. 游戏名称：OverLord基于上述分析，我们提出了OverLord，它由以下部分组成：解缠结和合成。4.1. 学习解纠缠模型为了学习已标记和未标记属性的非纠缠表示，我们从6786我Σ我N我第二阶段：综合对抗训练第1阶段：使用潜在优化的[重建损失]相关属性不相关属性+[激活衰减]标签属性图3：我们的方法的草图在解纠缠阶段，T输出图像的变换版本，仅保留与y相关的属性。u_uncorr被正则化和优化以恢复重建输入图像所需的最小残差信息，从而产生剩余的不相关属性，因为它们不由y或T的输出表示。在合成阶段，我们使用学习的嵌入作为新编码器Ey和Eu的目标，以摊销的方式调整所有模块。在这个阶段，对抗性鉴别器被训练以增加视觉保真度。Lord [10]提出了一种基于潜在优化的非对抗方法。与LORD不同的是，我们并不严格地假设有标签和无标签的属性是不相关的。我们放宽这一假设，并假设相关属性的存在，如下所述。未标记的相关属性我们设计了一个简单而有效的方法来学习一些独立于不相关的相关属性。我们首先形成输出图像xcorr=T（x）的函数T，其保留相关属性但展现不同的不相关属性。T的精确实现取决于不相关和相关属性的性质。在本文中，我们提出了两种不同形式的T：(i) 随机空间变换：如果未相关的属性应当捕获对象的姿态，则将T设为随机翻转、旋转或裁剪的序列，使得X_corr保留姿态无关的属性：例如，当将男性转换为女性时，T可能掩盖与性别高度相关的毛发区域（即，T可能掩盖与性别高度相关的毛发区域）。遮蔽所有其它区域）。可以使用外部监督或无监督方法[17，33]获得面具，并且仅用于训练。相关属性通过下式建模：u corr=Ec（x corr）= Ec（T（x））。由于T考虑了标记和未标记属性的依赖性，我们可以假设u_uncorr与y和u_corr近似不相关。为了获得一个独立的表示，我们的目标是uuncorr恢复最小的残差信息，而不是由y和uuncorr表示，这是重建图像所需的。因此，我们参数化由矢量u′i和附加的高斯噪声z组成的噪声信道（0，I），uuncorr=u′i+z，类似于[10]中提出的非对抗瓶颈。因此我们将瓶颈损耗定义为：iu′i2.重建：图像xi应该由表示yi、u corr、u uncorr完全指定：T（x）=（fcrop◦frotate◦fflip）（x）（3）(ii) 掩蔽：如果相关属性是本地化的，我们设置T屏蔽掉不相关的属性，只保留Lrec=Σl。G（yi，ucorrr，uuncorr），xiΣ（5）我- 包括在分割掩模m中的相关区域：我们的完整目标可以概括如下：T（x;m）=xm（4）minu'i，Ec，GLdisent=Lrec+λbLb（6）6787我Σ我L我X→−YX→−ULL对于重建，我们使用1作为基于VGG的感知损失。请注意，我们直接优化u'i，因为它们不是由前馈编码器参数化的。受[10]的启发，我们利用潜在优化，因为它比基于编码器的方法显著为了得到直观的结果，我们应该考虑它们的初始化：潜在优化中的每个u′i都是初始化的i.i.d，因此与标记的属性完全不相关。然而，前馈编码器以近乎完美的相关性开始（甚至可以从随机初始化的编码器的输出预测标记的属性我们在附录A.4中进一步阐述了潜在优化及其归纳偏差。4.2. 概括与感知质量在解纠缠阶段之后，我们拥有训练集中每个图像的不相关属性uuncorr的表示。为了推广到看不见的图像和新的标记属性（例如，新的面部标识），我们训练前馈编码器Ey：和Eu：以推断标记的和不相关的属性（Ec是al.在前一阶段中已经训练好的）分别：Lenc=Ey（xi）−yi2+Eu（xi）−uuncorr2（7）我相应地改变重建项Lgen=Σl。G. Ey（xi），Ec（xi），Eu（xi）Σ，xiΣ（8）我这两个目标确保训练集可以以摊销方式（gen）重建，而不破坏在前一阶段（enc）中建立的解纠缠标准。请注意，enc的目标是我们自己的模型在前一阶段学习的目标。尽管这些约束对于解缠结和泛化是足够的，但是所生成的图像表现出相对低的感知质量，如图1B中可以看出的。4.第一章虽然我们认为通过对抗性方法实现解纠缠是非常困难的，正如我们在实验和[10]中所观察到的那样，但我们发现，在已经学习了解纠缠表示之后，用对抗性项调整模型可以因此，我们联合训练无条件判别器D并采用对抗性损失来区分真实图像和重建图像：Ladv=ΣlogD（xi）+log. 1−D（x¯i）Σ（9）合成阶段的整个目标如下：5. 实验我们的框架在本文考虑的两种情况下进行评估：当标记的和未标记的属性不相关时，以及当它们相关时。5.1. 评价方案我们通过训练两个辅助分类器来预测原始标记属性来测量解纠缠：（i）不相关属性的学习表示(ii)其中标记的属性已被改变的翻译图像。在这两个度量中，较低的准确度指示较好的解缠结。在存在用于评估的注释的情况下（例如，CelebA），我们测量任务特定的指标，如给定目标图像的身份相似性（Id）、表情（Exp）和头部姿势（Pose）误差。如果不存在注释（例如AFHQ，CelebA-HQ），我们测量翻译的图像如何适合目标域（ FID ）及其多样性（LPIPS）。更多实施和评价详情见附录A.1。5.2. 不相关属性属性操作在此设置中，有一个已标记的属性，假定它与所有未标记的属性大致不相关。我们在CelebA [24]上进行实验，并将面部身份标签定义为唯一的标记属性。选项卡. 图1和图5示出了从包括头部姿势、表情和照明的未标记属性中解开面部身份的结果。我们与LORD和FUNIT进行比较，因为它们可以处理细粒度标签（即10K面身份），并推广到看不见的身份。可以看出，我们的方法很好地保留了头部姿势、表情和照明，同时比基线更忠实地转换身份。另一项最近备受关注的任务是面部年龄编辑[1，28]。我们定义年龄（分为8个范围：0-9，...， 70-79）作为FFHQ中唯一的标记属性，并与最先进的老化方法进行比较：[28][29]我们在Fig.虽然基线依赖于预先训练的面部识别损失[7]我们能够更好地保持身份。最后，我们探讨了翻译男性到女性的任务我们将CelebA-HQ [18]中的性别定义为标记属性，并与FaderNetworks [20]和在StyleGAN的潜在空间中操作的mGANprior [11如Tab.所示。3和图7，我们的模型在欺骗目标分类器方面取得了近乎完美的成绩，并产生了视觉上令人愉悦的结果。我们稍后表明，性别与其他属性不相关的假设可以通过掩蔽区域（例如，区域）来放松。头发）与提高翻译控制和可靠性。minEy，Eu，GMaxDLgen+λencLenc+λadvLadv（10）形状纹理在这个任务中，目标是解开我们的整个框架的草图如图所示。3 .第三章。从物体的纹理来判断物体的形状。我们定义形状6788←−←−表1：CelebA上的解缠结性能。从不相关属性的学习表示（y uuncorr）的身份分类准确率较低，从身份表示的地标回归误差表2：在AFHQ上的解缠结性能。来自不相关属性的学习表示的域标签的分类准确性（y uuncorr），来自翻译的sentations（y→-lnd）表示更好的解缠结。Id图像（yi←−xij）、平移保真度（FID）和平移= FaceNet余弦相似度，Exp = RMSE分集表达式（LPIPS）。在面部标志上，姿势=偏航、俯仰和滚动角度误差* 表示细节丢失。作为标记属性（由边缘贴图表示），并在图1和附录A.3中的Edges2Shoes [35]上演示不同鞋子之间的纹理转移。请注意，为了通过图像（而不是通过分类标签）来引导标记的属性，我们在解纠缠阶段而不是合成阶段使用其余模型训练Ey5.3. 相关属性姿态-外观当不相关的属性应该编码对象的姿态时，我们将T设置为一系列水平翻转，旋转和裁剪的随机变换，以使xcorr保留所有与姿态无关的属性。我们在AFHQ上进行了一个实验，并将域标签（猫，狗，野生动物）定义为标记属性。选项卡.图2和图2示出了我们的方法优于所有基线，以更好的视觉质量（FID）和更高的平移分集（LPIPS）实现接近完美的解缠结。请注意，虽然 StarGAN-v2 和 FUNIT 支持多个域，但MUNIT，DRIT和MSGAN对于每个可能的域对都要多次训练。此外，作为标准，LORD不区分相关和不相关属性，即不能利用一个参考图像，我们努力将其扩展到相关的情况下，通过聚类的图像到512个子类别之前的训练（表示为洛德集群）。局部相关性当相关属性被局部化时，T掩盖它们在图像内的对应区域。我们用CelebAMask-HQ中提供的口罩重复男性对女性的实验[21]。在本实验中，xcorr仅包含头发区域。如图7，我们的方法将性别与一般目标发型进行转换，同时保留不相关的属性，包括身份，年龄和照明，比StarGAN-v2更好。更多结果见附录。A.3.最优0.330.33 12.9-姿势，无x校正外观，无adv.我们图4：消融：w/o x corr：忽略相关属性会导致不可靠的翻译。无adv.：属性被分离，但图像呈现低质量。对抗性合成大大提高了感知质量。5.4. 消融研究我们在没有xcorr的AFHQ上训练我们的模型，假设所有未标记的属性与标记的属性不相关。然而，由于品种与物种高度相关，因此动物面部以不可靠和纠缠的方式进行翻译，如图1B所示。4、附录中。A.5.选项卡. 2包括消融分析的结果，其表明该策略在表示和图像水平均未达到解缠。感知质量的对抗性损失我们在合成阶段训练我们的方法，而没有对抗性损失。选项卡. 2表明解纠缠是通过我们的非对抗性框架实现的，而额外的对抗性损失有助于提高输出保真度（FID）。消融分析中声明的定性证据如图所示。4和附录A.5中。表示图像众议员图像无校正y←−uyi←−xijFID LPIPSy←−u无校正y→−lndIDExp构成FUNIT0.162.60.243.84.7耶和华我们10−4*10-33.63.60.480.633.22.73.52.5最优10-3-100MUNIT [16]1.01.0223.90.20DRIT [22]1.01.0114.80.16MSGAN [26]1.01.069.80.38主[10]0.740.4797.10主簇0.530.4337.10.36StarGAN-v20.890.7519.80.43FUNIT [23]0.940.8518.80.44我们的w/oxcorr0.800.7955.90我们的没有adv.0.330.3829.10.45我们0.330.4216.50.516789身份属性1 FUNIT [23] Lord [10]OursAttributes 2 FUNIT [23] Lord [10]Ours图5：从未标记的属性（例如，头部姿势、表情、照明）。FUNIT保留姿势，但无法对表情和确切身份进行建模。LORD捕捉身份，但生成低保真图像。我们保留头部姿势和面部表情，同时转移身份和生成有吸引力的图像。原件[0-9][10-19][20-29][30-39][40-49][50-59][60-69][70-79]图6：年龄和未标记属性的分解。Lifespan引入了人工制品，不会改变头发颜色，而基于StyleGAN的SAM则努力保持身份。请注意，我们不使用任何监督身份丢失。应指出拟议框架的两个局限性;（i）我们设计T用于学习姿势无关或局部相关属性，其覆盖-ers通用图像转换设置。然而，其他设置可能需要不同形式的T。(ii)因为我们的框架依赖于潜在的优化并避免局部性-[28]第28话[28]第28话我们我们6790输入衰减器mGANpriorOurs [uncorr]参考StarGAN-v2Ours [corr]图7：两种设置下的男性到女性转换：（i）当属性被假设为不相关时，我们的方法比Fader做出更大的改变，同时比mGANprior更好地保留身份。（ii）由于在性别之间转换发型的指定不佳，我们将其建模为相关属性，并利用指定其目标的参考图像。我们的方法比StarGAN-v2更好地保留了身份，年龄和光照等不相关属性，同时更忠实地传递环发型失败案例：由于口红没有被建模为相关属性，因此它的传递不可靠。但是，由于用于改进解纠缠的偏置体系结构，对于对象不是主要对象的情况，它不是很好地优化的。表3：CelebA-HQ的雄性对雌性结果。欺骗性别分类器的准确性和翻译保真度（FID）。图像的一部分，例如其中背景包含其他对象或大的变化。我们假设，这可以更好地解决与无监督分割技术。6. 结论我们提出了OverLord，一个代表的框架-在为一些属性提供监督而不为其他属性提供监督的情况下的分离。我们的模型StarGAN-v2 [5]Ours [corr]0.98 0.990.98 0.9927.920.128.1 16.4将基于潜在优化的方法扩展到以下情况这些属性是相关的，并且按比例放大以用于高保真度图像合成。我们进一步展示了对抗性的opti-可以将分解与表示解纠缠分离，并且仅应用于提高所生成图像的感知质量。通过统一的框架，我们在具有不同形式的标记属性的各种图像翻译任务上，与通用方法和特定于任务的方法相比，实现了最先进的性能目标分类FID失败雄性对雌性女性对男性F2M M2FF2M M2F音量控制器[20]0.820.80119.781.7mGANprior [11]0.590.7678.245.3Ours [uncorr]0.980.9754.042.9最佳（实数）0.99 0.9915.6 14.06791引用[1] Yuval Alaluf，Or Patashnik，and Daniel Cohen-Or.只是风格问题：使用基于样式的回归模型的年龄转换。arXiv预印本arXiv：2102.02754，2021。五、七、十一、十三、十四[2] DianeBouchacourt 、 RyotaTomioka 和 SebastianNowozin。多级变分自动编码器：从分组观察中学习解缠表示。第三十二届AAAI人工智能会议，2018。二个[3] Qiong Cao，Li Shen，Weidi Xie，Omkar M Parkhi，andAndrew Zisserman. Vggface2：一个用于识别跨姿势和年龄的人脸的数据集。2018年第13届IEEE自动人脸手势识别国际会议（FG 2018），第67-74页。IEEE，2018年。十一个[4] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第8789-8797页，2018年。一个[5] Yunjey Choi，Youngjung Uh，Jaejun Yoo，Jung-WooHa.Stargan v2：多领域的多样化图像合成。在IEEE计算机视觉和模式识别会议论文集，2020年。一、二、三、八、十一、十九[6] 艾略特·克里奇去马德拉斯，J？rn-HenrikJacobsen，Marissa A Weis，Kevin Swersky，Toniann Pitassi，andRichard Zemel.灵活的公平表示学习。2019年国际机器学习会议。一个[7] 邓健康，贾国，薛念南，Stefanos Zafeiriou。Arcface：用于深度人脸识别的附加角度余量损失。在IEEE/CVF计算机视觉和模式识别会议论文集，第4690-4699页五个[8] Emily L Denton等.从视频中分离表示的无监督学习神经信息处理系统的进展，第4414-4423页，2017年。二个[9] 千湖严和范燮咸。学习解纠缠表示，用于鲁棒的人重新识别。在神经信息处理系统的进展中，第5297-5308页，2019年。一个[10] Aviv Gabbay和Yedid Hoshen。揭秘阶级间的分离。在ICLR，2020年。1、2、4、5、6、7、11、12、25[11] Jinjin Gu，Yujun Shen，and Bolei Zhou.图像处理采用多码gan先验.在CVPR，2020年。五八十九[12] Ananya Harsh Jha、Saket Anand、Maneesh Singh和VSRVeeravasarapu。用周期一致的变分自动编码器解开变化因素在ECCV，2018。二个[13] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展，第6626-6637页，2017年十一个[14] Wei-Ning Hsu，Yu Zhang，and James Glass.无监督学习解纠缠和可解释的表示从顺序数据。神经信息处理系统的进展，第1878-1889页，2017年一个[15] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在IEEE计算机视觉国际会议论文集，第1501-1510页，2017年。二个[16] Xun Huang ， Ming-Yu Liu ， Serge Belongie ， and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议（ECCV）的会议记录中，第172-189页，2018年。一、二、三、六[17] XuJi，J oaoFHenriques，andAndreaVedaldi. 用于无监督图像分类和分割的多变量信息聚类。在IEEE/CVF国际计算机视觉会议，第9865四个[18] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。在2018年学习代表国际会议五、十一[19] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第4401-4410页十一个[20] Guillaume Lample、Neil Zeghidour、Nicolas Usunier、Antoine Bordes、Ludovic Denoyer和Marc衰减器网络：通过滑动属性操作图像。神经信息处理系统的进展，第5967-5976页，2017年1、5、8、19[21] Cheng-Han Lee，Ziwei Liu，Lingyun Wu，and Ping Luo.Maskgan ： Towards diverse and interactive facial imagemanipulation. 在IEEE计算机视觉和模式识别会议，2020年。六、十二[22] Hsin-Ying Lee，Hung-Yu Tseng，Jia-Bin Huang，Ma-neesh Kumar Singh，and Ming-Hsuan Yang.通过解缠表征实现多样化的2018年欧洲计算机视觉会议。二、六[23] Ming-Yu Liu，Xun Huang，Arun Mallya，Tero Karras，Timo Aila，Jaakko Lehtinen，and Jan Kautz.很少拍摄的无监督图像到图像的转换。在IEEE计算机视觉国际会议论文集，第10551-10560页，2019年。一二三六七[24] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性。http://mmlab.ie.cuhk.edu.hk/projects/celeba.html的网站。在ICCV，2015年。五、十一[25] Dominik Lorenz，Leonard Bereska，Timo Milbich，andBjorn Ommer.对象形状和外观的无监督的基于部分的解开。在IEEE计算机视觉和模式识别会议论文集，第10955-10964页二个[26] 毛琦、李新英、曾宏宇、马四维、杨明轩。模式搜索生成对抗网络用于不同的图像合成。在IEEE计算机视觉和模式识别会议集，第1429-1437页，2019年。二、六[27] Michael F Mathieu ， Junbo Jake Zhao ， Junbo Zhao ，Aditya Ramesh，Pablo Sprechmann，and Yann LeCun. 地生坦-6792使用对抗性训练来筛选深度表示中的变化因素在NIPS，2016年。二个[28] Roy Or-El 、 Soumyadip Sengupta 、 Ohad Fried 、 EliShecht-man和Ira Kemelmacher-Shlizerman。寿命转换合成。欧洲计算机视觉会议（ECCV）论文集，2020年。五、七、十一、十三、十四[29] Taesung Park ， Jun-Yan Zhu ， Oliver Wang ， JingwanLu，Eli Shechtman，Alexei A Efros，and Richard Zhang.交换自动编码器进行深度图像处理。arXiv预印本arXiv：2007.00653，2020。二个[30] Nataniel Ruiz、Eunji Chong和James M.瑞格无关键点的细粒度头部姿态估计。在IEEE计算机视觉和模式识别会议（CVPR）研讨会上，2018年6月。十一个[31] Kuniaki Saito ， Kate Saenko ， and Ming-Yu Liu. Coco-funit：使用内容条件化风格编码器的少量无监督图像翻译欧洲计算机视觉会议（ECCV）论文集，2020年。二个[32] AttilaSzabo´，QiyangHu，TizianoPortenier，MatthiasZwicker，and Paolo Favaro.解开变异的独立因素的挑战。ICLRW，2018年。二个[33] Wouter Van Gansbeke，Simon Vandenhende，StamatiosGeorgoulis，and Luc Van Gool.通过对比对象掩码建议进行无监督语义分割。 arXiv 预印本 arXiv ：2102.06191，2021。四个[34] SjoerdvanSteenkiste，FrancescoLocatello，JürgenSchmid-huber，and Olivier Bachem.解缠表征对抽象视觉推理有帮助吗神经信息处理系统进展，第14245-14258页，2019年1[35] Aron Yu和Kristen Grauman。细粒度视觉比较与本地学习。在Proceedings of the IEEE Conference on ComputerVision and Pattern Recognition，第192-199页六、十二[36] Xiaoming Yu，Yuanqi Chen，Shan Liu，Thomas Li，and Ge Li.通过学习解纠缠实现多映射图像到图像的翻译。神经信息处理系统进展，第2994-3004页，2019年。二个[37] Richard Zhang 、 Phillip Isola 、 Alexei A Efros 、 EliShecht-man和Oliver Wang。深度特征作为感知度量的不合理有效性。在IEEE计算机视觉和模式识别会议集，第586-595页，2018年。十一个[38] Jun-Yan Zhu ， Taesung Park ， Phillip Isola ， Alexei AEfros.使用循环一致对抗网络的不成对图像到图像翻译。在IEEE计算机视觉国际会议论文集，第2223- 2232页，2017年。二个[39] Jun-Yan Zhu，Zhoutong Zhang，Chengkai Zhang，JiajunWu ， Antonio Torralba ， Josh Tenenbaum ， and BillFreeman.可视对象网络：利用解纠缠的3d表示的图像生成。神经信息处理系统的进展，第118-129页，2018年。一个

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

图像解纠缠：提高图像翻译质量和多样性的单一框架

多视觉域图像合成方法-StarGAN v2：同时满足多样性和可扩展性的单一框架

请详细说明对图像进行质量评价的重要性

图像处理上：古代壁画和自然图像的不同

手写体数字图像数据增强技术

图像处理中自注意力机制和解纠缠机制分别对图像处理有什么帮助

MATLAB图像处理知识框架

图像翻译涉及内容有哪些

图像识别:利用tensorflow的深度学习框架,进行图像分类、目标检测或图像分割等任务

t1:图像增强处理:分别设计 2 套空间域与频率域结合的图像增强算法,处理以

图像数据预处理技术有哪些

常用的图像增强网络的详细介绍和功能

对图像进行质量评价的重要性体现在什么方面

用于图像分割的图像增强算法

比较深度自编码器( DAE )、生成对抗网络( GAN )、级联网络、多尺度网络和再模糊网络。这几种图像去模糊框架的各自优缺点

图像处理的基本概念和算法

resnet18图像质量评价框架图怎么画

有没有方法能提高透明组织显微图像质量

最新资源