没有合适的资源?快使用搜索试试~ 我知道了~
18332基于生成先验的无监督图像到图像转换帅杨黎明姜紫薇刘晨换来南洋理工大学S-Lab{shuai.yang,liming002,ziwei.liu,ccloy} @ ntu.edu.sg近域远域极远域男性→女性猫→人脸狗→鸟鸟→汽车女性→男性人脸→猫鸟→狗汽车→鸟图1.我们提出了一个通用的无监督图像翻译框架与生成先验,支持各种翻译从近域到远域与激烈的形状和外观差异。每个组显示(左)输入和(右)我们的结果。摘要无监督图像到图像翻译旨在学习两个视觉域之间的翻译,而无需配对数据。尽管最近在图像翻译模型方面取得了进展,但在具有剧烈视觉差异的复杂域之间建立映射仍然具有挑战性在这项工作中,我们提出了一个新的框架,生成先验引导的无监督图像到图像翻译(GP-UNIT),以提高整体质量和适用性翻译算法。我们的关键见解是从预先训练的类条件GAN中杠杆化生成先验(例如,BigGAN)来学习跨各个领域的丰富内容我们提出了一种新的粗到精的方案:我们首先提取生成之前捕获一个鲁棒的粗级别的内容表示,可以在抽象语义级别链接对象,基于此自适应学习精细级别的内容特征,以获得更准确的多级内容对应。大量的实验证明了我们的多功能框架在强大、高质量和多样化的翻译方面优于最先进的方法,即使是在具有挑战性和遥远的领域。代码可在https://github上获得。com/wilyang1991/GP-UNIT.1. 介绍无监督图像到图像翻译(UNIT)旨在将图像从一个域转换到另一个域,成对数据主流UNIT方法假设域之间的双向性,并利用循环一致性[43]来构建跨域映射。虽然在简单的情况下,如马斑马的翻译取得了良好的效果,这样的假设往往是过于限制在现实世界中更一般的异质和非对称域。现有的方法在跨域形状和外观差异较大的翻译中,如人脸到动物脸的翻译,其性能往往会大幅下降,限制了其实际应用。跨领域翻译具有较大差异,需要在更高的语义水平上建立翻译[40]。例如,要将人脸转换为猫脸,可以使用人和猫之间更可靠的面部组件(如眼睛)的对应关系,在远域的更极端的情况下,例如动物和人造物体,如果它们的对应关系可以在更高的抽象语义水平上确定,例如通过确认物体的正面取向或物体在图像中的布局,翻译仍然是可能的。在不同语义层次上建立翻译需要UNIT模型这一要求显然过于严格,因为训练具有这种能力的翻译模型需要复杂的地面实况对应,这些地面实况对应要么不存在,要么无法收集。18333z1z2z3域名#1域名#2域#3域名#4域名#5图2. BigGAN的生成空间[3]。从相同的潜在代码生成的不同类的对象具有高度的内容对应性。在这项工作中,我们克服了上述问题,通过一种新的使用生成先验,并取得了可喜的结果,如图所示。1.一、具体来说,我们证明了类条件GAN,如BigGAN[3],提供了关于不同对象如何链接的有力提示2)。通过生成这样的跨域图像对,我们可以挖掘类条件GAN的唯一先验,并使用它们来指导图像翻译模型在各种类之间建立有效和自适应的内容映射(我们将在下文中使用然而,这样的优先权并不能立即给UNIT带来好处。BigGAN本质上覆盖了大量的域,这使得它成为我们实现多个域之间转换的理想先验选择然而,许多域的覆盖不可避免地限制了每个域的捕获分布的质量和域内多样性。如果不认真对待,这种限制将严重影响联检组在产生高质量和多样化成果方面的业绩。为了克服上述问题,我们将翻译任务分解为粗到细的阶段:1)生成先验蒸馏,以在高语义级别上学习鲁棒的跨域对应关系,以及2)对抗性图像翻译,以在多个语义级别上构建更精细的适应性对应关系。在第一阶段,我们训练一个内容编码器,通过从BigGAN生成的内容相关数据中提取先验信息来提取解纠缠的内容表示。在第二阶段,我们将预训练的内容编码器应用于特定的翻译任务,独立于BigGAN的生成空间,并提出了一个动态跳过连接模块来学习适应性对应,从而产生合理和多样化的翻译结果。据我们所知,这是第一个采用Big-GAN生成先验进行无监督1图像到图像1根据Liuet al.[29]我们称之为非超-翻译.特别是,我们提出了一个通用的生成优先级引导的无监督图像到图像翻译框架(GP-UNIT),以扩展以前的UNIT方法,主要处理封闭域的应用场景。我们的框架在以下方面比以前的周期一致性指导框架有了积极的改进:1)捕获跨越各种异构和非对称域的粗级别对应关系,超出了周期一致性指导的能力;3)在从粗到细的阶段中保留基本的内容特征,避免了在循环重建中通常观察到的来自源域的伪像。总之,我们的贡献有三个方面:我们提出了一个通用的GP-UNIT框架,该框架通过BigGAN生成先验来提升UNIT的整体质量和适用性。我们提出了一种有效的方法,通过生成先验蒸馏在高语义水平上学习跨非平凡遥远域的鲁棒对应。我们设计了一个新的粗到精的计划,学习跨域的对应关系,在不同的语义水平自适应。2. 相关工作无监督的图像到图像翻译。为了在没有监督的情况下学习两个域之间的映射,Cy- cleGAN [43]提出了一种新的循环一致性约束,以建立域之间的双向关系。为了更好地捕获域不变特征,UNIT中广泛研究了表示解纠缠,其中内容编码器和样式编码器[6,7,17,18,29,30]通常分别用于提取域不变内容特征和域特定样式特征。然而,学习两个具有巨大差异的域之间的解纠缠表示是不平凡的。为了应对较大的视觉差异,COCO-FUNIT [37]设计了一个内容调节风格编码器,以防止翻译与任务无关的外观信息。TGaGa [40]使用地标来构建几何映射。TraVeLGAN [2]提出了一个连体网络来寻找跨域的共享语义特征,U-GAT-IT [25]利用注意力模块来关注区分两个域的重要区域。这些方法难以为特定领域寻求强大和平衡的领域相关表示,因此不太适应各种翻译任务,在某些情况下不可避免地失败。与这些方法不同的是,我们提出了一种新的由粗到细的方案--这是因为我们的方法和预训练的BigGAN仅使用单个域中的边缘分布,而没有任何显式的跨域对应监督。···18334内容BigGAN鸟→汽车通过GP-UNIT内容BigGAN狗→猫人脸由GP-UNIT(a) 多模式翻译(b)翻译到BigGAN之外的域(c)建立对应关系图3.BigGAN,StyleGAN和GP-UNIT生成空间的比较GP-UNIT实现了多模态翻译,生成ImageNet之外的猫和人脸,并在遥远的领域之间建立强大的映射StyleGAN图像来自[26,38]首先建立TIC级别,基于该TIC级别,逐渐学习适应于任务的精细级别对应这样的方案使我们能够构建健壮的映射来处理各种任务。对抗图像生成。生成对抗网络(GAN)[11]引入了一个与生成器竞争的竞争对手,以对抗性地近似真实的图像分布。在各种模型中,StyleGAN [23,24]已经显示出有希望的结果。许多作品[4,8,19,33,42]利用StyleGAN 的生成 先验,通过 将调制图像 限制在StyleGAN的生成空间内来确保然而,Style- GAN是一种 无 条 件 的 GAN , 仅 限 于 单 个 域 或 封 闭 域 [26] 。BigGAN [3]能够在不同的域中合成图像,但以牺牲质量和域内多样性为代价。因此,在完成上述工作之后,要先开发BigGAN并不是一件简单的事情.为了克服这一限制,本文从BigGAN生成的内容相关数据中提取生成先验,并将其应用于图像翻译任务,以生成高质量的图像。3. 生成前蒸馏3.1. 跨域对应先验我们的框架受到以下观察结果的激励[1,13] -图2示出了BigGAN的生成空间,其特征在于跨越五个域的三个潜在代码(z1,z2,z3)。对于每个潜在代码,可以在语义相关的狗和猫之间观察到细粒度的对应关系,例如面部特征和身体姿势。对于鸟类和车辆,这是相当不同的,人们也可以观察到粗略的水平对应关系的方向和布局。有趣的现象表明,无论BigGAN生成空间中的域差异如何,在高度抽象语义级别上的固有内容对应性。特别地,具有相同潜在代码的对象在前几层中共享相同或非常相似的抽象表示,基于该抽象表示,逐渐添加特定于域的细节。在本文中,我们利用这种生成先验来构建鲁棒映射,并选择BigGAN作为其丰富的跨域先验。然而,它的生成空间在质量和多样性方面对我们的目的是有限的。在质量方面,BigGAN有时会生成不真实的对象,例如图2中z为2的狗身体。对于多样性,首先,空间缺乏域内变化,在同一领域中,狗的纹理或鸟的颜色的多样性是相当有限的。在UNIT中使用这样的先验将使模型过拟合到有限的外观。其次,BigGAN生成空间仅限于ImageNet的1,000个域[36],这对于实际的UNIT来说是不够的例如,它只有四种家猫,如图。3(b)并排除了人脸的重要领域。StyleGAN不适合我们的任务,尽管它的生成空间是高质量和多样性的。这是因为它仅限于单个域,因此它主要适用于通过潜在编辑在一个域内进行属性转移[8,33,42]。最近,StyleGAN上的跨域翻译已经通过微调实现[26,34],但这仍然假设源域和目标域的模型之间的距离很小,因此仍然限于封闭域。这个假设使得StyleGAN prior不太适用于更复杂的翻译任务。我们的框架通过从BigGAN中提取一般的生成先验来解决上述问题,而不是直接约束潜空间或图像空间。它使我们能够独立地设计和训练翻译模块。因此,我们可以实现多模态翻译(图。3(a)),一般化到ImageNet之外的类(图3)。 3(b))和建立鲁棒映射之间的遥远的域(图。3(c))。接下来,单/闭域搜索潜在编辑finetune远域机组总成StyleGAN18335X格但斯克XEcEcGDEs���y���ℒrecyEcG连接动态跳过传奇AdaIN条件损失函数权重固定布埃XYLL LL∈ X ∈ Y拉法德夫(a) 阶段I:生成性预蒸馏(b)阶段II:对抗性无监督图像翻译图4.建议的GP-UNIT概述 在第一阶段中,我们使用内容编码器Ec从两个随机域中的公共随机潜码中提取BigGAN生成的一对相关图像(x,y)之间的共享粗糙级内容特征。 在第二阶段中,我们基于第一阶段中的内容编码器E c构建翻译网络。为了简单起见,我们省略了分类器C。我们详细介绍了如何提取先验知识。3.2. 使用内容编码器的给定由Big-GAN从两个随机域中的公共随机潜码生成的相关图像(x,y),我们的主要目标是训练内容编码器Ec以提取它们共享的粗级内容特征,该粗级内容特征可用于重建它们的形状和外观。图4(a)示出了用于生成先前蒸馏的该自动编码器流水线。具体地,我们使用解码器F基于外观x的内容特征Ec(x)、由风格编码器Es提取的风格特征Es(x)和域标签lx来恢复外观x。我们进一步利用F的浅层Fs来预测x的形状(即,,实例分割图xs,其由HTC [5]从x中提取)基于Ec(x)和lx。我们发现这种辅助预测简化了数百个领域的训练。除了形状和外观重构后,我们进一步通过三种方式对内容特征进行正则化,以实现解纠缠:1)x和y应该共享相同的内容特征; 2)我们引入具有梯度反转层R的分类器C [10]以使内容特征域不可知; 3)我们将Ec(x)限制在一个通道以消除域信息[39],并添加固定方差的高斯噪声以获得鲁棒性。我们的目标函数是:我想用y的内容特征来恢复x的形状,它模拟了平移:L dis=E ( x , y ) [<$Ec (x)−Ec(y)<$1+λs<$Fs(Ec(y),lx)−xs<$1].最后,reg引导C最大化分类准确性,并推动Ec混淆C,从而使内容特征与领域无关。L2范数进一步应用于内容功能:L reg= Ex[−l xlog C(R(E c(x)]+ λ rEx[<$E c(x)<$2]。对于arec,srec和reg的一元损失,我们还使用ImageNet[36]和CelebA-HQ [21]的真实图像进行训练,以使Ec更具泛化性。4. 对抗性图像翻译给定在第一阶段中预训练的固定内容编码器Ec,我们在第二阶段中按照标准风格传输范例构建我们的翻译网络由于预先训练的Ec为内容相似性提供了很好的度量,我们的框架不需要循环训练。如图在图4(b)中,我们的翻译网络接收内容输入x以及样式输入y. 网络提取了它们的内容特征Ec(x)和风格特征Es(y),分别。然后,生成器G调制Ec(x)通过AdaIN匹配y的样式[16],并最终生成min英、英、法、中拉雷克+Lsrec +L显示+L注册、(1)转换后的结果y=G(Ec(x),Es(y))。的真实感通过一项针对性的训练其中LC艾历S外观重建损失是指罪犯D,确保L2和感知损失[20]之间的x'=Ladv=Ey[logD(y)]+Ex,y[log g(1−D(y))]。(三)F(Ec(x),Es(x),lx)和x. 形状重建损失,Lsrec定义为Lsrec= λ sEx[<$F s(E c(x),l x)− xEcFsy=BigGAN(ly,z)从一个共享的潜在zx=BigGAN(lx,z)伊什特雷格 阿利迪斯 Lx阿利迪斯Xs英、中、法内容特征萨哈雷茨18336s<$1]。(二)此外,y需要适合y的风格,同时保留x的原始内容特征,其可以被公式化为风格损失Lsty和内容损失Lcon,二进制损失Ldis 通过成对输入,Lsty=Ex,y[fD(y)−fD(y)<$1],(4)在x和y的内容特征之间。另外我们Lcon=Ex,y[<$Ec(y<$)−Ec(x)<$1],(5)18337EELlGEG我的宝贝L↔↔↔GE◦ ↑ ↑ ◦↔L LL其中fD是定义为D的中间层特征的通道平均值的风格特征,遵循[16]中的风格定义。4.1.动态跳过连接语义上接近的域通常将解释不能仅由抽象内容特征表征的精细级内容对应为了解决这个问题,我们提出了一个动态跳过连接模块,它将中间层特征fE从Ec传递到G,并预测掩码m以选择有效元素来建立精细级别的内容对应。我们的动态跳跃连接受到GRU类选择性传输单元的启发[28]。设上标l表示G的层。层l处的掩码m_l由传递到同一层的编码器特征f_l和隐藏特征f_l确定。5. 实验结果数据集。在第一阶段,我们准备合成数据和真实数据。对于合成数据,我们使用官方BigGAN [3]生成相关图像,这些图像由291个域(包括动物和车辆)中的每个域的随机潜码在过滤掉低质量的图像后,我们最终获得了每个域的655张图像,这些图像在所有域之间都有链接,其中600张用于训练。我们将这个数据集命名为synImageNet-291。对于真实数据,我们将HTC [5]应用于ImageNet [36]来检测和裁剪对象区域。每个域使用600张图像进行训练。我们将这个数据集命名为ImageNet-291 。 此 外 , CelebA-HQ 的 29 K 面 部 图 像[21,31]也包括在训练中。在第二阶段,我们对四个翻译任务进行评价1)男性参与女性参与28K训练图像在最后一层的den状态hl-1具体来说,我们首先设置第一个隐藏状态h0=Ec(x),并使用上采样卷积来匹配hl−1与fl的维数,如下所示:CelebA-HQ [21,31]. 2)DogParticipCat on AFHQ [7],with每个域4K训练图像。3)人脸参与4K AFHQ图像和29 KCelebA-HQ图像。4)鸟类参与100-1l l−1狗或车:四类鸟,四类狗,H=σ(W hH),在哪里、和Wh分别是上采样算子、卷积算子和卷积活化层表示为σ。然后,我们在层l的模块更新隐藏状态hl和编码器特征fl,并将fl与生成器特征融合。使用ImageNet-291中的四类汽车。每四个类形成一个具有2.4K训练图像的域。在这里,我们使用Bird Car作为极端情况来测试GP-UNIT可以在多大程度上处理压力测试。E El与预测的掩码ml:l ll−1l lll−1l网络培训。我们设λ s= 5,λ r= 0。001,λ1=λ3=λ4=1,λ2=50。 对于猫→人脸,我们使用r=σ(Wr<$[h,fE]),m=σ(Wm<$[h,fE]),一个额外的身份损失[9],权重为1,以保持hl=rlhl−1,σ1=σ(W1◦ [h,fE]),参考面的标识[35]。动态跳过连接被应用于第二层(l=1)和第三层(l = 1)。fl=(1−ml)fl+mlfl,层(l=2)。 除男性参与者外,我们不其中[·,·]表示级联。ml具有相同的尺寸-使用动态跳过连接来计算Lrec(通过设置fl的大小,同时服务于通道注意力和空间注意力,ml的全零张量),这是在第二节讨论。五点三。第此外,我们应用L1范数到m l,使其稀疏,msk=Ex[ml1],(6)L从而仅选择来自源域的最有用的内容提示。完整的目标。综合上述损失,我们的全部目标如下:最小最大adv+λ1con+λ2sty+λ3msk+λ4rec. G,EsD添加重建损失rec以测量y和y<$=G(Ec(y),Es(y))之间的L 1和感知损失[ 20 ]。直观地说,我们希望图像的学习风格特征能够在其内容特征的帮助下精确地重建自己,从而稳定网络训练。风格采样。为了在没有风格图像的情况下直接对潜在风格特征进行采样以用于多模态生成,我们遵循[32]的后处理来训练映射网络,以使用最大似然准则[15]将单位高斯噪声映射到潜在风格分布。详情请参阅[15]5.1. 与最新技术定性比较。 我们在图中对六种最先进的方法进行了视觉比较。图5和图6。如图5、循环一致性引导的U-GAT-IT [25]、MU-NIT [17]和StarGAN 2 [7]依赖于输入图像的低级线索进行双向重建,这导致了一些不期望的伪影,例如对应于狗耳朵的扭曲猫脸区域,以及生成的鸟图像中的重影狗腿。同时,TraveL-GAN [2]和COCO-FUNIT [37]未能为人脸猫和鸟车建立适当的内容对应。通过比较,我们的方法在男女任务上与上述方法相当,并且在其他具有挑战性的任务上表现出一致的优越性图6,我们将我们的模型与TGaGa [40]进行了比较,TGaGa也处理了样本引导的平移上的大几何变形。TGaGa产生模糊的结果,并且不能精确地匹配示例应用,例如。,所有生成的脸看起来都一样,除了颜色的变化。GP-UNIT在生动的细节和风格的一致性方面都超过了TGaGa。FF18338→任务男性参与者狗参与猫人脸参与BirdParticipDogBirdParticipCar平均输入总成-单元TraveLGANU-GAT-ITMUNITCOCO-FUNIT StarGAN 2输入总成-单元TraveLGANU-GAT-ITMUNITCOCO-FUNITStarGAN 2图5.与TraVeLGAN [2]、U-GAT-IT [25]、MUNIT [17]、COCO-FUNIT [37]和StarGAN 2 [7]进行视觉比较。GP-UNIT在所有任务上始终表现出色,并随着任务变得更具挑战性(从上到下)而表现出更大的优越性表1.定量比较。我们使用FID和多样性与LPIPS来评估生成的图像的质量和多样性度量FID多样性FID多样性FID多样性FID多样性FID多样性FID多样性TraveLGANU-GAT-IT66.6029.47−−58.9138.31−−85.28110.57−−169.98178.23−−164.28194.05−−109.01110.12−−MUNIT22.640.3780.930.4756.890.53217.680.57121.020.6099.830.51可可粉39.190.3597.080.08236.900.3330.270.51207.920.12122.270.28StarGAN214.610.4522.080.4511.350.5120.540.5229.280.5819.570.50机组总成14.630.3715.290.5113.040.4911.290.6013.930.6113.640.52表2.根据内容一致性和总体偏好的用户偏好评分。最佳分数以粗体标记。度量内容一致性总体偏好TraveLGAN0.0120.006U-GAT-IT0.0760.050MUNIT0.0450.033可可粉0.0650.044StarGAN20.1990.171机组总成0.6030.696图6.将范例引导翻译与TGaGa2进行比较。GP-UNIT在生动的细节和风格的一致性方面超越了TGaGa定量比较。我们遵循[7,40],在质量和多样性方面进行定量比较。FID [14]和LPIPS [41]分别用于根据实际数据和输出多样性评估生成结果对于支持多模态转换的方法(MUNIT,COCO-FUNIT,StarGAN 2,GP-UNIT),我们每个测试生成10个成对的翻译结果2在本次提交时,TGaGa的代码和训练数据尚未发布。我们直接使用TGaGa作者提供的测试和结果图像由于GP-UNIT和TGaGa的训练数据不匹配,因此此比较仅供视觉参考。从随机采样的潜在代码或示例图像中提取图像,在所有测试图像上平均的定量结果报告在表1中,其与图1一致。5,即,我们的方法与所比较的方法相当或优于所比较的方法,并且在困难的任务上优势变得更加明显,获得了最佳的总体FID和多样性。我们发现GP-UNIT倾向于保留输入图像的背景。此属性不利于多样性,但在某些应用中可能有用。虽然StarGAN 2在CatHuman Face上生成真实的人类面部(最佳FID),但它忽略了与输入猫面部的姿势对应关系(比GP-UNIT的内容一致性更低),如图所示。五、我们进一步进行了用户研究,以评估输入-输出内容的一致性和整体翻译性能。共有25名受试者参加了这项研究,以选择他们认为是最好的结果,从六内容风格TGaGa机组总成18339LLLLL内容样式,不含之前的全模型内容样式,不含DSC全模型ml#135ml#301(a)生成先验的影响(b)动态跳过连接的影响图7.生成先验和动态跳跃连接的消融研究。输入放大区域ml=0,m2=0m2=0全模型Ec(x)ml#305m2#169输入ml=0,m2=0m2=0全模型没有激活量较大的通道Ec(x)ml#85m2(a)猫和老虎之间的多层次对应(b)人和狗图8.我们的框架学习多层次的内容对应关系,这些内容对应关系是鲁棒的,并且可以适应不同的翻译任务。方法,共统计了50组结果的2,500个选项表2总结了平均偏好得分,其中所提出的方法在内容一致性和整体性能方面都获得了显著的5.2. 消融研究先生成蒸馏。如图7(a),如果我们从头开始训练我们的内容编码器,内容输入w/orecw/o regw/o residence完整模型在第二阶段的子网络,像大多数图像transla-内容输入样式输入w/o无糖无糖完整模型由于该框架的缺点,该变体未能保留诸如眼睛位置的内容特征。相比之下,我们预先训练的内容编码器成功地利用了生成优先级来构建有效的内容映射。它还表明了粗层次内容特征的必要性,只有在此基础上才能学习有效的细层次特征。因此,生成先验是我们的内容对应学习的粗到细方案成功的关键。动态跳过连接。 如图7(b),没有动态跳跃连接(DSC),模型不能保持鼻子和眼睛的相对位置,因为在内容图像。我们表明,我们的完整模型预测的掩模m1的第135和第301个通道有效地定位了这些特征,以实现准确的内容对应。多层次跨域通信。 图8分析了学习到的多级对应关系。最抽象的c(x)只给出布局提示。如果我们只使用Ec(x)(通过将掩码m1和m2都设置为全零张量),则生成的老虎和狗的脸没有细节。同时,m1在305个通道中关注猫脸的鼻子和眼睛,在85个通道中关注人脸的眼睛,这足以生成真实感。图9.损失条款的影响。用Ec(x)计算tic结果。最后,m2会注意细微的细节,比如第169通道中的猫须。因此,我们的完整多级内容功能使我们能够在输入中模拟极精细的长胡须。如所预期的,在更远的人和狗的面部之间没有发现这种精细级别的对应,从而防止了来自源域的不希望的外观影响(例如,衣服在图中生成的猫脸。(五)。请注意,这种合理的和可适应的语义注意力仅仅是通过生成前学习的,没有任何显式的对应监督。损失函数。图9研究了损失项的影响。在第一阶段,srec是学习正确内容特征的关键,否则无法建立对应关系。reg使内容特征更加稀疏,以提高对唯一重要的域特定细节的鲁棒性。dis查找域共享特性,以防止输出受到来自源域的对象(如狗尾巴)的影响在第二阶段,con有助于加强姿态对应,而sty使输出更好地匹配样本图像的风格。18340LLLL(a) 性别(b)性别+颜色+头发(c)姿势图12.灵活的多级属性传递。输入随机抽样结果输入随机抽样结果图10.适用于BigGAN以外的域:(上)长颈鹿参与鸟,(中)夏季参与冬季,(下)脸→艺术。输入结果输入结果内容风格结果合成视图输入(红色)合成视图图13.失败案例是由于(左)缺乏语义监督,(中)训练数据不平衡,以及(右)内容和风格对象的规模不匹配。因为它们都是物体较薄的部分,所以它们被安装在汽车的前部。 其次,我们的方法无法生成与狗头部方向相同的鸟,因为缺乏鸟直视相机的训练图像。因此,在将此方法应用于可能的数据图11.看不见的视图合成。5.3. 更多结果推广到BigGAN之外的领域。图10显示了物种翻译、季节转移和面部风格化的三种应用。即使MS-COCO长颈鹿[27],Yosemite风景[17]和艺术肖像[22]不在ImageNet 1,000类中,并且在第一阶段中没有被内容编码器观察到,我们的方法也可以很好地支持这些领域并生成逼真的结果。看不见的视图合成。我们的范例指导框架允许看不见的视图合成。图11显示了我们根据头部姿势图像数据库[12]中的参考面部在各种摇摄角度下的合成大小的真实人类和猫面部。为了传输身份并防止低级别的内容通信,我们添加了身份丢失[9],并且不使用DSC进行记录。我们进一步表明,使用DSC的rec可以灵活地控制面部属性转移图。12个。 使用DSC进行rec有助于保留内容面的身份,这适用于性别和颜色转移。同时,在不使用DSC的情况下,使用身份丢失进行识别,可以传递除姿态之外的风格人脸的大多数属性,适合于姿态传递。5.4. 限制图13给出了我们的方法的三个典型失败案例首先,很难仅仅从物体的外观来学习某些语义对应关系,例如汽车的哪一侧是它的前部。我们观察到鸟的尾巴经常是反的-不平衡问题可能导致偏向数据集中少数群体的结果最后,当内容和样式图像中的对象具有非常不同的比例时,一些外观特征不能被正确地呈现。6. 结论与讨论在本文中,我们探索使用GAN生成之前构建一个通用的UNIT框架。我们表明,提出的两阶段框架是能够表征内容对应关系在一个高的语义水平,具有挑战性的多模态之间的翻译遥远的域。一个优点是这样的内容对应关系可以仅用域监督(即,只知道每个图像所属的域)。我们还发现在SEC。5.2精细级别的对应关系仅仅通过生成任务来学习。这可能表明深度神经网络的一个有趣行为,即以从粗到细的方式自动查找和整合跨域的共享外观特征,以重建各种对象。 它提供了一代人学习的潜力:通过生成和转换对象关系来建立对象关系。另一个有趣的主题是学习对象外观的语义对应关系,例如第二节中讨论的对象的正面。5.4一个可能的方向是半监督学习,其中少量的数据可以被标记以指定语义对应。致谢。本研究得到了RIE 2020行业联盟基金-行业合作项目(IAF-ICP)资助计划的支持当计算具有身份丢失的重复内容风格18341引用[1] 扎伊德·阿利亚菲Bigganex:潜入biggan的潜在空间。梯度,2018年。https: //thegradient.pub/bigganex-a-dive-into-the-latent-space-of-biggan/. 3[2] Matthew Amodio和Smita Krishnaswamy Travelgan:通过变换向量学习实现图像到图像的翻译。在Proc. IEEEInt'l Conf.计算机视觉和模式识别,第8983-8992页,2019年。二、五、六[3] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练在Proc. Int'l Conf.学习代表,2019。二三五[4] Kelvin CK Chan,Xintao Wang ,Xiangyu Xu,JinweiGu,and Chen Change Loy. Glean:用于大因子图像超分辨率的生成潜在库。在Proc. IEEE Int'l Conf.计算机视觉与模式识别,2021。3[5] Kai Chen,Jiangmiao Pang,Jiaqi Wang,Yu XiaoLi,Shuyang Sun,Wansen Feng,Ziwei Liu,Jianping Shi,Wanli Ouyang,et al.实例分段的混合任务级联。在Proc.IEEE Int'l Conf.计算机视觉和模式识别,第4974-4983页,2019年。四、五[6] Yunjey Choi,Minje Choi,Munyoung Kim,Jung WooHa,Sunghun Kim,and Jaegul Choo. Stargan:用于多域图像到图像翻译的统一生成对抗网络。在Proc. IEEEInt'l Conf.计算机视觉与模式识别,2018。2[7] Yunjey Choi,Youngjung Uh,Jaejun Yoo,Jung-WooHa.Stargan v2:多领域的多样化图像合成 在Proc. IEEEInt'l Conf.计算机视觉和模式识别,第8188-8197页,2020年。二、五、六[8] Edo Collins , Raja Bala , Bob Price , and SabineSusstrunk.编辑风格:揭示gans的局部语义。在Proc.IEEE Int'l Conf.计算机视觉和模式识别,第5771-5780页,2020年。3[9] 邓健康,贾国,薛念南,Stefanos Zafeiriou。Arcface:用于深度人脸识别的附加角度余量损失。在Proc. IEEEInt'l Conf.计算机视觉和模式识别,第4690-4699页,2019年。五、八[10] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督主适应。在Proc. IEEE Int'l Conf.机器学习,第1180-1189页。PMLR,2015. 4[11] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。神经信息处理系统进展,第2672-2680页,2014年。3[12] 尼古拉斯·甘尼斯,丹妮拉·霍尔,詹姆斯·克劳利。从显著面部特征的鲁棒检测中估计面部方向在ICPR的指示手势的视觉观察国际研讨会。Citeseer,2004. 8[13] 埃里克·哈克·奥嫩,亚伦·赫茨曼,雅克·科·莱赫蒂宁,还有西尔万·帕里斯.Ganspace:Discovering interpretablegan control.在神经信息处理系统的进展,2020年。3[14] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。Gans由a训练两个时间尺度更新规则收敛到局部Nash平衡。神经信息处理系统进展,第6629-6640页,2017年。6[15] Yedid Hoshen,Ke Li,and Jitendra Malik.具有生成潜在最近邻的非对抗性图像合成。在Proc. IEEE Int'l Conf.计算机视觉和模式识别,第5811-5819页,2019年。5[16] Xun Huang和Serge Belongie。实时任意样式传输,具有自适应实例规范化。 在proc 国际计算机视觉会议,第1510-1519页,2017年。四、五[17] Xun Huang , Ming-Yu Liu , Serge Belongie , and JanKautz.多模态无监督图像到图像翻译。在Proc. EuropeanConf.计算机视觉,第172-189页。Springer,2018. 二五六八[18] 姜黎明,张昌旭,黄明阳,刘春巧,石建平,陈昌来.Tsit:一个简单而通用的图像到图像翻译框架。在Proc.European Conf.计算机视觉,第206-222页。Springer,2020年。2[19] Yuming Jiang,Ziqi Huang,Xingang Pan,Chen ChangeLoy,and Ziwei Liu.对话编辑:通过对话框进行精细的面部编辑。在Proc. Int'l Conf.计算机视觉,第13799-13808页,2021年。3[20] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。在Proc. European Conf.计算机视觉,第694-711页。施普林格,2016年。四、五[21] Tero Karras , Timo Aila , Samuli Laine , and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。程序国际会议学习代表,2018。四、五[22] Tero Karras , Miika Aittala , Janne Hellsten , SamuliLaine,Jaakko Lehtinen,and Timo Aila.用有限的数据训练生成式对抗网络。在神经信息处理系统的进展,2020年。8[23] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构,用于生成对抗网络。 在Proc. IEEE Int'l Conf.计算机视觉和模式识别,第4401-4410页,2019年。3[24] Tero Karras , Samuli Laine , Miika Aittala , JanneHellsten,Jaakko Lehtinen,and Timo Aila.分析和改善stylegan的图像质量 在proc IEEE计算机视觉和模式识别,第8110-8119页,2020年。3[25] Junho Kim、Minjae Kim、Hyeonwoo Kang和Kwang HeeLee。U-gat-it:无监督生成注意力网络,具有自适应层实例归一化,用于图像到图像的翻译。 在proc 学习代表,2019年。二、五、六[26] Sam Kwong,Jialu Huang,and Jing Liao.通过预先训练的stylegan2网络进行无监督的图像到图像翻译。IEEETransactions on Multimedia,2021。3[27] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。在Proc. European Conf.计算机视觉,第740-755页。Springer,2014. 818342[28] Ming Liu ,Yukang Ding ,Min Xia, Xiao Liu ,ErruiDing,Wangmeng Zuo,and Shilei Wen. Stgan:一个统一的选择性传输网络,用于任意图像属性编辑。 在Proc. IEEE Int'l Conf.计算机视觉和模式识别,第3673-3682页,2019年。5[29] Ming Yu Liu,Thomas Breuel,and Jan Kautz. 无监督图像到图像翻译网络。神经信息处理系统进展,第700-708页,2017年2[30] Ming-Yu Liu,Xun Huang,Arun Mallya,Tero Karras,Timo Aila,Jaakko Lehtinen,and Jan Kautz.很少拍摄的无监督图像到图像的转换。在Proc. Int'l Conf.计算机视觉
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功