没有合适的资源?快使用搜索试试~ 我知道了~
10663条件编码器图像编码器对应锚点正负用于引导图像生成的边缘对比对应方能展1于颖晨2吴荣良2张家辉2石建路*2长工张31南洋理工大学S-Lab2南洋理工大学3亚马逊摘要基于范例的图像翻译在条件输入和范例(来自两个不同领域)之间通过最小化跨两个域的特征距离,Ex-Pickup构建跨域对应关系在没有明确利用域不变特征的情况下,这种方法可能无法有效地减少域间隙,这通常会导致次优的对应和图像平移。我们设计了一个边际对比学习网络(MCL-Net),探索对比,条件输入示例图像共享地面实况图像编码器用于学习领域不变特征以用于基于真实范例的图像翻译的传统学习。具体来说,我们设计了一个创新的边际对比损失,指导建立密集的对应关系明确。然而,单独建立与域不变语义的对应关系可能会损害纹理模式,并导致纹理生成退化。因此,我们设计了一个自相关映射(SCM),将场景结构作为辅助信息,这大大提高了建立的对应关系。对多个图像翻译任务的定量和定性实验表明,该方法的性能始终优于现有技术。1. 介绍图像到图像转换是指以来自其他领域的某些输入为条件的图像生成[25,29,32],近年来随着生成对抗网络(GANs)的出现,它已经取得了令人印象深刻的进展[5作为一个典型的不适定问题,在图像翻译任务中自然允许不同的解决方案,因为一个条件输入可以对应多个图像实例。对生成方式的忠实控制不仅使得能够在给定的条件下进行多样化的生成,而且还使得用户能够灵活地控制期望的生成。然而,产生具有可控风格的高保真图像仍然是一个巨大的挑战。*通讯作者对比学习图1.学习域不变特征以建立跨域对应:我们利用条件输入和地面实况之间的对比学习,将相同位置的特征拉得更近,同时将不同位置的特征推开。通过学习条件编码器和图像编码器,可以在条件输入和示例图像之间建立显式特征对应。为了解决样式控制挑战,一种主要方法采用变分自动编码器(VAE)将图像样式正则化为SPADE [25]中的高斯分布,但由于VAE的后验崩溃现象[18],这种方法通常会受到生成质量的影响。另一个方向是利用从范例中提取的风格来指导生成。例如,Zhu等人。[47]建议使用专用样式代码来实现每个语义区域的样式控制然而,潜在代码通常是通过样式编码器提取的,样式编码器通常只反映全局样式,并且难以捕获详细结构。近年来,密集对应在基于范例的图像翻译中得到了积极的探索,并成为实现忠实风格控制的一种有具体而言,Zhanget al. [40]提出在条件输入和给定的范例之间建立密集的语义对应,从而在翻译中提供密集的风格指导。Zheng等人 [43]和CoCosNet v2 [45]可以建立10664通过Patch- Match在高分辨率特征中实现密集对应,以进一步增强对详细样式的保留Zhan等人 [34]介绍了一个通用的图像翻译框架,它包含了条件输入和风格样本之间特征对齐的最佳传输。作为一个跨领域的匹配问题,如何有效地学习领域不变特征,以利于正确的匹配,是建立领域对应关系的关键。然而,上述方法通过最小化条件和真实图像的特征之间的伪对损失和L1损失来隐式地对准域间隙以用于对应性建立,这没有显式地对域不变特征进行建模并且可能导致次优特征对应性。在本文中,我们提出了用于基于范例的图像翻译的M边缘C对比学习网络(MCL-Net),该网络引入对比学习[2,6,31]来有效地提取域不变特征,以建立跨域对应关系,如图所示。1.一、 特别是,对比学习应用于条件输入的特征及其提取的基础事实通过单独的编码器。每个输入的特征向量被视为一个锚点,而在相同的空间位置的特征向量被视为正样本和剩余的特征向量作为负样本。通过最大化条件特征和图像特征之间的互信息,对比学习可以显式地产生域不变特征。此外,提出了一种边缘对比损失(MCL)来增强域不变特征的可区分性,这可以有效地抑制过度平滑或不准确的对应。MCL中的偏差角用作对用于保证金的正锚的惩罚。另一方面,大多数先前的方法依赖于对应的局部特征来建立对应,而不知道场景结构。这意味着在建立对应关系时,场景结构可能会受到破坏因此,应利用场景结构(如物体形状)促进对应关系的建立,特别是精细纹理图案的保存。受自我注意映射即使在外观变化的情况下也可以对完整的图像结构进行编码的观察的启发[42],我们设计了一种自相关映射(SCM)机制来显式表示与特征相关的场景结构,并有效地促进对应关系的建立。本文的贡献可以概括为三个方面。首先,我们将对比学习引入到基于范例的图像翻译框架中,以显式地学习用于建立对应的领域不变特征。其次,我们提出了一种新的边缘对比损失,以提高在代表性的特征区分度,这大大有利于建立明确和准确的对应关系。第三,我们设计了一个自相关图来正确地表示场景结构,并有效地促进纹理模式的保存,同时建立对应关系。2. 相关工作2.1. Image-to-Image Translation由于其优越的生成能力,基于GAN的图像到图像翻译已经得到了广泛的研究,并在翻译语义分割等不同条件方面取得了显着进展[10,25,32,37,39]、关键点[20,22,36,38]和边缘图[15,35,46]。作为一个不适定问题,图像翻译允许生成各种内容或风格,只要它们符合输入条件。然而,生成图像的风格通常由大规模数据集的学习先验决定。为了灵活地操纵样式以生成多样化而又逼真的图像,最优样式控制近来引起了越来越多的关注例如,Huang et al.[9]马云等。 [19]从样本图像中提取并利用样式代码,通过自适应实例规范化(AdaIN)指导生成过程[8]。Park等人。 [25]提供了一种解决方案,该解决方案将变分自动编码器(VAE)[13]用于编码图像翻译的样本在Choi等人 [3]中引入了风格编码器,以确保样本和翻译图像之间的风格一致性。为了具体控制每个语义区域中的风格,[47]提出了语义区域自适应归一化(SEAN)。Zhang等人 [40]提出了一个框架,通过学习条件输入和范例之间的密集对应来实现更精细的风格控制,而不是利用潜在代码进行全局风格控制。最重要的是,Zhang等人。 [45]引入PatchMatch以促进在更高分辨率上学习密集对应,这进一步保留了样本中更好的细节或风格。然而,大多数现有的基于范例的图像翻译方法通过直接应用特征wised L1损失来对齐域间隙来隐式地学习这种策略可能会导致次优的对应关系,因为域不变的功能没有显式地探索。我们建议利用对比学习来显式地学习域不变特征,并通过一种新的边缘对比损失来提高特征建立更明确和准确的对应关系。2.2. 对比学习最近,对比学习在各种计算机视觉任务中显示出其有效性,特别是在非监督表示学习中[2,6,23,26,31]。其主要思想是通过将正样本拉近锚点并将负样本推远来学习表示。Dif-10665条件编码器···−······条件输入SCM边际对比损失SCM地面实况ExX聚类Y翘曲SCMEz一代网络示例图像Z翘曲示例对应最终结果图2. 我们提出的条件图像翻译网络的框架:条件输入和地面真值被馈送到特征编码器EX和EZ以提取特征向量X和Y。然后,所提出的自相关映射(SCM)对结构信息进行编码以建立对应关系,其中所提出的边际对比损失驱动编码器学习域不变特征。 利用共享特征编码器EZ,可以从样本图像中提取域不变特征,并且可以建立条件输入与样本之间的特征对应。然后可以将样本图像扭曲以与条件输入对齐,这为生成网络提供了准确的风格指导。不同的抽样策略和对比损失在各种下游会谈中得到了广泛的探讨。例如,Chen等人 [2]和He等人 [6]通过增加原始数据获得了正样本。Tian等人。 [31]将同一样本的多个视图视为正对。在InfoNCE [23]的基础上,Park等人。 [24]引入了Patch- NCE,以在未配对的图像到图像翻译中采用对比学习,将图像补丁视为样本。在这项工作中,我们设计了一种新的基于InfoNCE的边缘对比损失,它可以有效地增强学习的域不变特征的可区分性,以帮助建立明确和准确的对应关系。3. 该方法我们的MCL-Net由一个对应网络和一个生成网络组成,如图所示。二、该对应网络采用边缘对比学习方法提取域不变特征以建立对应关系,进而利用域不变特征对样本进行变形在变形样本和条件输入的指导下,生成网络产生最终的翻译结果。更多细节将在以下小节中描述。3.1. 通信网络对应网络采用两个编码器EX和EZ来分别编码条件输入和示例图像地面真值的特征。与编码特征X=[x1,x2,,cN]和Z=[z1,z2,,zN]的条件输入和样本图像,它们之间的对应关系可以通过计算特征方面的余弦相似性来建立。为了有效地建立跨域图像之间的特征对应关系,期望编码器提取域不变特征以前的方法[40,45]主要采用条件输入和样本之间的伪对损失和L1损失来驱动特征编码器的学习。然而,伪对损失并没有明确地鼓励域不变特征的学习,而L1损失只是最小化相同空间位置中的特征之间的距离,而忽略不同空间位置中的特征之间的距离。因此,我们引入对比学习来学习域不变的特征,明确建立对应关系。3.2. 对比对应对比学习通过拉近正样本和推开负样本,为非监督表征学习提供了一个强大的工具。 为了构建用于对比学习的正对和负对,我们将地面实况图像馈送到编码器EZ中以获得编码特征Y=[y1,y2,yN]。在来自条件输入的特征xi作为锚的情况下,来自地面实况的对应特征yi用作正样本,并且来自地面实况的剩余N1个特征用作负样本。我们将向量归一化到一个单位球面上,以防止空间塌缩或膨胀。然后Ez……图像编码器图像编码器10666·······)+Ni=1log[exp(cos(θii+m))+πNexp(cosθ)]XYexp(scosθNj=1 exp(scosθ)i=1τj=1τexp(scos(θ+m))+Nexp(scosθ)Nj=1IJ条件输入示例变形(CoCosNet)结果变形(CoCosNet)变形(MCL)变形(MCL+SCM)结果(MCL+SCM)图3.不同方法的变形样本和翻译结果的比较:Warping和Result表示变形样本和最终翻译结果。MCL和SCM分别表示我们提出的边缘对比学习和自相关映射θiim边缘对比学习算法1所提出的边缘对比损失(MCL)。输入:条件输入特征X,地面实况特征Y。1. [x1,x2,,xN]= L2范数(X)2. [y1,y2,,yN]= L2范数(Y)3. cosθii=xizi4. θii=arccos(cosθii)5. 加总:cos(θii+m)6. 边际对比损失(MCL):Nexp(cos(θii+m))图4. 学习的特征表示的玩具插图,香草对比学习和我们提出的边缘对比学习J I输出:MCL。学习点表示图像特征,角θii和m表示学习特征聚类的紧凑性和角标记,杜松子酒的处罚放大查看详细信息。噪声对比估计[23]框架用于在条件输入事实真相如下:特别地,由于用于建立对应的特征被归一化,因此等式(1)中的损失项Lxy被归一化(1)可以改写为:L=−Elogexp(scosθii)i=1IIIJJ INxi·y iL=−EXP(τ)(一)因此,嵌入的特征分布在每个xyexp(xi·yi)+Nexp(xi·yj)J 我特征中心位于半径为s的超球面上。到同时增强类内紧凑性,其中,τ表示温度参数“.表示向量的点积然后,双向对比损失Lcl可以由下式表示:Lcl=Lxy+ Lyx。边际对比学习对比学习-ing允许对域不变特征进行编码,而为了减少类间差异,我们向正样本添加一个附加的角边缘罚分m(默认情况下m=0.4),以形成如下的边缘对比损失(MCL):-对数对数exp(scos(θii+m))i=1IIj=1IJJ I在两组有限元分析之间建立精确的对应关系,特征需要特征之间的高辨别力原始的对比学习倾向于在1中给出的不同特征聚类之间产生平滑的转换,这可能导致平滑和不准确的对应。受ArcFace [4]中的附加角边缘损失的启发,我们提出了一种边缘对比损失来扩大超球面上特征的可分离性,这产生了更明确和准确的对应关系,如图所示。3 .第三章。−10667所提出的MCL在归一化超球面中施加角裕度惩罚,这有效地扩大了特征可分性,如图所示。4.第一章3.3. 自相关映射以前的作品[40,45]在不知道场景结构的情况下,依赖于相应的局部特征来然而,纯粹10668···L×L示例性A中的自我注意B中的自我注意风格忠实于范例,语义忠实于语义到条件输入。特别地,通过空间自适应去归一化,将扭曲的样本与要注入生成网络的条件输入连接在一起[25]。生成网络的详细架构与SPADE [25]一致。有关网络结构的更多详细信息,请参阅补充材料。图5.示例图像的两个不同空间位置处的学习自相关图的图示。依赖于局部特征可能会损害图像的纹理图案,从而导致生成性能下降。直觉上,除了局部特征之外,场景结构(例如,对象形状)可以用作辅助信息以保存纹理图案并促进建立对应。因此,我们在通信网络中引入了一个Self-C相关映射(SCM),以利用场景结构来建立通信。由于同一类别内的所有区域都表现出某种形式的自相关性,因此特征的自相关图有效地编码了完整的对象形状信息,如图所五、通过估计每个空间位置的这些同现特征,可以显式地表示所有位置的场景结构。因此,给定编码特征X=[x1,x2,…,xN],特征的自相关映射(SCM)可以表示为:SCM i=(xi)T·X,i =0,1,···,N.(二)图5示出了自相关图的样本。如图所示,自相关图准确地编码对应位置中的场景结构,例如,3.5.损失函数通过对对应网络和生成网络进行联合优化,学习跨域对应关系,实现高保真图像生成。 条件输入、地面真值、样本分别由X、Y和Z表示。对应网络中的条件编码器和图像编码器用EX和EZ表示,生成器和编码器用G和D表示。对应网络除了提出的边际对比损失mcl之外,还设计了其他几种损失来促进跨域对应的学习。 如由对比学习驱动的,两个特征编码器EX和EZ旨在提取域不变特征(即,如果条件输入X的Lfcst= ||EX(X)− EZ(Y)||1 .一、(三)为了在变形过程中保留图像信息,原始样本应该通过逆变形从变形样本中恢复。因此,循环一致性损失可以用公式表示如下:建筑和天空与原始特征不同,L周期为||T·T·Z− Z||1(四)属性,如风格和纹理,自相关图只捕捉空间相关性。为了利用SCM来建立对应关系,SCM(默认为64 64)被展平为列向量(例如,4096),之后是全连接层,以将向量维度降至256。然后将256维的特征向量与对应空间位置的编码特征连接,计算余弦相似度以建立对应关系。由于提出的边缘对比学习用于学习域不变特征以建立对应,因此自相关映射的学习也由设计的对比损失驱动。3.4.一代网络生成网络利用变形样本提供风格指导,条件输入提供语义指导,旨在生成高保真图像其中T是对应矩阵。虽然很难收集变形样本的地面真实值,但可以通过将增强的真实图像Y'视为样本来获得伪样本对[40]。因 此, 我们可以如下惩罚变形样本与增强真实图像Y’之间的差异:L= ||T·Z− Y ′||1(5)为了实现高保真的图像翻译,在生成网络中采用了多个损失来协同工作。生成的图像G(X,Z)在语义方面应该与地面真值Y一致,因此采用感知损失perc[11]来最小化它们的语义差异,如下所示:Lperc= ||l(G(X,Z))− ||1(6)B一10669ΣL···D方法DeepFashion [16个]CelebA-HQ [17个]FID↓社署↓LPIPS↑FID↓社署↓LPIPS↑FID↓社署↓LPIPS ↑[32]第三十二话81.8035.70N/A25.2016.40N/A42.7033.30N/ASPADE[25]33.9019.700.34436.2027.800.23131.5026.900.187选择GAN[30]35.1021.820.38238.3128.210.22334.6727.340.191[第48话]42.1722.670.41622.2323.730.24023.7122.230.201[47]第四十七话24.8410.420.49916.2817.520.25118.8819.940.203UNITE[34]25.1510.130.57113.0816.650.27813.1514.910.213[40]第四十话26.4010.500.56014.4017.200.27214.3015.300.208[45]第四十五话25.219.9400.56412.8116.530.28312.8514.620.218MCL-Net24.759.8520.56912.8916.240.28612.5214.210.216表1.将MCL-Net与最先进的图像翻译方法进行比较:在三个公共数据集上进行了比较,其中包括三个广泛使用的评估指标FID,SWD和LPIPS。方法风格相关性语义一致性颜色纹理SPADE[25]0.8740.8920.856[第48话]0.8870.9070.858[47]第四十七话0.9320.9260.860UNITE[34]0.9630.9450.869[40]第四十话0.9620.9410.862[45]第四十五话0.9700.9480.877MCL-Net0.9660.9510.881表2.在ADE 20K上定量评估风格相关性(颜色和其中,VGG 1表示预训练的VGG-19 [27]模型的1层另一方面,生成的图像G(X,Z)应该在风格方面与样本一致。因此,[21]中描述的上下文损失公式如下:Lcxt=−log(µiCXij(l(Z),l(Y)(7)L其中µm平衡了不同VGG层的项。为了生成细粒度的图像细节,对抗损失adv被引入了一个candidD。因此,该模型的总体目标函数为:ADE20k [44]由20,210个与150类分割掩码相关的训练图像组成。图像翻译是在语义分割的情况下进行的,作为对该数据集的输入。CelebA-HQ [17]收集了30,000张高质量的人脸图像。实验是以人脸边缘图作为条件输入进行的。利用Canny边缘检测器将连通的人脸特征点提取为人脸边缘.DeepFashion [16]包含52,712名时尚界的高素质人士。实验以人体关键点作为条件输入。OpenPose [1]用于检索人体姿势关键点。实施详情。对应网络和生成网络联合优化,生成器和控制器的学习速率分别为1e -4和4e -4亚当解算器,β1= 0,β2= 0。999进行优化。所有实验都在4个32GB Tesla V100 GPU上进行建筑物对应的分辨率为64×64。对于所有翻译任务,生成的图像分辨率为256×2564.2.定量评价评 估 指 标 。 为 了 评 估 翻 译 结 果 , Frechensi vely,Fre'chetInceptionScoree ( FID ) [7] 和Sliced Wasserstein距离(SWD)[12]来评估改进。年龄知觉质量;学习知觉图像块= minEX,EZ,Gmax(λ1Lcyc+λ2Lfcst+λ3Lmcl(八)相似性(LPIPS)[41]用于评估差异。λ4Lperc+λ5Lcxt+λ6Lcxt+λ7Ladv)其中λ是加权参数。损失项的详细烧蚀研究可参见补充材料。4. 实验4.1. 实验设置数据集。我们在三个不同的任务中进行基于范例的图像翻译。翻译图像的多样性。此外,还采用L1距离、峰值信噪比(PSNR)和结构相似性指数(SSIM)[33]来评估变形图像的低级别为了评估翻译图像的风格相关性和语义一致性,在这项工作中采用了[40]中描述的度量。特别地,由于低层特征(relu1 2,relu2 2)通常编码图像风格,如颜色和纹理,因此我们取平均余弦模拟。这些层在预训练的VGG网络中的相似性[28]为L10670条件示例性Pix2pixHDSPADE团结CoCosNet CoCosNet v2我们图6. MCL-Net和最先进的图像翻译方法在三种不同类型的条件输入上的定性比较,分别包括语义分割,关键点和边缘图,从上到下。风格相关性的分数(颜色的relu1 2,纹理的relu2 2)。由于高级特征(relu3 2,relu4 2,relu 5 2)倾向于编码语义特征,因此我们将预训练的VGG网络[28]中这些层的平均余弦相似度作为语义一致性的得分。试验结果如表1所示,我们可以观察到,MCL-Net在通过FID和SWD测量的图像质量以及通过LPIPS测量的图像多样性方面优于几乎所有比较方法与CoCosNet相比,MCL-Net实现了更好的FID和SWD,因为设计的边际对比损失允许学习域不变特征以建立对应关系,并且自相关允许合并结构信息以建立对应关系。作为一个基于范例的图像翻译任务,生成的图像应该呈现与连续输入的语义一致性和与范例的风格相关性。语义一致性和风格一致性的评价结果见表。二、通过我们用于不变特征学习的边缘对比学习和用于有效利用结构信息的SCM,MCL-Net实现了最佳特征对应,从而实现了最佳风格相关性和语义一致性。4.3. 定性评价图6示出了不同方法的定性比较。可以观察到,MCL-Net以忠实的样式为范例实现了最佳的视觉质量Pix2pixHD[32]无法从范例中捕捉到风格。SPADE [25]、SMIS[48]采用变分自动编码器模型FID↓社署↓LPIPS ↑基线32.0226.870.184+Cor15.7716.310.199+COR+MCL12.7515.030.208+COR+SCM13.2715.240.219+COR+MCL+SCM12.5214.210.216表3.我们的MCL-Net设计在CelebA-HQ上的消融研究[17]:基线是SPADE [25],其进行翻译而不建立对应关系。COR表示在条件输入和范例之间建立对应关系。MCL和SCM是指在建立对应关系时包括所提出的边缘对比损失和自相关图最后一行的模型是标准的MCL-Net。(VAE)[14]对图像风格进行编码,但该方法无法捕捉纹理 、 纹 理 等 细 节 风 格 特 征 基 于 范 例 的 翻 译 方 法CoCosNet [40]和CoCosNet v2 [45]构建跨域对应以从范例中捕获详细的风格,但它们往往会在没有明确学习域不变特征的情况下产生模糊的生成结果,并且在没有利用图像结构信息的情况下丢失纹理模式。我们的MCL-Net设计了MCL来学习域不变特征,并引入SCM来利用结构信息建立对应关系。除了图像质量,MCL-Net还展示了图像翻译的超级多样性,如图所示。7.第一次会议。我们可以观察到,MCL-Net能够合成具有忠实风格的逼真图像到给定的样本。10671边缘图语义地图示例性重点图7.我们提出的MCL-Net的定性说明,具有不同类型的条件输入和样本。模型L1↓PSNR ↑SSIM↑基线80.1428.350.766+MCL(m=0.1)79.3229.010.774+MCL(m=0.2)78.0529.440.787+MCL(m=0.3)76.4329.750.795+MCL(m=0.4)75.2730.040.811+SCM76.0729.670.791+MCL(m=0.4)+SCM73.7230.940.826表4.边缘对比学习(MCL)和自相关图(SCM)在Deep-Fashion数据集上的变形样本上的参数研究基线是CoCosNet[40],最后一行表示标准MCL-Net。4.4. 讨论我们进行了广泛的消融研究,以评估我们的技术设计。表3示出了在以下条件下的实验结果:CelebA-HQ选择SPADE [25]作为基线,其实现图像平移操作而无需特征对齐。当包括特征对应(COR)以对齐特征(即CoCosNet [40])时,性能明显改善。生成性能可以进一步提高,包括建议的边缘对比学习(MCL)学习域不变特征或自相关映射(SCM)建立对应。包括MCL和SCM的模型导致最佳的发电性能。为了直接评估构建的对应性的准确性,我们评估了DeepFashion数据集上的变形样本,其中通过将不同姿势下的人物图像作为样本和地面实况来处理配对数据。因此,我们可以使用L1,PSNR和SSIM测量扭曲样本与地面真实值之间的距离[33]。特别地,边缘参数m在MCL中起着关键作用,因此我们进行实验来研究m的影响。如表4所示,选择vanilla对应性作为基线。通过将m从0.1变化到0.4,我们可以观察到对应精度随着裕度m的增加而一致地提高。尽管大的裕度m有助于对应精度,但我们发现模型倾向于不稳定,甚至不能以大的裕度收敛,例如,m=0。五、因此,我们选择m=0。4作为MCL中的默认设置。此外,包括设计的自相关映射也大大提高了对应精度,并结合MCL(m=0。4)和SCM产生最好的对应精度。5. 结论本文提出了MCL-Net,一个基于范例的图像翻译框架,它引入了边缘对比学习来学习跨条件输入和范例的域不变特征,以建立对应关系。为了对结构信息进行编码以便于建立对应关系,我们提出了一种新的自相关映射,该映射捕获每个空间位置的同现特征并显式地表示图像结构。定量和定性实验表明,MCL-Net能够生成与条件输入语义一致、风格忠实于样本的高保真图像6. 确认本研究得到了RIE 2020产业联盟基金-产业合作项目(IAF-ICP)资助计划的支持示例性示例性10672引用[1] 曹哲、托马斯·西蒙、魏世恩和亚瑟·谢赫。利用局部仿射场进行实时多人二维姿态估计。在IEEE计算机视觉和模式识别会议论文集,第7291-7299页,2017年。6[2] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架国际机器学习会议,第1597-1607页。PMLR,2020年。二、三[3] Yunjey Choi,Youngjung Uh,Jaejun Yoo,Jung-WooHa.Stargan v2:多领域的多样化图像合成。在IEEE/CVF计算机视觉和模式识别会议论文集,第8188-8197页,2020年。2[4] 邓健康,贾国,薛念南,Stefanos Zafeiriou。Arcface:用于深度人脸识别的附加角度余量损失。在IEEE/CVF计算机视觉和模式识别会议论文集,第4690-4699页4[5] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。 在神经信息处理系统的进展,第26721[6] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,andRoss Girshick.用于无监督视觉表示学习的动量对比。在IEEE/CVF计算机视觉和模式识别会议论文集,第9729-9738页二、三[7] Martin Heusel、Hubert Ramsauer、Thomas Unterthiner、Bernhard Nessler和Sepp Hochreiter。两个时间尺度更新规则训练的甘斯收敛到一个局部纳什均衡。神经信息处理系统的进展,第6626-6637页,2017年6[8] Xun Huang和Serge Belongie。实时任意样式传输,具有自适应实例规范化。在IEEE计算机视觉国际会议论文集,第1501-1510页,2017年。2[9] Xun Huang , Ming-Yu Liu , Serge Belongie , and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议(ECCV)的会议记录中,第172-189页,2018年。2[10] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集,第1125-1134页,2017年。2[11] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议,第694施普林格,2016年。5[12] Tero Karras , Timo Aila , Samuli Laine , and JaakkoLehtinen.为提高质量、稳定性和变异性而进行的干细胞生长。arXiv预印本arXiv:1710.10196,2017。6[13] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv:1312.6114,2013。2[14] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv:1312.6114,2013。7[15] 李欣英、曾鸿宇、黄佳斌、曼尼什·辛格和杨明轩。通过解纠缠的表示进行不同的图像到图像的翻译。在欧洲计算机视觉会议(ECCV)的会议记录中,第35-51页,2018年。2[16] Ziwei Liu,Ping Luo,Shi Qiu,Xiaogang Wang,andXiaoou Tang. Deepfashion:支持强大的服装识别和检索与丰富的注释。在IEEE计算机视觉和模式识别会议论文集,第1096-1104页,2016年。6[17] Ziwei Liu , Ping Luo , Xiaogang Wang , and XiaoouTang.在野外深度学习人脸属性。在IEEE计算机视觉国际会议论文集,第3730-3738页六、七[18] 詹姆斯·卢卡斯乔治·塔克罗杰·格罗斯和穆罕默德·诺鲁兹。别怪elbo!后塌陷的线性透视图。arXiv预印本arXiv:1911.02469,2019。1[19] Liqian Ma , Xu Jia , Stamatios Georgoulis , TinneTuytelaars,and Luc Van Gool.具有语义一致性的示例引导的无监督图像到图像翻译在2018年国际学习代表会议上2[20] 马丽倩、徐佳、孙倩茹、Bernt Schiele、Tinne Tuyte-laars和Luc Van Gool。姿势引导的人物图像生成。神经信息处理系统的进展,第406-416页,2017年。2[21] Roey Mechrez,Itamar Talmi,and Lihi Zelnik-Manor.非对齐数据图像变换的上下文损失。在欧洲计算机视觉会议(ECCV)的会议记录中,第768-783页,2018年。6[22] Yifang Men,Yiming Mao,Yunning Jiang,Wei-YingMa,and Zhouhui Lian.基于属性分解的可控人物图像合成。在IEEE/CVF计算机视觉和模式识别会议论文集,第5084-5093页,2020年。2[23] Aaron van den Oord、Yazhe Li和Oriol Vinyals。使用对比 预 测 编 码 的 表 示 学 习 。 arXiv 预 印 本 arXiv :1807.03748,2018. 二、三、四[24] 朴泰成、阿列克谢·A·埃夫罗斯、理查德·张和朱军燕。非配对图像到图像翻译的对比学习。欧洲计算机视觉会议,第319-345页。Springer,2020年。3[25] Taesung Park , Ming-Yu Liu , Ting-Chun Wang , Jun-Yan Zhu.具有空间自适应归一化的语义图像合成。在IEEE计算机视觉和模式识别会议论文集,第2337-2346页一、二、五、六、七、八[26] Pierre Sermanet 、 Corey Lynch 、 Yevgen Chebotar 、Jasmine Hsu、Eric Jang、Stefan Schaal、Sergey Levine和Google Brain。时间对比网络:从视频中进行自我监督 学 习 。 2018 年 IEEE 机 器 人 与 自 动 化 国 际 会 议(ICRA),第1134-1141页。IEEE,2018年。2[27] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 非 常 深 的 卷 积 网 络 。 arXiv 预 印 本 arXiv :1409.1556,2014。610673[28] Karen Simonyan和Andrew Zisserman用于大规模图像识别 的 非 常 深 的 卷 积 网 络 。 arXiv 预 印 本 arXiv :1409.1556,2014。六、七[29] Hao Tang,Dan Xu,Gaowen Liu ,Wei Wang,NicuSebe,and Yan Yan.用于关键点引导图像生成的循环生成对抗网络在第27届ACM国际多媒体会议论文集,第2052-2060页,2019年。1[30] Hao Tang,Dan Xu,Nicu Sebe,Yanzhi Wang,Jason JCorso,and Yan Yan.多通道注意力选择与cas-caded语义指导跨视图图像翻译。在IEEE计算机视觉和模式识别会议论文集,第2417-2426页6[31] Yonglong Tian,Dilip Krishnan,and Phillip Isola.对比多视图编码。arXiv预印本arXiv:1906.05849,2019。二、三[32] Ting-Chun Wang,Ming-Yu Liu,Jun-Yan Zhu,AndrewTao,Jan Kautz,and Bryan Catanzaro.用条件gans实现高分辨率图像在IEEE计算机视觉和模式识别会议论文集,第8798-8807页,2018年。一、二、六、七[33] Zhou Wang,Alan C Bovik,Hamid R Sheikh,and EeroP Si-moncelli.图像质量评估:从错误可见性到结构相似性。IEEE图像处理学报,13(4):600-612,2004。六、八[34] Fangneng Zhan , Yingchen Yu , Kaiwen Cui, GongjieZhang,Shijian Lu,Jianxiong Pan,Changgong Zhang,Feiying Ma,Xuansong Xie,and Chunyan Miao.基于范例的图像翻译的不平衡特征传输。在IEEE计算机视觉和模式识别会议上,2021年。二、六[35] Fangneng Zhan,Yingchen Yu,Rongliang Wu,KaiwenCui,Aoran Xiao,Shijian Lu,and Ling Shao.用于语义图像翻译操作的双层特征对齐。arXiv预印本,2021年。2[36] Fangneng Zhan , Yingchen Yu , Rongliang Wu ,Changgong Zhang , Shijian Lu , Ling Shao , FeiyingMa,Xuansong Xie. Gmlight:通过几何分布近似进行照明估计arXiv预印本arXiv:2102.10244,2021。2[37] Fangneng Zhan,Yingchen Yu,Rongliang Wu,JiahuiZhang,and Shijian Lu.多模态图像合成和编辑:一个调查。arXiv预印本arXiv:2112.13592,2021。2[38] 詹方能、张长弓、余英臣、袁昌、卢世坚、马飞鹰、谢玄松。EM-光:通过球形分布近似的照明估计。在AAAI人工智能会议论文集,第3287-3295页2[39] Fangneng Zhan,Jiahui Zhang,Yingchen Yu,RongliangWu,and Shijian Lu.调制对比度的多功能图像合成。arXiv预印本arXiv:2203.09333,2022。2[40] 潘章、张波、董晨、陆远、方文。基于范例的图像翻译跨域对应学习。在IEEE/CVF计算机视觉和模式识别会议论文集,第5143-5153页一二三四五六七八[41] Richard Zhang
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功