没有合适的资源?快使用搜索试试~ 我知道了~
5849Art2Real:展现艺术品的真实性通过语义感知的图像到图像翻译Matteo Tomei Marcella Cornia Lorenzo Baraldi Rita Cucchiara摩德纳和雷焦艾米利亚{name.surname}@ unimore.it摘要计算机视觉对真实绘画和艺术品的适用性很少被研究,尽管大量的遗产将大大受益于可以理解和处理艺术领域数据的技术。这部分是由于少量的注释的artis-tic数据,这是不可比的,甚至自然,摄像机捕捉到的真实图像。在本文中,我们提出了一个语义感知的架构,可以将艺术作品转换为照片般逼真的可视化,从而减少艺术和现实数据的视觉特征之间的差距。我们的架构可以通过检索和学习的细节,从真实的照片,通过一个相似性匹配策略,利用弱监督的SE-MANIC理解的场景,生成自然的图像实验结果表明,所提出的技术导致增加的真实感和减少域移位,这提高了预训练的分类,检测和分割架构的性能。代码可在以下网址公开获取:https://github.com/aimagelab/art2real。1. 介绍我们的社会从过去几代人那里继承了大量的文化遗产:建筑物、纪念碑、书籍和杰出的艺术作品。虽然这一遗产将受益于可以自动理解其内容的算法,但计算机视觉技术很少适用于这一领域。其中一个原因是,将最先进的技术应用于艺术品是相当困难的,而且往往带来较差的性能。这可能是因为艺术品的视觉外观不同于照片般逼真的图像,这是由于笔触的存在,艺术家的创造力和手头的特定艺术风格。由于当前的视觉管道利用由自然图像组成的大型数据集,因此学习模型在很大程度上偏向于它们。结果是高水平的控制之间的差距原创绘画艺术2真实真实照片图1:我们展示了Art2Real,这是一种架构,可以通过将绘画转换为照片般逼真的图像来减少艺术图像和现实图像的视觉特征分布之间的差距。这两个域的演化特征,导致目标任务(例如分类、检测或分割)的性能本文针对上述问题提出了一种解决方案,避免了在包含艺术图像的大规模数据集上重新训练神经架构的需要。特别是,我们提出了一个架构,可以减少从两个域的特征分布之间的转变,通过将艺术品转换为照片般逼真的图像,保留原始内容。这种设置的一个例子是描绘在图。1.一、由于配对训练数据不可用于此任务,我们回到不成对的图像到图像转换设置[56],其中图像可以在不同的域之间转换,同时保留一些基本特征。在我们的艺术到现实的场景中,第一个领域是绘画,而第二个领域是自然图像。共同的特征是它们是同一类对象的两种不同的可视化,例如,它们艺术领域现实领域艺术绘画真实照片生成的图像5850都代表风景。在我们提出的翻译架构中,通过从自然图像的现有细节中检索和学习并利用对艺术品的弱监督语义理解来获得新的照片级真实感图像。为了这个目的,一些现实的补丁的内存银行是建立从一组照片,每个包含补 丁 从 一 个 单 一 的 语 义 类 在 一 个 内 存 高 效 的representation- tion。通过以多尺度方式在补丁级别比较生成的图像和真实图像,我们可以驱动生成器网络的训练,该生成器网络学习生成照片般真实的细节,同时保留原始绘画的语义。由于执行原始绘画的语义理解会产生鸡生蛋的问题,其中不可靠的数据被用于驱动训练和生成,我们提出了一种策略来在训练期间更新语义掩码,利用周期一致性框架的部分我们将我们的模型应用于广泛的艺术品,其中包括来自不同艺术家和风格的绘画,风景和肖像。通过实验评估,我们表明,我们的架构可以提高翻译图像的真实感相比,最这是定性和定量评估,通过建立一个用户研究。此外,我们证明了所提出的架构可以减少域偏移时,应用预先训练的最先进的模型上生成的图像。捐款. 总而言之,我们的贡献如下:• 我们解决了真实图像和艺术品之间的领域差距,这阻碍了对数据的理解从艺术领域。为此,我们提出了一个网络工作,它可以将绘画照片逼真的生成图像。• 所提出的架构是基于高效的内存库的建设,从现实的细节可以在补丁级别恢复。检索到的补丁被用来驱动周期一致性框架的训练,并增加生成的图像的真实感这是以语义感知的方式完成的,利用在训练期间在艺术品和生成的图像上计算的分割掩码。• 我们显示,通过实验结果在不同的设置,改善现实主义方面的国家的艺术图像翻译的方法,以及预训练模型在生成数据上的性能提高。2. 相关工作图像到图像转换。生成对抗网络已被应用于几个条件图像生成问题,从图像修复[35,53,54,51]和超分辨率[23]到视频预测[33,47,48,28]和文本到图像合成[36,37,55,50]。最近,在成对[16,40]和非成对设置[56,20,29,43]中出现了一系列关于图像到图像翻译的工作。我们的任务属于第二类,因为艺术绘画到照片级真实感图像的转换不能通过利用监督方法来解决Zhu等人。 [56]提出了Cycle-GAN框架,该框架通过利用循环一致性约束来学习域之间的转换,该约束保证生成的图像与原始图像的一致性。类似地,Kim等人。 [20]介绍了一种方法,用于保留输入和翻译图像之间的关键属性,同时保留循环一致性标准。相反,Liu等人。 [29]使用了基于CoGAN [30]的生成对抗网络和变分自动编码器的组合。虽然所有这些方法都在广泛的翻译任务中取得了成功的结果,但它们都不是专门设计的,也不适用。从艺术品中恢复照片现实主义。另一种不同的工作是多域图像到图像转换[5,2,52]:这里,相同的模型可以用于根据多个属性(即,头发颜色、性别或年龄)。相反,其他方法专注于不同的图像到图像翻译,其中可以通过对目标分布的不同风格属性进行编码来以多种方式翻译图像[57,15,24]。然而,由于这些方法通常依赖于特定领域的特性,它们不适合我们的设置,因为现实主义比多样性更重要。神经风格转移。执行图像到图像转换的另一种方式是神经风格转换方法[7,8,18,14,39],其中通过将一个图像的内容与另一个图像的风格(通常是绘画)相结合来合成新图像。在这种情况下,Gatys等人 [7,8]的初步工作提出了联合最小化内容损失以保留原始内容,以及样式重建损失以转移目标艺术图像的样式通过利用来自预先训练的CNN的激活的Gram矩阵来编码样式组件。随后的方法已经被提出来解决和改进风格转移的不同方面,包括减少计算开销[18,25,44],提高世代质量[9,4,49,17,39]和多样性[26,45]。其他作品集中在不同风格的组合[3],以及对以前看不见的风格的概括[27,10,41]。所有这些方法,虽然有效地转移艺术风格,显示在相反的方向性能差。3. 该方法我们的目标是获得一幅绘画的照片般真实的表现所提出的方法明确保证了生成的真实性和语义之间的绑定5851XX图2:Art2Real方法概述通过强制与真实照片中的补丁进行匹配,将绘画转换为照片级逼真的可视化这是以语义感知的方式完成的,通过构建真实补丁Bc的类特定存储库,并根据它们的语义类通过亲和矩阵Ac将生成的补丁和真实补丁配对。随着训练的进行,从原始绘画或生成的图像计算分割图。原始艺术品和生成的图片。为了增加真实感,我们建立了一个网络,它可以从真实图像的细节复制此外,为了加强翻译前后的语义一致性,我们使用了语义相似性约束:生成的图像的每个网络的训练旨在最大化该相似性得分,以再现真实细节并保留原始场景。我们的模型的概述如图所示。二、3.1. 补丁存储体给定一个语义分割模型,我们定义了一个预处理步骤,目的是建立将驱动生成的补丁的内存库。每个存储体Bc与特定的语义类c相关联,因为它只能包含属于其语义类的补丁。为了定义类的集合,并从语义上理解图像的内容,我们采用了Hu等人的弱监督分割模型。[13]:在这种方法中,通过利用检测给出的部分监督,训练网络以从大量类别中预测语义掩码。我们还定义了一个额外的背景库,存储所有的补丁,不属于任何语义类。遵循滑动窗口策略,我们从一组真实图像中提取固定大小的RGB补丁,并根据它们所在的掩码的类标签c将它们放入特定的内存Bc由于一个补丁可能包含属于第二类标签或背景类的像素,我们在Bc中只存储包含至少20%来自c类的像素的补丁。因此,我们获得了数量相等的存储体到数据集中发现的不同语义类的数量,加上背景类,其中属于同一类的补丁被放置在一起(图。(3)第三章。此外,还需要来自生成图像的语义信息:由于在训练开始时生成的图像信息较少,因此我们首先从原始绘画中提取分割掩码。一旦模型开始生成有意义的图像,我们就使用在生成的图像上获得的分割3.2. 语义感知生成我们提出的不成对图像到图像转换模型将属于域X(艺术作品的域)的图像映射到属于不同域Y(自然图像的域)的图像,保留整体内容。 假设我们在每个训练步骤中都有一个生成的真实图像G(x),由从输入绘画x开始的映射函数G产生。我们采用先前获得的真实感补丁的记忆库和绘画的分割掩模,以增强生成细节的真实感并保持绘画的语义内容以有意义的方式配对相似的补丁。在每个训练步骤中,G(x)也被分割成补丁,保持与内存库相同的步幅和补丁大小。 提醒一下,我们有所有绘画的遮罩,我们用类标签c表示绘画x的遮罩为M c。我们检索G(x)所源自的绘画x的所有掩码Mx,并将每个生成的补丁分配给它所处的掩码Mc的类标签c。如果一个补丁属于不同的面具,它也被分配到多个类。然后,将分配给特定类别c的生成的补丁与存储体Bc中的类似的真实补丁配对,即,所述库包含具有类别标签C的真实补片。给定属于Bc的真实块,真的吗假的?分割图存储体天空分割网络房房草真实照片真的吗假的?草天空……生成生成5852我BJNDIL我CX=ΣLIL图3:内存库建设。 分割模型[13]为数据集中的每个真实图像计算分割掩码,然后将属于相同语义类的RGB补丁放置在相同的内存库中。Bc={bc},生成的具有类标签的补丁集J每个生成的补丁kc.以这种方式,Ac将是具有至多k倍于类c的生成的补丁的数目的列的稀疏矩阵。在Eq中的Softmax 3确保近似版本的亲和矩阵是非常接近的确切一个,如果k-NN搜索通过索引是可靠的。我们采用在Faiss库中实现的具有精确后验证的倒排索引[19]。当内存组的向量少于一百万时,补丁与它们的RGB值一起存储;否则,我们使用PCA预处理步骤来降低它们的维度,并使用标量量化来限制索引的内存需求。最大化相似性。M x中每个语义类的上下文损失[34]旨在最大化具有高亲和力值的补丁对之间的相似性:c,Kc={kc},我们将两个集合相对于均值居中..ΣΣic1我们计算两两余弦距离Lc(Kc,Bc)=−logmaxAc(四)如下所示CX.Σ(kc−µc)·(bc−µc)ccjijKidc=1−i比杰比(一)其中,NK是生成的补丁ijkc−µcc−µc<$类别标签为C。我们的目标是之前的总和ib2jb2Σ计算的单类上下文损失超过不同的其中μc1NCJbc,其中Nc是贴片在Mx中找到的类:在存储体B中,我们计算一个距离矩阵的数量等于在.Σ1L(K,B)=−log.ΣΣΣ maxAc(五)原画X成对距离随后为CX归一化如下:cjijcKiCc=ij,其中ijminldc+h并且通过应用逐行softmax归一化来计算成对亲和矩阵:.其中c假定Mx中掩码的所有类标签值。请注意,Mx中的掩码在训练过程中并不是恒定的:一开始,它们是在绘画上计算的,然后定期从G(x)中提取。多尺度变量。 增强生成exp(1−dc/h)≈1如果dcdcl/=j图像时,我们采用了该方法的多尺度变体ACijijexp(1−dc/h)伊济伊尔0.00否则(三)其考虑了贴片提取过程中的不同尺寸和步幅。因此,针对每个尺度复制存储体的集合,并且在多个尺度处分割G(x其中h >0是带宽参数。 感谢softmax归一化,每个生成的补丁kc将具有与最接近的真实补丁的高亲和度,相应地我们的损失函数由等式中的值之和给出。5按每个比额表计算,如下:其他不可忽略的近补丁。此外,仅计算生成的和艺术的补丁之间的亲和力是-渴望相同的语义类。LCXMSΣ(K,B)=LsS(K,B)(6)近似亲和矩阵。计算整个仿射矩阵将需要一个棘手的计算开销,特别是对于包含数百万补丁的内存库的类事实上,矩阵Ac的行数与从G(x)中提取的c类块的数量一样多,列数与存储体Bc中包含的块的数量一样多。为了加速计算,我们为每个存储体构建次优的最近邻索引Ic。当必须计算类c的亲和矩阵时,我们通过Ic进行k-NN搜索以获得k个最近样本N=D=5853其中每个标度S意味着特定的片大小和步幅。3.3. 不成对的图像到图像转换基线我们的目标假设生成的图像G(x)的可用性,在我们的任务中,G(x)是照片真实感域中的绘画的表示。在我们的工作中,我们在特定艺术家X的绘画领域和现实图像Y的领域之间采用了一个周期一致的对抗框架[56]。 数据分布是x→p数据(x)和y→p数据(y),而G:X→Y和F:Y→X是两者5854域.这两个鉴别器被表示为DY和DX。完整周期一致的对抗性损失[56]如下:Lcca(G,F,DX,DY)= LGAN(G,DY,X,Y)高:四百,浮世绘:825、山水画:2044,por- traits:1714年,真实的风景照片:2048年,真人照片:2048年。架构和培训细节。 建造发电机,+LGAN(F,DX,Y,X)+Lcyc(G,F)其中两个对抗性损失是:LGAN(G,DY,X,Y)=Eypdata(y)[logDY(y)](七)鉴别器,我们采用生成网络从约翰逊等人[18],具有两个步幅-2卷积来对输入进行下采样,几个残差块和两个步幅-1/2卷积层用于上采样。判别网络是PatchGAN [16,23,25],它将图像的每个正方形块分类为真实或虚假。+Exp数据(x)[log(1−DY(G(x)](八)LGAN(F,DX,Y,X)=Expdata(x)[logDX(x)]真实补丁的内存库是使用所有可用的真实图像,即2048个用于风景和人脸的图像,并且在训练期间保持恒定。在第40个纪元之后,绘画的面具会定期地升起-+Eyp数据 (y)[log(1−DX(F(y)](九)每隔20个纪元,年龄以三种不同的尺度提取补丁:4×4、8×8和16×16,使用三种不同的步幅值:4、5和以及循环一致性损失,这需要原始的图像x和y与重建的图像相同F(G(x))和G(F(y))分别为:Lcyc(G,F)=Expdata(x)[F(G(x)) −x]分别6采用相同的斑块大小和步长当分割所生成的图像时,以便计算亲和度和上下文损失。我们使用多尺度上下文损失权重λ,在等式中。11等于0 1.一、我们通过亚当操作训练模型300个时期+Eyp3.4. 全目标数据(y)(十)[G(F(y))− y]。[21]和使用小批量与一个单一的样品。学习率为0。0002在前100个历元中保持不变,使其在接下来的200个历元中线性衰减到零。我们的完全语义感知的翻译损失由基线目标的总和给出,即Eq。7,和我们的补丁级相似性损失,即方程。第六章:L(G,F,DX,DY,K,B)= Lcca(G,F,DX,DY)时代提前停车技术用于减少列车-ingtimes. 在特定情况下,在每个时期,在我们生成的图像和真实照片集之间计算Fr e'chetInceptionDistance(FID)[12]:如果它在30个连续的时期内没有减少,则停止训练。我们初始化+λLCXMS (K,B)(11)模型的权重来自平均值为0且标准差为0的高斯分布。02.其中λ控制我们的多尺度上下文损失权重关于基线目标。4. 实验结果数据集。为了评估我们的方法,不同的图像集,无论是从艺术和现实的领域,使用。我们的测试既涉及特定艺术家的绘画作品集,也涉及不同作者代表给定主题的艺术品集。我们使用莫奈,塞尚,梵高,浮世绘风格的绘画和来自不同艺术家的风景,我们还使用肖像 和 真 人 照 片 显 示 结 果 所 有 的 艺 术 作 品 都 来 自Wikiart.org , 而 风 景 照 片 则 是 通 过 组 合 标 签landscape 和 prosecutephotography 从 Flickr 下载的。到获取人物照片,图像是从CelebA数据集中提取的所有的图像都被缩放到256×256像素,并且只使用RGB图片。每个训练集的大小分别是莫奈:1072年,塞尚:583,Van5855竞争对手为了将我们的结果与最先进的技术进行比较,我们在前面描述的数据集上训练了Cycle-GAN[56],UNIT [29]和DRIT [24]方法。采用的代码来自作者的实现,可以在他们的GitHub reposito-ries中找到。epoch的数量和其他训练参数是作者建议的,除了DRIT [24]:为了提高该竞争者生成的结果的质量,在与作者联系后,我们采用了光谱归一化,并通过目视检查和计算FID [12]测量手动选择最佳历元。此外,DRIT [24]是一种多样的图像到图像翻译框架,其性能取决于从现实域的属性空间中选择属性。为了比较的公平性,我们使用随机采样的属性生成单个逼真的图像。我们还展示了应用Gatys等人的风格转移方法的定量结果。[7],其中内容图像取自现实数据集,风格图像从绘画中随机采样,每组。58562方法莫奈塞尚梵高浮世绘景观肖像是说原画69.14169.43159.82177.5259.0772.95117.99样式转移实数74.43114.39137.06147.9470.2562.35101.07[24]第二十四话68.32109.36108.92117.0759.8444.3384.64[29]第二十九话56.1897.9198.1289.1547.8743.4772.12Cycle-GAN [56]49.7085.1185.1098.1344.7930.6065.57艺术2Real44.7168.0078.6080.4835.0334.0356.81表1:根据Fre' chet初始距离进行的评估[12]。[29]第一届中国国际纺织品博览会[24]图4:从风景和肖像图像中提取的ResNet-152特征分布。每行显示我们的方法和竞争对手在特定设置上的结果。4.1. 视觉品质评估我们使用自动评估指标和用户研究来评估我们生成的图像的视觉质量。F re'chetInceptionDistance.为了在数字上评估我们生成的图像的质量,我们使用Fre'chetInception Distance[12]。它测量两个高斯的差异,也被称为Wasserstein-2距离[46]。具有均值和协方差(m1,C1)的高斯G1与具有均值和协方差(m2,C2)的高斯G2之间的FIDd由下式给出:d2 ( G1 , G2 ) =m1−m2m2+Tr ( C1+C2−2(C1C2)1/2)[24]第29话:我的世界现实主义36.5% 27.9% 14.2%连贯性表2:用户研究结果。我们报告的是来自竞争对手的图像相对于我们的图像被偏好的次数百分比。我们的方法总是首选超过50%的时间。人类的判断 为了评价视觉质量在我们生成的图像中,我们在Figure Eight众包平台上进行了用户研究。特别是,我们作为-(十二)出于我们的评估目的,两个高斯函数分别拟合在真实图像和生成图像的Inception-v3 [42]激活上。这些高斯分布之间的Fre′ chet初始距离越小,生成的数据分布和真实数据分布重叠的越多,即当FID减小时,生成图像的真实性增加。表1显示了我们的模型和一些竞争对手的FID值。如可以观察到的,所提出的方法在所有设置上产生较低的FID,除了肖像,在肖像中,我们排在Cycle-GAN之后的第二位。因此,结果证实了我们的方法在生成对预训练的CNN来说看起来很逼真的图像方面的能力。我认为我们的研究结果是现实的,与原画的区别为此,我们进行了两个不同的评估过程,具体如下:• 在现实主义评估中,我们要求用户从两个显示的图像中选择最真实的图像,两者都来自同一幅画,一个来自我们的方法另一个来自竞争对手;• 在连贯性评估中,我们向用户展示了原始绘画和两个生成的图像,源于它,要求选择最忠实的艺术品。同样,生成的图像来自我们的方法和竞争对手。景观肖像5857[24]第24届中国国际汽车工业展览会[29]图5:肖像的定性结果我们的方法可以保留面部表情并减少Cycle-GAN [56],UNIT [29]和DRIT [24]的伪影数量方法分类分割检测真实照片3.990.632.03原画4.810.672.58样式转移实数5.390.702.89[24]第二十四话5.140.672.56[29]第二十九话4.880.692.54Cycle-GAN [56]4.810.672.50艺术2Real4.500.662.42表3:通过我们的方法和竞争对手的方法生成的图像的分类、分割和检测的每次测试都涉及我们的方法和一个竞争对手,导致六个不同的测试,考虑三个竞争对手:[56]《易经》:“ 君 子 之 道 , 焉 可 诬 也 ? 有 始 有 卒 者 , 其 惟 圣 人乎!”,13.14冉子退朝。 一套650对于每个测试,图像被随机抽样,并且每个图像对被评估来自三个不同的用户。开始测试时,要求每个用户成功评估8个示例对,其中两个图像中的一个肯定比另一个更好。共有685名评估人员参与了我们的测试。结果示于表2中,表明我们生成的图像总是被选择超过50%的时间。4.2. 减少域转移我们通过分析预先训练的卷积模型的性能和可视化CNN特征的分布来评估我们的模型减少艺术和真实数据之间的域转移熵分析与原始绘画和其他方法生成的图像相比,预先训练的架构在通过我们的方法合成的图像上表现出更高的性能。我们通过计算最先进架构的输出熵来可视化这一点:熵越低,模型关于其结果的不确定性就越低我们评估了分类,语义分割和检测任务的熵,采用在ImageNet [6]上训练的ResNet- 152[11],Hu等人。[13]的模型和FasterR-CNN[38]分别在VisualGenome[22,1]上训练。表3示出了用于分类的平均图像熵、用于分割的平均像素熵和用于检测的平均边界框熵,其在所有可用的艺术、现实和生成的图像上进行计算。我们的方法是能够生成的图像,降低熵,平均而言,对于每个考虑的任务与方面的绘画和竞争对手生成的图像特征分布可视化。为了进一步验证真实图像和生成图像之间的域偏移减少,5858[24]第24届中国国际汽车工业展览会[29]图6:风景画的定性结果。与Cycle-GAN [56],UNIT [29]和DRIT [24]相比,我们的方法生成的结果显示出增加的真实性和其中,我们将从CNN中提取的特征分布可视化。特别是,对于每个图像,我们从ResNet-152 [11]的平均池化层提取视觉特征向量,并使用t-SNE算法将其投影到二维空间中图4示出了两组不同的绘画上的特征分布(即,,风景和肖像)比较我们的结果与竞争对手。每个图表示从属于特定集合的绘画中提取的视觉特征的分布,从由我们的模型或竞争对手之一生成的相应图像中提取的视觉特征的分布,以及从描绘风景或人像的真实照片中提取的视觉特征的分布。可以看出,我们生成的图像的分布一般更接近真实图像的分布,而不是绘画的分布,从而证实了我们的模型在域移位减少中的有效性。4.3. 定性结果除了显示相对于最先进方法的数值改进外,我们还提出了一些来自我们方法的定性结果,与Cycle-GAN[56],UNIT [29]和DRIT [24]的结果相比。我们在图中展示了风景和肖像翻译的例子5和6. 所有设置中的许多其他示例可以在补充材料。我们在生成的图像中观察到更高的真实感,这是由于更详细的元素和更少的模糊区域,特别是在景观结果中。Por- trait样本揭示了画笔笔划完全消失我们的结果包含更少的文物,更忠实于绘画,更经常地保留原始的面部表情。5. 结论我们介绍了Art2Real,一种将绘画转化为照片般逼真的可视化的方法。我们的研究是出于减少艺术和真实数据之间的领域差距的需要,这阻碍了现代技术在艺术中的应用。所提出的方法生成逼真的图像复制从真实的图像集,在语义感知的方式,并通过有效的内存银行。这与图像到图像的翻译体系结构配对,最终导致最终结果。对不同艺术家和风格的艺术作品进行的定量和定性评估最后,我们还展示了生成的图像如何增强预训练架构的性能。5859引用[1] Peter Anderson,Xiaodong He,Chris Buehler,DamienTeney,Mark Johnson,Stephen Gould,and Lei Zhang.自下而上和自上而下关注图像字幕和视觉问答。在IEEE计算机视觉和模式识别会议论文集,2018。[2] Asha Anoosheh、Eirikur Agustsson、Radu Timofte和LucVan Gool。ComboGAN:图像域翻译的无限可扩展性。在IEEE计算机视觉和模式识别工作室会议论文集,2018年。[3] 陈冬冬、卢远、廖静、余能海、华刚。Stylebank:神经图像风格传递的显式表示。在IEEE计算机视觉和模式识别会议论文集,2017年。[4] 田启晨和马克施密特。快速的基于补丁的任意风格转移。arXiv预印本arXiv:1612.04337,2016。[5] Yunjey Choi,Minje Choi,Munyoung Kim,Jung-WooHa,Sunghun Kim,and Jaegul Choo. StarGAN:用于多域图像到图像翻译的统一生成对抗网络在IEEE计算机视觉和模式识别会议论文集,2017年。[6] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞。ImageNet:一个大规模的分层图像数据库。IEEE计算机视觉与模式识别会议论文集,2009年。[7] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.艺 术 风 格 的 神 经 算 法 。 arXiv 预 印 本 arXiv :1508.06576,2015。[8] Leon A Gatys,Alexander S Ecker,and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议论文集,2016。[9] Leon A Gatys,Alexander S Ecker,Matthias Bethge,Aaron Hertzmann,and Eli Shechtman.神经风格迁移中知觉因素的控制在IEEE计算机视觉和模式识别会议论文集,2017年。[10] Golnaz Ghiasi , Honglak Lee , Manjunath Kudlur ,Vincent Dumoulin,and Jonathon Shlens.探索实时、任意神经艺术风格化网络的结构。在2017年英国机器视觉会议上[11] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上,2016年。[12] Martin Heusel,Hubert Ramsauer,Thomas Unterthiner,BernhardNessle r,GunterKlambaue r,andSeppHochreiter. 通过两个时间尺度更新规则训练的GAN收敛到纳什均衡。神经信息处理系统,2017年。[13] RonghangHu,PiotrDolla'r,KaimingHe,TrevorDarrell,andRoss Girshick.学会分割每一件事。在IEEE计算机视觉和模式识别会议上,2018年。[14] Xun Huang和Serge J Belongie.任意风格的实时传输与自适应实例规范化。2017年计算机视觉国际会议论文集[15] Xun Huang , Ming-Yu Liu , Serge Belongie , and JanKautz.多模态无监督图像到图像翻译。在欧洲计算机视觉会议论文集,2018年。[16] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集,2017年。[17] 永成景、杨柳、叶州杨、迅雷风、益州余、大成涛、明丽宋。具有自适应感受野的可控制的快速风格迁移。在欧洲计算机视觉会议论文集,2018年。[18] 贾斯汀·约翰逊,亚历山大·阿拉希,李飞飞。实时风格转换和超分辨率的感知损失。在欧洲计算机视觉会议论文集,2016年。[19] Je f fJohnson,MatthijsDouze,andHer ve'Je'gou. 使用GPU进 行 十 亿 级 相 似 性 搜 索 。 arXiv 预 印 本 arXiv :1702.08734,2017。[20] Taeksoo Kim、Moonsu Cha、Hyunsoo Kim、Jung KwonLee和Jiwon Kim。学习使用生成对抗网络发现跨域关系。在2017年机器学习国际会议论文集上[21] Diederik P Kingma和Jimmy Ba。Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[22] Ranjay Krishna 、 Yuke Zhu 、 Oliver Groth 、 JustinJohnson、Kenji Hata、Joshua Kravitz、Stephanie Chen、Yannis Kalantidis 、 Li-Jia Li 、 David A Shamma 、Michael Bernstein和Li Fei-Fei。视觉基因组:使用众包密集图像注释连接语言和视觉。国际计算机视觉杂志,123(1):32[23] Christian Ledig 、 Lucas Theis 、 Ferenc Huszar 、 JoseCaballero 、 Andrew Cunningham 、 Alejandro Acosta 、Andrew Aitken、Alykhan Tejani、Johannes Totz、ZehanWang和Wenzhe Shi。使用生成对抗网络实现照片真实的单图像超分辨率。在IEEE计算机视觉和模式识别会议集,2017年。[24] Hsin-Ying Lee,Hung-Yu Tseng,Jia-Bin Huang,Ma-neesh Kumar Singh,and Ming-Hsuan Yang.通过非纠缠表示的多样在欧洲计算机视觉会议论文集,2018年。[25] Chuan Li和Michael Wand。利用马尔可夫生成对抗网络进行预计算实时纹理合成在欧洲计算机视觉会议论文集,2016年。[26] Yijun Li,Chen Fang,Jimei Yang,Zhaowen Wang,Xin Lu,and Ming-Hsuan Yang.用前馈网络实现多样化纹理合成。在IEEE计算机视觉和模式识别会议论文集,2017年。5860[27] Yijun Li,Chen Fang,Jimei Yang,Zhaowen Wang,Xin Lu,and Ming-Hsuan Yang.通过特征变换进行通用样式传递。在神经信息处理系统的进展,2017年。[28] Xiaodan Liang,Lisa Lee,Wei Dai,and Eric P Xing.用于未来流嵌入式视频预测的双运动GAN。2017年计算机视觉国际会议论文集[29] Ming-Yu Liu,Thomas Breuel,and Jan Kautz.无监督图像到图像翻译网络。在神经信息处理系统的进展,2017年。[30] 刘明宇和昂塞尔·图泽尔。耦合生成对抗网络。神经信息处理系统,2016。[31] Ziwei Liu , Ping Luo , Xiaogang Wang , and XiaoouTang.在野外深度学习人脸属性。在2015年国际计算机视觉会议上[32] Laurens van der Maaten和Geoffrey Hinton使用t-SNE可视化 数 据 。 Journal of Machine Learning Research , 9(Nov):2579[33] Michael Mathieu,Camille Couprie,and Yann LeCun.超越均方误差的深度多尺度视频预测。在2016年学习代表国际会议论文集[34] Roey Mechrez , Itamar Talmi , Firas Shama , and LihiZelnik- Manor.学习维护自然图像统计。arXiv预印本arXiv:1803.04626,2018。[35] Deepak Pathak 、 Philipp Krahenbuhl 、 Jeff Donahue 、Trevor Darrell和Alexei A Efros。上下文编码器:通过图像修复进行特征学习。在欧洲计算机视觉会议论文集,2016年。[36] Scott Reed , Zeynep Akata , Xinchen Yan , LajanugenLo- geswaran,Bernt Schiele,and Honglak Lee.生成对抗性文本到图像合成。在2016年国际机器学习会议上[37] Scott E Reed,Zeynep Akata,Santosh Mohan,SamuelTenka,Bernt Schiele,and Honglak Lee.学习在哪里画什么。神经信息处理系统,2016年。[38] 任少卿、何开明、罗斯·格尔希克、孙健。更快的R-CNN:朝向利用区域建议网络的实时对象检测。IEEETransactionsonPatternAnal-ysisandMachineIntelligence,39(6):1137[39] Artsiom Sanakoyeu,Dmytro Kotovenko,Sabine Lang,and BjoürnOmme r. A风格-Aw是实时HD风格传输的内容丢失在欧洲计算机视觉会议论文集,2018年。[40] Patsorn Sangkloy,Jingwan Lu,Chen Fang,Fisher Yu,and James Hays. Scribbler:使用草图和颜色控制深度图像合成。在IEEE计算机视觉和模式识别会议论文集,2017年。[41] 沈发龙,严水城,曾刚。通过Meta网络的神经风格转移。 在IEEE计算 机视 觉和模 式识 别会议 论文 集,2018。[42] Christian Szegedy、Vincent Vanhoucke、Sergey Ioffe、Jon Shlens和Zbigniew Wojna。重新思考盗梦空间-计算机视觉的结构在IEEE计算机视觉和模式识别会议论文集,2016年。[43] Matteo Tomei Lorenzo Baraldi Marcella Cornia 和 RitaCucchiara莫奈在绘画时看到了什么?将艺术品转换为照片般逼真的图像。在2018年欧洲计算机视觉研讨会会议上。[44] Dmitry Ulyanov,Vadim Lebedev,Andrea Vedaldi,andVic- tor S Lempitsky.纹理网络:纹理和风格化图像的前馈在2016年国际机器学习会议上[45] Dmitry Ulyanov , Andrea Vedaldi , and Victor SLempitsky.改进的纹理网络:最大化前馈风格化和纹理合成的质量和多样性。在IEEE计算机视觉和模式识别会议论文集,2017年。[46] 列昂尼德·尼索诺维奇·瓦瑟斯坦。马尔可夫过程在可分解的产品的空间,描述大系统的automata。ProblemyPeredachi Informatsii,5(3):64[47] Ruben Villegas,Jimei Yang
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功