没有合适的资源?快使用搜索试试~ 我知道了~
59430通过图割进行多模态风格转换0Yulun Zhang 1,2, Chen Fang 2,3, Yilin Wang 2, Zhaowen Wang 2, Zhe Lin 2, Yun Fu 1, Jimei Yang 201东北大学,2 Adobe研究,3字节跳动AI实验室0输入AdaIN WCT LST MST(我们的)0输入CNNMRF DFR AvatarNet MST(我们的)0图1:基于Gram矩阵的风格转换方法(AdaIN [11],WCT [24]和LST[23])可能无法区分风格模式(第1行和第2行)。基于补丁交换的方法(CNNMRF [19],DFR [10]和AvatarNet[36])可能会将一些不太理想的风格模式(用红色箭头标记)复制到结果中(第3行和第4行)。我们的MST消除了所有这些限制。0摘要最近神经风格转换方法广泛使用的一个假设是图像风格可以由深度特征的全局统计量(如Gram或协方差矩阵)描述。另一种方法是将风格分解为局部像素或神经补丁。尽管最近取得了一些进展,但大多数现有方法都将风格图像的语义模式统一对待,导致在复杂风格上产生不理想的结果。在本文中,我们引入了一种更灵活和通用的通用风格转换技术:多模态风格转换(MST)。MST明确考虑了内容图像和风格图像中语义模式的匹配。具体而言,将风格图像特征聚类为子风格组件,并在图割形式下与局部内容特征匹配。训练了一个重建网络来转换每个子风格并渲染最终的样式化结果。我们还将MST推广到改进一些现有方法。大量实验证明了MST的卓越效果、鲁棒性和灵活性。01. 引言0图像风格转换是将内容图像渲染为具有风格图像特征的过程。通常,一个勤奋的艺术家要创建具有特定风格的样式化图像需要很长时间。最近,Gatys等人发现深度网络的卷积特征之间的相关性可以表示图像风格,这对于传统的基于补丁的方法来说是困难的,因此引起了很多兴趣。这些神经风格转换方法要么使用迭代优化方案,要么使用前馈网络来合成样式化图像。其中大多数适用于具有预定模型的任意风格转换。这些通用风格转换方法固有地假设风格可以由深度特征的全局统计量(如Gram矩阵及其近似值)表示。虽然这些神经风格转换方法可以很好地保留内容并匹配整体风格59440参考风格图像的全局风格统计量不仅会扭曲局部风格模式,还会产生不理想的视觉伪影。让我们从图1的一些例子开始。在第一行中,风格图像由复杂的纹理和笔触组成,这些方法无法区分它们,并忽略了对内容结构的自适应风格模式匹配。这会在平滑的内容区域引入一些不太理想的笔触,例如天空。在第二行中,风格图像具有清晰的空间模式(例如大面积均匀背景和蓝色/红色手)。AdaIN、WCT和LST无法保持内容结构,并出现了洗脱伪影。这主要是因为统一的风格背景在风格特征的全局统计量中占据了很大比例,导致其在全局统计量中占主导地位。这些观察结果表明,将风格特征表示为Gram或协方差矩阵等单峰分布可能是不足够的。理想的风格表示应该尊重空间分布的风格模式。这些神经基于补丁的算法继承了传统的基于补丁的方法,当内容图像和风格图像具有相似的结构时,它们可以生成视觉上令人满意的结果。然而,这些方法通常采用的贪婪示例匹配会将一些不太理想的风格模式引入输出中。这在图1的底部两个例子中有所说明,其中风格图像中的一些显著模式(如眼睛和嘴唇)被错误地复制到建筑物和景观中。此外,图1的最后一行还说明了这些方法的形状失真问题;例如,女孩的外观发生了变化。这种现象显然限制了这些方法对风格图像的选择。为了解决这些问题,我们提出了多模态风格转换(MST),这是一种更灵活和通用的风格转换方法,它在参数化(基于Gram矩阵)和非参数化(基于补丁)方法之间寻找一个最佳点。具体而言,我们提出了一种基于图的风格匹配机制,将风格表示为多模态分布,以自适应地将风格模式匹配到内容图像中。我们的主要贡献总结如下:0•我们分析了不同风格图像的特征分布(见图2),并提出了更好地模拟风格特征分布的多模态风格表示。这种多模态表示由一系列混合聚类组成,每个聚类代表一种特定的风格模式。它还允许用户混合和匹配不同的风格,以产生多样化的风格化结果。0•我们将风格内容匹配形式化为一个图的能量最小化问题,并通过图割算法解决。针对内容空间配置,风格聚类与内容特征进行了调整。0图2:t-SNE[28]对风格特征的可视化。原始的高维风格特征在VGG-19[37]的Conv 41层中提取,并通过t-SNE降低到3维。我们可以看到特征分布趋向于适应多模态分布而不是单模态分布。0•我们通过与几种最先进的风格转换方法进行广泛比较,展示了MST的强大性能和灵活性。MST的鲁棒性和灵活性在不同的子风格数量和多风格混合中得到展示。MST的一般思想可以扩展到改进其他现有的风格化方法。02.相关工作风格转换。源自非真实渲染[18],图像风格转换与纹理合成[5, 7,6]密切相关。Gatys等人[8]首次将风格转换定义为从预训练的深度神经网络中提取的多级深度特征的匹配,这在各种任务中被广泛使用[20, 21,22]。基于Gatys等人的工作[8],已经提出了许多改进方法。Johnson等人[14]训练了前馈风格特定网络,并使用一个模型生成了一个风格化的结果。Sanakoyeu等人[34]进一步提出了一种适用于高分辨率风格转换的风格感知内容损失。Jing等人[12]提出了一个StrokePyramid模块,以实现具有自适应感受野的可控笔画。然而,这些方法要么耗时,要么必须为新风格重新训练新模型。Chen和Schmidt[4]首次提出了任意风格转换,他们将每个内容块与最相似的风格块进行匹配并交换它们。Luan等人[27]通过向优化函数添加正则化项提出了深度照片风格转换。基于马尔可夫随机场(MRF),Li和Wand[19]提出了CNNMRF来在深度特征空间中强制执行局部模式。Ruder等人[33]通过时间一致性改进了视频风格化。尽管他们的任意风格视觉化很吸引人,但结果并不稳定[33]。最近,Huang等人[11]通过匹配内容和风格特征之间的均值方差统计量提出了实时风格转换。Li等人[24]进一步引入了白化和着色(WCT),通过匹配协方差矩阵来提升风格转换。Li等人通过线性风格转换(LST)[23]提升了风格转换。Gu等人[10]提出了深度特征重排(DFR),它连接了参数化和非参数化方法中使用的局部和全局风格损失。Sheng等人[36]提出了AvatarNet,以实现任意风格的多尺度转换。Shen等人[35]构建了元网络-�������������������������������������������������������������������������������������������������������������������������������������������������������59450图3:我们的最小生成树算法概述。0通过将风格图像作为输入并直接生成相应的图像转换网络来实现的风格化方法。Mechrez等人[29]提出了图像转换的上下文损失。然而,这些方法未能明确处理风格模式,并忽略了自适应地将风格模式与内容语义信息匹配。有关更多神经风格转换的工作,请参阅调查[13]。基于图割的匹配。早期视觉中出现的许多问题可以自然地用能量最小化的术语来表达。例如,大量的计算机视觉问题试图根据噪声测量为像素分配标签。图割是解决这类离散优化问题的强大方法。Greig等人[9]首次成功地使用组合优化中的强大最小割/最大流算法解决图割问题。Roy和Cox[32]首次使用这些技术进行多摄像机立体计算。后来,计算机视觉领域中越来越多的研究使用基于图的能量最小化方法来解决各种应用,包括立体[16],纹理合成[17],图像分割[38],物体识别[1]等。在本文中,我们将内容和风格特征之间的匹配形式化为能量最小化问题。我们通过高效的图割算法近似其全局最小值。据我们所知,我们是第一个将风格匹配形式化为能量最小化问题并通过图割解决的研究。03.提出的方法我们在图3中展示了我们提出的MST的流程。03.1. 多模态风格表示0在先前基于CNN的图像风格转换工作中,有两种主要的风格表示方式。一种是使用整个图像的特征,并假设它们属于相同的分布(例如,AdaIN [11]和WCT[24])。另一种将风格模式视为单独的风格补丁(例如,Deep Feature Reshuf�e[10])。对不同的风格模式进行相同的处理在实际情况下缺乏灵活性,因为风格特征之间存在多个分布。让我们看一下图2中风格特征的t-SNE[28]可视化,其中风格特征被聚类到多个群组中。因此,如果一个簇在特征空间中占主导地位,例如图1的第二个示例,基于Gram矩阵的方法[24,23,11]将无法捕捉到整体风格模式。0图4:带有聚类标签的风格特征的t-SNE[28]可视化。对于每个风格-可视化对,我们设置K =3,并使用相应的聚类标签标记风格特征。0另一方面,基于补丁的方法将每个子补丁视为独立的,直接将多个相同的风格模式复制到结果中。例如,在图1中,风格图像中的眼睛被多次复制,导致不愉快的风格化结果。基于上述观察和分析,我们认为全局深度特征统计和局部神经补丁都不能适合表示复杂的现实世界情况。因此,我们提出了多模态风格表示,这是一种更高效和灵活的表示不同风格模式的方式。对于给定的风格图像Is,我们可以通过预训练的编码器Eθenc(∙)(如VGG-19 [37])提取其深度特征Fs ∈ �C ×HsWs。Hs和Ws是风格特征的高度和宽度。为了在高维特征空间中实现多模态表示,我们将风格模式分割成多个子集。在技术上,我们简单地将K-means应用于将所有风格特征点聚类成K个簇,而不考虑空间风格信息Fs = Fl1s ∪ Fl2s∪ ∙ ∙ ∙ ∪ Flks ∪ ∙ ∙ ∙ ∪ FlKs,(1)0其中Flks ∈ � C ×Nk是第k个簇,其中Nk是特征的数量,并为该簇分配一个标签lk。在聚类空间中,同一簇中的特征具有相似的视觉特性,并且可能来自相同的分布(类似于高斯混合模型[31])。这个过程帮助我们获得风格的多模态表示。我们在图4中可视化了多模态风格表示。对于每个风格图像,我们提取其VGG特征(在VGG-19的Conv 4 1层),并将其聚类为K =3个簇。然后,我们使用聚类标签进行t-SNE[28]可视化。如图4所示,聚类结果很好地匹配了我们对多模态风格表示的假设。附近的特征点倾向于属于同一簇。这些观察结果不仅展示了多模态风格分布,还证明了聚类是建模这种多模态分布的一种合适方式。03.2. 基于图的风格匹配0与风格特征提取类似,我们从内容图像Ic中提取深度内容特征Fc ∈ � C ×HcWc。Hc和Wc是内容特征的高度和宽度。在匹配之前,距离测量是第一步。为了得到一个好的距离度量,我们应该考虑尺度差异。D (Fc,p, Fs,lk) = 1 −T̸59460风格聚类中心0图5:基于图的风格匹配。包含内容特征和风格聚类中心的图的示例。我们将内容特征与像素级的风格聚类进行匹配。0内容和风格特征之间的差异。还应考虑计算复杂性,因为所有内容特征将用于匹配。基于上述分析,我们计算内容特征F c,p ∈ � C × 1和风格聚类中心F s,l k ∈ � C ×1之间的余弦距离。0如下0∥ Fc,p∥∥Fs,lk∥,(2)0其中(∙)T是转置操作,∥∙∥是特征向量的幅度。然后,我们的目标是找到一个标签f,将每个内容特征Fc,p分配给一个样式聚类中心标签fp∈{l1,l2,∙∙∙,lK}。我们将f与内容特征之间的不一致性形式化如下0E data(f)=0c0p = 1 D Fc,p,Fs,fp,(3)0我们将E data命名为数据能量。最小化Edata鼓励f与内容特征一致。然而,这里没有考虑空间内容信息,无法保持不连续性并产生一些不愉快的结构在风格化结果中。相反,我们希望同一内容局部区域中的像素具有相同的标签。换句话说,我们希望f是分段平滑和保持不连续性的。因此,我们进一步引入另一个平滑项Esmooth(f)如下0E smooth(f)0{p,q}∈ΩVp,q(fp,fq),(4)0其中Ω是内容特征的直接交互对的位置集合。Vp,q表示每个位置特征对{p,q}的不同惩罚。这在各种计算机视觉应用中被证明是重要的[2]。此外,之前已经研究了各种形式的能量函数。在这里,我们采用由Potts模型给出的保持不连续性函数Vp,q(fp,fq)=λ∙T(fp≠fq),其中T(∙)为1,如果其参数为真,则为0。λ是一个平滑常数。该模型鼓励标签f为0内容样式结果样式聚类图样式匹配图图6:样式匹配的可视化。在这里,我们将样式特征聚类为K = 2个子集,以便更好地理解。0追求几个地区,其中相同地区的内容特征具有相同的样式聚类标签。通过考虑公式(3)和(4),我们自然地将样式匹配问题形式化为以下能量函数的最小化:E(f)= Edata(f)+ Esmooth(f)。(6)整个能量E(f)不仅衡量f与内容特征之间的不一致性,还衡量f不是分段平滑的程度。然而,即使在最简单的保持不连续性的情况下,这样的能量函数的全局最小化问题也是NP-hard的[2]。为了解决公式(6)中的能量最小化问题,我们建议通过将内容特征视为p-顶点和样式聚类中心视为l-顶点(如图5所示)来构建一个图。然后,能量最小化等于最小割/最大流问题,可以通过图割[2]有效地解决。在找到局部最小值后,整个内容特征可以重新组织如下:Fc = Fl1c∪Fl2c∪∙∙∙∪Flkc∪∙∙∙∪FlKc。(7)0其中Flkc表示与相同样式标签lk匹配的内容特征的子集。我们在图6中展示了基于图的样式匹配的可视化细节。我们从VGG-19的Conv 41层提取样式和内容特征。由于VGG-19中的几个下采样模块,特征的空间分辨率比输入要小得多。我们使用相应的聚类标签标记空间样式特征像素,并获得样式聚类图。根据图6中的样式聚类图,我们发现样式特征聚类捕捉到了样式图像的语义信息。在像素级别的样式匹配之后,我们得到了内容-样式匹配图,该图也反映了语义信息,适应性地匹配内容结构。这种自适应匹配减轻了当样式非常简单或具有大面积统一背景时的冲刷伪影。然后,我们能够在每个内容-样式对组中进行特征转换。03.3. 多模态风格转换 对于每个内容-风格对组 � F l k c , F lk s � ,我们首先通过减去它们的均值向量 μ � F l k c � 和 μ � Fl k s �来使它们居中。然后我们进行特征白化和着色,就像WCT[24]中所使用的那样。 F l k cs = C s W c F l k c + μ � F lk s � ,(8)where Wc = Elk Dlk−ls =+(12)Figure 7: Distance measurement investigation.spectively. Each dataset contains about 80,000 images. Ineach training batch, we randomly crop one pair of contentand style images with the size of 256 × 256 as input. Weimplement our model with TensorFlow and apply Adam op-timizer [15] with learning rate of 10−4.4. DiscussionsTo better position MST among the whole body of styletransfer works, we further discuss and clarify the relation-ship between MST and some representative works.Differences to CNNMRF. CNNMRF [19] extracts apool of neural patches from style images, with which patchmatching is used to match content. MST clusters style fea-tures into multiple sub-sets and matches style cluster centerswith content feature points via graph cuts. CNNMRF usessmoothness prior for reconstruction, while MST uses it forstyle matching only. CNNMRF minimizes energy functionto synthesize the results. MST generates stylization resultswith a decoder.Differences to MT-Net. Both color and luminance aretreated as a mixture of modalities in MT-Net [39]. MSTobtains multimodal representation from style features viaclustering. It should also be noted that MT-Net has to trainnew models for new style images. While, MST is designedfor arbitrary style transfer with a single model.Differences to WCT. In WCT [24], the decoder istrained by using only content data and loss. MST intro-duces additional style images for training. WCT uses multi-ple layers of VGG features and conducts multi-level coarse-to-fine stylization, which costs much more time and some-times distorts structures. While, MST only transfers single-level content and style features. Consequently, even we setK = 1 in MST, we achieve more efficient stylizations.5. ExperimentsWe conduct extensive experiments to validate the contri-butions of each component in our method, the effectivenessof our method, and the flexibility for user control.594702 × E l k c × T 是一个白化矩阵02 × E l k s × T 是一个着色矩阵。 E l k c 和 D l k c是协方差矩阵 F l k c × F l k c × T的特征值和特征向量的对角矩阵。对于风格协方差矩阵 F lk s × F l k s × T ,相应的矩阵是 E l k s 和 D l k s。我们选择WCT来转换特征的原因是它的鲁棒性和效率[24,23]。关于白化和着色的更多细节请参考[24]。特征转换后,我们可能还想像之前的工作(例如AdaIN [11]和WCT[24])那样将转换后的特征与内容特征混合。大多数之前的工作都需要将整个转换后的特征与统一的内容风格权衡进行混合,这样会平等地对待不同的内容部分,不适用于现实世界的情况。相反,我们的多模态风格表示和匹配使得能够自适应地混合特征。也就是说,对于每个内容-风格对组,我们通过 F l k cs = α k F l k cs + (1 − α k ) F l k c进行混合,其中 α k ∈ [0 , 1]是特定标记内容特征的内容-风格权衡。混合所有特征后,我们得到整个转换后的特征 F cs = F l 1 cs ∪ F l 2 cs ∪∙ ∙ ∙ ∪ F l k cs ∪ ∙ ∙ ∙ ∪ F l K cs 。然后将 F cs输入解码器 D θ dec ( ∙ ) 以重构最终输出 I cs 。03.4. 实现细节现在,我们详细说明我们提出的MST的实现细节。与一些之前的工作(例如AdaIN、WCT、DFR)类似,我们将预训练的VGG-19(直到Conv 4 1)[37]作为编码器 E θ enc ( ∙ )。我们通过镜像编码器来获得解码器 D θ dec ( ∙ ),其中池化层被最近邻上采样层替换。为了训练解码器,我们使用预训练的VGG-19 [37]计算感知损失 l total = l c+ γl s ,其中结合了内容损失 l c 和风格损失 l s。我们简单地将权重常数设为 γ = 10 − 2 。受[14, 25,11]中的损失设计启发,我们将内容损失 l c 形式化为 l c= ∥ φ 4 1 ( I s ) − φ 4 1 ( I cs ) ∥ 2 ,其中 φ 4 1 ( ∙ )提取VGG-19中Conv 4 1层的特征。然后我们将风格损失l s 形式化为0i =1( ∥ μ ( φ i 1 ( I c )) − μ ( φ i1 ( I cs )) ∥ 2 )0i =1( ∥ σ ( φ i 1 ( I c )) − σ ( φ i 1( I cs )) ∥ 2 ) ,0输入MST-3(欧氏距离)MST-3(余弦距离)0输入 � � � � � ��� � � � 图8:不连续性保持研究。05.1. 剔除研究0这些优势有助于解释为什么MST生成更清晰的结果(例如第1列,第3列,第5列和第7列),与样式模式进行更多的语义匹配(例如第2列)并减轻淡化伪影(例如第4列)。59480输入AdaIN MST-1 图9:特征转换研究0这样优越的结果证明了我们MST的有效性。01 我们使用了来自https://github.com/jcjohnson/neural-style的代码0我们将每个内容特征与其最相关的样式聚类匹配,并根据内容语义信息自适应地转移特征。0表1:每种方法获得的投票百分比。0方法Gatys AdaIN WCT DFR AvatarNet MST0百分比/% 21.41 11.31 12.67 11.55 9.61 33.450用户研究。为了进一步评估图10中展示的6种方法,我们进行了类似于[24]的用户研究。我们使用了15个内容图像和30个风格图像。对于每种方法,我们使用发布的代码和默认参数生成450个结果。每个用户随机选择20个内容-风格对。对于每个风格-内容对,我们在一个网页上以随机顺序显示6种方法的风格化结果。每个用户被要求投票选择他/她最喜欢的那个。最后,我们从100个用户那里收集了2000个投票,并计算了每种方法获得的投票百分比。结果如表1所示,我们的MST(K =3)获得了总投票的33.45%。这比Gatys等人的结果[8]要高得多,他们的风格化结果通常被认为是高质量的。这个用户研究结果与视觉比较(图10)一致,并进一步证明了我们的MST的卓越性能。0第五个内容来自https://www.mordeo.org59490输入Gatys等人AdaFR0AvatarNet0MST0CNNMRF0LST0图10:视觉比较。MST(K = 3)和所有比较的方法都使用默认参数。0表2:运行时间(s)比较。0方法Gatys AdaIN WCT DFR AvatarNet0时间(s)116.46 0.09 0.92 54.32 0.330方法MST-1 MST-2 MST-3 MST-4 MST-50时间(s)0.20 1.10 1.40 1.97 2.270效率。我们进一步将我们的方法与之前的方法[8, 11, 24, 10,36]进行比较。表2给出了每种方法在512×512大小的100个图像对上的平均时间。所有方法都在一台配备Inteli7-6850K 3.6 GHz CPU和Titan XpGPU的PC上进行测试。我们的MST在不同的K下的运行速度相对较快,比其他方法更快。0Gatys等人[8]和DFR[10]的方法的运行时间比较。即使在CPU上使用SVD,MST-1的速度也比AvatarNet [36]和WCT[24]更快。值得注意的是,WCT进行多层次的风格化,比MST-1花费更多的时间。MST-K(K>1)随着K的增大而变得更慢。这主要是因为我们的聚类操作在CPU中执行,并且消耗更多的时间。另一方面,尽管MST的K越大,消耗的时间越多,但其风格化结果将非常稳健。因此,一般来说,我们不必选择非常大的K,我们将在后面更详细地介绍其效果。59500风格0内容0MST-1 MST-2 MST-3 MST-4 MST-50图11:风格聚类数量调查。相同的内容图像与复杂和简单的风格图像。0风格内容AdaIN WCT MST 图12:多风格转换。MST将不同风格图像的模式区分对待,并进行自适应转换。05.3.风格聚类数量我们调查了风格聚类数量K对风格化的影响,如图11所示。当K =1时,我们的MST通过平等地采用整个风格特征进行风格转换,导致非常复杂(第一行)或简单(第二行)的风格化。这些结果与内容结构不一致,缺乏灵活性,给用户带来不愉快的感觉。相反,我们可以使用不同的K生成多个结果。当我们使用多模态风格表示扩大K时,风格化结果会丢弃不必要的风格模式(第一行),或引入更多匹配的风格模式(第二行)。风格化结果与内容结构更加匹配。这主要是因为多模态风格表示允许对风格模式进行独特和自适应的处理。更重要的是,MST使用不同的K重构了几个风格化结果,为用户提供了多个选择。5.4.自适应多风格转换大多数先前的风格转换方法都可以进行风格插值,将内容图像与一组加权风格化图像混合。然而,我们不固定每个风格图像的权重,而是自适应地将风格模式插值到内容中。如图12所示,内容图像3同时由两个风格图像进行风格化。我们使用AdaIN[11]和WCT[24]作为参考(因为这不是严格公平的比较),为每个风格图像设置相等的权重。在图12中,AdaIN和WCT存在洗白伪影。而我们的MST很好地保留了内容结构。MST将更多的人像发型风格转移到猫的身体上,将更多的云朵风格转移到猫的眼睛和绿叶上。我们的自适应多风格转换也类似于先前方法中的空间控制[11,24]。但是,它们需要额外的手动设计的蒙版作为输入,消耗更多的用户努力。相反,MST自动允许内容和风格特征之间的良好匹配。03 来自 https://wallpaperstream.com0输入 AdaIN AdaIN + MST-2 AdaIN + MST-3 图13:MST对AdaIN [ 11 ]的泛化性。05.5. MST的泛化性我们进一步研究了我们提出的MST对一些现有风格转换方法的泛化性。这里,我们以流行的AdaIN [ 11]为例。我们将风格聚类和基于图的风格匹配应用于AdaIN,然后将其表示为“AdaIN + MST- K”。如图所示,AdaIn可能通过在风格和内容特征之间切换全局均值和标准差来扭曲一些内容结构(例如嘴巴)。当我们将风格特征聚类为K个子集,并通过图割将它们与内容特征匹配时,这种现象可以明显减轻(参见图中的第3列和第4列)。根据这些观察和分析,我们可以得出结论,我们的MST可以泛化,并将有益于其他一些现有的风格转换方法。06. 结论我们提出了多模态风格表示来建模复杂的风格分布。然后,我们将风格匹配问题形式化为能量最小化问题,并使用我们提出的基于图的风格匹配方法来解决它。结果,我们提出了多模态风格转换来以多模态方式转换特征。我们将风格模式区分对待,并考虑语义内容结构及其与风格模式的匹配。我们还研究了MST如何泛化到一些现有的风格转换方法。我们进行了大量实验证明了MST的有效性、鲁棒性和灵活性。致谢:本工作得到Adobe Research的资助。559510参考文献0[1] Yuri Boykov and Daniel P Huttenlocher.用于目标识别的新贝叶斯框架. 在CVPR , 1999. 30[2] Yuri Boykov, Olga Veksler, and Ramin Zabih.快速近似能量最小化的图割方法. 在TPAMI , 2001. 40[3] Dongdong Chen, Lu Yuan, Jing Liao, Nenghai Yu, andGang Hua. 立体感知的神经风格转换. 在CVPR , 2018. 10[4] Tian Qi Chen and Mark Schmidt.任意风格的快速基于补丁的风格转换. 在NIPSW , 2016. 1 , 20[5] Alexei A Efros and Thomas K Leung.非参数采样的纹理合成. 在ICCV , 1999. 20[6] Michael Elad and Peyman Milanfar.通过纹理合成进行风格转换. 在TIP , 2017. 20[7] Leon Gatys, Alexander S Ecker, and Matthias Bethge.使用卷积神经网络的纹理合成. 在NIPS , 2015. 20[8] Leon A Gatys, Alexander S Ecker, and Matthias Bethge.使用卷积神经网络的图像风格转换. 在CVPR , 2016. 1 , 2 , 6 , 70[9] Dorothy M Greig, Bruce T Porteous, and Allan H Seheult.用于二值图像的最大后验估计.皇家统计学会B系列(方法论)杂志,页271-279,1989. 30[10] Shuyang Gu, Congliang Chen, Jing Liao, and Lu Yuan.基于深度特征重排的任意风格转换. 在CVPR , 2018. 1 , 2 , 3 , 6 , 70[11] Xun Huang and Serge J Belongie.实时任意风格转换与自适应实例归一化. 在ICCV , 2017. 1 , 2 , 3 , 5 , 6 , 7 , 80[12] Yongcheng Jing, Yang Liu, Yezhou Yang, Zunlei Feng,Yizhou Yu, Dacheng Tao, and Mingli Song.自适应感受野的可控快速风格转换. 在ECCV , 2018. 20[13] Yongcheng Jing, Yezhou Yang, Zunlei Feng, Jingwen Ye,Yizhou Yu, and Mingli Song. 神经风格转换:综述.arXiv预印本arXiv:1705.04058 , 2017. 30[14] Justin Johnson, Alexandre Alahi, and Li Fei-Fei.实时风格转换和超分辨率的感知损失. 在ECCV , 2016. 1 , 2 , 50[15] Diederik P Kingma和Jimmy Ba. Adam: 一种随机优化方法.在ICLR,2015年. 50[16] Vladimir Kolmogorov和Ramin Zabih.通过图割进行多相机场景重建. 在ECCV,2002年. 30[17] Vivek Kwatra, Arno Sch¨odl, Irfan Essa, Greg Turk和AaronBobick. 图割纹理: 使用图割进行图像和视频合成. TOG,2003年. 30[18] Jan Eric Kyprianidis, John Collomosse, TinghuaiWang和Tobias Isenberg. 艺术风格化技术的最新发展:对图像和视频的分类. TVCG,2013年. 20[19] Chuan Li和Michael Wand.结合马尔可夫随机场和卷积神经网络进行图像合成.在CVPR,2016年. 1, 2, 5, 60[20] Kai Li, Martin Renqiang Min和Yun Fu. 重新思考零样式学习:一种条件视觉分类的视角. 在ICCV,2019年. 20[21] Kunpeng Li, Ziyan Wu, Kuan-Chuan Peng, Jan Ernst和YunFu. 引导注意力推理网络.IEEE模式分析与机器智能交易(TPAMI),2019年. 20[22] Kunpeng Li, Yulun Zhang, Kai Li, Yuanyuan Li和Yun Fu.图像-文本匹配的视觉语义推理. 在ICCV,2019年. 20[23] Xueting Li, Sifei Liu, Jan Kautz和Ming-Hsuan Yang.学习线性变换以实现快速任意样式转换. 在CVPR,2019年. 1, 2, 3,5, 60[24] Yijun Li, Chen Fang, Jimei Yang, Zhaowen Wang, XinLu和Ming-Hsuan Yang. 通过特征变换实现通用样式转换.在NIPS,2017年. 1, 2, 3, 4, 5, 6, 7, 80[25] Yanghao Li, Naiyan Wang, Jiaying Liu和Xiaodi Hou.解密神经样式转换. arXiv预印本arXiv:1701.01036,2017年. 50[26] Tsung-Yi Lin, Michael Maire, Serge Belongie, James Hays,Pietro Perona, Deva Ramanan, Piotr Doll´ar和C LawrenceZitnick. Microsoft coco: 上下文中的常见对象. 在ECCV,2014年.50[27] Fujun Luan, Sylvain Paris, Eli Shechtman和Kavita Bala.深度照片样式转换. 在CVPR,2017年. 20[28] Laurens van der Maaten和Geoffrey Hinton.使用t-sne可视化数据. JMLR,2008年. 2, 30[29] Roey Mechrez, Itamar Talmi和Lihi Zelnik-Manor.非对齐数据的图像转换的上下文损失. 在ECCV,2018年. 30[30] K Nichol. 画家按数字,wikiart.https://www.kaggle.com/c/painter-by-numbers,2016年.0[31] Douglas Reynolds. 高斯混合模型.生物特征学百科全书,2015年. 30[32] S´ebastien Roy和Ingemar J Cox.n相机立体对应问题的最大流公式. 在ICCV,1998年. 30[33] Manuel Ruder, Alexey Dosovitskiy和Thomas Brox.视频的艺术风格转换. 在德国模式识别会议上,2016年. 20[34] Artsiom Sanakoyeu, Dmytro
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- IEEE 14总线系统Simulink模型开发指南与案例研究
- STLinkV2.J16.S4固件更新与应用指南
- Java并发处理的实用示例分析
- Linux下简化部署与日志查看的Shell脚本工具
- Maven增量编译技术详解及应用示例
- MyEclipse 2021.5.24a最新版本发布
- Indore探索前端代码库使用指南与开发环境搭建
- 电子技术基础数字部分PPT课件第六版康华光
- MySQL 8.0.25版本可视化安装包详细介绍
- 易语言实现主流搜索引擎快速集成
- 使用asyncio-sse包装器实现服务器事件推送简易指南
- Java高级开发工程师面试要点总结
- R语言项目ClearningData-Proj1的数据处理
- VFP成本费用计算系统源码及论文全面解析
- Qt5与C++打造书籍管理系统教程
- React 应用入门:开发、测试及生产部署教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功