自适应注意力规范化在神经风格迁移中的应用

101 浏览量更新于2023-10-15 收藏 2.32MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6649AdaAttN：重新审视任意神经风格迁移中的注意机制Songhua Liu1，2，*，Tianwei Lin1，†，Dongliang He1，Fu Li1，MeilingWang1，Xin Li1，Zhengxing Sun2，†，Qian Li3，Errui Ding11百度公司计算机视觉技术部（VIS）2南京大学，3国防科技大学{刘颂华，林天伟01，何东亮01，李福，王美玲03，李新41，丁二瑞}@ baidu.com，2songhua. smail.nju.edu.cn，szx@nju.edu.cn，3liqian@nudt.edu.cn摘要快速任意神经风格迁移由于其灵活性而引起了学术界、工业界和艺术界的广泛关注。现有的解决方案要么在不考虑特征分布的情况下将深度风格特征融合到深度内容特征中，要么根据风格自适应地归一化深度内容特征，使得它们的全局统计数据匹配。虽然有效，留下浅的功能未探索，并没有本地考虑功能统计学，他们很容易不自然的输出与不愉快的本地- cal失真。为了缓解这个问题，在本文中，我们提出了一种新的注意力和规范化模块，命名为自适应AttentionN规范化（AdaAttN），自适应地执行每点的基础上注意规范化。具体地说，空间注意得分是从内容和风格图像的浅层和深层特征中学习的。然后，通过将风格特征点视为所有风格特征点的注意力加权输出的分布来计算每点加权统计量最后，内容特征被归一化，使得它们展示与计算的每点加权样式特征统计相同的局部特征统计。此外，基于AdaAttN提出了一种新的局部特征丢失算法，以提高局部视觉质量 . 我们还扩展了AdaAttN，以便在稍做修改的情况下为视频样式传输做好准备。实验证明，我们的方法实现了国家的最先进的任意图像 / 视频风格的传输。代码和型号可在https://github.com/wzmsltw/AdaAttN上获得。1. 介绍给定内容图像Ic和样式图像Is，人工样式转移旨在将Is的样式模式应用到Ic上，同时保留Ic的内容结构。*这项工作是在Songhua Liu在百度VIS实习时完成的。†通讯作者。图1.我们的AdaAttN方法为任意图像/视频风格生成的结果。右侧的动画剪辑可以在我们的补充材料中找到其广泛用于计算机辅助艺术生成。Gatys等人的开创性工作。[9]提出了一种图像优化方法，该方法迭代地最小化预先训练的深度神经网络的特征空间中的联合内容和风格损失这种耗时的优化过程促使研究人员探索更有效的方法。Johnson等人[18]可替换地考虑使用前馈网络来直接生成渲染的图像并启用实时样式传输。由于学习的模型只能用于一种特定的风格，因此该方法及其后续工作[40，34，35，21，27，39，16，20]被归类为每风格每模型方法[17]。在文献中，存在每模型多样式解决方案[7，2，23，44]和Arbitrary-Style-Per-Model[14，3，22，28，15，24，6，5，43，32，42，11]方法。在后一种情况下，模型可以接受任何样式图像作为输入，并且一旦模型被训练，就在单个前向传递中产生风格化的结果因此，它是最灵活的，并吸引了越来越多的学术界，工业界和艺术界的关注。然而，任意风格转换问题还远远没有解决。实现灵活性牺牲了任意样式传递网络的局部样式模式建模能力。例如，开创性工作[14]提出了一种简单而有效的方法AdaIN，其将样式图像的全局均值和方差转移到内容图像中。16650特征空间，支持任意输入风格的图像。由于特征的均值和方差是全局计算的，因此局部细节和逐点模式在很大程度上被忽略，因此局部风格化性能在很大程度上被降级[28]。在[5，22，15，24，10]中也存在灵活性和能力之间的类似权衡，其中内容图像的所有局部特征点由基于样式图像的相同变换函数处理为了增强任意风格转换模型的局部性意识，最近，在多个工作中采用了注意机制[28，6，43]。他们的共同直觉是，模型应该更多地关注样式图像中的那些特征相似区域，以样式化内容图像区域。这种注意机制被证明是有效的，以产生更多的本地风格细节在任意的风格转移。然而，在提高性能的同时，它并没有完全解决这个问题，并且局部失真仍然存在。揭示注意机制所面临的上述困境的原因并不难。深入研究现有的基于注意力的任意风格转换解决方案的细节，可以很容易地发现：1）所设计的注意力机制通常基于更高抽象层次上的深度CNN特征，而忽略了低层次的细节; 2）注意力分数通常用于重新加权风格图像的特征图，并且重新加权的风格特征被简单地融合到内容特征中以用于解码。基于深度CNN特征的注意策略使浅网络层的图像的低级模式未被探索。因此，注意力分数可以稍微集中在低级纹理上，并且由高级语义主导。同时，如在SANet [28]（图3（b））中所做的，风格特征的空间重新加权，随后是重新加权的风格特征和内容特征的融合，在不考虑特征分布的情况下工作。为此，我们试图解决这些问题，并在风格模式转换和内容结构保持之间取得更好的平衡。出于上述分析的经验教训，我们提出了一种新的atten- tion和规范化模块命名为AdaptiveAttentionNnormalization（AdaAttN）的任意风格转移。它可以自适应地执行每点的基础上，SIS特征分布对齐的关注归一化更详细地说，空间注意力得分是从内容和风格图像的然后，通过将风格特征点视为所有空间特征点的注意力加权输出的分布来计算每点最后，内容特征被归一化，使得其局部特征统计与每点加权样式特征统计相同。以这种方式，注意力模块考虑样式图像以及内容图像的浅层和深层CNN特征。同时，对每点特征统计进行实现了从内容特征到调制风格特征的转换。在AdaAttN模块的基础上，提出了一种新的局部特征损失优化目标和一种新的任意图像风格的传输流水线。我们的贡献可归纳如下：• 我们介绍了一种新的AdaAttN模块的任意风格的传输。它考虑了浅层和深层特征用于注意力分数计算，并适当地归一化内容特征，使得特征统计数据与基于每个点的风格特征的注意力加权均值和方差图很好地对齐。• 提出了一种新的局部特征损失优化目标。它有助于模型训练，并通过正则化生成的图像的局部特征，提高任意风格的传输质量。• 与其他国家的最先进的方法进行了大量的实验和比较，以证明我们所提出的方法的有效性。• 通过简单地引入基于余弦距离的注意力和图像相似性损失，进一步扩展我们的视频风格转移模型可以得到稳定和吸引人的结果。2. 相关作品2.1. 任意样式传输最近的任意风格转移方法可分为两类：基于全局变换和基于局部变换的方法。前一类的共同思想是全局地应用特征修改。WCT [24]通过两个转换步骤（包括白化和着色）实现了这一点。Huang等人.[14]提出了AdaIN，其自适应地应用每个样式特征的均值和标准差来移位和重新缩放对应的归一化内容特征，使得内容特征和样式特征共享相同的分布。Jing等[15]通过动态实例归一化扩展了该方法，其中中间卷积块的权重由另一个网络生成，该网络将样式图像作为输入。Li等[22]提出根据内容和风格特征生成线性变换。此外，Denget al. [5]得到了具有多通道相关性的变换函数虽然这些方法完成了整体任意样式转换任务并在该领域取得了很大进展，但局部样式转换性能通常不令人满意，因为它们所利用的全局转换难以照顾详细的局部信息。对于后者，Chenet al. [3]提出了一种样式交换方法，这是一种基于补丁的样式转换方法，依赖于内容和样式补丁之间的相似性。[11]是另一种基于补丁的方法，考虑匹配6651LLF∈**R∗⊕∗∗∗∗CS CSCS全局统计和局部补丁。Avatar-Net [32]进一步提出了一个多尺度框架，结合了样式交换和AdaIN函数的思想。近年来，注意力机制由于其良好的能力建模风格和内容图像的局部特征之间的细粒度在该例程中，Park等人[28]提出了风格注意网络（SANet）来匹配内容和风格特征。Yao等人[43]考虑了具有这种注意力框架的不同类型的中风。Deng等[6]提出了一个多适应模块，该模块对内容特征应用逐点注意，对风格特征应用逐通道注意。这些方法采用的常见做法是仅在深度CNN特征上构建注意力机制而不考虑浅层特征，并且简单地混合内容特征和重新加权的风格特征。因此，其倾向于极大地扭曲原始内容结构并且导致对于人眼而言不期望的效果。在本文中，我们的目标是探索一个更好的平衡之间的风格模式转移和内容结构保持。2.2. 视频风格转换在视频帧序列上直接应用图像风格转换技术通常会导致由时间不一致性引起的闪烁效果。于是，很多作品加对原始图像样式的光流一致性约束反向传播图2.完整框架的概述，其中三个AdaAttN模块和解码器是可训练的。lf和gs分别是局部特征损失和全局样式损失VGG-19的真实性。为了充分利用浅层次和深层次的特征，我们采用多级策略，分别在VGG的ReLU- 3 1、ReLU-4 1和ReLU-5 1层上集成三个AdaAttN模块，如图2所示。我们将VGG中的层ReLU-xl的提取特征表示为XC×HW当它需要图像I*作为输入，以及c*此处的c或s代表-内容和风格特征。为了充分利用低级模式，我们进一步将当前层的特征与其先前层的下采样特征连接为：F1：x=Dx（F1）Dx（F2）···Fx，（1）转移溶液，例如，[30]用于基于优化的视频样式传输，[31，1，12，13，8]用于每样式每模型方法，[37，38]对于任意样式的每个模型方法，和[36，4，26]用于图像到图像转换框架。光流约束提高了视频风格传输的稳定性然而，它严重依赖于具有高精度的预提取的光学流场来执行基于流的计算。其中Dx代表将输入特征下采样为相同形状的Fx的双线性插值层，这里是指沿着chann*el的维度然后，我们可以将层1处的AdaAttN模块的嵌入特征表示为：Fx=AdaAttN（Fx，Fx，F1：x，F1：x），（2）公司简介翘曲也有一些工作，解决稳定性问题的方法，而不是光流扭曲。[22，5]利用变换模型的线性来保证特征空间上的帧间一致性。Wu等[41]提出了一种基于SANet的方法，该方法在SSIM一致性约束的帮助下使当前帧聚焦于前一帧的相似区域与这些方法不同，在这项工作中，我们添加了一种新的基于注意力机制的图像相似性损失，以克服闪烁伪影，并且在没有先决条件的光流的情况下实现了相当甚至更好的稳定性。3. 方法3.1. 总体框架所提出的网络采用风格图像Is和内容图像Ic来合成风格化图像Ics。在我们提出的模型中，我们采用了一个预训练的VGG-19网络[33] 作为编码器来提取多尺度特征图。[14][15][16][17][ 18][19][其中Fc、Fs和Fcs分别是内容、样式和嵌入特征。利用多级嵌入特征，我们可以用解码器合成风格化的图像Ics为：I cs= Dec（F3，F4，F5）.（三）3.2. 自适应注意力归一化特征转换模块是任意风格转换模型的关键部分。图3展示了我们的模块与其他框架的比较。开创性的AdaIN [14]只考虑整体风格分布，内容特征被操纵，使得其特征分布与风格特征的分布全局一致。通过考虑局部样式模式，SANet [28]从样式和内容特征图计算注意力图，然后用注意力图调制样式特征，以将注意力输出融合到内容特征中SANet在局部风格化中执行。然而，它缺乏低级别的匹配和局部特征分布对齐。受AdaIN经验教训的启发3_1AdaAttN损失函数IC第第AdaAttNICS$L&IS可训练参数$g（AdaAttNVGGVGG解码器6652%（Fx$((Fx）$FxC$规范FF·∈∈SS×个⊗SCCSCXXCCX$x$(a) AdaIN（b）SANet（c）AdaAttN图3.（a）AdaIN[14]模块的结构;（b）SANet[28]模块的结构;（c）我们提出的AdaAttN的结构module.这里的Norm表示均值-方差逐通道归一化。和SANet的基础上，我们提出了自适应注意力归一化（AdaAttN）模块，该模块通过同时考虑低层和高层特征，利用注意力机制自适应地传递特征分布。如图3（c）所示，AdaAttN分三步工作（1）由浅入深计算包含内容特征和风格特征的注意力图：（2）计算风格特征的加权均值和标准方差图;（3）自适应地归一化内容特征以用于每点特征分布对准。注意力地图生成。在任意风格转换方法中，注意机制被用来衡量内容和风格特征之间的相似性。与以往只使用较深层次特征的方法不同，本文同时使用了内容和风格特征的低层和高层。为了计算层X的注意力图A，我们将Q（查询）、K（键）和V（值）公式化为：Q=f（Norm（F1：x）），注意加权标准方差分别。因此，注意力加权平均值M ∈ R C×HcWc变为：M=VA，（6）其中A R HcWc×HsWs和V R C×HsWs。由于变量的方差等于其平方的期望值减去其期望值的平方，我们可以获得注意力加权标准差S ∈ R C×HcWc：S=.（V·V）A−M·M，（7）哪里表示元素乘积。自适应归一化。最后，对于归一化的内容特征图的每个位置和每个通道，使用S中的对应尺度和M中的移位来生成变换的特征图：Fx=S·Norm（Fx）+M。（八）K=g（Norm（F1：x）），V=h（Fx），（四）简而言之，AdaAttN通过生成注意力加权均值和方差图来执行特征统计其中f、g和h是11个可学习的卷积层，Norm在此表示如在实例归一化中使用的逐通道均值-方差归一化。注意力图A可以计算为：A=Softmax（QK），（5）其中表示矩阵乘法。加权均值和标准方差图。将注意力得分矩阵A应用于将特征Fx样式为SANet[28] does可以被认为是通过对所有样式特征点进行加权求和来计算每个目标样式特征点。在本文中，我们解释这个过程，作为所有加权的风格特征点的分布，通过注意力输出查看目标风格特征点。然后从这个角度，我们可以计算每个分布的统计数据我们把这种统计称为注意力加权平均值和如图3所示，与AdaIN相比，AdaAttN考虑的是逐点统计数据，而不是全局统计数据。 AdaAttN比AdaIN更一般。对于每个i，j，如果集合A i，j=1/（Hs Ws），AdaAttN可以专用于AdaIN。Com-与SANet相比，注意机制被用于计算而不是直接生成传递特征用于进一步融合。3.3. 损失函数我们的总体损失函数是全局风格损失（Lgs）和局部特征损失（Llf）的加权总和：L=λgLgs+λlLlf，（9）其中λg和λl是控制其对应损失项的权重的超参数。各亏softmaxFxC$F）：X-softmaxCF）：XKFxC$$/+Fx$/2+2sqrt0FxC规范1x1转换1x1转换1x1转换规范规范1x1转换1x1 conv1x1 conv1x1 conv规范规范FF6653损期的详情将于本节余下部分解释。66545其中AdaAttN*作为监督信号，应2S2图4.与其他国家的最先进的方法在任意图像风格转移的比较首先，在[14]和许多其他工作之后，在VGG特征空间中生成图像和样式图像之间的平均距离μ和标准差σ被惩罚。用于保证全局风格化效果（Lgs）：5风格化图像的特征图与AdaAttN函数的变换结果一致：Σ....Llf=.. E x（I cs）− AdaAttN *（F x，F x，F1：x，F1：x）..、01 -02||µ（Ex（Ic s））−µ（F x）||x=3c scS2（十一）+的||σ（E x（I cs））− σ（F x）||）的情况下，是确定性的。因此，我们认为无参数ver-S没有三个可学习的1×1卷积的AdaAttN的版本-其中E（）表示VGG编码器的特征及其子特征。下标x表示层索引。所提出的新的局部特征损失Llf约束解内核（f、g和h）。局部特征丢失使得与[14，28]中使用的传统内容损失项相比，模型为局部区域生成更好的风格化输出。x=2（十）66554..F.Σc1， c2i，j，x-Σcs1，cs2i，j，x.u vJ我.Jc*uvi、j、图5.损失函数和浅部特征的烧蚀研究放大以获得更好的视野。方法推断时间（秒/图像）256×256 512×256 512 ×512阿凡达网络0.1240.1760.311Adain0.0380.0490.066线性0.0280.0360.049MCCNet0.0240.0400.057桅杆0.0460.0730.115SANet0.0430.0640.081我们0.0510.0660.112图6.用户研究结果。3.4. 视频风格转换扩展表1.不同分辨率下的运行速度比较两个内容图像c1、c2之间的相关内容：Σ1Σ。XXDi，j，xDi，j，x能够生成更自然的风格化结果，消除了许多局部失真，因此具有很大的潜力x=2Nc1Nc2i，j，xi， j.iDc1，c2Fx，i· Fx，jiDcs1、cs2。用于视频风格传输。经过两个小改动，我们的模型可以扩展到视频风格传输。首先，我们注意到等式中的Softmax5其中xDu，v=1−.. x，i.. ×.. F x，j..（十三）指数计算导致注意力得分具有很强的排他性，且主要集中在局部模式上，对稳定性有负面影响。用于视频Nc是层ReLU-x1的内容特征图Fx中的空间维度的大小，Fx ，i表示Fx的第i个位置的特征向量，并且Di，j，x测量u，vFx，i和Fx，j。在每次训练迭代中，两个输入视频风格转换，或者，我们考虑余弦相似度u v对于注意力图计算：对帧进行采样以允许这种丢失。直观地说，这种跨图像相似性损失要求两个内容图像的风格化结果共享相似的局部相似性模式Si，jAi，j=ΣS，S =Qi·Kj+1，||×个||K||K||（十二）两个原始图像。因此，它确保了在视频风格传递和视频风格转换中的帧间关系的意识。有助于稳定的结果。其中余弦相似性导致比Softmax更平坦的注意力分数分布。因此，局部特征统计将更稳定，并且局部风格模式将不会被过度强调，从而更好地保证一致性。其次，基于注意机制，我们设计了一个新的跨图像相似性损失项L来正则化、L=与其他基于注意力的方法相比，我们的方法i、j66564. 实验4.1. 实现细节我们用MS-COCO[25]作为我们的内容图像集，WikiArt[29]作为我们的样式图像集来训练我们的任意样式传输模型。λg、λl和λis（用于视频样式传输6657LL×个×个×× ×内容样式SANet线性MCCNet我们的我们的+因为我们的+是我们的+因为我们的+是图7.不同方法或设置对视频风格迁移的定性比较第一行显示不同的方法或设置。第二行示出了对应的光流误差图。仅）分别设置为10、3和100 亚当[19]，α，β1和β2为0。0001，0。9和0。999，用作解算器。在训练阶段，所有的图像加载512 512分辨率和随机裁剪到256256增强。在推理时，我们的模型可以应用于任何分辨率的图像在本节中，512 512和512 256分辨率分别用于图像和视频训练在单个Nvidia Tesla P40 GPU上持续50K次迭代，批量大小为图像8，视频4详细网络配置请参阅补充文件。4.2. 与最新方法的定性比较。如图4所示，我们将我们的方法与六种最先进的任意风格传输方法进行了比较，包括AdaIN [14]，SANet [28]，MAST [5]，Linear [22]，MCCNet [5]和Avatar-Net [32]。AdaIN [14]直接全局调整内容特征的二阶统计，我们可以看到样式模式被转移，严重的内容细节丢失（第1、5和6行）。Avatar-Net [32]利用AdaIN进行多尺度传输，并引入具有补丁匹配策略的样式装饰器，这导致具有明显斑块（第1、第6和第8行）的模糊风格化结果SANet [28]和MAST[5]采用注意机制，将风格特征注意传递到深层的内容特征。这将导致损坏的内容结构（第3、4和6行）和脏纹理（第1、2和8行）。一些样式补丁甚至不正确地直接转移到内容图像中（第4、第8行）。Linear [22]和MCCNet [5]通过以下方式修改特征线性投影和每通道相关性，两者都导致相对干净的风格化输出。然而，样式图像的纹理图案没有被自适应地捕获如第3列所示，AdaAttN可以自适应地将样式模式适当地转移到内容图像的每个位置，这归因于对每个点的新颖的关注归一化。结果表明，AdaAttN在风格转换和内容结构保持之间取得了较好的平衡。用户研究。在SANet之后，随机挑选15个内容图像和15个样式图像以形成总共225个图像对。然后我们随机抽取20个内容风格对，并通过不同的方法合成风格化的图像。结果以随机顺序并排呈现，我们要求受试者从三个视图中选择他们最喜欢的一个：内容保存、风格化程度和总体偏好。我们从100个用户中为每个视图收集2000张选票，并以条形图的形式显示每个方法的票数。图6中的结果表明，我们的程式化结果比竞争对手更具吸引力。效率分析。我们在表1中展示了AdaAttN和SOTA前馈方法的运行时间性能。所有实验均使用单个Nvidia P40GPU进行。虽然使用了多深度特征层（从1 1到5 1），但我们的方法仍然可以在256px下实现20FPS，这与SOTA方法如SANet相当[28]和线性[22]。因此，我们提出的AdaAttN可以实用地实时合成风格化图像。6658×个LLLLLL图8.样式插值。方法样式1样式2样式3样式4平均值我们的+Cos + L是表2. SOTA方法和不同AdaAttN变体的光流误差（10−2较小的值意味着更好的时间一致性。因为这里代表余弦相似度的注意力得分。使用20种样式计算平均值。4.3. 消融研究损失函数。如图5所示，我们呈现消融研究结果以验证用于训练AdaAttN的每个损失项的有效性。（1）为了验证我们提出的局部特征损失lf的有效性，我们用约束Ic和Ic之间的特征距离并且用于许多风格转换方法的香草L2内容损失c来代替它[14，6，28]。如第4列所示，它们的视觉质量明显比全模差这表明，与内容丢失相比，我们提出的局部特征丢失可以更好地考虑样式模式，同时保留内容结构。（2）去除全局风格损失gs，仅用lf训练模型。如第5列所示，风格模式也被弱迁移而没有风格丢失，这表明lf可以在一定程度上迫使网络学习风格迁移。然而，整体色彩饱和度降低，表明全局样式损失是必要的。低级特征。为了验证在AdaAttN中使用的浅特征的有效性，我们通过将AdaAttN的Q和K从F1：x替换到Fx来去除浅特征。可以观察到一些局部内容损坏和脏纹理（图5的最后一列）。我们的AdaAttN可以有效地利用浅特征来生成令人愉快的风格化结果。4.4. 视频风格转换对于视频风格化，我们将我们的方法与SOTA方法SANet，Linear和MCCNet进行比较，其中光流不用于稳定。为了验证我们所提出的用于视频风格化的方法的有效性，我们还提供了添加Cos和is的消融结果，其中Cos表示余弦相似性的注意力得分（等式2）。第12段）。图7中的定性结果和Ta中的定量结果图9.多样式传输的结果。布莱。2两者都表明：（1）我们的方法比基于注意力的方法SANet更稳定;（2）用基于余弦距离的注意力替换Softmax激活可以显著提高时间一致性;（3）通过我们提出的修改，AdaAttN比线性和MC-CNet更稳定，它们被提出用于视频风格化。4.5. 多风格转换在之前的工作[28，6]之后，我们探索通过对不同风格的平均值和标准方差图进行平均来内插几种风格图像，然后使用组合的平均值和方差来调制用于解码的内容特征（图8）。除了样式插值之外，我们还可以通过将多个样式图像连接到一个图像中并将其馈送到AdaAttN中来实现多样式传输（图9）。从这些结果中，我们可以看到AdaAttN可以灵活地支持各种运行时控件，并具有合理的结果。5. 结论在本文中，我们提出了一种新的AdaAttN模块的任意风格传输。AdaAttN利用风格特征的每点注意力加权均值和方差，通过调制进行特征统计传递。注意力权重从低到高的风格和内容特征生成。经过轻微的修改，我们的模型也可以用于视频风格传输。实验结果表明，该方法可以生成高质量的风格化结果的图像和视频。AdaAttN具有改进其他图像处理或翻译任务的潜力，我们将在未来的工作中探索这一点。SANet8.578.9310.3 4.667.76线性4.415.105.24 2.674.42MCCNet4.634.845.48 2.354.45我们5.655.776.41 3.395.52我们的+我们的4.094.595.15 2.264.09我们的+L是5.513.705.314.466.26 3.314.49 2.145.51三点九一6659引用[1] 陈东东，廖静，卢远，余能海，华刚。连贯的在线视频风格转移。在IEEE计算机视觉国际会议论文集，第1105-1114页，2017年。三个[2] 陈冬冬、卢远、廖静、余能海、华刚。Stylebank：神经图像风格传递的显式表示。在IEEE计算机视觉和模式识别会议论文集，第1897-1906页一个[3] 田启晨和马克施密特。快速的基于补丁的任意风格转移。arXiv预印本arXiv：1612.04337，2016。一、二[4] 杨晨，潘英伟，姚婷，田心梅，桃梅。摩赛可-甘：未配对的视频到视频转换。在第27届ACM国际多媒体会议论文集，第647-655页，2019年。三个[5] Yingying Deng ， Fan Tang ， Weiming Dong ， HaibinHuang，Chongyang Ma，and Changsheng Xu. 通过多通道相关实现任意视频风格传输。arXiv预印本arXiv：2009.08003，2020。一、二、三、七[6] 邓莹莹，唐凡，董伟明，孙文，黄飞跃，徐长生。通过多适应网络传输任意风格。第28届ACM国际多媒体会议论文集，第2719-2727页，2020年。一二三八[7] Vincent Dumoulin ， Jonathon Shlens ， and ManjunathKud-lur. 对艺术风格的博学的表现arXiv预印本arXiv：1610.07629，2016。一个[8] 高常、顾德润、张方军、余益州。Reconet：实时相干视频格式传输网络。亚洲计算机视觉会议，第637Springer，2018. 三个[9] 利昂·A Gatys，Alexander S. Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议（CVPR）上，2016年6月。一个[10] Golnaz Ghiasi ， Honglak Lee ， Manjunath Kudlur ，Vincent Dumoulin，and Jonathon Shlens.探索实时、任意神经艺术风格化网络的结构 arXiv 预印本 arXiv ：1705.06830，2017。二个[11] 顾沭阳、陈聪良、景辽、卢远。复杂的风格转换和深层的功能重组。在IEEE计算机视觉和模式识别会议论文集，第8222-8231页，2018年一、二[12] 阿格里姆·古普塔，贾斯汀·约翰逊，亚历山大·阿拉希，李菲菲.表征和提高神经风格转移的稳定性。在IEEE计算机视觉国际会议论文集，第4067-4076页，2017年。三个[13] Haozhi Huang ， Hao Wang ， Wenhan Luo ， Lin Ma ，Wenhao Jiang，Xiaolong Zhu，Zhifeng Li，and Wei Liu.视频的实时神经风格传输。在IEEE计算机视觉和模式识别会议论文集，第783-791页，2017年。三个[14] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。进行中-IEEE International Conference on Computer Vision ，第1501-1510页，2017年。一二三四五七八[15] Yongcheng Jing ， Xiao Liu ， Yukang Ding ， XinchaoWang，Errui Ding，Mingli Song，and Shilei Wen.用于任意样式传输的动态在AAAI人工智能会议论文集，第34卷，第4369-4376页，2020年。一、二[16] 永成景、杨柳、叶州杨、迅雷风、益州余、大成涛、明丽宋。具有自适应感受野的可控制的快速风格迁移。在欧洲计算机视觉会议（ECCV）的会议记录中，第238-254页，2018年。一个[17] 景永成、杨业州、冯遵雷、叶景文、余益州、宋明丽Neural Style Transfer ： A Review.IEEE Transactions onVisualization and Computer Graphics，26（11）：3365-3385，2019。一个[18] 贾斯汀·约翰逊，亚历山大·阿拉希，李飞飞。实时风格转换和超分辨率的感知损失。欧洲计算机视觉会议，第694施普林格，2016年。一个[19] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。七个[20] Dmytro Kotovenko、Artsiom Sanakoyeu、Sabine Lang和Bjorn Ommer。艺术风格转换的内容与风格分离在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年10月。一个[21] Chuan Li和Michael Wand。利用马尔可夫生成对抗网络进行预计算实时纹理合成欧洲计算机视觉会议，第702施普林格，2016年。一个[22] Xueting Li，Sifei Liu，Jan Kautz，and Ming-Hsuan Yang.学习线性变换快速任意风格转移。arXiv预印本arXiv：1808.04537，2018。一、二、三、七[23] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.用前馈网络实现多样化纹理合成。在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition，第3920-3928页一个[24] Yijun Li，Chen Fang，Jimei Yang，Zhaowen Wang，Xin Lu，and Ming-Hsuan Yang.通过特征变换进行通用样式传递。arXiv预印本arXiv：1705.08086，2017. 一、二[25] 林宗义、迈克尔·梅尔、塞尔日·贝隆吉、詹姆斯·海斯、皮埃特罗·佩罗纳、德瓦·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco：上下文中的公用对象。欧洲计算机视觉会议，第740Springer，2014. 六个[26] Songhua Liu，Hao Wu，Shoutong Luo，and ZhengxingSun.基于部分卷积和深度感知监督的稳定视频风格传输。第28届ACM国际多媒体会议论文集，第2445-2453页，2020年。三个[27] Xiao-Chang Liu，Ming-Ming Cheng，Yu-Kun Lai，andPaul L Rosin.深度感知神经风格转移。在非真实感动画和渲染研讨会的论文集中，第1-10页，2017年一个6660[28] Dae Young Park和Kwang Hee Lee风格-注意网络的任意风格转移。在IEEE/CVF计算机视觉和模式识别会议论文集，第5880-5888页，2019年。一二三四五七八[29] 弗雷德·菲利普斯和布兰迪·麦金托什维基艺术画廊有限公司：批判性思维的案例。会计教育，26（3）：593-608，2011。六个[30] Manuel Ruder、Alexey Dosovitskiy和Thomas Brox。视频的艺术风格转移。德国模式识别会议，第26-36页。施普林格，2016年。三个[31] Manuel Ruder、Alexey Dosovitskiy和Thomas Brox。视频和球形图像的艺术风格转移。国际计算机视觉杂志，126（11）：1199-1219，2018。三个[32] 卢胜，林紫怡，邵静，王晓刚头像-网络：通过特征装饰的多尺度零激发样式传递。在IEEE计算机视觉和模式识别会议论文集，第8242-8250页，2018年。一、三、七[33] Karen Simonyan和Andrew Zisserman用于大规模图像识别的非常深的卷积网络。2015年国际学习表征会议。3[34] Dmitry Ulyanov，Vadim Lebedev，Andrea Vedaldi，andVic- tor S Lempitsky.纹理网络：纹理和风格化图像的前馈合成。在ICML，第1卷，第4页，2016中。一个[35] 德米特里·乌里扬诺夫，安德烈·维达尔迪，维克多·伦皮茨基。改进的纹理网络：最大化前馈风格化和纹理合成的质量和多样性。在IEEE计算机视觉和模式识别会议的论文集，第6924-6932页，2017年。一个[36] Ting-Chun Wang，Ming-Yu Liu，Jun-Yan Zhu，GuilinLiu，Andrew Tao，Jan Kautz，and Bryan Catanzaro.视频到视频合成。 arXiv 预印本 arXiv ： 1808.06601 ，2018。三个[37] 王文静，徐季正，张立，王悦，刘佳英.通过复合正则化实现一致的视频风格转换。在AAAI人工智能会议论文集，第34卷，第12233-12240页，2020年。3[38] Wenjing Wang，Shuai Yang，Jizheng Xu，and JiayingLiu.通过放松和调节实现一致的视频风格转换。IEEE传输图像处理。，2020年。三个[39] Xin Wang ， Geoffrey Oxholm ， Da Zhang ， and Yuan-Fang Wang.多式联运：用于快速艺术风格转换的分层深度卷积神经网络。在IEEE计算机视觉和模式识别会议的论文集，第5239-5247页，2017年。一个[40] 吴昊，孙正兴，袁伟航。方向感知神经风格迁移。第26届ACM国际多媒体会议，第1163-1171页，2018年。一个[41] 吴欣晓和陈嘉璐。为任意视频风格传输保持全局和局部时间一致性。第28届ACM国际多媒体会议论文集，第1791-1799页，2020年。三个[42] Zhijie Wu，Chunjin Song，Yang Zhou，Minglun Gong，and黄辉。可交换的特征对齐网络，用于任意样式的传输.在AAAI人工智能会议集，第34卷，第12305-12312页一个[43] Yuan Yao ， Jianqiang Ren ， Xuansong Xie ， WeidongLiu，Yong-Jin Liu，and Jun Wang.注意力感知的多笔划风格转移。在IEEE/CVF计算机视觉和模式识别会议论文集，第1467- 1475页，2019年。一、二、三[44] Hang Zhang和Kristin Dana实时传输的多风格生成网络。在欧洲计算机视觉会议（ECCV）研讨会论文集，第0-0页，2018年。一个

下载后可阅读完整内容，剩余1页未读，立即下载