控制神经风格迁移方法的介绍与应用

194 浏览量更新于2023-10-15 收藏 2.95MB PDF 举报

颜色控制

比例控制

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1控制神经风格迁移利昂·AGatys1Alexander S.Ecker1Matthias Bethge1Aaron Hertzmann2EliShechtman21图宾根大学2AdobeResearch（a）内容（b）空间控制（c）颜色控制（d）比例控制图1：我们的控制方法概述。（a）内容图像，具有空间掩模插入。（b）空间控制。天空是使用风格II的天空从图风格。第2段（c）分段。地面是风格化使用风格I从图。第4（b）段。（c）颜色控制。内容图像的颜色使用第5.1节中描述的仅亮度样式转换来保留。（d）规模控制。精细的规模是风格化使用风格I从图。4（b）和粗规模是风格化使用风格III从图。第4（b）段。使用第5.2节中描述的颜色匹配来保存颜色。摘要神经风格转移已经显示出非常令人兴奋的结果，使新形式的图像处理。在这里，我们扩展现有的方法，引入控制空间位置，阳离子，颜色信息和跨空间尺度1-2。我们演示了如何通过允许高分辨率控制风格化来增强该方法，并有助于减轻常见的失败情况，例如将地面纹理应用于天空区域。此外，通过将风格分解为这些感知因素，我们能够组合来自多个来源的风格信息，以从现有的风格中生成新的、我们还描述了如何使用这些方法来更有效地产生大尺寸，高质量的风格化。最后，我们展示了如何引入的控制措施可以应用于最近的方法快速神经风格转移。1. 介绍基于示例的风格转换是从现有图像创建新的、感知上吸引人的图像的主要方法。它将两个图像xS和xC作为输入，并将x S的样式应用于x C的内容，从而生成一个新图像x。“风格”和“内容”的概念都是用图像统计来表达的;例如，1代码：github.com/leongatys/NeuralImageSynthesis2补充资料：bethgelab.org/media/uploads/stylecontrol/supplement/如果它们体现了特定图像特征的相同相关性，则具有相同的风格为了提供对这个过程的直观控制，必须确定访问这些统计数据中的感知因素的方法。为了确定这些因素，我们观察了一些不同的方式，人们可能会描述一件艺术品，如文森特梵高的麦田与柏树（图10）第2段（c）分段）。首先，我们可以分别描述不同区域中的不同风格，例如与地面相比，天空中的风格。其次，可以描述调色板，以及它与底层场景的关系，与图像合成或笔触纹理等因素分开。第三，人们可以将精细尺度的空间结构（如笔触形状和纹理）与粗糙尺度的结构（如笔触的排列和绘画天空中的漩涡结构）分开这些观察激发了我们的假设：图像风格可以在感知上分解为不同空间区域中的风格、颜色和亮度信息以及跨空间尺度的风格，使它们成为图像风格化的有意义的控制维度。在这里，我们建立在这个假设的基础上，将有意义的控制引入到最近的图像风格化方法中，称为神经风格转移[8]，其中捕获内容和风格的图像统计数据是在卷积神经网络（CNN）[22]中定义的特征响应。也就是说，我们介绍了用于在不同空间区域中独立地控制图像风格化的方法（图11）。1（b）），颜色和亮度信息（图。1（c））以及不同的空间尺度（图。1（d））。我们展示如何应用它们398539861M（x）C以改善神经风格转移并减轻其一些常见的此外，我们演示了如何将风格分解为这些方面，可以优雅地结合来自多个图像的风格信息，从而能够创建新的，感知上有趣的风格。我们还展示了一种使用粗到细的方法有效地渲染高分辨率风格化的方法，该方法将优化时间减少了约2倍。五、最后，我们表明，除了最初的基于优化的风格转移，这些控制方法也可以应用于最近的神经风格转移的快速近似[13，23]2. 相关工作有大量关于图像风格化技术的工作。第一个基于示例的技术是图像类比[12]，它建立在基于块的纹理合成技术[4，26]上。这种方法介绍了基于一个例子的绘画风格，以及如何保持颜色，并控制风格的不同区域分别。该方法使用粗到细纹理合成程序来提高速度[26]。从那时起，改进该并行工作[27]独立开发了一种类似的空间控制方法，如本文所述。3. 神经风格迁移神经风格转移方法[8]的工作原理如下。我们定义内容图像xC和样式图像xS，其中具有对应的特征表示F（xC）和F（xS），一个CNN的图层F（x）的每一列都是一个矢量化的特征图，因此F∈RM（x）×N，其中N是层中特征图的数量，M（x）=H（x）×W（x）是每个特征图的高度和宽度的乘积注意虽然N与输入图像无关，但M（x）取决于输入图像的大小神经风格Ttransfer生成一个新的图像xxx，该图像xxx通过最小化关于xxx的后续损失函数，以图像xS的风格描述图像xCL总量=αL含量+βL样式（1）其中，内容项比较单层的特征图：优化方法和新的应用[20，6]ΣL=（F（x）−F（x））2（二）已提出基于补丁的方法也已经被使用CNN功能[16，2]，导致改进的tex-内容Nc 梅杰茨（十）联合国cIJ布拉奇Cij真实的表现和风格化的结果。比例控制已经被开发用于基于块的纹理合成[9]并且样式项比较一组汇总统计信息：Σ以及许多其他技术已经被开发用于跨-色彩风格[5]。还有许多程序性的Lstyle=中国（3）ℓ风格化技术提供了广泛的用户控制，1ΣE=（G（x）−G（x））2（四）非真实感渲染文献，例如，[1、15、18]。这些程序方法为广告提供单独的控制2014年12月24日IJℓSIJ调整样式、颜色变换和画笔笔划样式中的空间变化，但不能从训练数据中工作。最近，神经风格转移[8]在基于示例的图像风格化方面取得了令人印象深刻的结果。该方法基于由CNN响应[7]的汇总统计定义的参数纹理模型[14，10，19]，并且似乎比基于块的合成具有几个优点。最突出的是，在样式化过程中，它显示了更大的灵活性，可以创建源图像中不存在的新图像结构[16]。然而，参数神经纹理模型[7]中的图像风格表示与基于补丁的方法相比，对风格化结果的直观控制要少得多纹理参数可以用来影响风格化，但是由于它们所定义的深层表征的复杂性，它们之间的相互作用非常复杂，因此很难预测它们对风格化结果的感知效果。我们在这项工作中的主要目标是引入直观的方法来控制神经风格转移，将该方法的优点与早期风格化方法的更细粒度的用户控制相注意其中G≠（x）=1F（x）TF（x）是响应于图像x的层x中的特征图的GramMa。与原始工作[8]一样，我们使用VGG-19网络，并包括4. 空间控制我们首先介绍空间控制神经风格转移的方法我们的目标是控制样式图像的哪个区域用于样式化内容图像中的每个区域。例如，我们希望将一种风格应用于图像的天空区域，另一种风格应用于图像的地面区域，以避免伪影（图1）。2（d），（e））或从多个来源生成新的风格组合（图。2（f））。我们将内容图像和样式图像的R个空间引导通道Tr作为输入（图1中的小插图）。2（a）-（c））。其中每一个都是[0，1]中的值的图像映射，指定在以下情况下应应用哪些样式：其中第r个内容引导通道等于1的区域应该从ℓ3987ℓℓℓ伊古里ℓℓ其中第r样式引导通道是1的区域。当存在多个样式图像时，区域索引覆盖所有示例图像。引导通道被传播到CNN以产生针对每一层的引导通道Tr这可以通过简单的重新采样或更复杂的方法来完成，我们将在本节后面进行解释我们首先讨论算法的综合给定的指导地图。4.1. 引导Gram矩阵在我们提出的第一种方法中，我们将风格特征中包含的每一层的特征图乘以R（a）内容（b）样式I(c) 样式II引导通道Tr并计算出一个空间引导的样式图像中每个R区域的革兰氏矩阵形式上，我们将空间引导特征图定义为Fr（x）[：，i]= Tr<$ F<$（x）[：，i] （5）ℓ ℓ这里Fr（x）[：，i]是Fr（x）的第i列向量，r∈R，ℓ ℓ表示逐元素乘法。导引通道Tr是矢量化的，可以是硬制导的二进制掩码，也可以是软制导的实值。我们将Tr归一化(d) 输出使用[8]Σ使得ℓ（Tr）2= 1。然后，引导的Gram矩阵是Gr（x）= Fr（x）TFr（x）（6）ℓ ℓ ℓ每个引导革兰氏矩阵被用作内容图像的对应区域的优化目标。那么，层间距离对风格损失的贡献E=1 ΣR Σ λr（Gr（x）−Gr（xS））2（七）4晚2场ℓr=1ij吉吉其中λr是控制对应区域r中的风格化强度的加权因子。引导通道的一个重要用途是确保样式在内容和样式图像中相似场景内容的区域之间传递。例如，图2示出了一个示例，其中内容图像中的天空具有明亮的云，而样式图像中的天空具有灰色的云;结果，原始样式转换用与天空的外观不匹配的地面的明亮部分来样式化我们通过将这两个图像分为天空和地面区域来解决这个问题（图1）。2（a），（b）小插图），并要求从绘画的天空和地面区域被用来风格化的pho- tograph（图相应的区域。第2段（e）分段）。给定输入引导通道Tr，我们需要首先传播该通道以产生用于每层的引导通道Tr最明显的方法是将Tr下采样到每层特征图的维度然而，我们经常发现这样做不能保持期望的风格按区域分离，例如，地面纹理蒸馏器出现在天空中。这是因为靠近引导区域边界的神经元可能具有较大的感受野(e) 具有空间控制的输出(f) 输出空间组合样式I和II图2：神经风格转移中的空间指导。（a）内容形象。（b）风格形象一。（c）风格形象二。空间掩模分离天空和地面的图像显示在右上角。(d) 没有空间控制的神经风格转移的输出[8]。云是风格化的图像结构从地面。（e）有空间指导的产出。（f）从空间上组合来自（b）的地面样式和来自（c）的天空样式的输出。3988M（x）ℓG（x）拉吉与另一个区域重叠。相反，我们使用的是一种侵蚀版的空间引导通道。我们只对感受野完全在引导区域内的神经元执行空间引导，并添加另一个全局引导通道，该通道在整个图像上是恒定的我们发现，这种软空间制导通常会产生更好的结果。有关创建引导通道的更多详细信息，请参见补充材料第1.1节。该方法的另一个应用是通过组合来自多个示例图像的样式来生成新样式。图2（f）示出了一个示例，其中使用区域引导来使用来自一个图像的天空样式和来自另一个图像的地面样式。这个例子展示了空间指导的潜力，可以将许多示例样式组合在一起，以产生新的风格化。4.2. 引导总和或者，我们也可以将引导通道与特征图进行堆叠，而不是为每个引导通道计算Gram矩阵，如[2]空间引导神经补丁[16]。特征层x中的图像x的表示是F′（x）=5. 颜色控制图像的颜色信息是图像风格的一个重要的感知方面。同时，它在很大程度上独立于其他风格方面，如使用的笔触类型或主要的几何形状。因此，希望在神经风格转移中独立地控制颜色这种控制的一个突出用例是风格转移期间的颜色保留。当使用神经风格转换对图像进行风格化时，输出还复制了风格图像的颜色分布，这在许多情况下可能是不可取的（图10）。3（c））。例如，风格化的农舍具有梵高原作的色彩（图10）。3（c）），而人们可能更喜欢输出绘画，以保持农舍照片的颜色。特别是，人们可能会想象，如果他们要画农舍，艺术家会使用场景的颜色。在这里，我们提出了两种简单的方法来保持源图像的颜色在神经风格转移-换句话说，转移的风格，而不转移的颜色。我们比较了两种不同的护色方法：彩色直方图匹配112R亮度和亮度仅传输（图3（d，e））。F（x），T，T，...，不且F（x）∈R（N<$+R）× M<$（x）. 现在ℓ ℓ′ ℓℓ′ ′Gram矩阵G（x）=1F（x）TF（x）包括cor-图像特征与引导通道的非零条目的关系，并因此鼓励样式图像的区域R中的特征被用于样式化内容图像中的区域R层间干扰对风格损失的贡献很简单，5.1. 仅亮度传输在第一种方法中，我们仅在亮度通道中执行风格转换，如Image Analogies [12]中所做的那样。这是由于观察到视觉感知对亮度的变化比对颜色的变化更敏感[25]。修改很简单。亮度通道LS1Σ。 ′′Σ2和LC首先从风格和内容中提取出来，E=4N2IJG（x）−G（xS）ij（8）年龄然后，将神经风格转移算法应用于这些图像以产生输出亮度图像L。这显然比第4.1节中提出的方法更有效。代替计算和匹配RGram矩阵，仅需要计算具有R个附加通道的一个Gram矩阵。然而，这种效率的提高是以牺牲纹理质量为代价的。新的Gram矩阵中的附加通道是由引导通道空间加权的每个特征图的总和。使用分离亮度和颜色信息的颜色空间，内容图像的颜色信息与L*结合以产生最终的颜色输出图像（图13）。3（d））。如果样式的亮度直方图与内容图像之间存在实质性不匹配，则匹配样式亮度通道的直方图会有所帮助′ℓS i，N+rΣ。Σ= Tr<$F<$（xS）[：，i]J（九）在将内容图像L_S样式的为此，我们简单地匹配内容亮度的均值和方差。设µS和µC为两幅图像的平均亮度，σS和σC为它们的标准差。因此，这种方法实际上是在匹配原始的全局格拉姆矩阵风格化和特征图上的空间加权和虽然该功能变异然后，样式图像中的每个亮度像素被更新为：地图总和也给出了一个非平凡的纹理模型，他们的ca-σCL′=（L-µ）+µ（十）对复杂纹理建模的空间有限[7]。在实践中，我们发现，这种方法通常可以给出不错的结果，但也没有完全捕捉到风格图像的纹理-这是从劣质纹理模型预期的。结果和比较见补充材料第1.2节。sσSS S C5.2. 颜色直方图匹配我们提出的第二种方法的工作原理如下。给定样式图像xS和内容图像xC，样式图像3989SS如：′= Ap + b（11）其中A是3×3矩阵，b是3-向量。选择该变换，使得新样式图像p′中的RGB值与...相匹配’S(b) 样式（c）使用[8]输出(d) 仅亮度样式转换的输出(e) 颜色直方图匹配输出图3：神经风格转移中的颜色保持。（a）内容形象。（b）风格形象。（c）神经风格转换的输出[8]。这套配色方案是从这幅画中抄袭的。（d）在亮度域中使用风格转移以保持颜色的输出。（e）使用颜色转移以保持颜色的输出。内容图像这会产生一个新的风格图像x′，它取代xS作为神经风格转换算法的输入。算法在其他方面保持不变。要做的一个选择是颜色转移过程。有许多颜色转换算法可供选择;请参阅[5]进行调查。这里我们使用线性方法，这是简单而有效的颜色风格转移。给定样式图像，每个RGB像素pS被变换为pC [11]（附录B）。总的来说，我们发现颜色匹配方法与Neural Style转移（图3（e）），而图像类比的合成结果较差[11]。此外，颜色直方图匹配方法还可以用于更好地保持风格图像的颜色。这可以大大改善在颜色上存在强烈不匹配的情况下的结果，但人们更希望保持样式图像的颜色分布（例如铅笔画或线条艺术样式）。这种应用的例子见补充材料第2.2节。5.3. 比较总之，这两种方法都给出了感知上有趣的结果，但有不同的优点和缺点。颜色匹配方法自然受到从内容图像到样式图像的颜色转移效果的限制。颜色分布通常不能完美匹配，导致输出图像的颜色与内容图像的颜色之间的不匹配。相比之下，仅亮度传递方法完美地保留了内容图像的颜色然而，亮度和颜色通道之间的依赖性在输出图像中丢失虽然我们发现这通常很难发现，但对于具有突出笔触的风格来说，这可能是一个问题，因为单个笔触可以以不自然的方式改变颜色。相比之下，当使用完整的风格转移和颜色匹配时，输出图像实际上由油漆斑点的笔画组成，而不仅仅是明暗的变化。关于神经风格转移中颜色保持的更详细讨论，我们请读者参考补充材料，第2.1节。6. 规模控制在本节中，我们将描述在不同尺度下混合不同样式并在所需尺度下有效生成6.1. 用于样式混合的首先，我们介绍了一种方法来控制风格化独立在不同的空间尺度。我们的目标是为不同的尺度选择不同的风格。例如，我们想把一幅画的精细笔触结合起来（图1）。4（b），样式I）与另一幅图像的粗尺度角几何形状（图1）。4（b），Style II）。(a)内容pS3990(a) 内容（b）样式一/二/三(c) 样式IV/V（新）（d）样式II的产出(e) 输出样式IV(f) 样式为V的输出图4：神经风格转移中的尺度控制。（a）内容图像。（b）收集使用的样式。风格I在精细尺度上具有主导性的笔触。花柱II在粗糙的鳞片上具有占优势的角形。样式III在粗糙的尺度上具有占优势的圆形形状。（c）将现有风格的粗尺度风格IV结合了风格I的细音阶和风格II的粗音阶风格V结合了风格II的细音阶（d）使用原始样式二的产出。（e）使用新的风格四的产出。（f）使用新样式的诉所有风格化都使用第5.2节中描述的颜色匹配方法来保留照片的颜色我们将图像在一定尺度下的风格定义为图像结构在一定大小f的图像邻域中的分布。在这个意义上，在前面的部分中介绍的颜色分离可以被认为是尺度分离的特殊情况，因为图像颜色是单像素邻域上的“结构”。为了在更大的尺度上对图像风格进行建模，我们使用了CNN中不同层的Gram矩阵。特别地，层f处的革兰氏矩阵表示尺寸对应于感受野尺寸f的图像邻域的二阶统计。不幸的是，这种表示法并没有按比例分解一般来说，给定空间尺度下的Gram矩阵G（x）也捕获了较小空间尺度上的大部分图像信息，因此与CNN中较低层的Gram矩阵G−k（x）共享大量信息（更多细节请参见补充材料第3.1因此，简单地组合来自不同图像的不同尺度的革兰氏矩阵并不给出对不同尺度的独立控制。在这里，我们展示了一种方法来结合规模，避免这个问题。我们首先创建一个新的样式图像，它将来自一个图像的精细尺度信息与来自另一个图像的粗尺度信息相结合（图10）。4（c））。然后，我们在原始的神经风格转移中使用新的风格图像。我们通过将神经风格转移从精细尺度风格图像应用到粗尺度风格图像来实现这一点，仅使用CNN中较低层的Gram矩阵（例如，图中仅层“conv1 1”和“conv2 1”。4）. 我们用粗糙风格的图像初始化优化过程，并完全忽略内容丢失，以便完全替换粗糙风格图像中的精细尺度纹理。这是基于这样的观察，即当图像结构的规模大于风格特征时，优化使图像结构保持完整。虽然这并不能保证，因为它取决于优化器，但我们根据经验发现它对神经风格转换中通常使用的L-BFGS方法有效。得到的图像（图。4（c））被用作原始神经风格转移的输入，例如，我们将风格I的精细比例与风格II的粗糙比例相结合，重新绘制图中的角形立体主义形状。4（d）与明显的笔触（图。4（e））。或者我们结合风格II的精细尺度与风格III的粗糙尺度，以圆形结构取代角形，给图像一个完全不同的 4 （ d ）与图 4（f））。这种方法能够通过以原则性的方式重新组合现有的样式来创建大量具有吸引力它还允许有趣的新方法，通过跨空间比例插值来在样式之间进行插值。关于新样式的更多示例和样式之间的插值结果，我们请读者参考补充材料第3.2和3.3节。3991(a)内容/风格（b）低分辨率（c）高分辨率（ctf）（d）高分辨率优化我们还注意到，这种技术有效地去除了神经图像合成中典型的低水平噪声事实上，所有的数字显示在本文中，除了图。6，以这种方式增强到高分辨率。低/高分辨率对可在补编中找到。迭代地应用该技术还使得能够生成仅受输入图像的大小和可用存储器限制的非常高分辨率的图像。7. 控制快速神经风格转换神经风格转移的一个主要缺点是图像生成相对较慢。近日多家图5：高分辨率下的神经风格转移（a）内容和风格图像。（b）以像素总数等于450的低分辨率输出2（c）以从（b）以粗到细的方式生成的高分辨率输出。（d）高分辨率输出无需粗到细的过程。对于两个高分辨率图像，像素总数为30002，可以在补充材料中找到。6.2.比例控制，实现高效高分辨率现有的神经风格转换方法对于高分辨率输出效果不由于CNN中的感受野具有固定的大小，因此风格化结果取决于输入图像的分辨率：风格化只发生在输出中的感受野的尺度上。在实践中，我们发现，对于VGG-19网络，对于输入图像的大小，在500 2像素左右存在最佳点，使得风格化是吸引人的，但内容被很好地保留（图1）。第5（b）段）。然而，对于高分辨率图像，感受野通常非常小，因此，只有非常小规模的结构被风格化（图。 5（d））。在这里，我们展示了可以使用与前一节相同的尺度分离原理来产生具有大尺度风格化的高分辨率输出。我们给定高分辨率内容和样式图像xC和xS，两者具有相同的大小，总共N2个像素我们通过因子k对每个图像进行下采样，使得N/k对应于期望的风格化分辨率，例如，5002为VGG，然后执行风格化。现在输出为低分辨率大小为N/K。然后，我们可以通过将低分辨率输出上采样到N2像素来从该图像产生高分辨率输出，并将其用作原始输入图像xC和xS的神经风格转移的初始化。的样式功能现在可以捕获并填充高分辨率信息的风格图像，而留下的粗尺度风格完整（图。5（c））。这种由粗到精的过程具有在高分辨率光学中需要较少迭代工作已经表明，可以训练前馈CNN来执行风格化[13，23，17]。我们现在展示如何将上述空间和颜色控制应用于这些快速神经风格转移方法。将尺度控制应用于快速神经风格转移是微不足道的，因为它需要对结合多尺度的新风格图像进行简单训练。我们使用Johnson我们训练的网络都使用了该实现中的良好调优的默认参数，包括实例规范化[24]（有关详细信息，请参见补充材料，第4节）。为了具有可比性，并保持在快速神经风格转换的良好效果的风格领域，我们使用该实现发布的风格。7.1. 颜色控制保留输入图像颜色的最简单方法是仅使用现有的前馈风格化网络[13]，然后将风格化的亮度通道与内容图像的颜色通道组合（图14）。6（c））。一种替代方案是专门用样式和内容图像的亮度通道来训练前馈网络。然后，该网络产生亮度图像，该图像可以与来自输入内容图像的颜色通道组合（图 11 ）。 6（d））。对于这两种方法，我们将输出图像的平均亮度与内容图像的平均亮度相匹配。一般来说，我们发现使用亮度网络的颜色转换可以更好地将风格化与内容图像中的结构结合起来（图 1 ）。 6 （ c ）、（d））。7.2. 空间控制我们现在描述训练前馈网络以将不同的风格应用于不同的区域。我们表明，这可以通过对John- son的训练过程进行令人惊讶的小修改来完成我们通过垂直连接图中所示的糖果和羽毛图像来创建样式图像。第6（b）段。将两个附加的二进制引导通道添加到样式图像，即，一个用于图像的顶部从而提高效率。在我们的实验我们用了2。高分辨率3的迭代次数减少5倍github.com/jcjohnson/fast-neural-style3992(a) 内容(b) I/II型(c) I/II样式输出一个是底部风格损失函数基于引导的格拉姆矩阵（等式2）。（七）. 在训练期间，前馈网络将内容图像和两个引导通道作为输入。输入引导通道被传递到损失网络以评估空间引导损失。令人惊讶的是，我们发现在训练过程中，引导通道可以保持不变：在训练期间，我们要求前馈网络总是用一种风格来风格化图像的下半部分，而用另一种风格来风格化图像的上半部分。然而，该网络鲁棒地学习了引导通道和风格之间的对应关系，因此在测试时，我们可以将任意掩码传递给前馈网络，以在空间上引导风格化（图2）。6（f）-（h））。通过提供自动生成的图形-背景分割[21]，我们可以创建一种自动执行快速空间变化风格化的算法（图第6（g）、（h）段）(d) 原始网络（e）亮度网络(f) 垂直蒙版（g）水平蒙版（h）人物/背景面具[21]图6：快速神经风格转换中的颜色和空间控制。（a）内容形象。（b）糖果和羽毛的风格。（c）来自[13]的输出，用（b）中所示的风格训练。（d）简单的颜色保持。来自（c）的亮度通道与来自（a）的颜色通道组合。（e）用吕氏网络保色。来自亮度网络的输出与来自（a）的颜色通道组合。（f）风格的纵向分离(g) 样式的水平分隔（h）将样式分为人物与背景[21]。8. 讨论在这项工作中，我们介绍了直观的方法来控制神经风格转移。我们假设图像风格包括空间、色彩和比例等因素，并提出在风格化过程中获取这些因素的方法，以大幅提高现有方法的质量和灵活性。我们提出的控制方法的一个应用是以可解释的方式组合样式。这与通过在样式表示中进行线性内插来组合样式的替代方法形成对比，例如，在Dumoulin等人的同时工作中完成。[3]的文件。该方法的一个可能的问题是，如果样式表示中的方向不对应于感知变量，则很难生成吸引人的新样式。尽管如此，即使使用我们的方法，选择哪些输入组合以获得美观的结果也可能具有挑战性。一个令人兴奋的开放式研究问题是预测什么样的风格组合会很好地组合成新的，感知上令人愉悦的风格。神经风格转移是一种特别有吸引力的方法，因为它可以根据源图像创建新的图像结构。这种灵活性来自于空间汇总统计方面的风格表示，与基于补丁的方法相反[12，20，6]。然而，由于尚不清楚风格的感知方面如何在汇总统计中表示，因此很难实现对风格化的有意义的参数控制。为此，可能有必要在网络训练期间鼓励CNN表示的适当因式分解，例如，学习在空间尺度上因式分解图像信息的表示。事实上，这触及了机器视觉中的一个基本研究问题：以获得可解释但功能强大的图像表示，将图像分解为人类视觉感知的独立因素。3993引用[1] L. Benedet t i，W innemolle r，M. H、Corsini，和R. 斯科皮尼奥与 Bob 一起画画：帮助新手创造力。InProc.UIST，2014.[2] A.尚潘达语义风格转移和把两位涂鸦变成艺术品。arXiv ： 1603.01768 [cs] ， 2016 年 3 月。 arXiv ：1603.01768。[3] Dumoulin，J. Shlens和M.库德鲁艺术风格的学术代表InProc. ICLR，2017.[4] A. A. Efros和T. K.梁非参数采样纹理合成。InProc.ICCV，1999.[5] H. S. Faridul，T.波利角Chamaret，J.Stauder，E.莱因哈德D. Kuzovkin和A.特雷莫颜色映射：最近的方法，扩展和应用的评论。Computer Graphics Forum，35（1）：59[6] J.Fi séer ， O.Jamri sReplika ， M.Luk a'c ， E.Shechtman，P. 阿森特，J. Lu和D. 好的Stylit：照明引导的基于示例ACM事务处理图表，35（4），2016年7月。[7] L. A. Gatys，A. S. Ecker和M.贝丝基于卷积神经网络的纹理合成。在神经信息处理系统的进展28，2015。[8] L. A. Gatys，A.S. Ecker和M.贝丝使用卷积神经网络的图像风格在Proc. CVPR，2016中。[9] C. Han，E.里塞尔河Ramamoorthi和E.格林斯宾多尺度纹理合成。ACM TOG，27（3）：51：1[10] D. J. Heeger和J.R. 卑尔根基于金字塔的纹理分析/合成。在第22届计算机图形和交互技术年会的会议录中，SIGGRAPH ACM。[11] A.赫茨曼艺术风格中的渲染算法。博士论文，纽约大学，2001年。[12] A. 赫茨曼角E. Jacobs，N.奥利弗湾Curless和D.H. 销售图像类比。InProc. SIGGRAPH，2001.[13] J. Johnson，A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。芽孢杆菌中莱布J. Matas，N.Sebe和M.Welling，编辑，计算机视觉- ECCV 2016，编号9906，计算机科学讲义，第694-711页。Springer International Publishing，Oct. 2016. 43.第43章.[14] B. Julesz视觉模式识别。IRE Transactions on InformationTheory，8（2），Feb. 一九六二年。[15] R. D.卡尔宁斯湖马尔科西安湾J. Meier，M. A.科瓦尔斯基，J。C. Lee，P.L. Davidson，M.Webb，J.F. 休斯和A.芬克尔斯坦所见即所得npr：直接在3d模型上绘制笔划。ACM事务处理图表，21（3），2002年7月。[16] C. Li和M.魔杖组合马尔可夫随机场以及用于图像合成的卷积神经网络。在Proc. CVPR，2016中。[17] C. Li和M.魔杖用马尔可夫生成对抗网络实现预计算实时纹理合成。在Proc. ECCV，2016中。[18] P. O'Donovan和A.赫茨曼Anipaint：来自视频的交互式绘画动画。IEEE TVCG，18（3），2012年。[19] J. Portilla和E.P. 西蒙切利基于复小波系数联合统计量的参数化纹理国际计算机视觉杂志，40（1）：49[20] G. Ramanarayanan和K.巴拉基于能量最小化的约束纹理合成IEEE TVCG，2007年。[21] X. Shen，中国古猿A. Hertzmann， J. Jia ，S.巴黎湾Price，E.我和谢克特曼。萨克斯用于图像风格化的自动人像分割。Computer Graphics Forum，35（2）：93[22] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。InProc. ICLR，2015.[23] D. 乌里扬诺夫河Lebedev，A.Vedaldi和V.Lempitsky 纹理网络：纹理和风格化图像的前馈合成 arXiv ：1603.03417 [cs]，2016年3月。arXiv：1603.03417。[24] D. Ulyanov，A. Vedaldi和V. Lempitsky实例归一化：快速风格化所缺少的成分。arXiv：1607.08022 [cs]，2016年7月。arXiv：1607.08022。[25] B. Wandell 视觉的基础。Sinauer Associates Inc.1995.[26] L- Y. Wei和M.勒沃基于树结构矢量量化的快速纹理合成。在Proc. SIGGRAPH，2000年。[27] P. Wilmot，E. Risser和C.巴恩斯稳定可控的神经纹理合成与风格转换.arXiv预印本arXiv：1701.08893，2017。

下载后可阅读完整内容，剩余1页未读，立即下载