画笔变换器-预测绘画的神经网络模型

181 浏览量更新于2023-10-14 收藏 17.61MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

65980画笔变换器：使用笔画预测的前向神经绘画0宋华刘 1 , 2 , � , † , 天威林 1 , � , 东亮何 1 , 富李 1 , 瑞峰邓 1 , 鑫李 1 , 锐丁 1 , 浩王 301 计算机视觉技术部（VIS），百度公司，2 南京大学，301 { liusonghua,lintianwei01,hedongliang01,lifu,dengruifeng,lixin41,dingerrui } @baidu.com ,02 songhua.liu@smail.nju.edu.cn, 3 hw488@cs.rutgers.edu0图1. 我们结果的示例。第二行展示了渐进的绘画过程。放大以获得更好的视图。0摘要0神经绘画是指使用神经网络为给定的图像生成一系列笔画，并以非照片现实的方式重新创建它。虽然基于强化学习（RL）的代理可以逐步生成这个任务的笔画序列，但训练一个稳定的RL代理并不容易。另一方面，笔画优化方法在大的搜索空间中迭代地搜索一组笔画参数；这种低效率显著限制了它们的普及性和实用性。与以前的方法不同，本文将任务形式化为一种集合预测问题，并提出了一种新颖的基于Transformer的框架，称为画笔变换器，用于使用前向网络预测一组笔画的参数。通过这种方式，我们的模型可以并行生成一组笔画，并在几乎实时内获得大小为512×512的最终绘画。更重要的是，由于没有可用于训练画笔变换器的数据集，我们设计了一个自我训练的流程，使其可以在没有任何现成数据集的情况下进行训练，同时仍然具有出色的泛化能力。实验证明，我们的方法在训练和推理成本更低的情况下实现了比以前更好的绘画性能。代码和模型可在https://github.com/wzmsltw/PaintTransformer上获得。0* 相等贡献. † 当宋华刘在百度实习时完成了这项工作.0自古以来，绘画一直是人类记录他们对世界的感知甚至想象的一种奇妙方式。绘画被长期认为需要专业的知识/技能，对于普通人来说并不容易。计算机辅助艺术创作在很大程度上填补了这一空白，并使我们中的许多人能够创作自己的艺术作品。特别是随着人工智能时代的到来，自然图像可以通过图像风格转换 [ 19 , 9 , 12 , 24 , 16 ]或图像到图像的转换来变得艺术化。01. 引言0即使对于熟练的人类画家来说，为绘画过程生成笔画序列也是一项具有挑战性的任务，特别是当目标具有复杂的构图和丰富的纹理时。为了实现这个目标，一些先前的工作通过逐个生成笔画的顺序过程来解决这个问题，例如循环神经网络（RNN）[ 36 , 6 ]，逐步贪婪搜索 [ 7 , 21 ]和强化学习（RL）[ 4 , 37 , 32 , 10 , 23 ]。还有一些方法 [ 39 , 17 ]通过使用迭代优化过程进行笔画参数搜索来解决这个问题。尽管这些方法生成了有吸引力的绘画结果，但在效率和效果方面仍有很大的改进空间。基于序列的方法如RL在推理中相对较快，但训练时间长且代理不稳定。同时，基于优化的方法 [ 39 , 17 ]不需要训练，但其优化过程非常耗时。这些不便之处促使我们探索更高效和优雅的基于笔画的绘画生成解决方案。我们重新将神经绘画任务重新定义为前向笔画集预测问题。给定一个初始画布和一个目标自然图像，我们的模型预测一组笔画，然后将它们渲染在初始画布上，以最小化渲染图像与目标图像之间的差异。这个过程在K个粗到细的尺度上重复进行。在每个尺度上，其初始画布是上一个尺度的输出。如图1所示，可以生成高质量的最终绘画。Generating stroke sequences for painting process is achallenging task even for skilled human painters, especiallywhen the targets have complex compositions and rich tex-tures. To achieve this goal, some previous works tackle thisproblem by a sequential process of generating strokes oneby one, such as recurrent neural networks (RNN) [36, 6],step-wise greedy search [7, 21], and reinforcement learning(RL) [4, 37, 32, 10, 23]. There are also methods [39, 17]tackling this problem via stroke parameter searching usingan iterative optimization process. Although attractive paint-ing results are generated by these methods, there still existslarge room for improvement on both efficiency and effec-tiveness. Sequence-based methods such as RL are relativelyfast in inference but suffer from long training time as wellas unstable agents. Meanwhile, optimization-based meth-ods [39, 17] do not need training, but its optimization pro-cess is extremely time consuming. These inconveniencesmotivate us to explore more efficient and elegant solutionsfor stroke-based painting generation. Instead of stoke se-quence generation, we re-formulate the neural painting taskas a feed-forward stroke set prediction problem. Given aninitial canvas and a target natural image, our model predictsa set of strokes and then renders them on the initial canvasto minimize the difference between the rendered image andthe target one. This procedure is repeated at K coarse-to-fine scales. At each scale, its initial canvas is the output ofthe previous scale. As shown in Fig. 1, high-quality finalpaintings can be generated.overcome such difficulty, we propose a novel self-trainingpipeline which utilizes synthesized stroke images. Specif-ically, we first synthesize a background canvas image withsome randomly sampled strokes; then, we randomly sam-ple a foreground stroke set, and render them on canvas im-age to derive a target image. Thus, the training objectiveof the stroke predictor is to predict the foreground strokeset and minimize the differences between the synthesizedcanvas image and the target image, where the optimizationis conducted on both stroke level and pixel level. Impres-sively, our self-trained Paint Transformer shows great gen-eralization capability and can work for arbitrary natural im-ages once trained. Extensive experiments demonstrate thatour feed-forward method can generate paintings with bet-ter quality at lower cost compared to existing methods. Ourcontributions can be summarized as:65990tion [ 38 , 31 , 3 , 34 , 35 ].这些先前的方法通常将图像生成视为像素空间中的优化过程[ 5 ] 或者使用神经网络进行前向像素级图像映射 [ 11 , 38]。然而，与神经网络的像素级操作不同，人类通过逐笔的过程使用从粗到细的画笔来创作绘画。使机器模仿这种逐笔过程生成更加真实和类似人类创作的绘画具有巨大潜力。此外，它还具有逐步解释绘画如何被创作的附加好处，这可能是一种有价值的教学工具。因此，作为一个新兴的研究课题，探索基于笔画的神经绘画来生成一系列笔画，以模仿人类画家创作艺术作品的方式。希望通过这样的技术，生成的绘画可以更像真正的人类创作的绘画，如油画或水彩画。0因此，我们方法的核心问题是训练一个强大的笔触集合预测器。有趣的是，目标检测也是一个典型的集合预测问题。因此，我们受到最近的目标检测器DETR[2]的启发，提出了我们的新型绘画变换器PaintTransformer，通过前馈Transformer预测多个笔触的参数来生成绘画。然而，与目标检测不同的是，没有可用于训练笔触预测器的注释数据。为了克服这个困难，我们提出了一种利用合成笔触图像的新型自训练流程。具体而言，我们首先合成一个带有一些随机采样笔触的背景画布图像；然后，我们随机采样一个前景笔触集合，并将它们渲染到画布图像上得到目标图像。因此，笔触预测器的训练目标是预测前景笔触集合，并最小化合成画布图像与目标图像之间的差异，优化过程同时在笔触级别和像素级别进行。令人印象深刻的是，我们经过自我训练的PaintTransformer表现出很强的泛化能力，一旦训练完成，可以适用于任意自然图像。大量实验证明，与现有方法相比，我们的前馈方法可以以更低的成本生成质量更好的绘画作品。我们的贡献可以总结如下：0•我们从前馈笔触集合预测的创新角度来看待基于笔触的神经绘画问题，而不是笔触序列生成或基于优化的笔触搜索。0• 提出了一种专为这个任务量身定制的新型PaintTransformer，并采用创造性的自我训练策略，使其在没有任何现成数据集的情况下得到良好训练。0•我们进行了大量实验证明了我们的方法的有效性，并展示了在保持高效率的同时实现了最先进的视觉质量。02. 相关工作02.1. 基于笔触的绘画0教会机器如何绘画并不是一个全新的研究课题。传统方法通常设计启发式的绘画策略[8]，或者通过贪婪地选择一笔，逐步最小化与目标图像的差异[7,21]。近年来，RNN和RL被广泛应用于以顺序方式生成笔触。Ha等人[6]提出了一种基于RNN的解决方案来为草图生成笔触。Ganin等人[4]和Zhou等人[37]引入了RL来进行草图合成任务。这些工作仅关注于草图，而在[32]中，探索了基于RL的笔触生成用于水墨画。通过充分利用CNN、RNN、GAN和RL的优势，[10]提供了生成更逼真绘画作品的解决方案。然而，由于演员、评论家和判别器的交替和对抗性更新，训练一个稳定的RL代理是困难的。最近，Zou等人[39]提出了一种笔触优化策略，通过迭代搜索每个笔触的最优参数，并且可以与神经风格转换一起进行优化。Kotovenko等人[17]也采用了类似的思路。尽管其艺术绘画效果令人满意，但其计算成本在很大程度上限制了其适用性。与之不同的是，………%&%'%$66000笔触0预测器0笔触损失0像素损失0前景0笔触0背景0笔触0预测0笔触0画布图像！"0目标图像！#0预测图像！$0笔触查询0空白画布0笔触0渲染器0笔触0渲染器0笔画0渲染器0图2. 我们提出的画家变换器的自训练流程示意图。0我们将神经绘画问题定义为前馈笔画集合预测问题，以寻求性能和效率之间的更好平衡。02.2. 目标检测0我们的画家变换器本质上是一个集合预测模型，受到目标检测的启发。先驱性的深度目标检测模型使用不便的两阶段流程[28]。也有提出一阶段目标检测器，如[26，27，29]。然而，它对后处理步骤（如非极大值抑制）的严重依赖仍然会带来很多不便。最近，DETR [2]采用Transformer[30]来端到端地产生检测结果，我们发现DETR非常适合我们的笔画预测任务，因为它可以在没有任何棘手的后处理的情况下进行集合预测。然而，我们并没有直接采用DETR，而是添加了二进制神经元来预测是否应该保留笔画。此外，我们的模型以两个图像（当前画布和目标图像）作为输入。03. 方法03.1. 总体框架0我们将神经绘画定义为逐步的笔画预测过程。在每个步骤中，我们以前馈的方式并行预测多个笔画，以最小化当前画布和目标图像之间的差异。我们的画家变换器由两个模块组成：笔画预测器和笔画渲染器。如图2所示，给定目标图像I t和中间画布图像Ic，笔画预测器生成一组参数来确定当前笔画集合Sr。然后，笔画渲染器为S r中的每个笔画生成笔画图像，并将它们绘制到画布I c上，产生结果图像I r。我们可以将此表示为：0过程如下：0I r = PaintTransformer(I c, I t) (1)0在画家变换器中，只有笔画预测器包含可训练参数，而笔画渲染器是一个无参数且可微分的模块。为了训练笔画预测器，如图2所示，我们提出了一种利用随机合成笔画的新型自训练流程。在训练的每个迭代中，我们首先随机采样一个前景笔画集合S f 和一个背景笔画集合Sb。然后，我们使用笔画渲染器以S b作为输入生成一个画布图像I c，并通过将S f 渲染到I c上产生一个目标图像I t。最后，以I c 和I t作为输入，笔画预测器可以预测一个笔画集合Sr，之后笔画渲染器可以使用S r 和I c作为输入生成一个预测图像Ir。换句话说，笔画预测器是在笔画-图像-笔画-图像的流程下进行训练的，优化同时在笔画级别和像素级别进行。因此，笔画预测器的训练目标是：0L = L stroke(S r, S f) + L pixel(I r, I t), (2)0其中L stroke和Lpixel分别是笔画损失和像素损失。请注意，用于监督的笔画是随机合成的，因此我们可以生成无限的训练数据，不依赖于任何现成的数据集。我们的自训练画家变换器可以产生令人满意的结果。接下来，我们将对我们方法的每个部分进行详细描述。03.2. 笔画定义和渲染器0在这项工作中，我们主要考虑直线笔画，可以通过形状参数和颜色参数来表示。如图3所示，笔画的形状参数包括：中心点坐标x和y，高度h，宽度w和旋转角度θ。笔画的颜色参数包括!$%!"!#∂di∂ci= ∂σ(ci)∂ci=exp(−ci)(1 + exp( ci))2 .(6)Lpixel = ||Ir − It||1 .(7)66010颜色参数0形状参数0� #0基本笔刷渲染的笔画0笔画渲0渲染器0图3. Stroke Renderer的示意图和笔画参数定义。0RGB值表示为r、g和b。因此，笔画s可以表示为{x，y，h，w，θ，r，g，b}。在神经绘画任务中，可微分渲染是一个重要的问题，它可以根据笔画参数合成笔画图像，并实现端到端的StrokePredictor训练。最近，深度神经网络已被广泛应用作为可微分渲染器，如[14]所讨论的那样。然而，对于本文中特定的笔画定义，我们不采用神经网络，而是考虑基于几何变换的StrokeRenderer，它不需要训练，并且如预期的那样是可微分的。我们将这个Stroke Renderer表示为：0Iout = StrokeRenderer(Iin, S)，(3)0其中Iin和Iout分别是输入和输出画布，S ={si}ni=1是一组n个笔画。如图3所示，给定一个基本笔刷Ib和一个笔画si，我们可以修改其颜色并在画布坐标系中转移其形状和位置，得到其渲染的笔画图像¯Iib。同时，我们生成一个单通道的alpha图αi，作为si的二进制掩码。0具有与¯Iib形状相同的二进制掩码作为si的二进制掩码。将I0mid = In表示，我们可以将笔画渲染过程表示为：0Iimid = αi ∙ ¯Iib + (1 − αi) ∙ Ii−1mid，(4)0其中Stroke Renderer的输出为Iout =Inmid。由于整个过程可以通过线性变换实现，StrokeRenderer是可微分的。03.3. Stroke Predictor0我们的StrokePredictor的目标是预测一组笔画，这些笔画可以覆盖中间画布图像和目标图像之间的差异。同时，为了实现一定程度的抽象以模拟真实的绘画过程，我们希望StrokePredictor能够预测尽可能少的笔画，同时仍然覆盖大部分差异区域。为了实现这一点，受到DETR[2]的启发，我们提出了一个基于Transformer的预测器，它接收Ic和It，并生成一组笔画，即0Sr = StrokePredictor(Ic, It)。(5)0笔画参数0否0笔画0笔画卷积神经网络0Transformer0编码器0笔画查询0笔画参数0笔画参数0图4. StrokePredictor的示意图，其中包含两个卷积网络用于特征嵌入和一个Transformer网络用于预测笔画参数。⊕代表连接。0如图4所示，将Ic，It ∈ R3×P×P作为输入，StrokePredictor首先采用两个独立的卷积神经网络提取它们的特征图，分别为Fc，Ft ∈RC×P/4×P/4。这里，P是预定义的笔画图像大小。然后，将Fc，Ft和可学习的位置编码连接并展平，作为Transformer编码器的输入。在解码器部分，按照DETR的方法，我们使用N个可学习的笔画查询向量作为输入。最后，有两个全连接层分别预测初始笔画参数¯Sr ={si}Ni=1和笔画置信度Cr ={ci}Ni=1。这里，我们为笔画置信度添加了二进制神经元：在前向阶段，置信度得分ci可以转换为决策di =Sign(ci)，其中Sign是一个二进制函数，如果ci ≥0，则其值为1，否则为0。决策di用于确定是否在画布上绘制预测的笔画。注意，Sign函数在几乎所有地方的梯度都为零。为了实现反向传播，我们在反向阶段交替使用Sigmoid函数σ(x)来计算梯度：0将所有预测为正的笔画收集起来，我们可以得到最终的笔画集合 S r = { s i } n i =1 ，其中 n 为笔画数量。03.4. 损失函数0我们提出的自训练流程的主要优势在于可以同时最小化图像级别和笔画级别上的预测与真实值之间的差异。在本节中，我们将介绍像素损失、笔画之间差异的度量以及笔画损失。像素损失。神经绘画的一个直观目标是重新创建目标图像。因此，图像级别上惩罚 I r 和 I t 之间的像素级损失 Lpixel ：0笔画距离。在笔画级别上，定义适当的度量来衡量笔画之间的差异非常重要。Du,vL1 = ||su − sv||1 ,(8)µ = (x, y),Σ12 =�cos θ− sin θsin θcos θ� � w200h2� � cos θsin θ− sin θcos θ�=� w2 cos2 θ + h2 sin2 θw−h2cos θ sin θw−h2cos θ sin θw2 sin2 θ + h2 cos2 θ�.(9)Du,vbce = −λr·gv·log σ(cu)−(1−gv)·log(1−σ(cu)), (11)Mu,v = gv(Du,vL1 + Du,vW + Du,vbce),(12)8:I9:Skr = SP(Ikt , I10:Ik = SR(Sk, I(13)66020两个笔画。首先，类似于目标检测任务，我们定义参数级别的 L 1 距离为：0其中，s u 和 s v 分别表示笔画 u 和 v的参数。正如许多目标检测工作所示，仅使用 L 1距离忽略了大和小笔画之间的不同尺度。因此，我们进一步添加了两个笔画之间的Wasserstein距离，遵循旋转目标检测的思想[33]。具体而言，通过以下方程，可以将具有参数[ x, y, w, h, θ ]（不包括颜色参数）的旋转矩形笔画视为2-D高斯分布 N (µ, Σ ) ：0因此，两个高斯分布 N ( µ u , Σ u ) 和 N ( µ v , Σ v )之间的Wasserstein距离为：01 2 u ) 1 2 ) , (10) 其中 Tr ( ∙ )表示矩阵的迹。此外，期望对于具有正（负）真实决策的笔画，预测的置信度应尽可能高（低）。假设 s u是具有置信度 c u 的预测笔画， s v 是具有地面真实标签 g v 的目标笔画，其中如果 s v 是有效笔画，则 g v = 1，如果 s v 是空笔画，则 g v = 0。因此，我们可以利用二元交叉熵来匹配置信度的相似性：0其中， λ r是控制召回率的权重项。笔画损失。在训练过程中，有效地面真实笔画的数量是不确定的。因此，根据 DETR [2]，使用预定义的最大笔画数量 N，我们需要首先生成预测集合 ¯ S r （包含 N个笔画）和地面真实集合 S g （包含 N个笔画，可以是有效笔画也可以是空笔画）之间的匹配机制，以计算损失。根据 DETR [2]，我们采用产生最小笔画级别匹配成本的笔画排列来计算最终损失。首先使用匈牙利算法[18]计算最佳二分匹配。对于预测集合 ¯ S r 中的笔画 s u 和目标集合 S g 中的笔画 sv ，它们的成本值为：0算法1 Paint Transformer的推理算法输入：形状为 H ×W 的目标图像 I t ；笔画预测器 SP ；笔画渲染器 SR 。01: K = max(argmin K { P × 2 K ≥ max(H, W) }, 0); 2:It = pad(It, size = (P × 2K, P × 2K));03: Ic = blank canvas; 4: for 0 ≤ k ≤ K do5: Ikt = resize(It, (P × 2k, P × 2k));06: Ikc = resize(Ic, (P × 2k, P × 2k));0t = image to patches(Ikt, size = (P, P));0c = image to patches(Ikc, size = (P, P));0c);0c);011: Ic = patches to image(Ikr);012: 结束循环 13: Ir = crop(Ic, size= (H, W)); 14: 返回Ir。0这意味着空目标笔画的匹配成本始终为0。因此，用匈牙利算法给出的预测笔画和目标笔画的最优排列分别表示为X和Y，笔画损失函数可以写成：0L笔画 = 10n0i=1 (gYi(λL1DXiYiL1 +λWDXiYiW)0+λbceDXiYibce)，0其中λL1，λW和λbce是权重项。此外，尽管在神经绘画任务中，笔画顺序非常重要，但我们在笔画级别的损失中忽略了笔画顺序，并将调节笔画顺序的任务设置为图像级别。03.5. 推理0为了模仿人类画家，我们设计了一种由粗到细的算法，在推理过程中生成绘画结果，如算法1所示。给定一个尺寸为H×W的真实世界图像，我们的PaintTransformer按顺序从粗到细在K个尺度上运行。每个尺度上的绘画依赖于前一个尺度的结果。目标图像和当前画布在发送到StrokePredictor之前会被切割成几个不重叠的P×P的patch。我们设置K如下：0K = max(argmin K { P × 2 K ≥ max(H, W) }, 0)，(14)0其中在第k（0 ≤ k ≤ K）个尺度上，有2k×2k个0每个patch都会独立地通过Stroke Predictor和StrokeRenderer模块进行处理。每个尺度上的绘画结果是通过将画布的各个patch组合在一起得到的。66030图5. 与最先进的方法进行比较：基于优化的方法（Optim）[39]和基于RL的方法[10]。我们还展示了使用不同渲染尺度的结果，其中K =4是默认设置。这里的MS表示使用更多的笔画进行Optim，与Ours（K = 4）的笔画数相同。5120.3040.322521.44766040图6. 对提出的不同损失项进行消融研究。为了清楚地说明差异，在每个图像中，放大了一个区域。0方法真实图像随机笔画0L像素 Lpcpt L像素 DL1 DW0RL [10] 0.040 0.737 0.058 - - Optim [39] 0.059 0.8560.073 0.137 0.057 Ours 0.056 0.807 0.042 0.0830.0180w/o L像素 0.081 1.012 0.068 0.241 0.024 w/o DL10.074 0.941 0.077 0.267 0.019 w/o DW 0.069 0.9470.046 0.113 0.034 w/o Dbce 0.071 0.928 0.0520.093 0.0210表1.不同方法或设置下的不同指标的定量结果。数值越小表示与原始输入越接近。Optim使用与Ours相同数量的笔画。04. 实验04.1. 实现细节0为了训练我们的PaintTransformer，实际上，我们将输入图像的大小P设置为32，并且一个patch中的笔画数N设置为8。图像特征提取的CNN由三个Conv-BatchNorm-ReLU块组成，其中包含两个1/2倍的下采样操作。对于Transformer，特征维度为256，编码器和解码器都有3层。在训练过程中，我们从均匀分布中随机生成N个目标笔画的参数。为了防止笔画之间过多的重叠，并确保有效目标笔画的数量多样化，我们按顺序为It生成笔画，并且如果一个笔画覆盖了前一个笔画的60%以上的区域，则将该笔画的标签设置为0。超参数λr，λL1，λw和λbce分别设置为8，1，10和1。我们使用Adam优化器[15]，学习率为0.0001。我们在单个Nvidia RTX 2080 TiGPU上使用批量大小为128进行30,000次迭代的模型训练。总的训练时间少于4小时。对于推理，本文中的绘画结果都是在512×512分辨率下，如果没有特别说明，K=4。0方法我们 RL [10] Optim [39]0推理（秒）128 0.055 0.242 76.5080训练（小时）SP 3.79 40 00SR 0 5-15 10.160使用外部数据集否是否0表2. 不同方法的推理和训练效率。04.2. 与最先进的方法比较0定性比较。如图5所示，我们将我们的方法与两种最先进的基于笔触的绘画生成方法进行了比较。与基于优化的方法（Optim）[39]相比，我们的方法可以生成更吸引人和令人耳目一新的结果。具体而言，在大的无纹理图像区域，我们的方法可以生成具有相对较少且更大的笔触的人类化绘画（第3、5和7行）。在小的纹理丰富的图像区域，我们的方法可以生成具有更清晰纹理以保留内容结构的绘画。我们进一步使用更多笔触实现了Optim（第5列），然而，上述问题仍然存在。与基于RL的方法[10]相比，我们可以生成更生动的结果，并具有清晰的画笔。同时，[10]的结果有些模糊，缺乏艺术抽象，也与原始图像过于相似。定量比较。我们还进行了定量比较以供参考。由于神经绘画的一个目标是重新创建原始图像，我们直接使用像素损失Lpixel和感知损失Lpcpt[12]作为评估指标。对于真实图像，我们随机选择了[1]中的100个风景，WikiArt [25]中的100个艺术品和FFHQ[13]中的100个肖像进行评估。表1中的结果与前面的定性分析一致：（1）具有生动的画笔纹理，我们的方法可以呈现66050图7. 使用不同画笔的结果，这里设置K为3。0与Optim [39]相比，我们更好地保留了原始内容; (2)[10]在内容保真度方面表现最好，但在抽象方面较弱。然后，为了比较笔触预测性能，我们将合成的笔触图像发送到PaintTransformer和Optim，并使用与第3.4节相同的指标评估它们生成的笔触。数值结果显示，我们的方法可以成功预测笔触，并优于其他方法。这里缺少[10]的测量结果，因为它具有不同参数化的笔触。效率分析。我们在表2中进行效率比较。使用单个Nvidia 2080TiGPU测量训练或推理时间。在推理过程中，由于PaintTransformer以并行的前馈方式生成一组笔触，因此其运行速度明显快于优化基线[39]，并且略快于基于RL的基线[10]。至于训练，我们只需要几个小时来训练一个笔触预测器，从总体训练时间的角度来看，这比[10]和[39]更方便。此外，我们的无模型笔触渲染器和无数据笔触预测器使用起来高效便捷。04.3. 消融研究0如图6所示，我们提供了消融研究结果，以验证用于训练Paint Transformer的每个优化项的有效性。 (1)没有像素损失，模型无法学习正确的位置来放置具有正确颜色的笔触，导致颜色错误和肮脏的纹理; (2)没有参数L1损失，模型无法学习笔触的形状并呈现重复的笔触模式; (3)没有Wasserstein损失，处理不同尺度的笔触的能力似乎减弱，大而生动的笔触消失了; (4)没有置信度损失，模型无法决定是否绘制笔触，导致太多小笔触完全覆盖整个图像和先前的笔触。我们还在表1中提供了定量消融结果，表明缺少每个提出的度量指标都会导致性能下降。0图8. 风格化绘画04.4. Paint Transformer的扩展0使用不同笔触绘画。值得注意的是，一旦使用一种基本笔刷进行训练，我们的笔触预测器可以通过替换笔触渲染器中使用的基本笔刷来轻松转换到另一种笔刷。如图7所示，使用以油画笔为训练对象的笔触预测器，我们仍然可以使用矩形和圆形笔刷生成吸引人且生动的绘画结果。风格化绘画。我们的方法还可以与艺术风格转换相结合，生成具有吸引力和风格化的绘画。我们利用现有的风格转换方法，如LapStyle[20]和AdaAttN[22]，在风格化内容图像上生成神经绘画。如图8所示，通过这种富有想象力的方式，我们可以生成具有多样颜色和纹理的风格化绘画。05. 结论和未来工作0在本文中，我们从笔触集预测的角度重新构建了神经绘画问题。借鉴基于Transformer的目标检测的见解，我们提出了一种新颖的框架，称为PaintTransformer，通过使用前馈Transformer预测多个笔触的参数，可以从自然图像中生成绘画。此外，我们提出了一种新颖的自我训练流程，使得我们的PaintTransformer可以在没有手动收集数据集的情况下进行训练。实验证明，与现有技术相比，我们的模型可以在艺术抽象和真实感之间取得更好的平衡，同时保持高效率。至于我们的未来工作，除了直线笔触和均匀颜色之外，探索更复杂的笔触形状或颜色模式是一个有价值的课题。这些笔触设置需要更先进的笔触渲染系统。如果利用跨区域上下文，可以进一步提高长而窄区域的绘画质量。266060参考文献0[1] 自然风景图片数据集. 网站, 2020.https://www.kaggle.com/arnaud58/ landscape-pictures . 70[2] Nicolas Carion，Francisco Massa，Gabriel Synnaeve，NicolasUsunier，Alexander Kirillov和Sergey Zagoruyko.基于Transformer的端到端目标检测，2020年。2，3，4，50[3] Yang Chen，Yu-Kun Lai和Yong-Jin Liu. Cartoongan:用于照片卡通化的生成对抗网络.在《IEEE计算机视觉与模式识别会议论文集》中，页码9465-9474，2018年。20[4] Yaroslav Ganin，Tejas Kulkarni，Igor Babuschkin，SM AliEslami和Oriol Vinyals. 使用强化对抗学习合成图像程序.在《国际机器学习会议》中，页码1666-1675。PMLR，2018年。20[5] Leon A Gatys，Alexander S Ecker和Matthias Bethge.使用卷积神经网络的图像风格转换.在《IEEE计算机视觉与模式识别会议论文集》中，页码2414-2423，2016年。20[6] David Ha和Douglas Eck. 素描绘画的神经表示.arXiv预印本arXiv:1704.03477，2017年。0[7] Paul Haeberli. 按数字绘画: 抽象图像表示.在《第17届计算机图形学与交互技术年会论文集》中，页码207-214，1990年。20[8] Aaron Hertzmann. 多尺寸曲线画笔的绘画渲染.在《第25届计算机图形学与交互技术年会论文集》中，页码453-460，1998年。20[9] Xun Huang和Serge Belongie.实时自适应实例归一化的任意风格转换.在《IEEE国际计算机视觉会议论文集》中，页码1501-1510，2017年。10[10] Zhewei Huang, Wen Heng和Shuchang Zhou.使用基于模型的深度强化学习进行绘画. 在IEEE/CVF国际计算机视觉会议论文集中, 页码8709–8718, 2019. 2, 6 , 7 , 80[11] Phillip Isola, Jun-Yan Zhu, Tinghui Zhou和Alexei A Efros.条件对抗网络的图像到图像转换. 在计算机视觉和模式识别(CVPR), 2017 IEEE会议上, 2017. 20[12] Justin Johnson, Alexandre Alahi和Li Fei-Fei.用于实时风格转换和超分辨率的感知损失. 在欧洲计算机视觉会议上, 页码694–711. Springer, 2016. 1 , 70[13] Tero Karras, Samuli Laine和Timo Aila.用于生成对抗网络的基于风格的生成器架构, 2019. 70[14] Hiroharu Kato, Deniz Beker, Mihai Morariu, TakahiroAndo, Toru Matsuoka, Wadim Kehl和Adrien Gaidon.可微分渲染: 一项调查. arXiv预印本arXiv:2006.12057 , 2020. 40[15] Diederik P Kingma

下载后可阅读完整内容，剩余1页未读，立即下载