使用模型的深度强化学习实现机器绘画

15 浏览量更新于2023-10-12 收藏 1.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8709使用基于模型的深度强化学习学习绘画黄哲伟1，2文恒1周树昌11迈谷科技2北京大学{黄哲伟，恒文，zsc}@ megvii.com摘要我们展示了如何教机器像人类画家一样绘画，他们可以使用少量的笔触创作出奇妙的画作。通过在基于模型的深度强化学习（DRL）中使用神经渲染器，我们的代理学习确定每个笔划的位置和颜色，并制定长期计划将纹理丰富的图像分解为笔划。实验表明，使用数百个笔划可以实现良好的视觉效果。训练过程不需要人类画家的经验或笔画跟踪数据。该代码可在https://github.com/hzwer/ICCV2019-LearningToPaint上获得。1. 介绍绘画是视觉艺术的重要形式，是人类智慧和创造力的集中体现。近几个世纪以来，艺术家们使用各种各样的工具来创作他们的杰作。但是，因此，教机器绘画是一项具有挑战性的任务，有助于揭示绘画的奥秘。同时，对本课题的研究也有助于我们建立绘画辅助工具.我们训练了一个人工智能绘画代理，它可以在画布上按顺序绘制笔划，以生成类似于给定图像的绘画。神经网络用于产生控制笔划的位置、形状、颜色和透明度的参数。以前的作品研究了教学机器来学习绘画相关的技能，如素描[7，3，29]，涂鸦[35]和书写字符[34]。相比之下，我们的目标是教机器处理更复杂的任务，例如在现实世界中绘制人类和自然场景的肖像，这些场景具有丰富的纹理和复杂的结构组成。我们解决了三个挑战，训练代理绘制真实世界的图像。首先，像人类一样绘画需要智能体具有将给定目标图像分解成有序笔划序列则需图1：绘画过程。第一列显示目标图像。我们的代理人倾向于以一种由粗到细的方式绘制。从视觉上解析目标图像，了解画布的当前状态，并对未来的笔画有前瞻性的计划。为了实现这种规划，一种方法是在每一步给出笔划分解的监督损失，如[7]所示。然而，这种方法需要地面实况笔划分解，这是很难定义的。此外，纹理丰富的图像绘画通常需要数百笔来生成类似于目标图像的绘画，这是涂鸦、素描或字符书写所需的数十倍，为了解决问题的不确定性和长期规划的挑战，我们建议使用强化学习（RL）来训练代理，因为RL可以最大化整个绘画过程的累积奖励，而不是最小化每一步的监督损失实验表明，RL代理可以构建具有数百个步骤的笔划分解计划。此外，我们应用adversar- ial训练策略[5]来提高生成图像的像素级质量，因为该策略在其他图像生成任务中已被证明是有效的[17]。其次，设计了连续的笔画参数空间，包括笔画位置、颜色和透明度，以提高绘画质量。Previous works[7，35，4] de-8710(a)（b）第（1）款图2：整体架构。(a)在推理阶段，Actor在每一步都基于画布状态和目标图像输出一组笔画参数。然后渲染器相应地在画布上渲染笔划。(b)在训练阶段，演员在一个对抗性的评论家和一个评论家的帮助下接受训练。每一步的奖励由训练器给出，训练样本从重放缓冲区随机采样。符号离散笔画参数空间，并且每个参数只有有限数量的选择，这对于纹理丰富的绘画来说是不够的。相反，我们采用了深度决定性策略梯度（DDPG）[19]，它可以很好地处理智能体的连续动作空间。第三，我们构建了一个高效的可微分神经渲染器，它可以模拟在画布上绘制数百个笔划。大多数以前的作品[7，35，4]通过与不可区分的绘画模拟环境交互来绘画，这些环境很好地渲染，但无法提供有关生成图像的详细反馈。相反，我们训练一个神经网络，直接将笔画参数映射到笔画绘画。渲染器还可以通过改变生成模式来适应不同的笔画设计，如三角形和圆形此外，差分渲染器可以与DDPG组合成一个基于模型的DRL，可以以端到端的方式进行训练，这大大提高了绘画质量和收敛速度。总之，我们的贡献有三方面：• 我们使用基于模型的DRL算法来处理绘画任务，并构建代理，将目标图像分解为数百个顺序的笔划它可以在画布上重现一幅画。• 我们建立了可微分神经渲染器，以实现高效的绘画和灵活的支持不同的笔画设计，例如。贝塞尔曲线、三角形和圆形。新-通过允许以端到端的方式训练基于模型的DRL代理，ral渲染器有助于绘画质量。• 实验表明，该绘制代理可以很好地处理多种类型的目标图像，包括手写数字、街景门牌号、人像和自然场景图像。2. 相关工作基于笔划的渲染（SBR）是一种非真实感图像的方法，通过在画布上放置离散的绘图元素（如绘画笔划或点画[12]）来重建图像大多数SBR算法在每一步都通过贪婪搜索或需要用户交互来解决笔划分解问题。Haeberli等人[9]提出了一种半自动的方法，它要求用户设置参数来控制笔画的形状，并为每个笔画选择位置。Litwinowicz等人[21]提出了一种单层的类似画家的渲染，它将画笔笔划放置在图像平面中的网格上，具有随机扰动的位置。一些工作还研究了使用不同笔画设计的效果[11]以及从视频生成动画的相关问题[20]。最近的作品使用 RL 来改善图像的笔划分解。SPIRAL [4]是一个经过逆向训练的DRL代理，可以学习图像中的结构，但无法恢复人体肖像的细节。StrokeNet [34]结合了可区分的渲染器和递归神经网络（RNN）来训练代理进行绘画，但未能对彩色图像进行概括。Doodle-SDQ [35]训练代理使用DQN模仿人类涂鸦。早些时候，Sketch-RNN [7]使用顺序数据集在草图中获得良好的结果。Artist Agent [32]探索使用RL自动生成单个画笔笔划。3. 油漆代理3.1. 概述绘画代理的目标是将给定的目标图像分解为可以在画布上重新创建图像的笔划。为了模仿人类的绘画过程，智能体被设计为基于观察画布和目标图像的当前状态来预测下一笔。但是，每一步的击球都需要很好的配合8711(a) MNIST [16]（b）SVHN [24]（c）CelebA [23]（d）ImageNet [25]图3：多个数据集上的绘制结果。对于MNIST、SVHN、CelebA和ImageNet，绘画的笔画数分别为5、40、200和400。与先前的笔划和未来的笔划相关联，以减少用于完成绘画的笔划数。我们假设智能体应该在完成给定的笔画数后最大化累积奖励为了实现这种延迟回报设计，我们采用了DRL框架，图2中显示了整个架构的图表。在框架中，我们将绘画过程建模为顺序决策任务，如第3.2节所述。为了构建反馈机制，我们使用神经渲染器来帮助生成训练代理的详细奖励，这在第3.3节中描述。3.2. 模型给定目标图像I和空画布C0，代理旨在找到笔划序列（a0，a1，…a n−1），其中在 C t 上渲染t可以得到Ct+1。在渲染这些笔划按顺序排列，我们得到最终的绘画Cn，它应该尽可能地在视觉上与I相似。我们将此任务建模为具有状态空间S、动作空间A、转移函数transs（st，at）和奖励函数r（st，at）。的细节下面将详细说明这些组件状态和转移函数状态空间由智能体在环境中可以观察到的所有可能的信息我们将一个状态分为三个部分：画布、目标图像和步骤编号的状态。形式上，st=（Ct，I，t）。Ct和I是位图struct 代理剩余的步骤数。 transition 函数 st+1=transs（st，at）给出了状态之间的转换过程，这是通过在当前画布上绘制一个笔划来实现的动作绘制代理的动作at是控制将在步骤t绘制的笔划的位置、形状、颜色和透明度的一组参数。我们将代理的行为定义为将状态映射到确定性动作的策略函数π，即π：S → A。在步骤t，代理在预测下一个冲程at的参数之前观察状态st。状态基于过渡函数st+1=transs（st，at）演化，其运行n步。奖励选择一个合适的指标来衡量当前画布和目标图像之间的差异被发现是至关重要的训练绘画代理。奖励的设计如下，r（st，at）=Lt−Lt+1（1）其中r（st，at）是步骤t的回报，Lt是I和Ct之间的测量损失，Lt+1是I和Ct+1之间的测量损失。在这项工作中，L被公式化为在第3.3.3节中定义的平均得分。为了使最终画布与目标图像相似，应该驱动智能体最大化整个事件中的累积在每一步，代理的目标最大化折现后的未来收益之和Rt=并且步骤号t充当附加信息以通知-不I=tγ（i-t）r（s i，ai），折现因子γ ∈ [0，1]。87123.3. 学习在本节中，我们将介绍如何使用基于模型的DDPG算法来训练Agent(a) （b）基于模型的发展中国家方案图4：在最初的DDPG中，批评者需要学习隐式地对环境建模。在基于模型的DDPG中，环境通过神经渲染器显式建模，这有助于有效地训练代理3.3.1基于模型的DDPG我们首先描述了原来的DDPG，然后介绍建立基于模型的DDPG有效的代理培训。由于我们对笔划使用连续参数，因此绘画任务中的动作空间是连续的并且是高维的。为了适应DQN和PG等DRL方法，将动作空间离散化，不仅会失去笔划表示的精确性，而且需要在手动结构设计上做大量工作，以应对离散空间中参数组合的爆炸。相比之下，DPG [28]使用确定性策略来解决高维连续动作空间引起的困难，DDPG是其使用神经网络的变体。在最初的DDPG中，有两个网络：作用者π（s）和批评者Q（s，a）。参与者对策略π进行建模，该策略将状态st映射到动作at。评论家估计的预期回报为代理采取行动t在状态st，其使用如在Q-学习[30]中的Bellman等式（2）来训练，并且数据从经验重放缓冲器采样：Q（st，at）=r（st，at）+γQ（st+1，π（st+1））（2）.这里r（st，at）是在状态st执行动作at时环境给出的奖励。演员π（st）被训练为最大化评论家换句话说，演员为每个状态决定一个笔画。基于当前画布和目标图像，评论家预测笔划的预期奖励评论家被优化以估计更准确的预期奖励。我们无法使用原始DDPG训练出性能良好的绘画代理，因为代理在学习过程中，由任何类型的真实世界图像组成的复杂环境世界模型[8]是一种使智能体有效地理解环境的方法。类似地，我们设计了一个神经渲染器，以便代理可以观察建模的环境。这样才能有效地探索环境，完善政策我们将DDPG与可以从环境中获取梯度的Actor称为基于模型的DDPG。图4直观地显示了这两种算法之间的差异。基于模型的 DDPG 对 Agent 的优化不同于原始DDPG。在步骤t，批评者将st+1作为输入，而不是同时将st和at作为输入。评论家仍然预测国家的预期回报，但不再包括当前行为引起的回报。新的预期奖励是使用折扣奖励训练的值函数V（st）V （ st ） =r （ st ， at ） +γV （ st+1 ）（3）这里r（st，at）是执行动作at基于ST。参与者π（st）被训练为最大化r（st，π（st））+V（transs（st，π（st）. 转换函数st+1=transs（st，at）是可微渲染器。3.3.2行动捆绑包Frame Skip [2]是许多RL任务的强大技巧，通过限制代理只观察环境并每k帧而不是一帧采取行动这个技巧使得代理有更好的能力来学习时间上更遥远的状态和行为。代理预测一个动作，并在接下来的k-1帧中重用它，从而以更少的计算成本实现更好的性能受此技巧的启发，我们建议使用Action Bundle，智能体在每一步预测k个笔划，渲染器按顺序渲染这些笔划。这一实践鼓励了对动作空间和动作组合的探索。渲染器可以同时渲染k个笔划，从而大大加快绘制过程。我们实验发现，设置k=5是一个很好的选择，显着提高性能和学习速度。值得注意的是3.3.3WGAN奖励GAN已被广泛用作迁移学习，文本模型和图像恢复中的特定损失函数[18，33]，因为它在测量生成数据和目标数据之间的分布距离方面具有很强的能力。Wasserstein GAN（WGAN）[1]是原始GAN的改进版本，它使用Wasserstein-1距离，也8713称为地球移动器距离。WGAN中的判别器的目标定义为：maxEyµ[D（y）]−Exv[D（x）]（4）D其中，D表示ω，ν和μ是假样本和真实样本分布。使用条件GAN训练模式[14]，其中假样本是绘画及其目标的配对;真实样本为两幅相同的目标图像，如图5所示。上述目标的前提条件是D应在1-Lipschitz约束下。为了实现约束，我们使用带有梯度惩罚的WGAN（WGAN-GP）[6]。图5：判别器我们希望尽可能减少绘画和目标图像之间的差异为了实现这一点，我们使用等式（1）设置从st到st+1的D分数的差作为指导演员学习的奖励通过实验发现，由D分数得到的奖励比由L2距离得到的奖励更好3.4. 网络架构(a) 演员和评论家（b）The Actor and Criticist(c)神经渲染器图6：网络架构。FC是指全连接层，Conv是指卷积层，GAP是指全局平均池化层。Actor和Critic使用相同的结构，除了最后的FC层具有不同的输出维度。由于现实世界图像的高度可变性和复杂性，我们使用类似于 ResNet-18 [10] 的残差结构 actor 与 BatchNormalization（BN）[13]配合良好，但BN无法显著加快 critic 学习。我们使用 WN [26] 和翻译的 ReLU（TReLU）[31]，批评家来稳定我们的学习。此外，我们使用Coord-Conv [22]作为演员和评论家的第一层。对于网络，我们使用类似于PatchGAN [14]的网络架构，并使用WN和TReLU。图6（a）和（b）显示了演员、评论家和评论家的网络在最初的DDPG论文之后，我们使用了软目标网络，它为演员和评论家创建了一个副本，并通过让他们慢慢跟踪学习的网络来更新他们的参数。我们还将这一技巧应用于判别器，以提高其训练稳定性。4. 基于笔划的渲染器在本节中，我们将介绍如何构建神经笔划渲染器并使用它来生成多种类型的笔划。4.1. 神经渲染器使用神经网络来生成笔划具有两个优点。首先，神经渲染器可以灵活地生成任何风格的笔划，并且在GPU上比大多数手工制作的笔划模拟器更有效。其次，神经渲染器是可区分的，并支持端到端训练，从而提高代理的性能。具体地，神经渲染器具有一组笔划参数at作为输入，并且输出渲染的笔划图像S。训练样本是使用计算机图形绘制程序随机生成的。神经渲染器可以通过监督学习快速训练并在GPU上运行。基于模型的转变动力学st+1=trans（st，at）和奖励函数r（st，at）是可微的。一些简单的几何轨迹，如圆，具有简单的闭合形式梯度。然而，一般来说，像素位置和像素值的离散性在导出梯度时需要连续近似，例如为了贝齐尔·库尔·维斯。近似值需要仔细设计，以免破坏智能体的学习。神经渲染器是由几个完全连接的层和卷积层组成的神经网络。亚像素上采样[27]用于增加网络中笔画的分辨率，这是一种快速运行的操作，可以消除棋盘效应。我们在图6（c）中示出了神经渲染器的网络架构。4.2. 冲程设计笔划可以设计为各种曲线或几何形状。通常，笔划的参数应该包括位置、形状、颜色和透明度。设计了一种带厚度的二次Bézier曲线（QBC）的笔划表示贝塞尔曲线的形状由控制点的坐标指定形式上，笔划被定义为8714（a）（b）（c）（d）（e）（f）（g）图7：不同设置下的CelebA绘画（a）20笔画的螺旋画[4]（b）20笔画的不透明画（c）200笔画的不透明画（d）200笔画的奖励画（e）200笔画的画（基线）（f）1000笔画的画（g）目标图像以下元组：at=（x0，y0，x1，y1，x2，y2，r0，t0，r1，t1，R，G，B）t，（5）其中（x0，y0，x1，y1，x2，y2）是QBC的三个控制点的坐标。（r0，t0），（r1，t1）分别控制曲线两个端点的厚度和透明度。（R，G，B）控制颜色。QBC的公式为：B（t）=（1−t）2P0+2（1−t）tP1+t2P2，0≤t≤1，（6）由于改变笔划表示只需要改变最终的笔划渲染层，因此我们可以使用具有相同网络结构的神经渲染器来实现不同笔划设计的渲染。5. 实验我们的实验使用了四个数据集，包括MNIST [16]，SVHN [24]，CelebA [23]和ImageNet [25]。我们表明，该代理具有良好的性能，在绘画，ING各种类型的现实世界的图像。5.1. 数据集MNIST包含70，000个手写数字示例，其中60，000个是训练数据，10，000个是测试数据。每个示例都是28×28像素的灰度图像。8715SVHN是一个真实世界街景门牌号图像数据集，包含60万个数字图像。“裁剪的数字”集中的每个样本都是32×32像素的彩色图像。我们随机抽取了20万张图片进行实验。CelebA包含大约200，000张名人脸部图像。在我们的实验中使用了官方提供的中心裁剪图像。ImageNet（ILSVRC2012）包含120万张自然场景图像，分为1000个类别。ImageNet的极端多样性对绘画代理提出了巨大的挑战。我们随机抽取了200，000张涵盖1，000个类别的图像作为训练数据。在我们的任务中，我们的目标是训练一个可以绘制任何图像的代理，而不仅仅是训练集中的图像。因此，我们另外划分测试集来测试训练的智能体的泛化能力。对于MNIST，我们使用官方定义的测试集。对于其他数据集，我们随机分离出2,000张图像作为测试集。5.2. 培训我们在给药前将所有图像的分辨率调整为128×128一个动作束包含5个笔画，大约需要2。在2.2GHz英特尔酷睿 i7 CPU 上使用 200 笔绘制图像仅需 1 秒在NVIDIA 2080Ti GPU上，9. 5倍加速。演员和渲染器的计算成本约为5548716(a) DDPG和基于模型的DDPG（b）动作包的不同设置（c）不同的笔画图8：消融研究中CelebA的绘画和目标图像之间的测试距离为102。MFLOPs和217MFLOPs，分别用于喷涂一个作用束。我们用2×105个小批量训练ImageNet和CelebA数据集， 105个小批量训练 SVHN ， 2×104个小批量训练MNIST。Adam [15]用于优化，小批量大小设置为96。的在单个GPU上执行代理训练在ImageNet和CelebA上训练大约需要40个小时，SVHN需要20个小时它花了5到15个小时来训练每个笔画设计的神经渲染器。相同的训练渲染器可以用于不同的代理。在每次迭代中，我们依次更新 critic 、 actor 和discriminator。所有模型都是从头开始训练的重放存储器缓冲区被设置为存储用于训练代理的最新800集的数据。有关更多培训详情，请参阅补充材料。5.3. 结果图9：不同数据集的绘画和目标图像之间的测试距离为2MNIST和SVHN的图像结构简单，内容规则。我们训练了一个代理，为MNIST的图像绘制5个笔画，另一个代理为SVHN的图像绘制40个笔画。示例绘画如图3（a）和（b）所示。代理可以完美地再现目标图像。相比之下，CelebA的形象结构更加复杂，内容更加丰富。我们训练200杆代理人来处理CelebA的图像。如图3（c）所示，这些绘画与目标图像非常相似，尽管失去了一定程度的细节。由于ImageNet中的图像结构极其复杂，内容多样，我们训练了一个400笔划的智能体来处理图像。如图3（d）所示，绘画在物体和背景的轮廓和颜色方面与目标图像相似尽管失去了一些纹理，智能体仍然显示出强大的力量，在分解复杂的场景到中风，并可以合理地重绘他们。我们在图9中显示了在不同数据集上训练的代理的测试损失曲线。在[4]中，SPIRAL显示了它在CelebA上的性能。为了进行公平的比较，我们还将一个20笔划的代理训练为SPIRAL，并使用不透明的笔划。两种方法的结果分别见图7（a）和（b）我们的102距离比SPIRAL小3倍。我们分析了SPIRAL和我们的方法之间的主要区别如下。首先，SPIRAL使用不可微的绘画模拟器，并且必须使用无模型的RL算法，这通常比基于模型的算法性能更差。第二，螺旋预测一个行动，通过循环产生每个维度具有强非线性。我们的方法通过在一个步骤中预测多个动作向量来简化这一步骤。第三，我们相信有足够数量的笔画对于生动的效果至关重要。Spiral完成一整期才能拿赏卡。这使得随着步骤数量的增加，回报太稀疏。5.4. 消融研究在本节中，我们将研究组件或技巧如何影响代理的性能。对照实验在CelebA上进行。5.4.1基于模型与无模型DDPG我们探讨了基于模型的DDPG比原始DDPG带来了多少好处原始的DDPG只能通过环境的观测和反馈对环境进行基本建模。此外，高维8717动作空间也阻止了无模型方法成功地处理绘画任务。为了进一步探索无模型方法的能力，我们用PatchGAN启发的方法改进了原始DDPG。我们在给评论家喂食之前将图像分成补丁，然后使用补丁级奖励来优化评论家。我们将这种方法称为PatchQ。PatchQ通过在训练中提供更多的监督信号，提高了样本效率我们在图8（a）中显示了使用不同算法训练的代理的性能。基于模型的DDPG实现了最佳性能，具有5倍更小的DD2分辨率，比使用PatchQ的DDPG更高，距离小20倍比原来的DDPG。虽然表现不佳基于模型的DDPG，具有PatchQ的DDPG优于具有显著裕度的原始DDPG。5.4.4替代笔画表示除了QBC，我们发现替代的笔画表示也可以很好地掌握的代理，包括直笔画，圆形和三角形。我们为每个笔划表示训练一个神经渲染器。带有这些渲染器的绘画如图10所示。QBC笔画产生出色的视觉效果。与此同时，其他笔画设计创造了不同的艺术效果。虽然风格不同，但绘画仍然与目标图像相似。这表明，我们的网络架构推广到其他选择的中风设计。此外，通过限制笔划的透明度，我们可以得到具有不同笔划效果的绘画，例如水墨画和油画，如图7（c）所示。5.4.2奖励102米的距离是一个替代的奖励训练的演员。我们分别在图7（d）和（e）中显示了使用WGAN奖励（第3.3.3节）和2奖励有WGAN奖励的画作显示出更丰富的纹理，看起来更生动。有趣的是，我们发现使用WGAN奖励来训练智能体可以实现更低的收益率2目标QBC直型中风三角圆损失的测试数据比直接使用102这表明，WGAN距离是衡量绘画和现实世界图像之间差异的一个更好的度量，而不是WG2距离。5.4.3冲程数和动作包绘制的笔划数对于最终的绘制质量至关重要我们训练可以画100、200、400和1000笔的代理，测试损失曲线如图8（c）所示。据我们在图8（e）和（f）中分别展示了200笔和1000笔的画作。据我们所知，很少有方法可以处理如此大量的笔划。更多的笔画有助于重建画中的细节我们在图8（b）中显示了Action Bundle几种设置的测试损失曲线。我们发现，使智能体预测一个捆绑中的五个笔划实现了最佳性能。我们推测，增加一束中的笔画数有助于智能体建立长期计划，因为决策轮数会减少，尽管这会增加单轮决策的难度。因此，为了实现折衷，一个束中的几个笔划对于代理来说是一个很好的设置。实验确定，在一个Action Bundle中设置五个Action图10：CelebA使用不同笔画设计的绘画。6. 结论在本文中，我们训练的代理，分解成一个有序的序列中的时尚模仿人类绘画过程中的目标图像的笔画画布上。训练基于深度强化学习框架，该框架鼓励智能体为基于笔划的连续绘画制定长期计划。此外，我们建立了一个可微分的神经渲染器来渲染笔划，这允许使用基于模型的DRL算法来进一步提高重建图像的质量学习过的代理可以预测数百甚至数千个笔画来生成生动的绘画。实验结果表明，该模型可以处理多种类型的目标图像，并在绘制真实世界的图像，如人体的por- traits和纹理丰富的自然场景取得了良好的性能引用[1] 马丁 ·阿乔对 ky ，苏米特 ·钦塔拉和 Le'onBottou 。Wasserstein生成对抗网络第34届机器学习第70卷，第214-223页。JMLR。org，2017. 4[2] Alex Braylan，Mark Hollenbeck，Elliot Meyerson，andRisto Miikkulainen.跳帧是学习打雅达利的一个强大的参数。在2015年第二十九届AAAI人工智能会议上的研讨会上。48718[3] Yajing Chen，Shikui Tu，Yuqi Yi，and Lei Xu. Sketch-pix 2seq：一个生成多个类别草图的模型arXiv预印本arXiv：1709.04121，2017。1[4] Yaroslav Ganin、Tejas Kulkarni、Igor Babuschkin、SMAli Eslami和Oriol Vinyals。使用强化对抗学习合成图像程序。在国际机器学习会议上，第1652-1661页，2018年。一、二、六、七[5] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第26721[6] Ishaan Gulrajani 、 Faruk Ahmed 、 Martin Arjovsky 、Vincent Dumoulin和Aaron C Courville。改进的瓦瑟斯坦甘斯训练。神经信息处理系统进展，第5767-5777页，2017年。5[7] David Ha和Douglas Eck。草图的神经表征。arXiv预印本arXiv：1704.03477，2017。一、二[8] D a vidHa和J ür genSchmidhube r. 反复出现的世界模式促进了政策的演变。In S. Bengio，H. Wallach，H.拉罗谢尔湾格劳曼Cesa-Bianchi和R. Garnett，编辑，神经信息处理系统进展 31 ，第 2451-2463 页。 CurranAssociates，Inc.2018.https://worldmodels.github.io网站。4[9] 保罗·海伯利按数字作画：抽象图像表示。在ACMSIGGRAPH计算机图形，第24卷，第207-214页ACM，1990年。2[10] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页，2016中。5[11] 亚伦·赫茨曼使用多种大小的弯曲画笔笔划进行绘画渲染。第25届计算机图形和交互技术年会集，第453-460页。ACM，1998年。2[12] 亚伦·赫茨曼基于笔划的绘制技术综述。IEEE Computer Graphics and Applications，23（4）：70-81，2003年7月2[13] Sergey Ioffe和Christian Szegedy。批次标准化：通过减少内部协变量偏移来加速深度网络训练。在第32届国际机器学习会议上，第37卷，第448-456页。JMLR。org，2015. 5[14] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在IEEE计算机视觉和模式识别会议论文集，第1125-1134页，2017年。5[15] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。7[16] 杨乐存。mnist手写数字数据库。http：//yann. 乐村1998年。三、六[17] Christian Ledig ， Lucas Theis ， Ferenc Huszar ， JoseCaballero ， Andrew Cunningham ， Alejandro Acosta ，Andrew Aitken，Alykhan Tejani，Johannes Totz，and Zehan Wang.使用生成式对抗网络的照片级真实感单幅图像超分辨率2016.1[18] Chri s tianLedig ， LucasTheis ， FerencHus za'r ， Jo seCaballero ， Andrew Cunningham ， Alejandro Acosta ，Andrew Aitken，Alykhan Tejani，Johannes Totz，ZehanWang，et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在IEEE计算机视觉和模式识别会议论文集，第4681-4690页4[19] Timothy P Lillicrap 、 Jonathan J Hunt 、 AlexanderPritzel、Nicolas Heess、Tom Erez、Yuval Tassa、DavidSilver和Daan Wierstra。通过深度强化学习实现持续控制。arXiv预印本arXiv：1509.02971，2015。2[20] Liang Lin ， Kun Zeng ， Han Lv ， Yizhou Wang ，Yingqing Xu，and Song-Chun Zhu.使用视频语义和特征对应的绘画动画。第八届非真实感动画和渲染国际研讨会论文集，第73-80页。ACM，2010年。2[21] 彼得·利特维诺维奇处理图像和视频的印象派效果。第24届计算机图形和交互技术年会论文集，第407-414页。ACM出版社/Addison-Wesley出版公司1997. 2[22] Rosanne Liu 、 Joel Lehman 、 Piero Molino 、 FelipePetroski Such 、 Eric Frank 、 Alex Sergeev 和 JasonYosinski。卷积神经网络和coordconv解决方案的有趣失败。神经信息处理系统的进展，第9628-9639页，2018年5[23] Ziwei Liu ， Ping Luo ， Xiaogang Wang ， and XiaoouTang.在野外深度学习人脸属性。在2015年12月的国际计算机视觉会议（ICCV）的会议记录中。三、六[24] Yuval Netzer ， Tao Wang ， Adam Coates ， AlessandroBis-sacco，Bo Wu，and Andrew Y Ng.使用无监督特征学习读取自然图像中的数字。在NIPS work-shop on deeplearning and unsupervised feature learning，2011年第5页。三、六[25] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，Alexander C.伯格和李飞飞。ImageNet大规模视觉识别挑战。国际计算机视觉杂志（IJCV），115（3）：211-252，2015年。三、六[26] Tim Salimans和Durk P Kingma。权重归一化：一种简单的重新参数化，可加速深度神经网络的训练神经信息处理系统进展，第901-909页，2016年5[27] WenzheShi，JoseCaballero，FerencHusza'r，JohannesTotz，Andrew P Aitken，Rob Bishop，Daniel Rueckert，and Zehan Wang.使用有效的子像素卷积神经网络实现实时单幅图像和视频超分辨率。在IEEE计算机视觉和模式识别会议论文集，第1874-1883页，2016年。5[28] David Silver 、 Guy Lever 、 Nicolas Heess 、 ThomasDegris、Daan Wierstra和Martin Riedmiller。确定性策略梯度算法。InICML，2014. 48719[29] Jifei Song，Kaiyue Pang，Yi-Zhe Song，Tao Xiang，andTimothy M Hospedales.学习速写与捷径循环一致性。在IEEE计算机视觉和模式识别会议论文集，第801-810页，2018年。1[30] Christopher JCH Watkins和Peter Dayan。Q学习《机器学习》，8（3-4）：279-292，1992. 4[31] 向思涛和李浩。批量和权重归一化在生成对抗网络中的影响。arXiv预印本arXiv：1704.03971，2017。5[32] 谢宁，八谷广隆，杉山雅志。艺人经纪人：基于强化学习的东方水墨画笔画自动生成方法。IEICE TRANSAC-TIONS on Information and Systems，96（5）：11342[33] Raymond A Yeh ， Chen Chen ， Teck Yian Lim ，Alexander G Schwing ， Mark Hasegawa-Johnson ， andMinh N Do.语义图像修复与深生成模型。在IEEE计算机视觉和模式识别会议上，第5485-5493页，2017年。4[34] Ningyuan Zheng ， Yifan Jiang ， and Dingjiang Huang.Stro- kenet：神经绘画环境。在2019年国际学习代表大会上。一、二[35] 周涛，陈芳，王兆文，杨继梅，金炳文，陈志立，乔纳森·勃兰特，德米特里·特佐普洛斯.学习使用深度q网络和演示笔画涂鸦。一、二

下载后可阅读完整内容，剩余1页未读，立即下载