矢量生成模型：字体设计与图形设计的新工具

104 浏览量更新于2023-10-12 收藏 1.98MB PDF 举报

结构化表示

图形设计

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1可伸缩矢量图形Raphael GontijoLopes，David Ha，Douglas Eck，Jonathe ShlensGoogle Brain{iraphael，hadavid，deck，shlens}@ google.com摘要生成模型的巨大进步已经使人工渲染的人脸、动物和自然世界中的其他物体达到了近乎摄影的质量尽管有这样的进步，对视觉和图像的更高层次的理解并不来自对对象的详尽建模，而是识别最好地概括对象的方面的更高层次的属性。在这项工作中，我们试图通过建立矢量图形的序列生成模型来模拟字体的绘制过程。该模型的优点是为图像提供了一种尺度不变的我们在一个大型的字体数据集上展示了这些结果，并强调了这样一个模型是如何捕捉这个数据集的统计依赖性和丰富性的。我们设想，我们的模型可以找到使用作为一个工具，图形设计师，以促进字体设计。1. 介绍过去几年中，我们见证了图像生成模型的巨大进步，这些模型可以生成人脸、动物和自然物体的近照片质量图像这些模型提供了自然图像统计的详尽表征[52]，并代表了该领域的重大进展。然而，图像合成的这些进展忽略了人类如何解释原始视觉信息的一个重要方面[48]，即人类似乎利用视觉概念的结构化表示[33，21]。结构化表示可以很容易地用于通过识别用于传达视觉信息的更高级别原语来帮助概括和有效学习[32]，或者为创造性探索提供构建块[21，20]。这可能在人类绘画中表现得最好，其中诸如手势绘画[44]等技术强调简约性，以最小的图形内容捕获更高级别的语义和动作[54]。作为Google AI Residency Program的成员所做的工作（g.共同居住）学习矢量图形表示像素对应moveTo（15，25）lineTo（-2，0.3）贝齐尔（-7.4，0.2）（-14.5，11.7），（-12.1，23.4）...传达不同的风格图1：在原生命令空间中学习字体。不像像素，可缩放矢量图形（SVG）[11]是尺度不变的表示，其参数化可以系统地调整，以传达不同的风格。所有的矢量图都是SVG规范生成模型的样本我们的目标是通过使用大量示例图像来训练绘图模型[16，13]。为了成功，模型需要学习这些图像中的底层结构，并根据学习的表示生成绘图在计算机视觉中，这被称为“逆图形”问题[38，31，22，41]。在我们的例子中，输出表示不是像素，而是一系列离散的指令，用于在图形引擎上绘制图形。这在学习隐变量的离散表示[57，23，37]和通过非差分图形引擎执行优化方面提出了双重挑战（但请以前的方法集中在程序合成方法[32，10]或采用约束和对抗学习[13]。我们反而专注于79307931在这个领域的一个子集上，我们认为我们可以取得进展，并提高方法的通用性。字体生成代表了一个30年的问题，它被认为是一个受限制但多样的领域，用于理解更高层次的感知和创造力[21]。早期的研究试图将字体的创建系统化，以表达字符的身份（例如，a，2）以及构成字体“精神”的风格元素[20]。虽然这样的工作提供了很大的灵感，但结果受到依赖于语言学和缺乏学习，结构化的表示的限制[47]。随后的字体学习表示工作集中在具有简单参数化的模型[34]，模板匹配[55]，基于示例的提示[63]，或者最近，详细几何注释的学习流形[5]。相反，我们将问题集中在生成使用可缩放矢量图形（SVG）指定的字体上SVG是一种紧凑的、尺度不变的表示，可以在大多数Web浏览器上呈现。SVG我们从光栅化像素空间中图像生成模型的文献中获得灵感[15，56]。这种模型为离散的序列数据提供了强大的自回归公式[15，56]，并可应用于图纸的光栅化渲染[16]。我们将这些方法扩展到SVG命令序列的生成，以推断单个字体字符。这项工作的目标是建立一个工具来学习字体字符和风格的表示，可以扩展到其他艺术领域[7，50，16]，或作为字体创建的智能助手[6]。我们渴望我们的方法可以被普遍应用，但我们专注于字体生成作为我们的主要灵感，希望它打开了更多复杂插图的工作机会[7]。为此，我们的主要贡献如下：• 构建可缩放矢量图形（SVG）图像的生成模型，并将其应用于14 M字体字符的大规模数据集• 证明生成模型为字体样式提供了一种感知上平滑的潜在表示，该表示捕获了大量的多样性，并且在各个字符之间是• 利用模型中的潜在表示，从字体的单个（或多个）字符转换完整的SVG字体集。• 识别潜在表示中语义上有意义的方向，以全局操作字体样式。2. 相关工作2.1. 图像生成模型图像的生成模型通常遵循两个不同的方向。生成对抗网络[14]在过去的几年里，已经展示了令人印象深刻的进步[46，14]，导致产生几乎与真实摄影照片[25，4]无法区分的高分辨率图像的模型。第二个方向是建立概率模型，主要集中在可逆表示[8，27]。这样的模型是高度易处理的，并且不会遭受主要归因于鞍点优化的训练不稳定性[14]。此外，这样的模型提供了一个真正的概率模型，其中模型的质量可以用诸如对数似然的良好表征的目标来测量2.2. 自回归生成模型一种大大提高具有无监督目标的生成模型质量的方法是将联合预测问题分解为有条件的顺序预测任务。条件预测任务的每个步骤可以用顺序模型（例如，[19]以自回归的方式训练。这些模型通常使用教师强制训练策略进行训练，但可以采用更复杂的方法[1]。自回归模型在语音合成[42]和无监督学习任务中取得了巨大成功[57]跨多个域。自回归模型的变体与更复杂的密度建模[3]配对，用于顺序生成手写体[15]。2.3. 高级语言从示例中学习算法的任务已经得到了广泛的研究。工作线从直接建模计算[24]到学习给定计算原语的分层组合[12]。特别相关的是学习从图形程序呈现的视觉特征中推断图形程序的努力，通常使用变量绑定，循环或简单条件等结构。与这项工作最相似的方法在给定图形引擎可用的程序的无监督归纳上产生了令人印象深刻的结果[13]。由于他们的设置是不可区分的，他们使用REINFORCE[60]算法来执行对抗训练[14]。该方法实现了令人印象深刻的结果，尽管不依赖于标记的配对数据。但是，它往往会覆盖先前生成的绘图，特别是在生成过程的后期。虽然这可能适合于对32x32光栅图像的生成进行建模，但SVG需要一定的精度，以便在几乎没有可察觉的问题的情况下进行缩放。7932“N”图像编码器图像解码器SVG解码器温度用于图像生成的建模语言[13，16]，图像自动编码器SVG解码器我们的工作处理，可以被解释为一个概率编程问题。然而，我们的问题的独特之处在于：（a）模型必须被感知判断[13]，(b) 通过在SVG格式中工作，我们打开了利用图标和图形的事实上的标准格式的机会2.4. 学习字体表示以前的工作集中在通过从单个字符的高级特征中识别类和风格来实现类之间的风格传播[47，21，20]，或者通过找到不同字符的这些特征之间的对应关系这些特征通常是简化的，例如角色骨架，这降低了方法的灵活性。其他工作直接处理生成的完整字符的样式操纵[34]，但使用简单的参数模型，允许用户仅调整其重量或宽度等参数。最后，并行工作使用光栅化字体的生成模型来增强低资源设置中的手写分类[45]。最相关的作品是那些试图学习多种字体风格的作品。一些未发表的工作已经探索了概率方法如何对字体样式的基于像素的表示进行建模[35]。该模型学习语义有意义的潜在空间，可以操作光栅化的字体图像。更直接的可比性，最近的工作学习能量模型来捕获沿着每个字符轮廓的离散点之间的关系，以解决字体生成和外推[5]。该方法在非常少的例子之间的extrapolating产生了令人印象深刻的结果，但受到需要使某类的所有字符由等效形状组成的限制。此外，该模型离散地近似字符轮廓上的点，这可能导致在更大的3. 方法3.1. 数据我们编译了一个字体数据集，该数据集由62个字符的14 M个示例组成（即，0 - 9，a-z，A-Z），我们称之为SVG字体。数据集由通用字体格式（SFD）1的字体组成，不包括unicode ID与上面指定的目标62字符集不匹配的示例尽管过滤，标签噪声存在于大约220 K的字体检查。我们使用4个SVG命令的子集从SFD到SVG文件格式进行了一对一的映射：moveTo、lineTo、Bezier和EOS。SVG命令通过从最顶层的命令和/或-图2：模型架构。之间的视觉相似性SVG是由一个类条件，卷积变量学习在渲染的表示（蓝色）上的自动编码器（VAE）[30，16]。类标签和学习的表示z作为输入提供给解码SVG命令的模型（紫色）。SVG解码器由堆叠的LSTM [19]和混合密度网络（MDN）[15，3]组成。详情见正文使用相对定位信息。有关数据集收集和标准化的更多详细信息，请参见附录。最终的数据集由一系列以元组形式指定的命令组成。序列中的每一项都由一个SVG命令的离散选择和一组指定命令参数的规范化浮点数我们将数据集限制为只有4个SVG命令类型和少于50个命令的示例，以帮助学习，但这些限制可能会放松，以代表完整的SVG语言。相比之下，请注意，[13]限制推理到20个动作来生成图像。最后，我们将数据集划分为12个。6M和1。4M用于培训和测试的示例23.2. 网络架构该模型由变分自编码器（ VAE ） [30 ， 16] 和在Tensor2Tensor [58]中实现的自回归SVG解码器组成。图2提供了一个架构图，但请参见附录了解详细信息。简单地说，VAE由卷积编码器和解码器组成，与以标签（例如，a，2等）为条件的实例归一化[9，43]。VAE被训练为类调节的自编码器，从而产生在很大程度上与类无关的潜在代码z[28]。在初步的实验中，我们发现32维提供了一个合理的平衡之间的表现力和易处理性。请注意，潜在代码由μ和σ组成-可以在测试时采样的多元高斯的平均值和标准差SVG 解码器由 4 个堆叠的LSTM [19]组成，使用dropout [53，62，51]进行训练。最后一层是混合密度网络（MDN）[3，15]，可以在测试时随机采样。LSTM接收输入前一个采样MDN输出，与DIS-A级联，顺时针方向旋转在初步实验中我们发现指定命令参数是有利的1https://fontforge.github.io2 我们有开源工具来重现数据集子集的构建，以及在www.example.com上训练所提出的模型的代码https://github.com/tensorflow/magenta。MDN样式向量7933图3：生成字体的选定示例。通过对随机潜在表示z进行采样并通过对z和所有类标签进行调节来运行SVG解码器而每个字体字符被选为10个样本中最好的其他示例见附录中的图10和图11。Crete类标签和潜在样式表示Z。SVG解码器原则上，模型可以端到端训练，但我们发现单独训练模型的两个部分更简单。VAE是使用Adam优化器（λ=10−6）[26]使用字体的像素渲染进行训练的，时代我们采用高值的λ[18]，并调整使用交叉验证的空闲位数[29]。在收敛之后，VAE的权重被冻结，并且SVG解码器被训练为使用教师强制从潜在表示z输出SVG命令[61]。请注意，VAE和MDN都是概率模型，在评估期间可能会多次采样这里显示的结果是从10个样品中选出的最佳结果。建模、培训和评估详情请参见附录。还请注意，我们的模型是由标准架构组成的。这是一个有意的选择，以证明标准方法可以提供强有力的基线，我们将在随后的章节中展示。4. 结果我们编译了一个包含14M示例的字体数据集将单个字体字符规范化并转换为SVG格式用于训练和评估。我们在3个时期的数据上训练了VAE和SVG解码器，并在保持测试分割上评估了结果。图1和图3显示了来自训练模型的选定结果，但请参见附录（图10和图11）以获得更详尽的样本，突出显示成功和失败。接下来是一个分析模型学习和生成SVG指定字体的表示能力4.1. 学习字体风格的平滑、潜在表示我们首先要问的是，所提出的模型是否可以学习一个潜在的字体风格表示，这是感知平滑和可解释的。为了解决这个问题，我们从训练集中可视化了1M示例的32维字体样式z，并使用UMAP将维度降低到2我们将这个2D空间离散化，并可视化每个网格位置内的平均值z的基于像素的解码（图4）。紫色框显示了该流形的两个单独位置，我们注意到字符的平滑过渡：（A）表示非斜体区域，而(B)代表斜体字。此外，这些区域内的局部方向也揭示了视觉语义：在（A）中，从左到右，我们注意到衬线数量的变化，而从上到下突出显示粗体的变化。接下来，我们研究这个平滑的空间是否转化为感知上有意义的SVG解码。我们可视化来自数据集的SVG对的z之间的线性插值（图4，1-6）。请注意，尽管每个SVG解码是由许多不同的命令组成的，但例如，请注意，在顶行中，每个SVG由15-30个命令组成，尽管感知表示看起来非常平滑。4.2. 利用潜在的表现形式进行风格传播因为VAE是以类标签为条件的，所以我们期望潜在表示z只对具有最少类信息的字体样式进行编码[28]。我们希望利用这个模型结构来执行跨字体的样式传播。特别是，我们要问的是，字体集中的单个字符是否足以以视觉上合理的方式推断字体集的其余部分[47，20]。要执行此任务，我们计算单个字符的潜在表示z，并将SVG解码器设置为z以及所有其他字体字符（即0-9 ，a-z，A-Z）。图5显示了该实验的结果。对于每一行，z是从红色框中的字符计算出来的。该行中的其他字符由SVG解码器根据z生成。我们在每行中观察到一致的感知相似风格[47，20]。请注意，在训练过程中，不要求潜在空间中的同一点对应于标签之间的感知相似字符因此，z的单个值似乎对应于类似于似然字体集的感知相似的字符集。79343456学习潜在空间详细信息视图两个字符之间的线性插值1512 12 12 12 12 12 12 12 1212 12 12 12 12 14 29 28 2219 19 22 24 24 24 17 17 1719 19 13 13 21 19 19 19 1934 33 36 33 21 18 18 19 19图4：学习字体风格的平滑潜在表示。学习的潜在空间的UMAP可视化[39]z在1 M示例中的应用（左）。紫色框（A、B）提供了选定区域的详细视图。蓝线（1-9）表示数据集的两个字符之间的整个潜在空间z中的线性插值。沿着这些线性插值的点被渲染为SVG图像。右上角的数字表示SVG渲染中的笔划数。最好用数码彩色。图5：利用样式传播的潜在表示。单个字符可以为重构字体集的其余部分提供足够的字体的潜在表示z是从单个字符（紫色框）计算的，SVG图像是从z为其他字符生成的。此外，我们观察到大量的跨行的样式变化（即，不同的z）在图5中。多样性表明潜在空间z能够学习和捕获在训练集中观察到的大量多样性的风格，如图4所示。最后，我们还注意到，对于一个给定的列，解码后的SVG确实属于提供给SVG解码器的类。这些结果表明，z在不同的字符标签上一致地编码风格信息，并且所提出的模型在很大程度上将类别标签与风格分开。这个实验的一个自然延伸是问我们是否可以通过使用多个字符来系统地提高风格传播的质量。我们通过计算多个字符的潜在表示z来解决这个问题，并将平均z用于样式传播到一组新字符（图6）。我们观察到一个系统的改进，在风格的一致性和质量的个人图标输出的条件之一，增加字符的数量。为了量化样式一致性的改进，我们渲染生成的字符并计算每个字符的相关样式z如果样式传播的方法是完全自洽的，那么我们会期望所有生成的字符的z然而，如果样式传播不一致，则推断的z将在每个生成的字符之间变化。为了计算所观察到的改善，我们测量了各种-一B121 30 28 28 28 24 25 1527935图6：增加字符数量的条件可以改善样式传播。顶部：布局如图5所示。字体的平均潜在表示z是从一组字符（紫色框）中计算出来的，SVG图像是从z中为其他字符生成的。请注意，增加字符数（紫色框）可以提高样式传播的一致性和质量。Bot- tom：对于所有生成的字符，我们计算相应的z，并测量字体内所有生成字符的z方差z的方差越小，表示字体样式在视觉上越一致。当以1或5个字符为条件时，每个点对应于观察到的z方差请注意，大多数字体包含更高的一致性（即，更低的方差）。当以1或5个字符为条件时，对于使用该技术探索的19种字体中的每一种字体，在所有生成的字符上的z值事实上，我们观察到，条件化更多的字符通常会减少所生成的样式的变化，这表明该过程提高了样式的一致性。综合考虑，我们怀疑图7：用所学的表示法构建风格类比。可以识别语义上有意义的方向以全局改变字体属性。顶行：潜在空间（左）的粗体（蓝色）和非粗体（红色）区域中间和底部行：斜体（B）和浓缩（C）也是如此。这些关于样式识别的结果表明了一个潜在的方向，即为人类提供迭代反馈以合成新字体（参见讨论）。4.3. 与学习过的代表进行风格类比假定潜在样式在感知上是平滑的并且跨类标签对齐，我们接下来询问我们是否可以在该潜在空间中找到语义上有意义的方向。特别是，我们问这些语义上有意义的方向是否可以允许全局操作的字体样式。受词向量工作的启发[40]，我们询问是否可以识别用于组织字体样式空间的类比为了解决这个问题，我们一大胆一斜体B简明C7936为组织字体的语义概念选择正面和负面示例（例如，粗体、斜体、浓缩），并识别潜在空间中对应于该概念存在或不存在的区域（图7，左，分别为蓝色和红色）。我们计算zred和zblue的平均值，并定义概念方向c=zblue−zred。我们通过从数据集中选取一个示例字体样式z（图7，右，黄色-低）并加上（或减去）概念向量cscaled来通过一些参数最后，我们计算SVG解码的z+c在一个范围内。图7（右）显示了生成的字体。注意在所检查的三个属性中，我们观察到在所建模的概念的方向上的平滑插值（例如：第一行V从左到右逐渐变粗）。我们把这些结果表明，人们可以解释语义意义的方向在潜在的空间。此外，这些结果表明，人们可以找到方向的潜在空间，全局操纵字体风格。4.4. 量化学术代表的质量几乎所有提出的结果都进行了定性评估。这在很大程度上是因为结果的质量是根据人类的美学判断来评估的。在本节中，我们试图提供一些定量评估的质量所提出的模型。图8a（顶部）显示了通过总体训练目标测量的模型的训练动态在训练3个时期的过程中，我们发现该模型确实在可能性方面有所改善，并且在概率方面达到了平台。此外，所得到的模型不会以任何显著的方式在训练集上过拟合，如通过对数似然测量图8a（底部）示出了数据集的每个类别中的示例的平均负对数似然。类之间的平均可能性有一个小的但系统的分布这与我们的定性结果一致，其中某些类将始终产生比其他类更低质量的SVG解码（例如，7）。我们可以描述模型表现最好的情况，以及一些可能的原因，其改善性能。图8b显示了来自给定类的测试集的示例的负对数似然，作为其序列长度的函数。序列越长，对数似然的方差越大。对于表现最好的类别（8，顶部），损失值也呈下降趋势，而对于表现最差的类别（7，底部），趋势保持相对水平。这意味着该模型很难可靠地学习字符，尤其是序列长度较长最后，为了看看是什么让一个给定的字符难以或容易学习，我们检查了测试示例，实现了高和低损失，在不同的序列长度。图8b揭示了对于任何类别，具有高损失的字符通常是高度风格化的，而不管它们的序列长度（红色、蓝色），而更容易学习的字符是更常见的风格（黄色、绿色）。4.5. 使用习得的、随机的、顺序表示的局限性考虑到跨类标签和序列长度的模型性能的系统可变性，我们接下来检查建模选择的特定特征如何可能导致这些失败。附录图11中突出显示了一组详尽的模型失败示例。由于生成模型的顺序性和随机性，我们将在下面讨论两种常见的故障模式在每个随机采样步骤，所提出的模型可以选择低似然决策。图9（左上角）突出显示了早期绘制3中的错误如何导致模型无法纠正的一系列错误。同样，图9（左下角）显示了图6中的断开的起点和终点，这是由时间步长上这两种错误都可以通过更好的培训计划来纠正，这些计划试图教授错误纠正的形式[1]，但请参见讨论。第二个系统性限制反映在模型中捕获的不确定性中。也就是说，所提出的体系结构包含了一些信心的概念，在自己的预测，作为衡量的方差σ2的VAE潜在的代表。我们通过用σ2对潜在样式z的UMAP表示进行颜色编码来可视化置信度（图9，右）。较浅的绿色表示模型置信度较高，反映为VAE方差较低高置信度区域显示清晰的输出和解码更高质量的相反，具有较低置信度的区域对应于具有较高标签噪声或更多风格化字符的区域。这些潜在空间区域对低质量的SVG进行解码（图9右侧，蓝色）.解决这些系统的局限性是一个建模的挑战，为矢量图形构建下一代生成模型（见讨论）。5. 讨论在工作中，我们提出了一个生成模型的矢量图形。该模型的优点是为图像提供了一种尺度不变的表示，其潜在的表示可以被系统地操纵和利用来执行风格传播。我们在一个大型字体数据集上展示了这些结果，并强调了其局限性一个连续的，随机的模型，用于捕捉统计依赖性和丰富的这个数据集。即使在目前的形式下，当前的模型也可以用作辅助代理，以帮助人类以更省时的方式设计字体[6，47]。例如，人可以7937评估泛化（一）序列长度对译码质量（b）第（1）款图8：量化学习到的表示的质量。(a)上图：3个时期内训练和测试数据集的负对数似然。底部：数据集中选定的单个类的负对数似然。（b，左）测试标签为8（顶部）和7（底部）的所有字符的负对数似然性，作为SVG命令数量的函数。（b，右）来自8和7的示例，命令很少，损失高（红色）或低（橙色）。有许多命令和高（蓝色）或低损耗（绿色）的示例。共同问题量化模型置信度包括新的基于注意力的架构[59]或潜在的某种形式的对抗训练[14]。改进模型训练以提供纠错的机会可以提供进一步的收益[1]。第二个方向是在其他SVG矢量图形数据集上使用此模型架构。示例包括图标数据集[7]或人类绘图[50，16]。这些数据集揭示了除了本工作中探索的字体之外的其他挑战，因为SVG图形包含大量的多样性和包含大量笔划的图形。此外，EM-图9：所提出的顺序随机生成模型的局限性。左：低似然样本可能导致难以纠正的错误颜色表示顺序样品的顺序（蓝色→红色）。右：具有高方差的潜在空间区域导致噪声SVG解码。基于方差的z颜色编码的潜在表示：浅（深）绿色表示低（高）方差。渲染和SVG解码样本的可视化（紫色，蓝色）。设计一个小的字符集，并采用风格传播来合成剩余的字符集（图5，6）。一个直接的问题是如何为矢量图形构建性能更好的模型直接的机会-在插图中使用颜色、笔触和其他工具作为预测特征为增加学习模型的表现力提供了新的和有趣的方向确认我们要感谢以下人员：Diederik Kingma、BenjaminCaine 、 Trevor Gale 、 Sam Greydanus 、 Keren Gu 和Colin Raffel进行讨论和反馈; Monica Dinculescu和ShanCarter从设计者的角度进行了见解 ; Ryan Sepassi为Tensor 2 Tensor提供技术帮助; Jason Schwarz为UMAP提供技术帮助; Joshua Morton为基础设施提供帮助;Yaroslav Bulatov、Yi Zhang和Vincent Vanhoucke为数7938据集提供帮助;以及Google Brain和AI Residency团队。7939引用[1] Samy Bengio 、 Oriol Vinyals 、 Navdeep Jaitly 和 NoamShazeer。循环神经网络序列预测的计划采样。神经信息处理系统的进展，第1171-1179页，2015年。二七八[2] Yoshua Bengio Aaron Courville和Pascal Vincent表示学习：回顾与新的视角。IEEE传输模式分析马赫内特尔，35（8），2013. 1[3] 克里斯托弗·M·毕晓普。混合密度网络技术报告，Citeseer，1994年。二三十一[4] 安德鲁·布洛克杰夫·多纳休凯伦·西蒙尼安用于高保真自然图像合成的大规模gan训练。arXiv预印本arXiv：1809.11096，2018。一、二[5] 尼尔 · 坎贝尔和扬 · 考茨。学习多种字体。 ACMTransactions on Graphics （ TOG ）， 33 （ 4 ）： 91 ，2014。二、三[6] Shan Carter和Michael Nielsen利用人工智能来增强人类的智力。蒸馏，2017。https://distill.pub/2017/aia.二、七[7] LouisClou aître和MarcDemers。图：使用爬行动物生成拍摄图像arXiv预印本arXiv：1901.02199，2019。二、八[8] Laurent Dinh，Jascha Sohl-Dickstein，and Samy Ben-gio.使用实 nvp 的密度估计。 arXiv 预印本 arXiv ：1605.08803，2016。2[9] VincentDumoulin 、 JonathonShlens 和 ManjunathKudlur。对艺术风格的博学的表现。ICLR，2017年2月。三、十一[10] Kevin Ellis，Daniel Ritchie，Armando Solar-Lezama ，and Josh Tenenbaum.学习从手绘图像推断图形程序。神经信息处理系统的进展，第6062-6071页，2018年一、二[11] 乔恩·费拉约洛。可缩放矢量图形（SVG）1.0规范。一、二[12] Roy Fox ， Richard Shin ， Sanjay Krishnan ， KenGoldberg，Dawn Song，and Ion Stoica.神经程序设计的参数化分层过程。ICLR 2018，2018. 2[13] 雅罗斯拉夫·甘宁，特哈斯·库尔卡尼，伊戈尔·巴布施金，SM·埃斯拉米和奥里奥尔·维尼亚尔斯。使用强化对抗学习合成图像程序。 arXiv 预印本 arXiv ：1804.01118，2018。一、二、三[14] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672二、八[15] 亚历克斯·格雷夫斯使用递归神经网络生成序列。arXiv预印本arXiv：1308.0850，2013。二三十一[16] David Ha和Douglas Eck。草图的神经表征。arXiv预印本arXiv：1704.03477，2017。一二三八[17] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun. 深入研究整流器：超越人类对imagenet分类的水平。在IEEE计算机视觉国际会议论文集，第1026-1034页，2015年。12[18] Irina Higgins 、 Loic Matthey 、 Arka Pal 、 ChristopherBurgess 、 Xavier Glorot 、 Matthew Botvinick 、 ShakirMohamed和Alexander Lerchner。beta-vae：使用受约束的变分框架学习基本视觉概念。在2017年国际学习表征会议上。4[19] SeppHochreiter和JürgenSchmidhube r. 长短期记忆。神经计算，9（8）：1735-1780，1997。二、三[20] 道格拉斯·霍夫施塔特和加里·麦格劳信灵：字母风格的感知和创造的涌现模型。1993.一、二、三、四[21] 道格拉斯·霍夫施塔特流畅的概念和创造性的类比：思维基本机制的计算机模型。基本书籍，1995年。一、二、三[22] Varun Jampani，Sebastian Nowozin，Matthew Loper，and Peter V Gehler.知情取样员：生成式计算机视觉模型中的判别式推理方法。计算机视觉和图像理解，136：32-44，2015。1[23] Eric Jang ， Shixiang Gu ， and Ben Poole. 使用 gumbel-softmax 进行分类重新参数化。arXiv预印本arXiv：1611.01144，2016。1[24] 武卡斯·凯泽和伊利亚·苏茨科沃。神经GPU学习算法。arXiv预印本arXiv：1511.08228，2015年。2[25] Tero Karras Samuli Laine和Timo Aila一个基于样式的生成器架构，用于生成对抗网络。arXiv预印本arXiv：1812.04948，2018。一、二[26] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。四、十二[27] Durk P Kingma和Prafulla Dhariwal。Glow：具有可逆1x1卷积的生成流。神经信息处理系统的进展，第10236-10245页，2018年一、二[28] Durk P Kingma ， Shakir Mohamed ， Danilo JimenezRezende，and Max Welling.深度生成模型的半监督学习。神经信息处理系统的进展，第3581-3589页，2014年。三、四[29] Durk P Kingma，Tim Salimans，Rafal Jozefowicz，XiChen，Ilya Sutskever，and Max Welling.用逆自回归流改进变分推断神经信息处理系统的进展，第4743-4751页，2016年四、十二[30] Diederik P Kingma和Max Welling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013。三、十一[31] Tejas D Kulkarni ， William F Whitney ， PushmeetKohli，and Josh Tenenbaum.深度卷积逆图形网络。神经信息处理系统的进展，第2539-2547页，2015年1[32] Brenden M Lake，Ruslan Salakhutdinov，and Joshua BTenenbaum.通过概率程序归纳的人类水平概念学习。Science，350（6266）：1332-1338，2015. 1[33] Brenden M Lake ， Tomer D Ullman ， Joshua BTenenbaum，and Samuel J Gershman.制造像人一样学习和思考的机器。行为和大脑科学，40，2017。17940[34] 刘文康通过实例学习参数化字体设计。 ACMSIGGRAPH ASIA 2009海报，第5页。ACM，2009年。二、三[35] 布莱恩·罗和汤姆·怀特。间隔页：通过电子表格界面进行交互式潜在空间探索。在Work-shop关于机器学习的创意和设计，2018年。3[36] Matthew M Loper和Michael J Black。Opendr：一个近似可微的渲染器.欧洲计算机视觉会议，第154-169页。Springer，2014. 1[37] Chris J Maddison，Andriy Mnih，and Yee Whye Teh.具体分布：离散随机变量的连续松弛。arXiv预印本arXiv：1611.00712，2016。1[38] Vikash K Mansinghka ， Tejas D Kulkarni ， Yura NPerov，and Josh Tenenbaum.使用生成概率图形程序的近似贝叶斯图像解释。神经信息处理系统进展，第1520-1528页，2013年。1[39] Leland McInnes ， John Healy ， and James Melville.Umap：用于降维的均匀流形近似和投影。arXiv预印本arXiv：1802.03426，2018。四、五、十二[40] Tomas Mikolov 、 Ilya Sutskever 、 Kai Chen 、 Greg SCorrado和Jeff Dean。单词和短语的分布式表示及其组合性。神经信息处理系统的进展，第3111-3119页，2013年。6[41] Vinod Nair，Josh Susskind，Geoffrey E Hinton.通过学习反转生成黑盒进行综合分析。在人工神经网络国际会议上，第971-981页Springer，2008. 1[42] Aaron van den Oord 、 Sander Dieleman 、 Heiga Zen 、Karen Simonyan 、 Oriol Vinyals 、 Alex Graves 、 NalKalchbrenner 、 Andrew Senior 和 Koray Kavukcuoglu 。Wavenet：原始音频的生成模型arXiv预印本arXiv：1609.03499，2016。2[43] 伊森·佩雷斯，弗洛里安·斯特鲁布，哈姆·德·弗里斯，文森特·杜莫林，和亚伦·库维尔.影片：具有一般条件层的视觉推理。在第三十二届AAAI人工智能会议上，2018年。三、十一[44] 巴勃罗·毕加索。公牛（乐陶罗），国家i-x，1946年。现代艺术博物馆（MoMA）Mrs. Gilbert W查普曼基金会平版印刷。1[45] Vinay Uday Prabhu，Sanghyun Han，Dian Ang Yap，Mihail Douhaniaris，Preethi Seshadri，and John Whaley.字体-2-手写体：一个用于通用数字分类的种子-增强-训练框架。arXiv预印本arXiv：1905.08633，2019。3[46] 亚历克·雷德福卢克·梅斯和苏米特·钦塔拉深度卷积生成对抗网络的无监督表示学习。arXiv预印本arXiv：1511.06434，2015。2[47] 约翰·A·格林。信的精神（第二部分）：在视觉领域塑造创造力。印第安纳大学，2001年。二、三、四、七[48] 丹尼尔·赖斯伯格和雪莉·斯内弗利认知：探索心灵的科学。2010. 1[49] Danilo Jimenez Rezende、Shakir Mohamed和Daan Wier-stra。深度生成模型中的随机反向传播和近似推理。arXiv预印本arXiv：1401.4082，2014。11[50] Patsorn Sangkloy，Nathan Burnell，Cusuh Ham和JamesHays。sketchy数据库：学习如何找回画得不好的兔子。 ACM Transactions on Graphics （ proceedings ofSIGGRAPH），2016.二、八[51] Stanislau Semeniuta ， Aliaksei Severyn ， and ErhardtBarth.经常性辍学但没有失忆。arXiv预印本arXiv：1603.05118，2016。三、十一[52] Eero P Simoncelli和Bruno A Olshausen。自然图像统计和神经表示。神经科学年度评论，24（1）：1193-1216，2001。1[53] Nitish Srivastava，Geoffrey Hinton，Alex Krizhevsky，Ilya Sutskever，and Ruslan Salakhutdinov.Dropout：防止神经网络过拟合的简单机器学习研究杂志，15（1）：1929-1958，2014。三、十一[54] 沃尔特·斯坦奇菲尔德动画的手势绘制。洗涤吨：利奥·布罗

下载后可阅读完整内容，剩余1页未读，立即下载