内容感知布局推断对美学文本标志合成的影响

143 浏览量更新于2023-10-25 收藏 14.17MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

24360基于内容感知布局推断的美学文本标志合成0Yizhi Wang 1 *，Guo Pu 1，Wenhan Luo 2，Yexin Wang 2，Pengfei Xiong 2，Hongwen Kang 2，Zhouhui Lian 1†01北京大学计算机技术研究所，中国2腾讯PCG0摘要0文本标志设计严重依赖于专业设计师的创造力和专业知识，其中排列元素布局是最重要的步骤之一。然而，对于这个任务几乎没有人关注，而这个任务需要考虑到许多因素（如字体、语言学、主题等）。在本文中，我们提出了一种内容感知布局生成网络，它以字形图像及其对应的文本作为输入，自动合成它们的美学布局。具体而言，我们开发了一个双鉴别器模块，包括一个序列鉴别器和一个图像鉴别器，分别评估合成文本标志的字符放置轨迹和渲染形状。此外，我们融合了来自文本的语言学信息和来自字形的视觉语义信息来指导布局预测，这两者在专业布局设计中都起着重要作用。为了训练和评估我们的方法，我们构建了一个名为TextLogo3K的数据集，包括约3500个文本标志图像及其像素级注释。对该数据集的实验研究证明了我们的方法在合成视觉上令人愉悦的文本标志方面的有效性，并验证了其相对于现有技术的优越性。01.引言0近年来，创意人工智能引起了广泛的关注。自动布局设计是一种有前途和有价值的技术，对于促进设计师的工作和提高创建媒体内容的效率非常有帮助。实现这一目标的一种直观方法是通过定义特定的易于执行的规则来生成布局，但结果通常是平淡无奇且没有设计美感的。因此，最近提出了各种基于深度生成模型（如GAN [4]和VAE [12]）的方法[1, 5, 6,11, 15-17, 35,38]，通过从人类设计的数据中学习来合成图形布局。文本标志设计是一项具有挑战性的任务，因为需要考虑许多因素。0*本文的一部分是王一智在腾讯实习期间完成的†通讯作者。电子邮件：lianzhouhui@pku.edu.cn0旋转/仿射变换0缩放变换0换行0图1.一些常见的文本标志布局类型示例。“Trans.”表示变换。黄色框表示字符/单词的边界框。0考虑到字体、布局和纹理等因素。众所周知，文本标志的布局与标志的文本和所选字体风格密切相关。然而，现有方法[5, 16, 17,38]仅利用元素的视觉、类别和主题（关键字）信息，或者将其中一些组合起来生成布局。实际上，文本的语义对于确定布局设计也非常重要。如图1所示，在所需的布局中，汉字“爱”是一个动词，是文本标志中的关键字符，因此它的字体大小比其他字符（如“如果”）要大，后者是一个不太重要的连接词。此外，合成的布局需要考虑到细粒度的细节，例如避免不同字形的笔画碰撞。此外，字符的放置轨迹应该按照正确的阅读顺序进行（例如，从左到右，从上到下），并且同时具有多种风格，这对于非序列生成模型来说并不容易处理。在本文中，我们将文本标志的布局合成问题视为序列生成问题，并使用基于GAN的模型1来解决它。在我们的方法中，提出了一种双模态融合方案，将输入字形/文本的视觉和语言线索编码为GAN的条件。众所周知，使用GAN生成离散序列是困难的。然而，在我们的任务中，设计元素的几何参数是连续的，这使得GAN对几何参数序列的训练变得容易。01 代码和数据集：https://github.com/yizhiwang96/TextLogoLayout24370正如上面提到的，字形碰撞和字符放置轨迹等细节对于文本标志的美学质量至关重要。为此，提出了一个双鉴别器模块，用于捕捉合成文本标志的字符放置轨迹和渲染形状。字符的放置轨迹由序列鉴别器进行监督，以确保它们遵循正确的阅读顺序，并具有各种风格，如人工设计的风格。此外，通过提出一种可微分的合成方法，我们在合成布局和渲染的文本标志图像之间建立了一座桥梁。同时，还使用图像鉴别器来捕捉合成文本标志的详细结构，通过这种方式可以进一步提高其视觉质量。为了训练和评估我们的模型，我们构建了一个大规模的文本标志数据集TextLogo3K，并进行了像素级注释。在新数据集上进行了大量实验，包括消融研究和方法比较。实验结果清楚地证明了我们提出的方法的有效性和优势。我们还演示了我们提出的模型如何与字体生成和纹理转移模型集成，以自动合成视觉上令人愉悦的文本标志。据我们所知，这项工作提出了第一种能够同时考虑语言（即文本内容）和视觉（即字形、字体样式和纹理）信息的文本标志合成方法，就像专业的人类设计师一样。此外，我们的TextLogo3K也是第一个专门针对文本标志合成任务的数据集，将发布以促进社区中该主题和其他相关任务的研究。02. 相关工作0生成对抗网络（GANs）在图像合成领域取得了巨大的成功。Mirza等人提出了条件GAN，通过将数据标签作为生成器和判别器的输入参数，使网络生成所需的数据输出。GANs已经应用于图像超分辨率，去模糊，去雾，文本到图像翻译和视频预测等各种任务。Li等人提出了基于GAN的模型，配备了线框判别器，其中利用可微分线框渲染将输入图形元素光栅化为2D线框图像。Zheng等人设计了一个条件GAN模型，通过对输入图像、关键词和属性进行编码，来安排海报的段落和图像布局。Guo等人开发了一个基于VAE的模型，用于生成设计元素的位置（例如背景图像、装饰和文本样式）。0最近，Lee等人提出了一种基于GCN的模型，根据设计组件和指定的约束条件生成布局。Li等人提出了基于属性的布局GAN，根据用户指定的布局属性（如期望面积、长宽比和阅读顺序）合成布局。不幸的是，它们都不能正确处理我们的任务。我们提出直接将字形光栅化到画布上，以便鉴别器可以从输入中捕捉更多细节（如笔画）。[17]中的阅读顺序是基于规则的和预定义的，而我们的方法生成内容自适应的阅读顺序。通过实验证明，序列生成模型比CNN（如[38]）更适合生成每个字符的位置。序列建模。循环神经网络（RNNs）如LSTM和GRU在自然语言处理方面取得了很大成功。最近，当使用大量数据进行训练时，Transformer比RNNs更受欢迎并且表现更好。正如Vinci[5]所建议的，顺序排序对于设计很重要。对于我们的任务，文本标志中每个字形图像的位置应该遵循相应的阅读顺序。因此，我们的任务可以被视为一个序列生成问题，其中在每个步骤中为一个设计元素生成一组坐标。可微分合成。Reddy等人提出了一种可微分合成方法，可以找到形成给定模式图像的元素的类型、位置、方向和分层。然而，他们的方法没有处理缩放变换，这在布局设计中很重要。在本文中，我们通过Spatial TransformNetworks（STN）的一种变体，将每个字形图像转换为画布上的预测位置。03. 方法03.1. 准备工作0如图2所示，文本标志由一组N个字形元素组成：(g 1, p 1),..., (g N, p N)，其中g i ∈ R H g × Wg是原始字形图像，W g和Hg分别是字形图像的宽度和高度，p i表示g i在画布上的几何参数。我们假设字形的边界框是矩形，即p i= (x c i, y c i, w i, h i)，其中(x c i, y c i)是中心点的坐标，wi和h i分别是矩形的宽度和高度；x c i, w i ∈ (0, W c)和y ci, h i ∈ (0, H c)，其中H c和Wc分别是标志画布的高度和宽度。对于我们的布局生成网络，输入由标志的文本和相应的字形图像g = (g 1, ..., gN)组成。我们使用[19]提供的字符嵌入来表示输入文本，表示为f e = (f e 1, f e 2, ..., f e N)。人工设计的（真实）24380基本字形图像0布局：0(�� 3 ��, � ��)0�� 30� 30�� 1 �� 2 �� 3 �� 4 �� 50�� = �� , �� , �� , � ��0��0��0带纹理的标志图像0图2. 文本标志图像的布局和基本字形图像的示意图。0布局表示为p = (p 1, ..., p N)。03.2. 概述0我们在图3中说明了我们的布局生成模型的流程，并在以下子节中给出了更多细节。具体而言，我们利用输入元素的双模态特征（即视觉特征f v和字符嵌入fe）并将它们编码为条件特征f c。坐标生成器将条件向量fc和随机噪声z作为输入，预测每个字符的几何参数，表示为ˆ p = (ˆ p 1, ˆ p 2, ..., ˆ p N)，其中ˆ p i = (ˆ x c i, ˆ y c i, ˆw i, ˆ h i)，四个参数分别表示gi的预测边界框的中心坐标、宽度和高度。（ˆ p 1, ˆ p 2, ...,ˆ pN）可以被视为字符序列的放置轨迹，因此我们使用基于RNN的序列鉴别器在f c N（f c的最终状态）的条件下区分ˆp和p。通过进行可微分合成（表示为FC），我们得到合成的文本标志图像ˆ l = FC(g, ˆp)。为了捕捉标志图像中的更细节，并进一步确保生成的图像遵循人类设计的基本原则（例如，文本标志中不应有大部分字符重叠），引入了图像鉴别器来在f c N的条件下区分ˆl和l。03.3. 编码视觉和语言信息0我们考虑输入的视觉和语言信息来预测每个字形的几何参数。首先，我们使用CNN网络作为视觉编码器来提取每个字形图像的视觉特征，表示为f v = (f v 1, f v 2, ..., f vN)。然后，我们将视觉特征和每个输入元素的字符嵌入连接起来，组成一个新的序列f'，表示为([f v 1, f e 1], [f v 2, f e2], ..., [f v N, f eN])，其中方括号表示连接。最后，f'被送入条件编码器以获得条件特征，表示为f c = (f c 1, f c 2, ..., f cN)。最后一步的状态f cN可以被视为输入（图像和文本）的整体条件表示，它被用作双重条件的条件。0判别器，包括序列判别器和图像判别器。整个编码过程可以定义为 f c = E ( f v , f e ) 。然后，我们将条件特征 f c和噪声 z 输入到坐标生成器 G 中，以得到几何参数 ˆ p，即 G ( f c , z ) ，其中 G ( ∙ , ∙ )是由RNN编码器-解码器近似得到的坐标生成器； z是从标准正态分布中随机采样的，并设置为G的编码器的初始状态； f c是G的输入序列。G的编码器的功能是将布局样式信息 z传播到序列的每个位置。坐标生成器的最后一层附加了一个Sigmoid函数，其输出乘以 W c 或 H c，以确保预测的参数安全地在范围内 (0 , W c ) ，对于 ˆ xc i 和 ˆ w i ，以及 (0 , H c ) ，对于 ˆ y c i 和 ˆ h i 。03.4. 可微分组合0在获得与字形图像对应的预测几何参数之后，需要根据字形的几何参数将字形图像转换为具有相应布局的文本标志。更重要的是，转换过程不应破坏端到端的优化过程，即转换应该传播梯度。为此，我们根据基于STN[10]的一种变体以可微分的方式在画布上渲染字形图像。为了简化说明，我们首先简要介绍一下原始的STN。给定输入特征图中网格的源坐标 ( x s j , y s j )，STN旨在学习一组仿射变换参数 Θ ，并将 ( x s j , y s j )转换为预期有助于下游任务的输出特征图中的目标坐标 ( xt j , y t j ) 。变换的公式为 �0其中 j是特征图中网格的索引。通过建立映射，STN执行可微分图像采样（DIS），通过双线性插值来获得变换后的特征图。我们的任务与原始的STN不同之处在于，我们已经有了目标字形的预测坐标 ˆ p i = (ˆ x c i , ˆ y c i , ˆ w i , ˆ h i )。我们需要获得仿射变换参数，然后执行DIS，以在画布上得到最终渲染的字形。在我们的情况下，只考虑平移和缩放，所以我们设置 Θ 12 = 0 和 Θ 21 = 0。我们使用输入字形图像的四个角的坐标（ (0 , 0) ， ( Wg , 0) ， ( W g , H g ) ， (0 , H g )）和相应变换后图像的坐标（ (ˆ x c i − ˆ w i 2 , ˆ y c i − ˆh i 2 ) ， (ˆ x c i + ˆ w i 2 , ˆ y c i − ˆ h i 2 ) ， (ˆ x c i +ˆ w i 2 , ˆ y c i + ˆ h i 2 ) ，0(ˆ x c i − ˆ w i 2 , ˆ y c i + ˆ h i 2 ) )用于构建方程组。直观地说，��1��2…��3(RNN)��…��1��2��…��Θi =� 2·Wgˆwi0( ˆwi−2·ˆxci )Wgˆwi02·Hgˆhi(ˆhi−2·ˆyci )Hgˆhi�·(2)g′i = FA(gi, Θi),(3)ˆl = min(N�i=1g′i, vmax),(4)N24390可微分组合0坐标0生成器0序列0（RNN）0图像0（CNN）0GT布局0同义布局0真实还是假的？真实还是假的？0GT标志图像0同义标志图像0条件0一化距离0条件0输入图像0条件编码器（RNN）0初始状态 ~0�� 1 �� 2 �� … �� 字符0嵌入。0�� 1 �� 2 �� … �� 图像特征。0条件特征。0图3. 我们模型的流程图。“Char Embed.”表示字符嵌入，“ImgFeat.”表示图像特征，“Syn.”表示合成，“GT”表示真实标志，“⊕”表示连接操作，蓝色箭头表示数据流的方向。0理论上可以解决方程组，并得到变换参数为0具有变换参数Θ后，我们将相应的变换应用于每个字形图像，如下所示0其中g ′ i 是 g i 的变换字形图像，F A表示作为DIS实现的图像变换函数。通常，文本标志中不同字形的形状不会重叠，因此我们不需要考虑元素的分层。因此，我们可以执行简单的加法来获得最终的标志图像ˆ l ∈ RH c × W c，如下所示0其中H c 和 W c 分别是标志画布的高度和宽度。大于v max的输出像素值被截断，以确保ˆ l 的像素值在[0 , v max]范围内（通常v max = 255）。图4展示了变换后的字形图像和获得的标志图像的示例。03.5. 双鉴别器0字符放置轨迹应符合阅读顺序并具有多样的风格。然而，这些特征不容易被常用作图像合成鉴别器的CNN捕捉到。0为了解决这个问题，我们提出了一个双鉴别器模块，包括一个序列鉴别器和一个图像鉴别器。序列鉴别器D s以几何参数序列（p或ˆ p）作为输入，并以编码条件f c N作为初始状态，分析字符放置轨迹的合理性。输出分别表示为D s (ˆ p , f c N )和D s ( p , f c N )，代表ˆ p 和 p为真实的概率。序列鉴别器无法捕捉细粒度信息（如笔画），因为它们只接收几何参数作为输入。因此，引入图像鉴别器D i来研究标志图像（合成或人工设计）的细节，然后预测它们是真实还是伪造的。根据[25]的建议，在D i的第一个卷积层之后平铺条件特征f c N 。D i的输出表示为D i ( ˆ l, f c N )和D i ( l, f c N )，分别表示ˆ l和 l 为真实的概率。03.6. 重叠损失0一般来说，不同字形的重叠会影响合成标志的可读性，使其看起来不协调。通过我们的实验，我们发现图像鉴别器无法区分小部分重叠。因此，引入了重叠损失L ol来明确惩罚转换字形的重叠，其公式为0L ol =0i =1 ( g ′ i � ( g ′ 0 ⊕ ∙ ∙ ∙ ⊕ g ′ i − 1 )) ,(5)⨂⨂⨂ℒ�� =++��1′��′��2′��0′��−1′��1′…等你爱我少年派倚天屠龙记长江之恋抓住彩虹的男人囧爸的爱情生活A咖的路24400� 逐点与运算0� +0� 逐点或0��0��0合成结果0人工设计0�� 1 ′ �� 2 ′ �� 1 ′ �� 2 ′ � … �� −1 ′ …0+ �0输入字形0输入文本刀尖上行走0�� 1 �� 2 �� −1 �� …0转换后的字形: �� ′ = �� (�� , Θ �� )0图4.将基本字形图像转换为画布并计算重叠损失的示例。黄色圆圈突出显示了不同字形的重叠部分。0其中 � 表示逐点与操作，⊕ 表示逐点或操作；g ′ 0是一个可以省略的空白掩码。图4展示了一个示例，其中输入文本为“刀尖上行走”。转换后的字形g ′4（“行”）与先前渲染的字形（g ′ 1 ⊕ g ′ 2 ⊕ g ′3）重叠，这将激活惩罚函数L ol。03.7. 损失函数0序列和图像判别器的损失函数为：0= log( D s ( p | E )) + log(1 − D s ( G ( E, z ) | E )), (6)0= log( D i ( l | E )) + log(1 − D i ( F C ( g , G ) | E)) , (7)0分别，其中我们为简洁起见省略了一些函数的输入（例如E和G）。总体目标函数为min E,G max D s ,D i ( L s D + L iD + λ L ol ) , (8)0优化E和G的参数的目标是合成一个逼真的序列ˆp及其对应的标志图像ˆl，以欺骗序列和图像判别器，而优化D s和Di的参数是为了将ˆ p和ˆl与真实的序列和标志图像区分开来。λ是一个超参数，通过实验选择。04. 数据集0我们通过从中国领先的在线视频平台腾讯视频收集数据构建了一个名为TextLogo3K的文本标志数据集。该数据集包含3470个精选的文本标志图像，这些图像是从电影、电视剧的海报/封面中提取的。0文本标志图像像素级分割边界框和字符类别0图5.提出的文本标志数据集，包含3470个具有不同风格的文本标志图像，并用像素级分割、边界框和字符类别进行了注释。0和漫画。我们手动注释了这些文本标志中每个字符的边界框、像素级掩码和类别。图5中显示了一些示例。对于每个示例，使用颜色序列来区分像素级标注中文本标志中不同的字形。在边界框标注中，如果字形具有非常长的笔画，我们只标注最中心的部分。如果字形被旋转或仿射变换，我们还会标注角度。值得注意的是，旋转或仿射变换在我们的模型中没有考虑，但可以通过微小的修改应用于这些情况。除了布局生成和文本标志合成任务之外，提出的数据集还可以在社区中受益于其他相关研究（文本分割、艺术文本识别、艺术字体生成等）。为了验证我们的模型在其他书写系统中的普适性，我们利用了[34]提出的TextSeg数据集，该数据集包含具有像素级分割的英文文本图像。对于该数据集，我们将设计元素设置为英文单词。05. 实验05.1. 实施细节0输入字形图像的高度 H g 和宽度 W g设置为64。标志画布的高度 H c 和宽度 W c设置为128。最大数量 N为20。我们将TextLogo3K数据集分为两部分（90%用于训练，10%用于测试）。视觉编码器是经过预训练的VGG-19[ 30 ]网络，在训练过程中进行微调。05.2. 评估指标0我们采用两种常用的图像生成度量标准来评估我们的模型和其他模型的性能：Fr´echet Inception Distance (FID) [ 7]和Inception Score (IS) [ 29]。使用我们合成的布局渲染的标志图像（视为域A）和整个数据集中的真实标志图像（视为域B）进行比较，计算FID和IS。GT24410GT 我们的我们的 GT 我们的 GT0图6. 我们合成的布局和真实（人工设计的）布局。“GT”表示“groundtruth”。05.3. 合成示例0在图6中，我们展示了一些由我们合成的布局和人工设计的布局组织的文本标志。前三行和最后三行的案例分别来自TextLogo3K和TextSeg数据集。根据文本的语义，我们的模型可以生成行分隔符来分割标记，例如示例：“ 神探 / 包青天 ”（第一行，第一个案例）和“ 春风十里 / 不如你”（第一行，第三个案例）。我们的模型还可以考虑字形形状并生成紧凑的布局，例如示例：“ 奔腾年代”（第二行，第一个案例）和“ 天真人类”（第三行，第三个案例）。我们对英文数据集的合成结果也非常令人满意，呈现出多个换行符、引人注目的缩放和平移。05.4. 从潜在空间中随机采样0如图7所示，我们的模型能够通过从标准正态分布中随机采样 z来生成各种风格。布局的多样风格包括垂直文本、换行、蛇形轨迹等。我们仔细考虑了字形信息，可以看到不同字形之间几乎没有重叠，尽管其中许多字形的边界框相交。每个标记中的每个字符的大小相对一致，例如“ 记忆”（第一行，第一个案例）和“ 龙门”（第一行，第二个案例）。提供了多样性，所提出的模型可以为设计师提供多种布局选择，设计师可以选择自己喜欢的布局。0GT 随机采样 �0随机采样 �0图7. 通过随机采样潜在噪声 z来合成多样的布局风格。在每个标志下，通过字形的边界框显示相应的布局。使用颜色序列（从红色到紫色）标记不同字形的顺序。0表1. 不同方法和我们方法的定量结果和消融实验结果。“完整”表示我们的完整模型。“无文本”和“无图像”分别表示没有文本和没有字形图像作为编码输入。“ D s ”和“ D i”分别表示序列鉴别器和图像鉴别器。“LoNet”和“LoGAN”分别表示LayoutNet和LayoutGAN。0消融 FID ↓ IS ↑ 方法 FID ↓ IS ↑0无文本 22.9 2.46 LoNet [ 38 ] 35.6 2.13 无图像 29.02.39 LoGAN [ 16 ] 39.7 2.18 无 D s 55.6 1.98 规则 (a)44.4 2.34 无 D i 22.5 2.42 规则 (b) 49.2 2.19 完整19.7 2.66 规则 (c) 37.4 2.570从中得出。05.5. 消融研究0编码文本和图像的效果。如图9所示，红色曲线明显低于蓝色和绿色曲线，这表明通过（1）利用输入元素的视觉和语言信息（2）来自序列鉴别器和图像鉴别器的共同监督，可以实现更好的结果。我们发现，如果不将文本语言信息编码为输入，合成的布局通常不符合文本语义，例如开始一个新行以打破一个标记（在补充文件中提供）。另一方面，如果没有字形图像输入到模型中，它只能通过语言信息推断布局，这些布局可能不适合每种字形形状。表1中报告了有无文本和图像作为输入的FID和IS结果，也验证了这个结论。为了证明我们的模型对视觉和语言信息的意识，我们将（1）相同的文本以不同的字体样式渲染和（2）相同字体样式的不同文本分别输入到我们的模型中。结果如图8所示，验证了我们合成的布局是定制的。舞乐/传奇LO1 (for Input1)LO1 on Input2LO2 (for Input2)LO2 on Input1舞乐/传奇LO3 (for Input3)LO3 on Input4LO4 (for Input4)LO4 on Input3Input1 Input2原来/你/还/在/这里Input3美丽/公主/相亲记Input424420图8.测试我们模型对视觉和语言信息的感知能力。黄色圆圈突出显示不同字形之间的重叠。“LO”表示布局。“/”是分割令牌的符号。0表2.重叠损失的影响。“opt.”表示优化。λ L ol在测试数据集上进行评估。0方法 λ L ol ↓ FID ↓ IS ↑0无opt. L ol 0.135 21.6 2.51 带opt.L ol 0.031 19.7 2.660图9.在我们模型的不同消融下，FID值随训练轮数的变化。“EncText”和“Enc Img”分别表示对输入文本和图像进行编码。“SeqDis”和“Img Dis”分别表示序列鉴别器和图像鉴别器。0输入文本和字形图像。双鉴别器的影响。如图10所示，没有序列鉴别器，模块倾向于生成不符合人类阅读习惯的异常序列。例如，“叶问3”中的“3”移动到“叶”的左下方，但图像鉴别器无法将其识别为伪造的标志图像。没有图像鉴别器，细节（如间距和笔画碰撞）不如完整模型的结果好。例如，“老炮儿”和“黄金时代”中的字形彼此过于接近。定量实验结果如表1所示，删除序列鉴别器（w/o SeqDis）导致最差的性能。重叠损失的影响。我们在训练模型时计算了在测试数据集上优化和不优化 L ol 时的 L ol，FID和IS的值。结果如表2所示，表明优化 L ol可以显著减少重叠并稳定提高FID和IS。0无Img Dis0无Seq Dis0完整模型0GT0图10.消融研究的定性结果。“Img Dis”和“SeqDis”分别表示图像和我们的序列鉴别器。每个标志图像的布局由旁边的边界框示意。05.6.与其他方法的比较0我们将我们的方法与LayoutGAN [16]，LayoutNet[38]和基于规则的方法进行比较。为了使LayoutGAN和LayoutNet适用于我们的任务，字形被简化为矩形，每个字符类别都被分配了相应的颜色。我们在实验中测试了三种基于规则的方法：（a）将所有字形排列在一条水平线上；（b）将所有字形以50％的概率排列在水平或垂直线上；（c）将一个或多个令牌（由结巴2分隔）的字形排列在水平/垂直线上，并随机更改不同行/字形之间的间距。从表1中我们可以看到，我们的方法明显优于其他方法。LayoutGAN和LayoutNet的一个主要问题是它们不能生成具有正确阅读顺序的布局，这在表1中没有完全体现，但在图11中生动地体现出来。这是因为它们都使用的图像鉴别器只能捕捉到字符间距等信息，而不能捕捉到它们的放置轨迹。它们还生成的示例比我们的示例有更多的重叠，因为它们不考虑输入元素的详细形状。结果还验证了生成美学文本标志的任务不能被基于规则的方法正确处理，它们合成的布局过于规则和乏味。05.7.用户研究0我们进行了一个图灵测试，参与者（27名专业设计师和52名非设计师）被要求从每对具有相同文本但不同布局的标志中选择一个（我们合成的和人工设计的）。对于每一对标志，他们被要求选择（1）他们认为是由机器（AI）生成的标志图像（2）他们认为质量更好的标志图像。在这个测试中有20个具有不同布局和字体样式的示例。02 https://pypi.org/project/jieba/24430LayoutNet 我们的方法基于规则的 (c) GT0我/不是/精英0少林/问道0B+/侦探0输入0LayoutGAN0图11. 不同方法之间的定性比较。0表3. 用于评估我们合成布局的用户研究结果。“质量”评分为1到5。0用户组准确率 ↓ 偏好 ↑ 质量 ↑0设计师 58.1% 33.0% 3.0 非设计师 52.7%44.9% 3.8 平均 54.6% 40.8% 3.50完成图灵测试后，要求所有参与者对我们合成的布局进行质量评分（1到5，最差到最好）。结果如表3所示，其中挑选出我们合成结果的平均准确率为54.6%，我们的结果被认为更好的概率为40.8%，这表明我们合成的布局质量与人工设计的布局相当。05.8. 文本标志合成系统0受到字体生成和纹理转移模型的启发（[3, 33, 37]和[21, 22,36]），我们构建了一个文本标志合成系统，该系统以所需的文本和主题作为输入，并自动合成文本标志图像。具体而言，我们首先根据用户输入的主题合成字体，例如可爱的、有趣的、技术的等等。有关字体合成网络的实现细节在补充文件中描述。然后，我们将合成的字形图像发送到我们的布局生成网络中，以合成文本标志图像。最后，我们执行[22]提出的纹理转移方法，以获得具有纹理效果的最终文本标志。图12显示了几个示例，证明了我们的系统合成美学文本标志的有效性。05.9. 限制0我们方法的一些失败案例如图13所示。提出的布局生成网络对于具有新颖形状的字形不够稳健，这可能会影响我们模型对文本语义的理解，因为图像特征与字符嵌入相连。此外，目前我们的模型仍然无法0使徒行者动作, 战斗0字体生成布局生成纹理转移0家有喜妇搞笑,家庭0烈日灼心剧情,犯罪0万有引力科幻0输入0图12.将我们的布局生成方法与字体生成和纹理转移方法相结合，合成文本标志。0新颖的字形0非常长的文本0GT0图13. 我们模型的一些失败案例。0无法满意地处理字符/单词过多的文本（N >8），无法为某些字形安排适当的位置。06. 结论0在本文中，我们提出了一种用于美学文本标志合成的布局生成网络。考虑了输入文本和字形图像的语言和视觉信息，用于布局预测。此外，设计了一种新颖的双鉴别器模块，用于捕捉字符的放置轨迹和详细形状，以合成高质量的布局。我们构建了一个大规模的数据集TextLogo3K，通过广泛的实验证明了我们方法的有效性（定量和定性）。最后，我们开发了一个原型系统，通过将我们的布局生成网络与现有的字体生成和纹理转移模型结合起来，自动合成美学文本标志。0致谢0这项工作得到了北京市科技新星计划（编号：Z191100001119077），北京大学-百度基金支持的2020BD020项目，中国字体设计与研究中心，出版产业科技与标准科技重点实验室，媒体融合生产技术与系统国家重点实验室的支持。24440参考文献0[1] Diego Martin Arroyo，Janis Postels和FedericoTombari。用于布局生成的变分变换网络。在IEEE /CVF计算机视觉和模式识别会议论文集中，页13642-13652，2021年。10[2] Kyunghyun Cho，Bart Van Merri¨enboer，CaglarGulcehre，Dzmitry Bahdanau，Fethi Bougares，HolgerSchwenk和YoshuaBengio。使用RNN编码器-解码器学习短语表示进行统计机器翻译。arXiv预印本arXiv：1406.1078，2014年。20[3]高越，郭元，连周辉，唐英敏和肖建国。通过一阶少样本学习进行艺术字形图像合成。ACM图形学交易（TOG），38（6）：1-12，2019年。80[4] Ian Goodfellow，Jean Pouget-Abadie，MehdiMirza，Bing Xu，David Warde-Farley，Sherjil Ozair，AaronCourville和YoshuaBengio。生成对抗网络。在神经信息处理系统的进展中，页2672-2680，2014年。1, 20[5]郭树楠，金卓琛，孙福玲，李静文，李兆瑞，石洋和曹楠。Vinci：一种智能图形设计系统，用于生成广告海报。在人机交互计算系统的2021年CHI会议论文集中，页1-17，2021年。1, 20[6] Kamal Gupta，Justin Lazarow，Alessandro Achille，LarryS. Davis，Vijay Mahadevan和Abhinav Shrivastava。Layout-transformer：使用自注意力进行布局生成和完成。在IEEE /CVF国际计算机视觉会议（ICCV）论文集中，页1004-1014，2021年10月。10[7] Martin Heusel，Hubert Ramsauer，ThomasUnterthiner，Bernhard Nessler和SeppHochreiter。通过两个时间尺度更新规则训练的GAN收敛到局部纳什均衡。在神经信息处理系统的进展中，页6626-6637，2017年。50[8] Sepp Hochreiter和J¨urgenSchmidhuber。长短期记忆。神经计算，9（8）：1735-1780，1997年。20[9] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou和Alexei AEfros。带条件对抗网络的图像到图像翻译。在计算机视觉和模式识别会议（CVPR）中，2017年。20[10] Max Jaderberg，Karen Simonyan，AndrewZisserman等。空间变换网络。神经信息处理系统的进展，28：2017-2025，2015年。2, 30[11] Akash Abdu Jyothi，Thibaut Durand，Jiawei He，LeonidSi- gal和GregMori。Layoutvae：从标签集生成随机场景布局。在IEEE /CVF国际计算机视觉会议论文集中，页9895-9904，2019年。10[12] Diederik P Kingma和MaxWelling。自动编码变分贝叶斯。arXiv预印本arXiv：1312.6114，2013年。10[13] Orest Kupyn，Volodymyr Budzan，MykolaMykhailych，Dmytro Mishkin和JiriMatas。Deblurgan：使用条件对抗网络进行盲运动去模糊。在计算机视觉和模式识别会议（CVPR）中，2018年。20[14] Christian Ledig，Lucas Theis，Ferenc Husz´ar，JoseCaballero，Andrew Cunningham，Alejandro Acosta，AndrewP Aitken，Alykhan Tejani，Johannes Totz，ZehanWang等。使用生成对抗网络的照片逼真的单幅图像超分辨率。在计算机视觉和模式识别会议（CVPR）中，2017年。20[15] 李欣颖，江路，伊尔凡∙埃萨，Phuong BLe，龚海峰，杨明轩和杨伟龙。神经设计网络：带约束的图形布局生成。在计算机视觉-ECCV2020：第16届欧洲会议，2020年8月23日至28日，格拉斯哥，英国，第三部分16，页491-506。斯普林格，2020年。1, 20[16] 李佳楠，杨洁梅，AaronHertzmann，张建明和徐廷发。Layoutgan：使用线框鉴别器生成图形布局。arXiv preprintarXiv:1901.06767，2019年。1，2，6，70[17]李佳楠，杨洁梅，张建明，刘畅，王晶和徐廷发。用于自动图形设计的属性条件布局gan。IEEE Transactions on Visualization andComputer Graphics，27(10):4039–4048，2020年。1，20[18]李润德，潘金山，李泽超和唐劲辉。通过条件生成对抗网络进行单幅图像去雾。In The Conference on Computer Vision andPattern Recognition (CVPR)，2018年。20[19]李申，赵哲，胡仁芬，李文思，刘涛和杜小勇。中文形态和语义关系的类比推理。In Proceedings of the 56th Annual Meeting ofthe Association for Computational Linguistics (Volume 2:Short Papers)，pages 138–143，2018年。20[20] 梁晓丹，李莉莎，戴伟和Eric PXing。双动态gan用于未来流嵌入视频预测。In The InternationalCon

下载后可阅读完整内容，剩余1页未读，立即下载