基于多分辨率表示的矢量图形文档颜色推荐

89 浏览量更新于2023-10-16 收藏 2.06MB PDF 举报

电子邮箱

图形设计

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3621基于多分辨率表示的矢量图形文档颜色推荐QianruQiuCyberAgent日本东京涩谷qiuqianru@cyberagent.co.jp大谷真由CyberAgent日本东京涩谷mayu@cyberagent.co.jp王雪婷日本东京涩谷wangxueting@cyberagent.co.jpYuki IwazakiCyberAgent日本东京涩谷岩崎yuki@cyberagent.co.jp图1：矢量图形文档的颜色建议左边是设计示例及其视觉元素（例如图像，SVG和文本）以及提取的调色板。右边是推荐的包含一种SVG颜色的前3个结果输入样本中的元素来自Crello数据集。摘要矢量图形文档呈现多个视觉元素，例如图像、形状和文本。为多个视觉元素选择合适的颜色是具有挑战性的，但对业余爱好者和专业设计师来说至关重要。我们不是为所有元素创建一个单一的调色板，而是从图形文档的每个视觉元素中提取多个调色板，然后将它们组合成一个颜色序列。本文提出了一种用于颜色序列补全的屏蔽颜色模型，并在多调色板中以高概率推荐基于颜色上下文的指定颜色。在大规模的矢量图形文档数据集上训练了该模型并构建了一个颜色推荐系统。所提出的颜色推荐方法在颜色预测的定量和定性评价上优于其他最先进的方法，并且我们的颜色推荐系统在访谈研究中得到了专业设计师我们的代码和训练模型可以在https：//github上找到。com/CyberAgentAILab/multipalette.1. 介绍在图形设计中，许多创造性的应用程序提供了大量的模板。这些设计平台适合创意设计师和业余爱好者，如营销专业人士，博主，社交媒体经理等。在设计工作流中，用户选择模板并使用3622自己的资产。预先设计的模板在每个视觉元素中具有协调的颜色。当某些视觉元素被替换时，色彩的和谐可能会被破坏。选择合适的颜色对业余爱好者来说可能不容易;甚至设计者通常也在为矢量图形文档获得合适的调色板而奋斗。调色板是指以精细形式表达的有限数量的颜色。它因其简单、直观、通用和易于计算而广泛应用于图形设计[12]。先前关于调色板表示的研究这些回归方法手动提取数百个颜色特征提取是复杂的，包括跨每个颜色空间中的单个通道的调色板颜色、平均值、标准偏差、中值、最大值、最小值和最大值减去最小值，即，RGB、CIELAB和HSV。手工制作的特征的提取学习高质量的颜色表示仍然是一个开放的问题。在这项研究中，我们简化了输入，没有手工制作的功能，并提出了一个数据驱动的深度学习模型的颜色表示。近年来，研究人员已经探索了用于调色板生成和颜色推荐的深度学习技术。以前的研究集中在为单个视觉目标生成调色板，例如图像着色[5]，统计图形中的形状着色[14]，信息图形中的形状和文本着色[22]。然而，矢量图形文档要复杂得多，具有多个视觉元素，包括图像、形状和文本。每个视觉元素都有自己的调色板。现有的颜色推荐工具为多调色板设计推荐颜色是具有挑战性的。在这项研究中，我们使用一个颜色序列结合不同的视觉元素的多个调色板，并训练一个掩蔽的颜色模型来学习多调色板表示的颜色序列完成。总而言之，我们的主要贡献包括：• 一种新的表示矢量图形文档中多个调色板的掩码颜色模型。• 一种交互式颜色推荐系统，使用建议的颜色对视觉元素进行• 对推荐系统进行了一系列的实验评估，包括定量实验和感知研究，2. 相关作品2.1. 颜色推荐主要有两种颜色替换的情况。第一个是建议一个调色板，主题或语义要求。第二种方法是根据给定的颜色扩展调色板。对于第一种情况，一些网站，如Adobe Color[1]和COLOURLovers [2]，提供了调色板模板，这些模板使用各种主题名称或语义标签进行分类，例如“自然”和“环境”。这些调色板模板可以用作满足语义需求的参考。一些研究人员建议基于语义标签和固定谐波颜色选择模型的调色板模板，对于第二种情况，O'Donovan等人的早期努力[16]提出了一种线性回归方法，并建议为给定的四种颜色的第五种颜色Kita等人[13]用同样的回归方法将由N种颜色组成的调色板扩展到N+α，重新训练原始的颜色协调。这些回归模型依赖于手工制作的特征提取方法。在这项工作中，我们建议兼容的颜色为给定的颜色在多调色板没有颜色特征提取方法通过深度学习模型。最近，一些研究人员探索了用于调色板推荐的深度学习算法。Yuan等[22]采用具有任意调节的变分自动编码器（VAEAC）模型来生成信息图形元素的调色板。Kim等人[11]训练颜色嵌入模型来预测和推荐可能聚集在同一调色板中的其他颜色，用于Man-dala着色。颜色模型类似于fastText [6]，是Word2Vec [15]模型的扩展他们把颜色当作一个词，把调色板当作一个句子。该模型经过训练，提供颜色的连续矢量表示这些设计对象中的元素包括形状或文本，并且每个元素仅限于一种颜色。在图形文档中，元素还包括照片和插图。矢量图形文档中的颜色设计比多调色板设计更复杂我们扩展了将单词嵌入应用于颜色表示的想法，类似于之前基于Word2Vec的工作[11]。然而，Word2Vec模型不能解释同一图形文档中不同调色板之间的我们通过基于BERT架构的上下文嵌入来探索多调色板表示[9]。2.2. 基于调色板的图像拼接一些图像分类方法基于通过深度神经网络从图像进行语义分割[3，10]。我们专注于基于调色板的模型，因为图像的颜色调色板捕获图像中的主要颜色，并将颜色组成调整为所需的调色板。大多数的图像分类方法包括两个步骤：从图像中提取调色板，并将图像中的每个像素映射到目标调色板。许多策略3623--联系我们[7，23，4]采用聚类方法提取调色板颜色。其他几个作品[17，18]使用几何方法来提取在RGB颜色空间中构建凸包的调色板基于凸包的调色板可能会错过位于凸包内的重要颜色。我们使用的k-均值聚类方法重新着色图像元素在我们的系统。3. 多调色板表示3.1. 数据集我们从Crello [19]中生成了一个多调色板数据集，这是一个包含各种显示格式的设计模板的大规模数据集，例如社交媒体帖子，横幅广告，博客标题和印刷海报。它提供了完整的文档结构和元素属性，包括元素特定的配置，如元素类型、位置、大小、不透明度、颜色或光栅图像。元素类型主要包括imageElement 、 maskElement 、 coloredBack-ground 、svgElement和textElement.我们将这些元素分为三类：图像元素组（包括imageElement和maskElement）、SVG元素组（包括coloredBackground和svgElement）和文本元素组（包括textElement）。Crello数据集中每个元素的颜色数据只有一种颜色，与固体背景和文本占位符相关。我们生成了一个多调色板数据集作为图像-SVG-文本调色板，每个元素组都有自己的调色板，如图2所示。对于图像和SVG元素，我们将同一组的元素合并到单个图像中，然后使用k-means聚类方法提取调色板。我们使用k=5，它对典型元素很有效。我们收集文本颜色并将它们聚集到文本元素的调色板每个调色板是多达五种颜色在这项工作。我们得到了18，768/2，315/2，278个有效数据作为训练、验证和测试数据集。本文图中的所有设计模板都来自Crello测试数据集。3.2. 基于掩蔽颜色模型的表示学习我们训练颜色嵌入模型，类似于单词嵌入模型。在自然语言处理中，词嵌入模型用于学习分布式表示，其中输入是文本语料库，输出是表示词的一组特征向量。类似地，在颜色嵌入模型中，颜色表示单词，调色板表示句子，并且同一设计中的多个调色板表示段落。我们采用CIELAB颜色空间作为输入颜色语料库，它比其他颜色空间更具有感知均匀性最常用的颜色空间是24位RGB 模型。我们将 RGB 颜色数据转换为CIELAB ，范围为[0，255]，并将每种颜色分配给b×b×b直方图中的一个箱（我们在这项工作中使用b=16图2：从设计模板中提取多个调色板作为Image-SVG-Text调色板。将同一元素组中的元素合并到单个图像中，然后提取调色板。例如，RGB颜色空间中的白色（255，255，255）在具有16个仓的CIELAB颜色空间中被标记为代码“15 8 8”。在训练数据集的词汇表中有796个颜色代码在学习过程中，颜色代码被转换为矢量并嵌入到空间中我们通过基于预训练BERT架构的掩蔽颜色模型获得颜色嵌入[9]。图3中的掩码颜色模型与BERT中的掩码语言模型（Masked LM）模型接收每个调色板的固定长度作为输入。对于调色板，短于这个固定的长度，我们将不得不添加token [PAD]到调色板来弥补长度。另一个人工标记[SEP]被添加到调色板的末尾最大序列长度为18。它的输入表示是为一个给定的令牌通过求和相应的令牌，段，和位置嵌入。在这里，C11，. . . C15用于图像调色板，C21，. . . C24用于SVG调色板，C31，C32用于文本调色板。图像、SVG和文本调色板都已标记具有段号1、2和3。段嵌入是编码到向量中的调色板编号。经过训练的模型知道特定的颜色标记是否属于特定的调色板。分段嵌入可以实现多调色板表示。基于BERT的模型架构是一个多层双向Transformer编码器。我们使用四个Transformer层和八个自我关注头。增加Transformer层或注意头的掩蔽颜色模型随机掩蔽一些百分比-3624图3：图像-SVG-文本颜色序列的掩蔽颜色模型。从输入中提取标记的年龄，然后基于它们的上下文预测被屏蔽的标记。在我们的实验中，我们随机屏蔽每个序列中10%的token，并在80%的时间内将所选token替换为[MASK] token。然后，我们使用标准交叉熵损失来优化预训练任务。我们通过预测具有高概率的掩蔽颜色来推荐多调色板中的颜色。3.3. 颜色推荐系统用户可以选择和编辑一个设计模板在前 -examplecreative应用程序的图形文件。然而，当相同的视觉元素被替换时，用户可能会努力协调设计中的颜色。为了减少用户我们创建了一个颜色推荐引擎与掩蔽颜色模型，并开发了一个交互式用户界面，让用户获得协调的颜色的设计。颜色推荐系统支持基本选择、交互式推荐和预览功能，如图4所示。设计模板被转换为JSON文件，作为包含完整的元素特定配置的系统输入。系统解析JSON对象并使用分离的视觉元素重建设计。系统允许用户更改图像元素，并提取每个元素组的调色板，如图4中的第二步。下面显示的图像调色板是从新图像中提取的。用户可以选择重新着色的颜色，然后使用推荐的颜色检查设计结果对于SVG渲染，一个简单的插值方法将原始颜色更改为推荐的颜色。我们使用了基于调色板的k-means照片拼接方法在这个系统中进行聚类[7]以进行图像分类。4. 实验验证为了评估我们提出的方法的性能，我们将其与相关工作和基线模型进行比较通过定量和定性评价。我们采用了一个基于Word2Vec的模型，该模型用于相关工作[11]。该模型的输入是没有段嵌入的颜色标记。我们还训练了一个没有片段嵌入的基于BERT的4.1. 定量评价我们使用2278颜色序列的测试数据集在定量实验。我们在颜色序列中随机屏蔽一种颜色，并评估预测颜色我们使用前N个准确度，即实际颜色等于每个模型预测的N个最可能的颜色中的任何一个。人眼有时不能完全感知细微的色差。除了准确性，我们还使用视觉相似性来衡量推荐的颜色。对于相似性测量，我们使用CIEDE2000计算两种颜色之间的距离，而不是欧几里得距离，它在预测调色板之间的视觉相似性方面表现出良好的性能[20，12]。首先，我们训练20次，得到准确率的平均值。我们的模型有和没有段和位置嵌入的结果如表1所示。结果发现，在当前数据集中，有和没有位置嵌入的模型之间没有差异。因此，我们选择了通过我们的方法训练的最佳模型，而没有位置嵌入，用于以下比较。3625图4：矢量图形文档颜色推荐系统交互界面包含六个主要操作：1.输入JSON文件。 102替换图像元素。获取图像-S V G-t e xt调色板并选择颜色进行匹配。10.4从颜色推荐引擎获取推荐的颜色。⃝5选择推荐的颜色并检查重新着色的结果。 106标记首选结果。为了将该方法与基于Word2Vec的模型和基线模型进行比较，我们评估了这三种模型的颜色预测结果的准确性和相似性。准确度比较结果见图5，表2，相似度比较结果见图6，表3。我们的方法与段嵌入提供了显着更好的结果比Word 2 Vec-方法和基线模型。实验结果表明，该分割方法在多调色板表示学习中是有效的，提高了颜色推荐性能。我们建议在推荐应用中提供两种以上的颜色候选，具有高准确性，用户希望在前N个推荐颜色中找到所需的颜色。精度表1：我们的模型在前N个准确度（N = 1，3，5，10）上有和没有分段和位置嵌入的定量比较。这是20个训练模型的平均值。表2：我们的模型在有和没有段嵌入的情况下以及基于Word2Vec的模型在前N个准确度（N = 1，2，3，4，5）上的定量比较。模型@1@2@3↑@4@5Word2Vec0.030.050.080.100.11我们的w/o细分市场0.230.320.390.430.46Ours w/segment0.360.460.520.570.61嵌入准确度↑段位置@1@3@5@10w/w/0.270.450.530.63w/W/O0.270.440.520.62W/OW/O0.160.300.380.503626图5：我们的模型在有和没有段嵌入的情况下的定量比较以及基于Word2Vec的模型在前N个准确度上的定量比较（N = 1，2，3，4，5）。图6：我们的模型在有和没有段嵌入的情况下的定量比较以及基于Word2Vec的模型在前N个相似度（N = 1，2，3，4，5）上的定量比较。相似性表3：我们的模型在有和没有段嵌入的情况下以及基于Word2Vec的模型在前N个相似度（N = 1，2，3，4，5）上的定量比较。4.2. 定性评价考虑到颜色性能取决于人类的感知，我们进行了定性评估，以验证推荐结果的性能我们从Crello测试数据集中随机选择了80个模板。对于每个选定的太阳穴，可以在图像、SVG或文本元素中的多调色板中的一种颜色被随机掩蔽以用于重新着色。80个评估样本中的掩蔽颜色和测试数据集中的多调色板的所有颜色在随机选择期间，一些视觉上不可感知的元素中的中性色被排除，例如，在该实验中忽略具有微小字体大小的文本颜色。由前1名推荐的重新着色的设计-图7：评估样本中选定颜色和Crello测试数据集中所有颜色的色调分布。色调顺序基于实用颜色坐标系，我们将中性色表示为-1。图8：我们提出的基于BERT的模型（有和没有段嵌入）和基于Word2Vec的模型的颜色推荐结果。这三个示例使用一种图像颜色、一种SVG颜色和一种文本颜色重新着色每种型号的修补颜色如图8所示。我们选择了一个原始设计（GT）和三个模型的前2个推荐结果：我们的模型与段，基线模型无段，和基于Word2Vec的模型。这七个设计被安排在一个评估问题中。参与者被要求从七个设计中选择最多三个好的和三个坏的设计。我们招募了84名参与者，其中68名非设计师和16名平面设计师。好的和坏的设计选择的评价结果模型@1@2@3↓@4@5Word2Vec38.428.323.920.317.8我们的w/o细分市场30.618.814.111.59.9Ours w/segment23.814.510.78.77.43627第1页第1页p.001p.001p.001p.05p.01p.001p.001p.001偏好不喜欢20.06017.550 15.04012.510.0307.520个5.0100GT Ours_w/_seg_meanOurs_w/o_seg_meanWord2Vec_mean样品2.50.0GT Ours_w/_seg_meanOurs_w/o_seg_meanWord2Vec_mean样品图9：来自非设计者的良好设计的评估结果.图11：设计者对良好设计的评估结果.807020601550401030205100GT Ours_w/_seg_meanOurs_w/o_seg_meanWord2Vec_mean样品0GT Ours_w/_seg_meanOurs_w/o_seg_meanWord2Vec_mean样品图10：来自非设计者的不良设计的评估结果.来自非设计者的数据如图9和图10所示。显示了三个模型的前2个推荐结果的平均值从结果来看，虽然我们提出的具有段嵌入的模型比GT表现得更差，但它比没有段的基线模型和基于Word2Vec的模型具有更高的偏好和更低的不喜欢（p<0. 05）。①的人。基线模型和基于Word2Vec的模型之间没有显著差异。图11和图12显示了设计师选择的好设计和差设计的评估结果结果与非设计者的结果相似。此外，设计师评估我们的模型与段执行显着优于Word2Vec模型（首选项：均

下载后可阅读完整内容，剩余1页未读，立即下载