基于文本生成图像着色方法

31 浏览量更新于2023-10-13 收藏 1.9MB PDF 举报

图像着色

语义理解

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

用文字着色：通过基于文本的调色板生成指导图像着色Hyojin Bahng*1[0000−0002−3571−9870]，Seungjoo Yoo*1[0000−0002−3078−8527]，Wonwoong Cho*1[0000−0003−0898−0341]、David Keetae Park1、3[0000−0001−9725−0193]、Ziming Wu2[0000−0003−3348−7727]、XiaojuanMa2[0000−0002−9847−7784]和Jaegul Choo 1、3[0000−0003−1071−4835]1韩国大学{hjj552，seungjooyoo，tyflehd21，heykeetae，jchoo}@ korea.ac.kr2香港科技大学网址：zwual@connect.ust.hk，mxj@cse.ust.hk3Clova AI Research，NAVER Corp.抽象。本文提出了一种新的方法来生成多个调色板，反映输入文本的语义，然后着色给定的灰度图像根据生成的调色板。与现有方法相比，我们的模型可以理解富文本，无论是单个单词，短语还是句子，并从中生成多个可能的调色板。对于这个任务，我们引入了我们的手动策划数据集，称为调色板和文本（ PAT ）。我们提出的称为Text2Colors的模型由两个条件生成对抗网络组成：文本到调色板生成网络和基于调色板的着色网络。前者捕获文本输入的语义并产生相关的调色板。后者使用生成的调色板对灰度图像进行我们的评估结果表明，人们更喜欢我们生成的调色板，而不是地面实况调色板，我们的模型可以有效地反映给定的调色板时，彩色图像。关键词：调色板生成·图像着色·条件生成对抗网络1介绍人类可以将某些单词与某些颜色联系起来。真正的问题是，机器能有效地学习颜色和文本之间的关系吗？使用文本来表达颜色可以为创造性提供充足的空间，并且将特定语义概念的颜色可视化将是有用的。例如，由于颜色会给人留下深刻的印象，公司通常会决定颜色或颜色的形式。’*这些作者的贡献相等。2Hyojin Bahng和Seungjoo Yoo和Wonwoong ChoFig. 1.给定文本输入的Text2Colors的着色结果。文本输入显示在输入灰度图像的上方，生成的调色板位于灰度图像的右侧与地面实况图像相比，调色板在彩色图像中得到了很好的反映我们的模型适用于各种各样的图像，从照片到图案（右上）。输入，即使没有艺术背景的人也可以轻松创建传达高级概念的调色板。由于我们的模型使用文本来可视化美学概念，因此其未来的应用范围可以包括文本甚至语音。以前的方法的应用范围有限，因为它们只接受单个单词作为输入，并且只能推荐预先存在的数据集中的单个颜色或调色板[12，8，15，25]。其他研究进一步尝试将单个单词与多颜色调色板[21，36]联系起来，因为多颜色调色板在传达语义方面具有高度表达性[18]。与这些以前的研究相比，我们的模型可以生成多个合理的调色板时，丰富的文本输入，包括单个和多个词的描述，大大增加了通过文字的创造性表达的边界。在本文中，我们提出了一种新的方法来产生多个调色板，传达富文本的语义，然后着色一个给定的灰度图像，根据所产生的调色板。对颜色的感知本质上是多模态的[4]，这意味着特定的文本输入可以映射到多个可能的调色板。为了将这种多模态纳入我们的模型中，我们的调色板生成网络被设计为从单个文本输入生成多个调色板。我们进一步将生成的调色板应用于着色任务。从以前的用户指导的着色，利用用户给出的颜色提示[42，44]的动机，我们设计我们的着色网络，利用调色板在着色过程中。我们的评估表明Text2Colors3图二. Text2Colors如何工作我们的模型可以产生一个多样化的选择调色板时，给定的文本输入。用户可以选择将哪个调色板应用于最终彩色化输出。彩色输出不仅反映调色板中的颜色，而且还传达文本输入的语义。本文的贡献包括：(1) 我们提出了一种新的深度神经网络架构，可以基于自然语言文本输入生成(2) 我们的模型是能够使用生成的调色板，以产生合理的colorizations-tions的灰度图像。(3) 我们介绍了我们的手动策划的数据集，称为调色板和文本（PAT），其中包括10，183对多词文本和多色调色板。42相关工作颜色语义学与颜色相关的意义是先天的和后天习得的[9]。例如，红色可以让我们本能地感到警觉[9]。由于颜色与高级语义概念[10]有很强的关联，因此从文本输入生成调色板有助于帮助艺术家和设计师[18]，并允许从调色板自动着色[42，5]。使用文本来选择过滤器的缺点是，过滤器名称通常不需要过滤器的颜色[ 21]，这使得用户仅通过查看过滤器名称来找到匹配其口味的过滤器变得困难为了弥合调色板与其名称之间的这种差异，基于用户文本输入的调色板推荐已经被研究了很长时间。基于查询的方法[21，36]使用文本输入来从图像字典中查询图像，其中从查询的图像中提取颜色以制作相关联的调色板。该方法的问题在于文本输入被映射到图像内容而不是文本暗示的颜色。而不是直接寻找目标，基于学习的方法[14，27，23]通过从大规模数据中学习它们的语义关联来将然而，我们的模型是唯一支持短语级输入的生成模型。4数据集和代码可在https://github.com/awesome- davian/Text 2Colors/4Hyojin Bahng和Seungjoo Yoo和Wonwoong Cho条件GAN条件生成对抗网络（cGAN）是使用条件信息作为鉴别器和生成器的GAN模型[24]。cGANs已经从文本[32，31，43]和图像到图像转换[16，13，7]中产生了有希望的结果StackGAN [43]是第一个使用条件损失进行文本到图像合成的模型。我们的模型是第一个利用StackGAN的条件增强技术来输出不同的调色板，即使给定相同的输入文本。交互式着色着色是一项多模态任务，同一对象的期望着色结果可能因人而异[4]。许多研究引入了允许用户控制最终着色输出的交互式方法[44，20]。在这些模型中，用户通过精确定位要着色的位置来直接与模型交互即使这些方法实现了令人满意的结果，限制是用户需要具有一定水平的艺术技能。因此，其他研究不是让用户直接给图像着色，而是通过利用调色板来重新给图像着色，从而采取更间接的方法[3，5]。我们模型的基于调色板的过滤器是非专家重新着色图像的有效方法[3]。具有注意力的序列到序列递归神经网络（RNN）是一种受欢迎的工具，因为它们具有从序列数据中学习的卓越能力。RNN用于各种任务，包括句子分类[39]，文本生成[37]和序列到序列预测[38]。将注意力纳入序列到序列模型中可以提高模型性能[22]，因为网络学会选择性地关注源句子的部分。这允许模型学习不同模态之间的关系，如我们的模型所做的那样text-colors、text-action [1]和English-French [40]）。3调色板和文本（PAT）数据集本节介绍我们的手动策展数据集，名为Palette-and-Text（PAT）。PAT包含10，183个文本和五种颜色的调色板对，其中调色板中的五种颜色的集合与其对应的文本描述相关联，如图1A和1B所示。3（b）-（d）。单词根据它们与颜色的关系而变化;一些单词是直接颜色词（例如，粉红色、蓝色等）而其它的唤起特定的颜色集合（例如，秋天或充满活力）。据我们所知，还没有一个数据集匹配多词文本及其相应的5色调色板。这个数据集允许我们训练我们的模型，以预测具有文本输入的语义一致的调色板其他Col或D作为Munr〇e的Col或S urvey [ 26]是广泛使用的大规模颜色语料库。基于众包的用户判断，它将文本匹配到一个字符串。另一种方法，如他的颜色或图像数据集[ 18]所示，是一种建立良好的多色数据集。小林只用了180个形容词来表达Text2Colors5图三.我们的调色板和文本（PAT）数据集。左侧是PAT中包含的各种文本调色板对。PAT具有非常广泛的表达范围，特别是与现有数据集相比时。我们的数据集旨在解决富文本和多模态，其中同一个单词可以映射到广泛的可能颜色。1170三色调色板，这大大限制了它的表达范围。相比之下，我们的数据集由4，312个独特的单词组成。这包括了更多传统上不用于表达颜色的文本。我们的任务需要一个更复杂的数据集，如PAT，它将文本与多种颜色相匹配，并且足够大，可以让深度学习模型从中学习。数据收集我们通过细化从社区网站color-hex.com抓取的用户命名调色板数据来生成PAT数据集。成千上万的用户在color-hex上上传定制的调色板，因此我们的数据集能够包含广泛的意见。我们抓取了47，665个调色板文本对，并删除了非字母数字和非英语单词。其中，我们发现，用户有时分配调色板的名称在任意的方式，失去了他们的语义一致性与他们相应的调色板。有些名字是一个集合体的r和omw或 ds （ e. G. 、“mem emem G. ，'cau s e iiiiii s eer i g h t t tthough you bo yyyyy ' an d 'greee n e gardn'）. 因此，使用未重新优化的磁盘阵列将显著降低改进的为了优化有噪声的原始数据，四个注释者投票决定与调色板配对的文本是否正确匹配其语义含义。然后，我们只使用文本调色板对，其中至少有三个注释者四个同意，语义匹配之间存在的文本和调色板。只有当所有四个注释者都同意时才在数据集中包括注释者的感知本质上是主观的，这意味着对一个人来说完全合理的文本调色板对可能不适合另一个人。我们希望通过允许文本调色板对的多样化选择来融入这种主观性。拼写错误和标点符号错误在注释者完成数据整理后手动更正。6Hyojin Bahng和Seungjoo Yoo和Wonwoong Cho见图4。我们的Text2Colors架构概述。在训练期间，生成器G01earnstopr ou ceac olorpaleteyg ivenasetofc onditionalalala生成器G1学习预测a的彩色输出。在给定从地面实况图像提取的调色板p的情况下，灰度图像L可以是灰度图像L在测试时间，训练的生成器G0和G1用于从给定文本产生调色板，然后对反映生成的调色板的灰度图像进行着色。4Text2Colors：文本驱动的着色Text2Colors由两个网络组成：文本生成网络（TPN）和基于调色板的着色网络（PCN）。我们训练第一个网络以在给定多词文本的情况下生成调色板，然后训练第二网络以在给定灰度图像和所生成的调色板的情况下预测合理的着色。我们对这两个网络都使用了条件GAN（cGAN）。4.1文本到调色板生成网络（TPN）目标函数在本节中，我们说明了图1和图2中所示的文本到调色板生成网络。4和5. TPN产生与文本输入相关联的合理的调色板。令xi∈R300是由来自GloVe [29]的300维预训练向量未包括在预训练集中的词对于我们的任务使用CIELab空间，y∈R15表示由具有Lab值的五种颜色组成的15维调色板。在GRU编码器将X编码为隐藏状态h ={h1，···，hT}之后，我们通过对N（μ（h），Σ（h））上的潜在变量进行采样来向文本的编码表示添加随机噪声。C的等式为tionigvec torsc={c1，···，cT}被给定为要输出的边的约束条件apalettey，其中iilemeanvectorc¯=1ΣTc作为该函数的约束条件给出Ti=1鉴别器我们的第一cGAN的目标函数可以表示为LD0=EyPdata[logD0（c´，y）]+ExPdata[log（1−D0（c´，y））]，（1）LG0=ExPdata[log（1−D0（¯c，（y））]，（2）其中鉴别器D0试图最大化LD0，而生成器G0试图最小化LG0。从真实数据分布P数据采样预训练的字向量x和真实调色板y。Text2Colors722图五、产生调色板中的第t种颜色的生成器G0的模型架构是从puttext x ={x1，·· ·，x T }中的n生成可变值c = { c 1，···，cT}的等式。请注意，随机性被添加到编码表示中在将文本传递给生成器之前，将其转换为先前的方法受益于将GAN目标与L2距离[28]或L1距离[13]混合。我们已经探索了以前的损失选项，并发现Huber（或平滑L1）损失是最有效的增加生成的调色板中的颜色之间的多样性。Huber损失由下式给出.LH（y，y）=1（y−y）2for|y−y|≤δδ|y−y|−1δ2otherwise.（三）该损失被增加到使所生成的调色板的所生成的功能接近于地面实况调色板。我们还采用了Kullback-Leibler（KL）散度正则化项[43]，即，DKL（N（μ（h），λ（h））λ N（0，I）），（4）这增加了对于条件流形上的光滑性的保持的一般函数的约束。我们的最终目标函数是LD0=EyPdata[logD0（c¯，y）]+ExPdata[log（1−D0（c¯，y¨））]，（5）LG0=ExPdata[log（1−D0（¯c，（y））]+λHLH（y，y）+λKLDKL（N（µ（h），Σ（h））N（0，I）），（六）λH和λKL是平衡等式（1）中的三项的超参数。6.我们设置δ = 1，λH= 100，λKL= 0。5在我们的模型中网络架构通过条件增强编码文本。从text到ocol或学习映射是非常复杂的。例如，可以将一个像素映射到各种合理的调色板。当文本变得更长时，8Hyojin Bahng和Seungjoo Yoo和Wonwoong Cho由于“所有调色板都被存储”或“所有调色板都被接收并失败”，所以可能的匹配调色板的范围变得更加广泛和多样化。为了适当地模拟我们问题的多模态，我们利用条件增强（CA）[43]技术。不是使用编码文本的固定序列作为输入到我们的通用计算器，而是使用如图5所示的高斯分布N（μ（h），Σ（h））的简单计算器。这种随机性允许我们的模型在给定相同文本输入的情况下生成多个合理的调色板。为了获得隐藏的可变向量c={c（1，...，c（T）}，首先将预编码的w或d个向量x={x1，...，xT}馈送到GRU编码器中以计算隐藏状态h ={h1，...，hT}。此文本表示被馈送到全连接层中以生成N（µ（h），Σ（h））上高斯分布的 µ 和 σ （ Σ 对角线上的值）。Conditioningvarilecisccomputedbyc=µ+σ⊙ ，其中 ⊙ 是逐元素乘法， N（0，I）。所得的向量集c≡{c≡1，···，c≡T}将被用作我们的计算器的补充。生成器. 我们将我们的生成器G0设计为具有attntionme chanism的GRU解码器的变体[22，2，6]。该页的内容如下：yi=f（si），其中resi=g（yi−1，ci，si−1）。（七）si是时间i的GRU隐藏状态向量，具有先前生成的颜色y（i−1 ）、c〇ntextvect或ci，并且previousidenstatei−1作为输入。GRU隐藏状态si被给定为全连接层f的输入，以输出该层的颜色（i∈R3 ）。使用五个或多个分区来实现一个简单的平衡输出。在一个约束向量或s的等式上，约束向量或c={c1，···，cT}和前一个隐藏状态si−1。上下文向量ci被计算为这些上下文向量c i的weig htedum，i。例如，ΣTCi=j=1αijcj.（八）每个子目录的组成部分都是可变的α=exp（eij）其中e=a（s，c（）.（九）ijTk=1 exp（eik）iji−1ja（si−1，cj）=wTσ（Wsi−1+Wccj），（10）其中，σ（·）是一个通用的动态函数，并且是一个可见的向量。在[ 2]a（s i-1，c（j）上的addiveattenti〇 n[2] a（s i-1，c（j））包括如何将该x输入的 j-w 或 d 匹配调色板输出的第 i 种颜色。分数 αij 是基于teGRUhiddenstatesi−1和tej-thconditioncj 计算的。该方法使模型能够有效地将复杂文本输入映射到调色板输出。这是一个令人难以置信的地方。对于D0的关键层，可连接的颜色和调色板被级联并馈送到一系列完全连接的层中。通过联合学习编码文本和调色板的特征，该算法可以对调色板进行分类，判断调色板是真的还是假的。Text2Colors9G1I P4.2基于调色板的着色网络（PCN）目标函数第二个网络的目标是自动地产生由调色板作为条件变量引导的灰度图像的着色。输入是表示CIELab空间中的亮度的灰度图像L∈RH×W×1和由Lab值中的五种颜色组成的调色板p∈R15输出I∈RH×W×2对应于图像的预测ab颜色通道。第二模型的目标函数可以是表示为LD1=EIPdata[logD1（p，I）]+EIP[l〇 g（1-D1（p，I（））]，（11）LG1=E[lo g（1−D1（p，I））]+λHLH（I，I）.（十二）G1方程中包含的D1和G1我们还将Huberlos添加到了通用的业务功能中。在其他图像中，生成或学习接近具有合理着色的地面实况图像，同时将调色板颜色合并到输出图像以欺骗鉴别器。我们在模型中设置λH网络架构生成器. 生成器由两个子网组成：主着色网络和调节网络。我们的主要着色网络采用U-Net架构[33]，该架构在着色任务中显示出有希望的结果[13，44]。跳过连接有助于恢复空间信息[33]，因为输入和输出图像共享突出边缘的位置[13]。调节网络的作用是将调色板颜色应用于生成的图像。在训练期间，网络被给予从地面实况图像I提取的调色板p∈R15。我们利用ColorThief5函数来提取由地面实况图像的五个主色组成的调色板与之前的工作[44]类似，调节调色板p被馈送到一系列1× 1conv-relu层中，如图所示4.第一章层1、2和4中的特征图在空间上被复制以匹配主着色网络中的conv9、conv8和conv4特征的空间维度，并且以逐元素的方式被添加。调色板p被馈送到具有跳过连接的上采样层以及主网络的中间。这允许生成器检测突出边缘并将调色板颜色应用于图像的合适位置。在此期间，我们使用从第一个w或k_s（TP_N）开始的一般调色板颜色作为调节变量，用预测的调色板颜色对灰度图像进行着色。鉴别器。作为我们的鉴别器D1，我们使用DCGAN架构的变体[30]。图像和条件变量p被连接并馈送到一系列conv-leaky relu层中，以联合学习图像和调色板上的特征。然后，它被送入一个全连接层，以分类图像是真的还是假的。5http://lokeshdhakar.com/projects/color-thief/10Hyojin Bahng和Seungjoo Yoo和Wonwoong Cho见图6。与基线的比较和对多模式的定性分析：我们的TPN生成吸引人的调色板，反映文本输入的所有细节。此外，我们的模型可以生成多个调色板相同的文本输入（三行从底部）。相比之下，Heer和Stone [12]4.3实现细节我们首先使用PAT数据集为500个时期训练TPN的D0和G0然后，我们使用从地面实况图像中提取的调色板训练PCN的D1和G1最后，我们在测试时使用已训练的生成器G0和G1，或者使用genedpalettey（从romatext输入）来生成一个gra y s al e mageX. 所有网络都使用Adam优化器[17]进行训练，学习率为0.0002。权重从具有零平均值和0.05的标准偏差的高斯分布初始化。我们将其他超参数设置为δ = 1，λH= 100和λKL= 0。5.5实验结果本节对我们提出的模型进行了定量和定性分析。我们根据PAT数据集评价TPN（第4.1节）。对于PCN的训练（第4.2节），我们使用两个不同的数据集，CUB-200-2011（CUB）[41]和ImageNet ILSVRC对象检测（ImageNet数据集）[34]。5.1生成调色板的多模态性和多样性分析本节讨论对我们生成的调色板的多模态性和多样性的评价多模态是指单个文本输入可以映射到多少不同的调色板换句话说，如果单个文本可以用更多的调色板来表达，那么它就越多模态。如图6，我们的模型是多模态的，而以前的方法是确定性的，这意味着当给定文本输入时，它只生成特定的调色板。调色板内的多样性是指包括在单个调色板中的颜色的多样性。根据感知颜色距离测量的当前标准，我们使用CIEDE2000[35]来测量CIELabs空间的多为了测量多模态，我们计算平均最小值Text2Colors11见图7。注意分析。通过TPN测量两个文本输入样本的注意力分数。每个方框颜色（绿色）表示在产生顶部所示的相应颜色时计算的注意力分数。虚线框指示每个颜色输出所关注的单词。来自不同调色板的颜色之间的距离为了测量调色板的多样性，我们测量调色板内五种颜色之间的平均成对距离所有测量都是基于测试数据集计算的结果表1显示了我们模型的变体之间的多模态和多样性测量。CA模块（第4.1节）使我们的网络能够在给定相同的文本输入时建议多种调色板。没有CA的模型变体（表1中的第一行）导致零多模态，表明网络为相同的文本输入生成相同的调色板。Heer和Stone [12]的另一个调色板生成模型也具有零多模态。这表明，TPN是唯一能够充分表达多模态的现有模型，其在Color的定义域中是关键的。尽管HeerandStone的模型比TPN具有更高的多样性，图14。图6示出了他们的调色板包含可能增加多样性但降低调色板质量的不相关颜色。另一方面，TPN创建那些包含彼此匹配良好的颜色的调色板。关于愚弄率的结果将在5.3节中进一步说明。5.2注意力输出注意力模块（4.1节）的作用是关注文本输入中的特定单词，以预测最适合文本输入的颜色。图7示出了预测的颜色如何受到注意力分数的影响。绿色框显示了在预测调色板中的每个对应颜色时为每个单词标记计算的注意力分数。较高的分数由虚线框指示。我们观察到，三个颜色参加食尸鬼都是黑暗和阴沉的，而其他两个颜色参加乐趣是明亮的。这种注意力机制使我们的模型能够彻底反映不同长度的文本输入中包含的12Hyojin Bahng和Seungjoo Yoo和Wonwoong Cho见图8。语义语境的定性分析。我们的模型反映了调色板输出中给定文本输入的语义上下文中的细微nuance差异。除了第一列，这里显示的所有文本组合都是不可见的数据。表1.定量分析结果评价用户研究：第一模型变化目标函数CA多样性平均标准品多模态平均标准品愚弄率（%）平均标准品最大值和最小值我们的（TPN）X19号。368.740的情况。00。0- -我们的（TPN）O20块82743五、四三八1156.212776.7371希尔和斯通三十五9212660的情况。00。039岁六点十分8582258地面实况调色板-三十二602184- -- -5.3用户研究我们进行用户研究，以反映普遍的用户意见，我们的模型的输出。我们的用户研究由两部分组成。第一部分测量生成的调色板如何匹配文本输入。第二部分是一个调查，比较我们的基于调色板的着色模型的性能，另一个国家的最先进的着色模型。53名参与者参加了我们的研究。第一部分：文本和生成的调色板之间的匹配我们的目标是生成一个调色板与给定的文本输入有很强的语义连接。评估它的一种自然方式是量化文本输入和生成的调色板之间的连接程度，与相同的文本输入及其地面实况调色板进行比较给定一个文本输入，其生成的调色板和地面实况调色板，我们要求人类观察者选择最适合文本输入的调色板本研究中的愚弄率（FR）指示相对于地面实况调色板选择的生成调色板的相对更多的人选择生成的调色板导致更高的FR。该测量通常用于评估着色结果的质量[44，11]。我们将使用这个指标来衡量文本输入与其生成的调色板的匹配程度。Text2Colors13见图9。着色性能比较。报告了基线[44]和我们的PCN的每个问题的平均值和标准差。我们的PCN在所有问题上的得分都较高，显示用户对PCN的满意度更高。研究程序。用户通过TPN以及Heer和Ston模型参与用户研究[ 12]。ACNS我们从992个测试数据中选择一个单一的数据项，并显示文本输入以及生成的调色板和地面实况调色板。结果在表1中，我们测量每个人的FR评分，并计算参与者所有评分的平均值和标准差（std）。最大和最小分数分别表示最高和最低FR分数，由一个整数表示。虽然HeerandStone的模型[ 12]显示FR较低，为39.6%，但我们的TPN的FR为56. 2%，同时保持了高水平的多样性和多模态性56.2%的FR指示所生成的调色板对于人眼是不可区分的，并且有时甚至比地面实况调色板更好地匹配输入文本。请注意，12.7%的标准差意味着对相同数据对的不同响应。第二部分：着色比较在这部分的用户研究中，我们进行了一项调查的PCN给定调色板输入的性能。要求用户基于给定的灰度图像、调色板和彩色图像回答五个问题为了进行定量比较，我们将最先进的着色模型[44]设置为基线。该模型最初包含局部和全局提示网络。在基线模型的实现中，我们利用全局提示网络将生成的调色板注入到主着色网络中请注意，我们修改了基线模型以适应我们的任务。我们的新颖性是仅用调色板的五种颜色产生高质量着色的能力，而我们的基线[44]需要ab色域的313个箱我们的模型能够用有限的信息着色，这是由于新的组件，例如条件对抗性损失和将调色板馈送到跳过连接层。研究程序。我们以随机顺序逐一然后，我们要求每个参与者回答14Hyojin Bahng和Seungjoo Yoo和Wonwoong Cho图10个。我们将着色结果与以前的工作进行比较[44]。用于着色的五种颜色请注意，我们的PCN在应用调色板中包含的各种颜色时表现更好五个不同的问题（如图所9）基于五点李克特量表。我们的问题的重点是评估如何以及调色板被用于着色给定的灰度图像。每次测试的数据样本总数为15。结果结果统计报告在图。9.第九条。我们的PCN在所有问题上的得分都我们可以推断，由我们的模型生成的调色板比由人手创建的调色板更受欢迎。由于我们的模型从大量人类生成的调色板文本对中学习一致的模式，因此我们的模型可能已经生成了更多用户可以涉及的调色板。6结论我们提出了一个生成模型，可以产生多个调色板从富文本输入和彩色灰度图像使用生成的调色板。评估结果证实，我们的TPN可以从文本输入生成合理的调色板，并可以将多模态性质的颜色。对我们的PCN的定性结果也表明，调色板中的不同颜色有效地反映在着色结果中。未来的工作包括将我们的模型扩展到更广泛的需要颜色推荐的任务，并对我们的数据集进行详细分析。谢谢。这项工作得到了韩国国家研究基金会（NRF）的部分支持，该基金会由韩国政府（ MSIP ）资助（编号： 2009 ）。NRF2016R1C1B2015924）。Jaegul Choo是相应的作者。Text2Colors15引用1. Ahn，H.，T崔，Y.，刘，H。哦，S.：文本2操作：从语言到行动的生成对抗合成。IEEE机器人与自动化国际会议（ICRA）（2018）2. Bahdanau，D.，周，K.，Bengio，Y.：通过联合学习对齐和翻译的神经机器翻译。在：Proc.学习代表国际会议（ICLR）（2014）3. 张，H.，Fried，O.，Liu，Y.，DiVerdi，S.，Finkelstein，A.：基于调色板的照片重新着色。ACM Transactions on Graphics（TOG）34（4）（2015）4. C.Arpiat，G. H〇f mann，M.， Schoülkop f，B. ：Automaticima ge color izationviamul-单峰预测欧洲计算机视觉会议（ECCV）（2008）5. 周，J.，Yun，S.，Lee，K.，Choi，J.Y.：PaletteNet：给定调色板的图像分类。IEEE计算机视觉与模式识别研讨会（2017）6. Cho，K.， VanMerrr riénboer，B.， Gul c ehre，C.， Bahdanau，D. ，Bou gares，F.，Schenk， H.，Bengio，Y.：使用RNN编码器-解码器学习短语表示用于统计机器翻译。自然语言处理经验方法会议（EMNLP）（2014）7. 崔，Y.，Choi，M.，Kim，M.，J.W. Kim，S.，Choo，J.：StarGAN：用于多域图像到图像翻译的统一生成对抗网络。IEEE计算机视觉与模式识别会议（CVPR）（2017）8. Chuang，J.，Stone，M.，Hanrahan，P.：颜色之间分类关联的概率模型。在：Proc.的IS T颜色和成像会议（CIC）。第2008卷（2008年）9. Crozier，W.：色彩偏好的心理学。《着色技术》26（1）（1996）10. De Bortoli，M.，Maroto，J.：跨文化的颜色：互动营销传播中的色彩翻译。《欧洲语言与通信和信息技术的实施》（2001年）11. Guadarrama，S.，达尔河Bieber，D.，Norouzi，M.，Shlens，J.，Murphy，K.：像素递归着色。英国机器视觉会议（BMVC）（2017）12. Heer，J.，斯通，M.：用于颜色选择、图像编辑和调色板设计的颜色命名模型。SIGCHI Conference on Human Factors in Computing Systems （ SIGCHI ）（2012）13. Isola，P.，Zhu，J.Y.，周，T.，Efros，A.A.：使用条件对抗网络的图像到图像翻译。IEEE计算机视觉与模式识别会议（CVPR）（2017）14. Jahanian，A.，Keshvari，S.，Vishwanathan，S.，Allebach，J.P.：色彩使者概念：用于学习颜色语义的视觉设计挖掘。ACM Transactions on Computer-HumanInteraction（TOCHI）24（1）（2017）15. Kawakami，K.，戴尔角Routledge，B.R.，Smith，N.A.：字符序列模型丰富多彩的词语。自然语言处理经验方法会议（EMNLP）（2016）16. 金，T.，Cha，M.，Kim，H.李，J.，Kim，J.：学习发现与生成对抗网络的跨域关系。In：Proc.机器学习国际会议（ICML）（2017）16Hyojin Bahng和Seungjoo Yoo和Wonwoong Cho17. 金玛，D.P.，Ba，J.：Adam：随机最佳化的方法。国际学习表征会议（InternationalConference on Learning Representations，ICLR）（2014）18. Kobayashi，S.：彩色图像比例。http://www.ncd-ri.co.jp/english/main（2009）19. Labrecque，L.I.，Milne，G.R.：令人兴奋的红色和充满活力的蓝色：色彩在营销中的重要性Journal of the Academy of Marketing Science40（5）（2012）20. Li，X.，赵，H.，Nie，G.，Huang，H.：基于测地距离的图像重着色基于颜色协调。计算视觉媒体1（2）（2015）21. Liu，Y.，Cohen，M.，Uyttendaele，M.，Rusinkiewicz，S.：自动样式：自动样式从图像集合转移到用户的图像。计算机图形论坛33（4）（2014）22. Luong，M.T.，Pham，H.，Manning，C.D.：基于注意力的有效方法神经机器翻译自然语言处理经验方法会议（EMNLP）（2015）23. 麦克马汉湾斯通，M.：一个基于颜色语义的baidu模型。计算语言学协会（TACL）3（1）（2015）24. Mirza，M.，Osindero，S.：条件生成对抗网。arXiv预印本ArXiv：1411.1784（2014）25. Monroe，W. R.X.霍金斯Goodman，N.D. Potts，C.：上下文中的颜色：一个用于接地语言理解的实用神经模型。Transactions of the Asociation of ComputationalLinguistics（ACL）（2017）26. Munroe，R.：颜色调查结果。在线http://blog.xkcd.com/2010/05/03/color-surveyresults（2010）27. Murray，N. Ska S.A.，S.，Marchesotti湖Perronnin，F.：自动和灵活的概念转移。计算机图形36（6）（2012）28. Pathak，D.， Krahenbuhl，P. Donahue，J.， Darrell，T.， Efros，A.A.：上下文en-coders：通过图像修复进行特征学习In：Proc.IEEE计算机视觉与模式识别会议（CVPR）（2016）29. Pennington，J.索赫尔河曼宁，C.：Glove：单词表示的全局向量。自然语言处理经验方法会议（EMNLP）（2014）30. Radford，A.梅斯湖Chintala，S.：使用深度卷积生成对抗网络进行无监督表示学习。国际学习表征会议（International Conference on Learning Representations，ICLR）（2015）31. Reed，S.，Akata，Z.，李，H.，Schiele，B.：学习细粒度视觉描述的深度表示。IEEE计算机视觉与模式识别会议（CVPR）（2016）32. Reed，S.，Akata，Z.，Yan，X.，洛格斯瓦兰湖Schiele，B.，Lee，H.：生成对抗性文本到图像合成。机器学习国际会议（ICML）（2016）33. Ronneberger，O.，Fischer，P.，Brox，T.：U-net：用于生物医学图像分割的卷积网络。医学图像计算和计算机辅助干预国际会议（MICCAI）（2015）34. Russakovsky，O.，Deng，J.，Su，H.，Krause，J.，Satheesh，S.，妈妈，S.，黄志，Karpathy，A.，Khosla，A. Bernstein，M.等：Imagenet大规模视觉识别挑战。International Journal of Computer Vision（IJCV）115（3）（2015）35. Sharma，G.吴伟，Dalal，E.N.：CIEDE2000色差公式：心理状态注释、补充测试数据和数学观察。颜色研究&应用30（1）（2005）36. Solli，M.，Lenz，R.：用于图像索引的颜色语义In：Proc.会议图形成像和视觉中的颜色（CGIV）（2010）Text2Colors1737. 萨茨克弗岛Martens，J.，Hinton，G.E.：使用递归神经网络生成文本。机器学习国际会议（ICML）（2011）38. 萨茨克弗岛Vinyals，O.，Le，Q.V.：用神经网络进行序列到序列学习。神经信息处理系统（NIPS）进展（2014）39. Tang，D.，Qin，B.，Liu，T.：使用门控递归神经网络进行情感分类的文档建模。自然语言处理经验方法会议（EMNLP）（2015）40. Vaswani，A.，Shazeer，N. Parmar，N. Uszkoreit，J.，琼斯湖戈麦斯，A.N.，Kaiser，L-.，我是波罗蜜。：Attentionisallyouunned.In：AdvanncesinNeralInformalion Processing Systems（NIPS）（2017）41. Wah，C.，Branso

下载后可阅读完整内容，剩余1页未读，立即下载