文本驱动的图像着色：Text2Colors模型与PAT数据集

133 浏览量更新于2024-06-20 收藏 1.9MB PDF 举报

本文主要探讨了一种创新的基于文本生成图像着色的方法，名为Text2Colors。该研究旨在通过深度学习技术，让机器理解文本中的语义，并以此为基础生成相应的调色板，进而为灰度图像着色。相比于现有的图像着色技术，Text2Colors能够处理更复杂的文本输入，包括单个单词、短语甚至整个句子，从而产生多种可能的色彩方案。研究的核心在于构建了一个由两部分组成的条件生成对抗网络架构。首先，文本到调色板生成网络（Text-to-Color Palette Generator）负责捕捉输入文本的语义特征，并生成与之相关的调色板。这个网络的设计目的是捕捉颜色和文本之间的抽象关系，使得机器能够理解并表达出文本所蕴含的情感、主题或象征意义。接着，基于调色板的着色网络（Color Palette-based Image Colorization Network）利用生成的调色板对灰度图像进行着色。它展示了模型在实际应用中的有效性，结果显示，相较于实际的调色板，人们更倾向于接受和喜爱Text2Colors生成的色彩方案，这表明模型在反映输入文本语义方面的出色性能。为了验证这一方法，研究者还创建了一个专门的数据集，即调色板和文本（PAT）数据集，用于训练和评估模型。PAT数据集包含了丰富的文本-色彩配对样本，有助于提升模型在实际场景中的适应性和效果。文章的关键技术包括条件生成对抗网络（Conditional Generative Adversarial Networks, CGANs），这是一种深度学习技术，通过对抗训练的方式生成与输入条件相关的新样本，这里则是颜色调色板。这种方法的优势在于能够生成多样化的颜色组合，从而增强图像的视觉表现力和创意表达。总结来说，Text2Colors方法不仅推动了计算机在理解和转化文本与颜色关系上的能力，而且展示了在图像着色领域的潜在应用价值，特别是在需要准确反映文本语义的创意设计和艺术创作中。

Hyojin Bahng和Seungjoo Yoo和Wonwoong Cho

条件GAN条件生成对抗网络（cGAN）是使用条件信息作为鉴别器和

生成器的GAN模型[24]。cGANs已经从文本[32，31，43]和图像到图像

转换[16，13，7]中产生了有希望的结果StackGAN [43]是第一个使用条

件损失进行文本到图像合成的模型。我们的模型是第一个利用

StackGAN的条件增强技术来输出不同的调色板，即使给定相同的输

入文本。

交互式着色着色是一项多模态任务，同一对象的期望着色结果可

能因人而异[4]。许多研究引入了允许用户控制最终着色输出的交

互式方法[44，20]。在这些模型中，用户通过精确定位要着色的位

置来直接与模型交互即使这些方法实现了令人满意的结果，限制

是用户需要具有一定水平的艺术技能。因此，其他研究不是让用

户直接给图像着色，而是通过利用调色板来重新给图像着色，从

而采取更间接的方法[3，5]。我们模型的基于调色板的过滤器是非

专家重新着色图像的有效方法[3]。

具有注意力的序列到序列递归神经网络（RNN）是一种受欢迎的

工具，因为它们具有从序列数据中学习的卓越能力。

RNN用于各种

任务，包括句子分类[39]，文本生成[37]和序列到序列预测[38]。将注

意力纳入序列到序列模型中可以提高模型性能[22]，

因为网络学会选

择性地关注源句子的部分。这允许模型学习不同模态之间的关

系，如我们的模型所做的那样text-colors、text-action [1]和English-

French [40]）。

调色板和文本（PAT）数据集

本节介绍我们的手动策展数据集，名为Palette-and-Text（PAT）。

PAT包含10，183个文本和五种颜色的调色板对，其中调色板中的

五种颜色的集合与其对应的文本描述相关联，如图1A和1B所示。3

（b）-（d）。单词根据它们与颜色的关系而变化;一些单词是直接

颜色词（例如，粉红色、蓝色等）而其它的唤起特定的颜色集合

（例如，秋天或充满活力）。据我们所知，还没有一个数据集匹

配多词文本及其相应的5色调色板。这个数据集允许我们训练我们

的模型，以预测具有文本输入的语义一致的调色板

其他

Col

或

作为

Mun

〇e的Col或S urvey [ 26]是广泛使用的大规模颜色

语料库

。基于众包的用户判断，它将文本匹配到

一

个字符

串

。

另

一种

方法，如他的颜色或图像数据集[ 18]所示，是一种建立良好的多

色数据集。小林只用了180个形容词来表达

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

文本驱动的图像着色：Text2Colors模型与PAT数据集

图像着色

图像着色器(普通版非机器学习).zip

Chroma:这是一个基于神经网络的应用程序，用于对黑白图像进行着色。 （网站）

添加代码着色和图像上传的FCKeditor在线编辑器.NET版

vortex-old:实时无缝重复纹理生成器，使用TypeScript和WebGL着色语言编写

ImageCreator:创建图像文件的程序。 最初的想法是能够从某种基本脚本文件创建简单的线条草图和简单的着色

OSL-Shaders:OSL着色器

二维码的生成

OpenGL 几何着色器 传入点,绘制三角形

数字图像处理课件

最新资源

Chroma:这是一个基于神经网络的应用程序，用于对黑白图像进行着色。（网站）

ImageCreator:创建图像文件的程序。最初的想法是能够从某种基本脚本文件创建简单的线条草图和简单的着色

OpenGL 几何着色器传入点,绘制三角形