基于GAN的Tag2Pix：文本驱动的线画彩色化与效果评估

PDF格式 | 1.86MB | 更新于2025-01-16 | 199 浏览量 | 举报

Tag2Pix是一种创新的基于生成式对抗网络（GAN）的线画彩色化方法，其目标是自动化地将灰度的线条艺术转换为高质量的彩色图像。这种方法特别关注于利用文本标记和颜色标签信息，通过一种名为SECat的新网络结构进行有效的着色。SECat的设计旨在确保生成器能够精确地识别和应用颜色，即使是细微特征如眼睛也能准确处理。文章首先介绍了Tag2Pix线艺术着色数据集，它提供了灰度线条艺术和相应的颜色标签，作为模型训练的基础。生成器网络的核心包括卷积层，它们负责处理输入的线条艺术；一个预训练的语义提取网络，用于理解输入图像的深层含义；以及一个编码器，负责编码颜色标签信息，以便指导着色过程。鉴别器设计为一个辅助分类器GAN，不仅评估图像的真实性，还负责标签信息的分类，从而帮助生成器学习到正确的颜色分布。研究者提出了一种新颖的两步训练策略，首先让生成器和鉴别器专注于学习对象和形状的抽象概念，然后在掌握了这些概念后，再细化到色彩的着色规则，如颜色的定位和选择。为了验证Tag2Pix的有效性，文中提供了定量和定性的评估。定量评价可能涉及对比与现有方法在色彩还原度、细节保留和整体视觉效果上的性能指标。定性评价则可能包括专业艺术家和普通用户的主观评价，以及与人类着色结果的比较。 Tag2Pix展示了如何通过结合文本和线条艺术，克服了线条艺术着色任务中的信息限制，实现了自动化且高质量的色彩生成，为图像着色技术的发展开辟了新路径。这种技术在插画、艺术创作和潜在的AI辅助设计等领域具有广泛的应用前景。

展开

9056

Tag2Pix：使用文本标记和SECat以及更改损失的线条艺术着色

Hyunsu Kim

、Ho Young Jhoo

、Eunhyeok Park和Sungjoo

Yoo首尔国立大学

{gustnxodjs，mersshs，eunhyeok.park，sungjoo.yoo}@ gmail.com

摘要

线艺术着色是昂贵的，并且具有挑战性的自动化。

提出了一种基于

GAN

的线画彩色化方法，称为

Tag2Pix

，该方法以灰度线画和颜色标签信息作为输

入，生成高质量的彩色图像。首先，我们介绍了

Tag2Pix

线艺术着色数据集。提出了一种生成器网络，

该生成器网络由卷积层、预训练的语义提取网络和用

于输入颜色信息的编码器组成，卷积层用于转换输入

的线条艺术。鉴别器基于辅助分类器

GAN

来对标签信

息以及真实性进行分类。此外，我们提出了一种新的

网络结构，称为

SECat

，这使得发电机正确着色，甚至

小的功能，如眼睛，也提出了一种新的两步训练方

法，其中发电机和鉴别器首先学习对象和形状的概

念，然后，根据学习的概念，学习着色，如在哪里以

及如何放置哪种颜色。我们提出了定量和定性的评

价，证明了所提出的方法的有效性。

介绍

在插图行业中，线条艺术着色是一项昂贵、耗时且

劳动密集型的任务。这对于学习方法来说也是一个非

常具有挑战性的任务，因为输出是完全彩色化的图

像，但唯一的输入是单调的线条艺术和少量用于彩色

化的附加信息（

例如

，颜色笔画）。分割和着色的多

模态学习是必不可少的。

最近，已经对着色进行了各种研究。这些作品中的

大多数都是基于生成式对抗网络（GAN）[8]，我们专

注于使用文本和线条艺术进行着色。在文本提示着色

的研究中，一些工作尝试用描述文本颜色的文本语句

给出的信息对灰度图像进行着色。

平等贡献

每个对象[4，19]，而其他对象使用句子[6，21]修改图

像的特定部分的颜色虽然有几个研究存在基于文本的

着色，他们都没有集中在线条艺术着色，这是更困难

的，由于相对较低的信息量包含在输入图像。

在线条艺术着色的情况下，有两种典型的方式来给

出着色的提示在用户引导的着色[18 ，25 ， 33，36]

中，在线艺术上的目标位置上绘制具有所需颜色的短

线，并通过自然填充剩余空间来生成输出。在风格转

移方法[7，9，18，35]中，现有的样本图像被用作生

成网络的提示，并且根据给定样本图像的颜色分布生

成输出。这些方法成功地简化了着色过程，但仍然需

要通过熟练的专业人员（用户引导的情况）或具有类

似图案的图像（风格转移的情况）进行干预，这两者

都是昂贵的。

图1.基于标签的着色方法的示例。

作为一种替代方案，我们定义了一个新的问题，用

于实现基于标签数据的线条艺术着色，如图1所示。生

成器网络接收输入数据作为单调线条艺术和对应的颜

色变化标签（CVT），诸如

蓝头发

或

红眼睛

，之后网

络使用这两个输入数据基于给定的标签信息对单调线

条艺术着色。这种基于标签的方法最小化了提供着色

提示的工作;因此，它可以提供高质量的彩色化输出，

而不需要熟练的专业人员的干预。在本文中，我们提

出了一种GAN方法来基于标签

下载后可阅读完整内容，剩余9页未读，立即下载

身份认证购VIP最低享 7 折!

30元优惠券

cpongm

粉丝: 5

基于GAN的Tag2Pix：文本驱动的线画彩色化与效果评估

PyTorch实现CycleGAN与pix2pix：深入探索深度学习模型

图像转换神器：使用Pix2Pix GAN将卫星图转为街道地图

深入学习pix2pix网络代码：GAN的起点

PiX：基于Raspberry Pi Zero W的火箭飞行记录仪

GANs-Pix2Pix：Pix2Pix

Pix2Pix：Unity的实时pix2pix实现

pix：为公众服务的数字化评估和认证

pix2pix:pix2pix（cGAN）的Tensorflow实现用于音频源分离

pytorch-pix2pix:各种数据集的pix2pix的Pytorch实现

pytorch-gans：GAN（生成对抗网络）的PyTorch实现。 DCGAN，Pix2Pix，CycleGAN，SRGAN

最新资源