没有合适的资源?快使用搜索试试~ 我知道了~
18180通过无监督区域优先级引导用户在有效交互式素描着色中给予颜色提示的指导0Youngin Cho* 1 Junsoo Lee* 2 Soyoung Yang 1 Juntae Kim 3 Yeojeong Park 1 Haneol Lee 40Mohammad Azam Khan 1 Daesik Kim 2 Jaegul Choo 101 KAIST AI 2 NAVER WEBTOON AI 3 Korea University 4 UNIST0{choyi0521,sy yang,indigopyj,azamkhan,jchoo}@kaist.ac.kr0{junsoolee93,daesik.kim}@webtoonscorp.com0kjt7889@korea.ac.kr0haneollee@unist.ac.kr0第1张素描图像0(c)结果(b)提示(a)掩码0第3、5、6、2、3、5、60图1:我们提出的模型在人脸和漫画数据集上的结果。(a)-(c)的每列表示第i个优先级的交互顺序。(a)可视化模型在第i步引导的掩码区域。给定一个区域作为(a),用户选择其代表性颜色,然后用所选颜色填充该区域。(c)显示给定累积颜色提示的中间着色结果作为(b)。摘要0现有的深度交互式着色模型专注于利用各种类型的交互方式,如逐点着色提示、涂鸦或自然语言文本,作为在运行时反映用户意图的方法。然而,另一种方法,即主动向用户提供最有效的区域以给予素描图像着色提示,尚未得到充分开发。本文提出了一种新颖的模型引导的深度交互式着色框架,通过优先考虑着色模型中的区域,减少了用户交互所需的次数。我们的方法称为GuidingPainter,它优先考虑模型最需要颜色提示的区域,而不仅仅依赖用户在哪里给予颜色提示的手动决策。在我们广泛的实验中,我们展示了我们的方法优于现有的交互式着色方法。0*平等贡献0以传统指标(如PSNR和FID)为基准,减少了所需的交互次数。01. 引言0计算机视觉中的着色任务近年来受到了相当大的关注,因为它可以广泛应用于内容创作。大多数内容创作都是从绘制或素描图像开始的,这些图像可以在合理的时间内完成,但是完全着色它们是一项劳动密集型的任务。因此,自动着色素描图像的能力具有重要的潜在价值。然而,自动素描图像着色仍然具有以下挑战:(i)与彩色图像甚至灰度图像相比,输入素描图像提供的信息极其有限,(ii)在没有任何条件输入的情况下,给定的素描图像可能有多个可能的结果,这往往会降低模型的性能并引入偏差the dominant colors in the dataset.To alleviate these issues, conditional image colorizationmethods take partial hints in addition to the input image, andattempt to generate a realistic output image that reflects thecontext of the given hints. Several studies have leverageduser-guided interactions as a form of user-given conditionsto the model, assuming that the users would provide a de-sired color value for a region as a type of point-wise colorhint [36] or a scribble [24, 3]. Although these approacheshave made remarkable progress, there still exist nontriviallimitations. First, existing approaches do not address the is-sue of estimating semantic regions which indicate how farthe user-given color hints should be spread, and thus the col-orization model tends to require lots of user hints to producea desirable output. Second, for every interaction at test time,the users are still expected to provide a local-position infor-mation of color hint by pointing out the region of interest(RoI), which increases the user’s effort and time commit-ment. Lastly, since existing approaches typically obtain thecolor hints on randomized locations at training time, the dis-crepancies among intervention mechanisms for the trainingand the test phases need to be addressed.In this work, we propose a novel model-guided frame-work for the interactive colorization of a sketch image,called GuidingPainter. A key idea behind our work is tomake a model actively seek for regions where color hintswould be provided, which can significantly improve theefficiency of interactive colorization process. To this end,GuidingPainter consists of two modules: active-guidancemodule and colorization module.Although colorizationmodule works similar to previous methods, our main con-tribution is a hint generation mechanism in active-guidancemodule. The active-guidance module (Section 3.2-3.3) (i)divides the input image into multiple semantic regions and(ii) ranks them in decreasing order of estimated model gainswhen the region is colorized (Fig. 1(a)).Since it is extremely expensive to obtain groundtruth forsegmentation labels or even their prioritization, we explorea simple yet effective approach that identifies the meaning-ful regions in an order of their priority without any man-ually annotated labels. In our active guidance mechanism(Section 3.3), GuidingPainter can learn such regions by in-tentionally differentiating the frequency of usage for eachchannel obtained from the segmentation network. Also, weconduct a toy experiment (Section 4.5) to understand themechanism, and to verify the validity of our approach. Wepropose several loss terms, e.g. smoothness loss and totalvariance loss, to improve colorization quality in our frame-work (Section 3.5), and analyze its effectiveness for bothquantitatively and qualitatively (Section 4.6). Note that theonly action required of users in our framework is to selectone representative color for each region the model providesbased on the estimated priorities (Fig. 1(b)). Afterwards, the18190着色网络(第3.4节)通过使用给定的草图图像和颜色提示(图1(c))生成高质量的着色输出。总之,我们的贡献有三个方面:0•我们提出了一种新颖的模型引导的深度图像着色框架,通过颜色化模型的兴趣顺序对草图图像的区域进行优先级排序。0•GuidingPainter可以通过使用真实的彩色图像而无需额外的手动监督来学习发现着色的有意义的区域并按照优先级进行排列。0•我们通过与以前的交互式着色方法在各种指标(包括我们提出的评估协议)上进行比较,证明了我们的框架可以应用于各种数据集。02. 相关工作02.1. 深度图像着色0现有的深度图像着色方法利用深度神经网络进行着色,可以根据是否涉及条件将其分为自动和有条件的方法。自动图像着色模型[35, 25, 32,1]以灰度或草图图像作为输入并生成彩色图像。CIC[35]提出了一种完全自动的着色模型,使用卷积神经网络(CNNs),Su等人[25]通过提取输入图像中的对象特征进一步改进了该模型。尽管自动着色模型的性能相当出色,但在实践中仍然需要大量的用户干预。有条件的图像着色模型尝试通过将参考图像[14]或用户交互[36, 3, 34, 30,33]作为附加输入来解决这些限制。例如,Zhang等人[36]允许用户实时输入点对点的颜色提示,AlacGAN[3]利用基于笔画的用户提示提取语义特征图。尽管这些研究认为用户提示可以改善结果,但通常需要大量的用户交互。02.2. 交互式图像生成0除了着色任务外,用户交互还在许多计算机视觉任务中得到了利用,例如图像生成和图像分割。在图像生成中,研究人员积极开展了利用各种用户交互作为GANs的附加输入的研究。许多GAN模型利用用户提供的与图像相关的特征生成用户驱动的图像[6, 15]和人脸图像[22, 11, 27, 13,26]。几个模型通过自然语言文本生成和编辑图像[31, 20,37, 2]。在图像ST - GUMBEL0 00 0 0 0� � {0,1}���� � {0,1}��×�×��where S = (S1, S2, ..., SNc) ∈ {0, 1}Nc×H×W , Si is the i-th guided region, and Nc denotes the maximum number ofhints. Specifically, f contains an encoder-decoder networkwith skip connections, based on U-Net [9] architecture, topreserve the spatial details of given objects.Since each guided region will be painted with a singlecolor, we have to segment the output of U-Net in a dis-crete form while taking advantages of end-to-end learn-ing. To this end, after obtaining an output tensor Slogit ∈RNc×H×W of U-Net, we discretize Slogit by applyingstraight-through (ST) gumbel estimator [10, 17] acrosschannel dimensions to obtain S as a differentiable approxi-mation. The result S satisfies �Nci=1 Si(j) = 1 where Si(j)18200主动引导模块 着色模块0分割网络 � 着色网络 �0提示生成0提示数量( � )0空 ,空 空 ,空0空 空 ××0空 {0,1} ××0空 空 ××0空0空0复制0空 {0,1} 空 ××0逐元素乘法 平均值 求和映射0空 空 空 空 ×0广播0空0空 ���� 空 ��� 空0空 ��� ��0提示生成 �0广播0光盘0图2:我们提出的GuidingPainter模型的提示生成过程。分割网络和提示生成函数生成彩色提示(C)和条件掩码(M)。根据引导结果,我们的上色网络为草图图像上色。该示例说明了训练阶段的提示生成过程,其中Nh = 3,Nc =4。首先,将真实图像复制Nc次,以考虑每个交互步骤中的每个颜色分段。通过与引导区域进行逐元素乘法后,(a)对颜色进行平均以确定每个引导区域的代表性颜色。为了限制提示的数量,我们屏蔽了迭代步骤大于Nh的段落,屏蔽结果为(b)。基于(a)和(b),我们的模块生成每个段落的彩色条件,如(c)所示。在(d)中,我们将它们合并成一个部分着色的图像C。(e)与(d)的操作方式相同,并生成条件掩码M。0为了改善分割结果的细节,最近的模型使用了用户提供的点[23,18]和文本[8]。尽管我们调查了范围广泛的交互式深度学习模型,超出了草图图像上色,但据我们所知,没有与我们的方法直接相关的工作。因此,使用基于深度学习的引导系统进行交互过程可以被视为一种有前途但未被充分开发的方法。03. 提出的方法03.1. 问题设置0交互式上色任务的目标是训练网络,通过输入草图图像X ∈R 1 × H ×W和用户提供的部分提示U,生成一个彩色图像ˆY ∈ R 3 ×H ×W,其中H和W分别表示目标图像的高度和宽度。用户提供的部分提示被定义为一对U = (C, M),其中C ∈ R 3 × H ×W是一个带有RGB值的稀疏张量,M ∈ {0, 1} 1 × H ×W是一个二进制掩码,表示颜色提示提供的区域。我们的训练框架包括两个网络和一个函数:分割网络f0分割网络f(∙)的目的是将输入的草图X划分为几个语义区域,这些区域预期以单一颜色绘制,即03.2. 分割网络0其中S = (S 1, S 2, ..., S N c) ∈ {0, 1} N c × H × W,S i是第i个引导区域,Nc表示最大提示数量。具体来说,f包含一个带有跳跃连接的编码器-解码器网络,基于U-Net[9]架构,以保留给定对象的空间细节。由于每个引导区域将以单一颜色绘制,我们必须以离散形式分割U-Net的输出,同时利用端到端学习的优势。为此,在获得U-Net的输出张量S logit ∈ R N c × H ×W后,我们通过在通道维度上应用直通(ST)Gumbel估计器[10, 17]对Slogit进行离散化,以获得可微分的近似值S。结果S满足� N c i =1 S i (j) = 1,其中S i (j)0S = f(X; θ f),(1)18210表示第j个位置向量的第i个标量值,即每个像素只包含在一个引导区域中。这里,S i (j) =1表示第j个像素包含在第i个引导区域中,而S i (j) =0表示像素不包含在引导区域中。03.3. 提示生成0提示生成函数h(∙)是一个非参数函数,其根据S、彩色图像Y和提示数量N h 模拟生成U,即0U = h(S, Y, N h),(2)0为此,我们首先从一个类似几何分布的有界分布中随机采样N h,表示为0G(N h = i) =0� (1 - p) i p,如果i = 0,1,...,N c -1;(1 - p) N c,如果i = N c,(3)0其中p <1是一个超参数,表示用户在每次试验中停止添加提示的概率。我们设置N c = 30和p =0.125进行以下实验。步骤1:构建掩码段˜S。给定Nh,我们构造一个掩码向量m ∈ {0, 1} Nc,每个元素具有以下规0m i =0� 1,如果i ≤ N h;否则为0,(4)0其中,m i表示向量m的第i个标量值。然后,我们得到一个掩码段˜S ∈ R N c × H × W0通过将m的第i个元素与S的第i个通道逐元素相乘,得到0˜Si = miSi,(5)0其中Si,˜Si∈R1×H×W分别表示S和˜S的第i个通道。步骤2:构建提示图C。该步骤的目标是找到每个分割˜Si中激活区域的代表性颜色值,然后用该颜色填充相应的区域。为此,我们计算平均RGB颜色¯ci∈R3,如下所示:0¯ci =01Np∑HWjSi(j)⊙Y(j) if 1 ≤ Np 0otherwise,(6)0其中Np =∑jSi(j)表示第i个分割的激活像素数,⊙表示逐元素乘法,即Hadamard乘积,在将每个Si的每个元素广播到Y的RGB通道之后,Si(j)和Y(j)分别表示每个映射的第j个位置向量。最后,我们获得提示图C∈R3×H×W,如下所示:0C =0么0i=1¯ci˜Si,(7)0其中¯ci在空间轴上重复为形式为˜Si∈R1×H×W的形式,类似于Eq.(5),并且˜Si在通道轴上广播为形式为¯ci∈R3的形式,如Eq.(6)所示。为了指示给定提示的区域,我们简单地获得一个条件掩码M∈R1×H×W,如下所示:0M =0么0i=1˜Si,(8)0最终,该模块的输出U = C ⊕ M ∈ R 4 × H ×W,其中⊕表示逐通道连接。图2说明了提示生成过程的整体方案。在推理时,我们可以像提示生成过程一样创建U,但没有明确的真实图像。请注意,在推理时,我们只需要一个草图图像就可以产生˜S。我们可以通过为每个Si分配一种颜色来获得C和M,其中i =1,2,...,Nh。为了理解提示生成模块的工作原理,回想一下,在训练时,Nh是从每个小批量中的有界几何分布G(Eq.(3))中随机采样的。由于i≤Nh的概率高于j≤Nh的概率(对于i
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功