iColoriT：通过视觉Transformer在交互式着色中提供局部提示

94 浏览量更新于2023-10-16 收藏 1.87MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1787iColoriT：通过利用视觉Transformer在交互式着色中向正确区域提供局部提示Jooyeol Yun*，Sanghyeon Lee*，Minho Park*，Jaegul ChooKorea Advanced Institute of Science and Technology（KAIST）韩国大田{blizzard072，shlee6825，m.park，jchoo} @ kaist.ac.kr摘要点交互式图像着色旨在当用户为特定位置提供颜色时对灰度图像进行着色。对于点交互式着色方法来说，适当地传播用户提供的颜色（即，用户提示），从而以最小的用户努力获得合理着色的图像。然而，由于堆叠卷积层以将提示传播到遥远的相关区域的无效设计，经验方法通常会产生部分着色的结果。为了解决这个问题，我们提出了iColoriT，一种新的点交互式彩色视觉Transformer，能够传播Userhints[37]第37话：我的世界Su等人[30个]iColoriT用户提示到相关地区，充分利用变形金刚的全球接收领域。变形金刚的自我注意机制使iColoriT能够选择性地着色相关区域，只有一些局部提示。我们的方法通过利用像素重排（一种有效的上采样技术，可取代解码器架构）实时着色图像。此外，为了减轻所引起的伪影，通过大上采样率的像素重排，我们提出了局部稳定层。大量的定量和定性结果表明，我们的方法高度执行现有的点交互式着色方法，以用户最小的努力产生准确的彩色图像。官方代码可在https：//pmh9960.github.io/research/iColoriT/网站。1. 介绍无条件图像彩色化[11，12，30，32，39，41]在以全自动方式恢复灰度照片或胶片的活力方面取得了显着成就。交互式彩色化方法[7，15，36，37，40，43]进一步扩展了任务，允许用户使用特定的颜色条件生成彩色图像。这些方法可以大大减少用户制作特定彩色图像的工作量。它也可以作为一种有效的方式编辑照片重新着色现有的图像有一个新的颜色主题。在不同类型的国际-*表示同等贡献。图1.各种点交互式着色方法的示例结果先前的方法经常产生部分着色的结果，即使在灰度值是持久的情况下（例如，水、草地和草地），这指示用户提示没有正确地传播到相关区域。用户提供的动作（例如，参考图像或调色板），基于点或基于涂鸦的交互[15，37，43]被设计为当用户在特定点位置提供颜色时逐渐着色图像。实用的点交互式彩色化方法帮助用户以最少的用户交互产生彩色图像。因此，准确地估计与用户提示相关的区域可以有益于减少用户提示的量。用户交互。例如，使用手工制作的过滤器[15，37]来确定用户提示应该填充的区域是对图像中的简单图案进行着色的早期方法。最近，Zhanget al. [43]提出了一种基于学习的模型，该模型在大规模数据集上训练[26]，该模型使用简单的U-Net架构生成彩色图像。然而，现有方法倾向于遭受部分着色的结果，即使在明显的区域中，其中灰度值是持久的，如图1所示。这是由于堆叠卷积层的无效设计，以便将提示传播到遥远的相关区域。换句话说，将提示传播到大的语义区域只能在深层中完成，这使得着色1788××更大的语义区域比着色更小的区域更具挑战性。为了克服这一障碍，我们利用Vision Transformers [4]中自我注意层[31]的全局接收场，使模型能够选择性地将用户提示传播到每个单层的相关区域。学习如何将用户提示传播到其他区域与自我注意机制很好地结合在一起。具体地，直接计算来自所有空间位置的特征的相似性（即，相似性矩阵）可以被视为决定提示颜色应该在整个图像中传播到哪里。因此，在这项工作中，我们提出了iColoriT，一种新的点交互式着色框架，利用修改后的视觉Transformer对灰度图像进行着色。据我们所知，这是第一个使用Vision Transformer进行点交互式着色的作品。此外，及时显示新提供的用户提示的结果对于帮助用户无延迟地渐进着色图像是必不可少的。出于这个原因，我们通过利用有效的像素重排操作[27]生成彩色图像，这是一种将输出通道维度重新塑造为空间分辨率的上采样技术。通过轻量级的像素shuffing操作，我们能够放弃传统的解码器架构，并提供更快的推理速度相比，现有的基线。尽管效率很高，但具有较大上采样率的像素重排往往会生成不真实的图像，其中缺少细节和明显的边界，如图2所示。因此，我们提出了局部稳定层，它限制了最后一层的接收场，以减轻由像素重排引起的伪影。我们的贡献如下：• 我们是第一个利用Vision Transformer进行点交互式着色的工作，使用户能够选择性地对相关区域进行着色。• 我们通过以最小的代价对图像进行有效的上采样，对像素进行调整和局部稳定层，实现了图像的实时彩色化。• 我们提供了定量和定性结果，证明iColoriT的性能远远优于现有的最先进的基线，并以更少的用户交互产生合理的结果。2. 相关工作用于图像着色的基于交互式着色学习的方法[11-13，13，30，32，39，41，44]已经提出了全自动着色方法，其生成合理的彩色图像而无需任何用户干预。交互式彩色化方法[7，15-17，21，34，36-38，40，43]被设计为在给定用户条件的情况下对图像进行彩色化，从而传达颜色相关信息。一种广泛研究的交互式着色图2.使用较大的上采样率生成的图像[5]往往会受到图像块之间明显边界的影响。方法是参考图像[7，16，17，21，34，36，38，40]，其是已经着色的样本图像。使用参考图像可以是方便的，因为用户可以用单个图像提供整体色调。然而，用户难以进一步编辑着色图像中的特定区域，因为新的参考图像可能产生不同的着色结果。点交互式着色点交互式着色模型[15，37，43]允许用户通过指定颜色（即，用户提示）。由于通常用于指定空间位置的点大小范围从2 2到7 7像素，用户提示仅覆盖整个图像的一小部分。因此，需要点交互式着色模型来将用户提示传播到整个图像，以便以最小的用户交互产生合理的结果。早期的方法[15，37]利用手工制作的图像过滤器通过检测简单的模式来确定每个提示的传播区域。然后使用优化技术在每个区域内传播用户提示的颜色。最近，Zhanget al. [43]提出了一种基于学习的方法，通过扩展现有的无条件彩色化模型[41]来产生给定灰度图像和用户提示的彩色图像。尽管这些方法使用用户提示作为生成彩色图像的条件，但图1中显示的常见故障情况表明，模型通常不完全传播提示。堆叠卷积层以传播用户提示指示将提示传播到遥远的相关区域只能在更深层中完成，这使得着色较大的语义区域比附近区域更具挑战性。因此，我们利用自我注意层，使用户提示传播到所有层的任何相关区域。与广泛使用的基于卷积的图像合成方法不同，最近的研究[5，12，14，35]仅利用Transformer架构来合成图像。Colorization Transformer（ColTran）[12]提出了一种用于无条件着色的自回归模型，该模型使用Transformer解码器架构[31]以生成不同的着色结果。尽管自回归模型在无条件着色方面表现出色，但其推理速度过慢，阻碍了其在用户交互场景中的应用。具体而言，对一批20张图像1789Transformer编码器局部稳定层像素混洗色彩预测Iab∈K×W×2predC × P2HH/PCW/PWpred××××××∈∈∈∈∈∈∈××输入X图像块Xp着色图像Ipred=IgIab：逐行串联Transformer编码器局部稳定层像素混洗L×C × P2C × P2H/PH/PW/P整体感受野W/PC × P2C × P2H/PH/PW/P受限感受野W/PH：高度 W：宽度C：通道L：层数P：贴片尺寸图3.iColoriT的整体工作流程我们首先通过连接灰度图像Ig和用户提示I hint来获得输入X包含颜色条件。输入被重新整形为Transformer编码器的输入面片Transformer的输出要素编码器通过局部稳定层和像素重排层以获得最终颜色Iab。然后将Iab连接起来以产生彩色图像。predpred大小为64 64的图像，即使使用P100 GPU。在这项工作中，我们利用Transformer编码器来生成灰度图像的颜色。Trans- former编码器的多头注意力使我们的方法能够通过单个前向传递生成彩色图像，与自回归彩色化相比，这减少了我们模型通过像素变换进行上采样像素变换[27]是一种上采样操作，其将（H，W，C P2）大小的特征图重新排列为（H P，W P，C）的形状，其中原始特征图中的每个通道被重塑为P P图像块。这可以被视为通过整形的上采样，并且通常用于超分辨率方法中，以最小的计算开销有效地上采样图像。具有较大上采样率（P>8）的像素重排的已知问题[5]是输出图像往往包含图像块之间的明显边界，如图2所示。这是由于对来自特征图中的不同位置的不同图像块进行上采样。为了克服这个障碍，我们提出了一个局部稳定层，它促进相邻图像块具有相干颜色，允许iColoriT有效地将图像上采样到更高的分辨率（即，224.第224章没有这些人3. 该方法3.1. 预赛从RGB空间到CIELab [28]并取L或亮度值。类似地，由用户提供的颜色条件I提示可以用剩余的a、b通道来表示我的建议RH×W×2，通过填充以下a、b通道值所有非提示区域均为0。用户提示IhintRH× W ×3是通过向I hint添加第三个通道来构造的，该第三个通道将提示区域标记为1，将非提示区域标记为0。在训练过程中，我们通过确定提示的位置和颜色来模拟用户提示。我们从均匀分布中抽取提示位置，因为用户可以在图像中的任何位置提供提示一旦决定了提示位置，就通过计算提示区域内的每个通道的平均颜色值来获得用户提示的颜色，因为期望用户为单个提示位置提供单个颜色最后给出灰度图像IgRH×W ×1和模拟用户提示IhintRH× W ×3，我们得到输入XRH×W ×4通过X=IgIhint，其中，n是逐通道级联。3.2. 使用Transformers我们利用Vision Transformer [4]来实现全局接收场，用于在图像中传播用户提示，如图3所示。我们首先重塑我们的输入X∈RH×W ×4转化为符号序列Xp∈RN×（P2×4），我们首先准备灰度图像I gRH× W ×1并且模拟用户提示I 提示RH×W ×3用作我们的训练样本。灰度图像Ig可以从大规模数据集中获取，通过转换颜色其中H、W是原始图像的高度和宽度，P是小块大小， N=HW/P2 是输入标记的数量（即，序列长度）。因此，来自原始输入X的P P4大小的图像块被用作sin。I g灰度图像Ig∈K×W×1用户提示我暗示∈K×W×3…1790∈··predpredpred∈∈×gle输入标记。这些输入令牌序列通过Transformer编码器，编码器将输入计算为，z0=Xp+Epos，Epos∈RN×d（1）zl′=MSA（ LN（zl−1））+zl−1，（2）zl=MLP（ LN（zl′））+zl′，（3）yp=LN（zL），（4）其中Epos表示正弦位置编码[4]，iColoriT w/o局部稳定层iColoriTMSA（）表示多头自关注[31]，LN（）表示层归一化[2] ， d 表示隐藏维度， l 表示层数， ypRN×d 表示Transformer编码器的输出。由于自我注意力不利用任何与位置相关的信息，图4.在没有局部稳定层的情况下产生的图像中观察到的不一致着色结果的示例图像其中PS（·）是像素平移操作，LS（·）是我们添加位置编码EPOS到输入和相对局部稳定层，和∈RH× W ×2 是AB注意层中的位置偏差[8，9，18，25]。因此，注意力层被计算为，Attention（Q，K，V）=softmax（QKT/kd+B）V，（5）其中Q，K，V∈RN×d是查询、键和值矩阵。颜色通道输出。预测的彩色图像IpredRH×W ×3由下式获得：Ipred=IgIab，它是给定灰度输入Igces，B∈RN×N是相对位置偏差。颜色（L通道）和Iab （ab通道）。通过像素重排由于自注意机制的全局接收场，用户提示能够传播到所有层的任何空间位置。3.3. 像素移位和局部稳定层的输出功能的 Transformer 编码器 ypRN×d可以看作是原始图像的特征图yRH/P×W/P ×d输出特征图y的空间分辨率小于输入特征图im的分辨率。和局部稳定层，我们可以有效地获得全分辨率的彩色图像，而无需额外的解码器，允许用户实时着色（第4.1节）。3.4. 目标函数我们用CIELab颜色空间中预测图像和原始彩色图像之间的Huber损失[10]来训练我们的模型，年龄的一个因素P，因为图像补丁的大小P由单个输入令牌组成因此，输出fea-L侦察1=（I2pred -IGT ）2个|1|<1（七）真实地图Y需要被上采样以便获得全分辨率彩色图像。虽然先前的方法[30，43]利用解码器进行上采样，但我们利用像素重排[27]，这是一种重新排列（H/P，W/P，C×P2）特征映射成（H，W，C）形状+（|Ipred−IGT4. 实验1|−2）|≥1。|≥1.以获得全分辨率图像。然而，如第2节所述，大的上采样比（例如，P >8）可能导致沿着图像块边界具有可见伪影的图像，如图4所示。因此，为了促进颜色的合理生成，我们提出了一个局部稳定层，它限制模型利用相邻特征生成颜色我们在4.2节中提供了局部稳定层的各种设计选择的实验（例如，线性，卷积层和局部注意力），并选择一个简单而有效的卷积层作为我们的最终模型。综上所述，我们的上采样过程可以写为，∈1791×U实现细节我们遵循ViT-B [4]的配置用于Transformer编码器块。对于局部稳定层，我们使用接收场为3的单层。我们使用两种类型的层（第4.2节）进行实验，即局部注意力层和卷积层，并使用简单而有效的卷积层作为故障局部稳定层。对于训练，我们将图像大小调整为224 224分辨率，并使用P=16的补丁大小，这也成为上采样率。因此，序列长度N为196，最后输出维度d为512.我们在图像上均匀地对提示位置进行采样，并从均匀分布（0，128）中采样提示数量。我们提供了不同的模型大小，补丁大小，局部稳定层，和数量的阿布普雷德=PS（LS（y）），（6）第4.2节和补充材料中的提示我1792××××ImageNet ctest Oxford 102flowers CUB-200图5.根据提供的提示数量计算测试图像的平均PSNR和LPIPS。提示位置从均匀分布中采样，向模型显示2个提示。Yin等[37]表示用2评估的结果2提示和阴etal. [37]表示使用7个提示评估的结果。iColoriT的表现远远优于现有方法，因为提示增加。我们使用AdamW优化器[20]，学习率为0。0005由余弦退火调度器管理[19]。该模型经过250万次迭代训练，批量大小为512.使用Pytorch库[23]实现的iColoriT代码将可用。为了训练，我们使用ImageNet 2012训练分割[26]，它由1，281，167张图像组成。我们在训练过程中不使用分类标签，因为我们的模型是以自我监督的方式训练的。我们在三个不同领域的数据集上评估了我们的方法，所有这些数据集都是适合评估彩色化方法的彩色验证数据集。请注意，我们不会为每个验证数据集额外地微调模型。ImageNet ctest [13]是ImageNet验证分割的子集，用作评估着色模型的标准基准。ImageNet ctest排除了ImageNet中的任何灰度图像，由10，000张彩色图像组成。我们还对Oxford 102数据集[22]和CUB-200数据集[33]进行了评估，这两个数据集分别提供了来自102个类别的1，020个彩色数据集图像和来自200个不同物种的3，033个鸟类图像样本。基线我们比较了iColoriT与现有交互式着色方法的性能[37，43]。我们还扩展了最近苏等人的无条件着色模型。[30]，其利用现成的对象检测器[6]来单独地对多个实例进行着色，以点交互着色模型。由于苏等人提出的模型。[30]采用相同的模型架构和对象，作为点交互式着色模型，由Zhanget al. [43]通过以相同的方式用用户提示调节模型，我们能够毫不费力地将该方法扩展到点交互着色方法。扩展模型在Zhang等人提供的配置下进行训练。[43]和Suet al. [30]使用ImageNet[26]。注意，尽管Suet al. [30个]使用ImageNet [26]数据集进行训练，这种方法得到了在大规模对象检测数据集上预先训练的现成对象检测器的帮助[3]。所有基线均使用公开的官方代码进行培训和评估。4.1. 与现有方法的iColoriT的定量评估我们根据图5中提供的提示数量绘制了测试图像的平均峰值信噪比（PSNR）和学习的虚拟图像块相似性（LPIPS）[42]。为了评估点交互式着色模型，我们模拟用户提示与地面实况颜色从图像，考虑用户打算着色的灰度图像到原始彩色图像的情况。通过从均匀分布中随机选择提示位置来模拟用户提示。提示大小已设置到2 2，并且按照Zhang等人的协议，提示颜色被给出为原始彩色图像中每个提示区域内的平均颜色。[43]。我们根据经验发现，较小的提示大小通常对彩色化模型和用户在接收方面都是有益的，1793×Zhang et al. [43]Yin et al. [37]Su et al. [30]第三十话图6.点交互式着色方法的定性结果给出了1，5，10和100个用户提示。iColoriT能够通过适当传播用户提示来生成合理的彩色图像。给出精确的颜色条件。然而，Yin等人提出的方法。[37]假设用户提供了大量的用户提示。因此，我们进一步评估这种方法，揭示更大的提示大小7 - 7这是我们报告的结果，所有以下评估。我们的经验发现，张等人提出的方法。[43]和Suet al.[30]倾向于任意着色图像而不考虑用户提示。虽然当任意着色的颜色是地面实况颜色时，这可能有助于实现相对较高的初始PSNR，但它阻碍了用户在着色的后续阶段中实现高PSNR的进一步控制。如图5所示，iColoriT可快速响应用户提示，并帮助用户以最小的交互有效地对灰度图像进行着色。彩色化早期阶段的PSNR随着每个额外的提示而显著增加。结果表明，iColoriT在生成用户特别考虑的彩色图像方面远远优于现有基线。iColoriT的定性结果我们提供了在给定原始灰度图像和模拟用户提示时，由基线和图6中的iColoriT产生的定性结果。iColoriT能够生成与地面实况图像非常相似的逼真图像，这表明用户可以随心所欲地对图像进行着色。此外，如图1和图6中的着色结果所示，iColoriT能够适当地着色大面积区域，即使使用少量用户提示，而其他方法使大多数区域未着色或着色不正确iColoriT还可以表1.iColoriT可扩展到轻量级模型。在ImageNet测试[13]中，报告了每个模型的PSNR和LPIPS（给定10个用户提示）（PSNR@10和LPIPS@10）如图6的最后一行所示，当给出足够数量的提示时，着色详细区域。iColoriT还适合在给定各种用户提示时生成各种彩色图像，如图7所示。我们提供了多组精心挑选的用户提示来着色单个灰度图像，而不是来自地面实况图像的模拟用户提示。我们固定图像的提示位置，并更改用户提供的颜色以观察着色结果。iColoriT可以产生各种逼真的着色结果，反映用户的意图。我们在补充材料中提供未经策划的定性结果和演示视频。此外，我们将发布iCol- oriT演示，包括图形用户界面，提供一个强大的工具，图像彩色化。iColoriT可以轻松扩展到更小的模型，同时仍然可以实现高性能。我们使用ViT-S和ViT-Ti [29]的配置为我们的Transformer编码器在较小的尺度上训练iColoriT。我们报告的PSNR和LPIPS给出10个提示方法PSNR@10LPIPS@10iColoriT-T28.860.084iColoriT-S29.670.073iColoriT30.630.0621794O方法CPUGPUGFLOPS输入多样化的着色结果图7.使用用户提供的不同颜色着色的图像。来自ImageNetctest [13]的图像通过手动选择提示位置并更改提示颜色来着色。(PNSR@10和LPIPS@10）进行ImageNet ctest，并将它们与表1中的其他模型进行比较。我们能够训练iColoriT-S和iColoriT-T，仅具有轻微的性能下降，并且仍然保持高性能。我们相信，Transformer架构和自注意机制是将提示传播到更大的语义区域的核心，即使在小规模模型中也能实现高PSNR。实时推理推理速度（即，延迟）对于提供满意的用户体验是重要的。因此，我们测量了单次向前传递所需的时间，并将其与表2中基线模型的延迟进行比较。我们使用商用AMD Ryzen 5 PRO 4650G和单个NVIDIA RTX3090报告CPU和GPU的速度。我们还提供了每个模型所需的浮点运算（FLOP）数量和参数数量。我们无法测量GPU延迟、FLOP和数量，Yin等人[37]由于该方法而不是基于学习的模式。Suet al. [30]在两个阶段中操作，初始对象检测阶段和逐实例着色阶段。我们只报告了第二阶段的延迟，由于着色模型需要对多个对象单独着色，因此推理速度较慢。由于对上采样图像进行有效的像素重排，iColoriT在CPU和GPU设备上的延迟分别为540 ms和14 ms，为用户提供实时彩色化结果。iColoriT-T和iColoriT-S显示了一个例外-表2.iColoriT和每个基线模型的推断速度我们提供了每个模型在CPU设备和GPU设备中的延迟，以及以FLOP和参数数量衡量的计算成本在只有CPU设备上具有非常快的推理速度（即，分别为177 ms和253 ms），这使得该模型在考虑加速器可能不可用的真实世界场景的应用时成为一个应用选项。4.2. 消融研究设计局部稳定层我们通过用不同的操作（如线性层和局部自注意层）替换局部稳定层来提供对局部稳定层的消融研究[24]。使用线性层可以被视为消除局部稳定层，因为线性层不利用相邻特征来生成最终输出。为了量化图4中所示的图像块之间的不一致颜色生成，我们测量每个图像块的均方误差（MSE），并报告图像内误差的方差。我们将此度量表示为补丁误差方差（PEV）。高PEV意味着模型具有依赖于图像块的变化的准确性。局部稳定层重新解决了这个问题，在一个简单而有效的方式，通过预测的ab通道值的图像补丁，从相邻的，ING输出功能，如图3所示。我们还测量了图像块边界附近的PSNR（即，来自片边界的一个像素），以观察包含不一致颜色生成的区域中的精度。如表3所示，添加具有有限接收场的操作（即，卷积和局部自注意）降低了PEV并增加了沿块边界的PSNR，这表明该模型在整个图像上以一致的准确度生成颜色。卷积层作为一种简单而有效的方法，用于减少由像素重排引起的伪影并生成逼真的彩色图像。改变上采样率我们对各种小块大小P（即，P=8、16和32），这也是像素重排的放大率。虽然较小的补丁大小可以允许相似性矩阵的细粒度计算，但计算成本呈双二次曲线上升，因为自注意的计算复杂度为（N2），N=HW/P2是序列长度。因此，我们无法训练我们的基地，延迟延迟Zhang等人[四十三]881ms24Ms58.04Yin等[37]第三十七届15，248毫秒--Su等人[30个]1，389毫秒45Ms123.48iColoriT-T177ms13Ms1.43iColoriT-S253ms14ms4.951795×方法PSNR@10B-PSNR@10PEV↓线性28.7828.7139.39局部注意力28.8528.7738.82卷积28.8628.8038.81表3.局部稳定层的烧蚀研究报告了每个模型的PSNR@10、沿边界的PSNR（B-PSNR@10）和ImageNet测试[13]上的PEV。所有模型均使用iColoriT-T配置进行训练。32 ×3216×1628.86 177ms表4. iColoriT不同的上采样比率。在ImageNet ctest [13]测试集上报告了每个模型的PSNR@10 ，LPIPS@10 和CPU 延迟。所有模型均使用iColoriT-T配置进行训练。图 8. 使用注意力滚动方法的自我注意机制的可视化[1]iColoriT适当地关注用户提示到相关位置，即使是复杂的结构。由于禁止的COM，具有较小贴片尺寸的模型输入User hintsiColoriT地面实况推定的间接费用。相反，我们比较了较小的iColoriT-T模型的结果，并在表4中报告了平均PSNR@10和CPU延迟。虽然使用较小的补丁大小可能有利于实现更高的PSNR，但增加的计算成本阻碍了扩展到更大的模型以获得额外的性能增益，并增加了CPU延迟。我们选择16× 16的补丁大小，因为它可以获得短延迟和高PSNR，同时还可以扩展到更大的模型（即， iColoriT-S 和iColoriT）。4.3. 可视化内部表示我们进一步提供了对自我注意机制的分析，以检查我们的模型如何将用户提示传播到其他区域。我们使用注意力展示方法[1]以解释来自Transformer编码器的针对特定空间位置的注意力权重。我们将包含用户提示的输入标记的注意力映射可视化在图8中。用于提示位置的注意力图可以被直接解释为提示如何传播到其他位置，因为具有高相似性的标记可能被着色为与用户提示的颜色相似的颜色。自注意机制使iColoriT能够选择性地对相关位置进行着色，即使是具有空间复杂结构的区域。这些可视化与我们的定性和定量结果非常一致，证明iColoriT可以有效地帮助用户以最少的交互对图像进行着色。5. 结论和限制在本文中，我们提出了iColoriT，一种新的实时点交互式着色框架，能够选择性地传播用户提示的颜色到相关区域。通过Transformer编码器、像素重排和局部稳定层，iColoriT的性能远远优于前图9.详细区域中点交互着色模型的常见故障情况优化基线，能够以最少的用户交互对图像进行着色。此外，定性的结果表明，iCol- oriT可以产生不同的和现实的结果时，给予各种用户提示。我们通过广泛的实验和消融研究来证明我们的新设计。虽然iColoriT即使在定量和定性结果中所示的详细区域中也显示出其强度，但iColoriT可能无法对小对象进行着色或区分具有相同灰度强度的接近对象，因为它不利用任何语义标签。这是点交互式着色方法的常见缺点，如图9所示，因为模型是以自监督方式训练的。直接利用分割标签来训练点交互式着色模型是一个有前途的未来工作。尽管如此，我们相信iColoriT是一个实际的应用程序，为现实世界的scenar-ios，有效地帮助用户彩色图像。确认这项工作得到了&&韩国政府（MSIT）资助的信息通信技术规划评估研究所（IITP）的支持（第100号）。2019-0-00075，人工智能研究生院计划（KAIST））、韩国政府资助的韩国国家研究基金会（NRF）资助（MSIT）（编号NRF-2022 R1 A2 B5 B 02001913）以及拥有包括技术支持在内的超级计算资源的国家超级计算中心（KSC-2021-CRE-0186）。斑块大小PSNR@10CPU延迟8 ×829.17（+0.31）28.32（-373 ms（+196ms） 147 ms（−30 ms）1796引用[1] Samira Abnar和Willem Zuidema。量化变压器中的注意力流。在计算语言学协会第58届年会的会议记录中，第4190-4197页[2] 吉米·雷·巴，杰米·瑞安·基罗斯，杰弗里·E·辛顿. 层归一化。arXiv预印本arXiv：1607.06450，2016。[3] Holger Caesar Jasper Uijlings 和Vittorio Ferrari可可-东西：上下文中的事物和东西类。IEEE计算机视觉和模式识别会议，2018年。[4] AlexeyDosovitskiy ， LucasBeyer ， AlexanderKolesnikov ， Dirk Weissenborn ， Xiaohua Zhai ，ThomasUnterthiner ， MostafaDehghani ， MatthiasMinderer，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器.在ICLR，2020年。[5] Kaiming He，Xinlei Chen，Saining Xie，Yanghao Li，Piotr Doll a'r，andRossGirshick. Masked自动编码器是可扩展的视觉学习器。arXiv预印本arXiv：2111.06377，2021。[6] 何开明、吉奥吉·吉奥萨里、彼得·多勒·拉尔和罗斯·吉尔希克. 面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961[7] Mingming He ，Dongdong Chen ，Jing Liao ，Pedro VSander ， and Lu Yuan. 基于深度样本的着色。 ACMTransactions on Graphics（TOG），37（4）：1[8] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei.用于对象检测的关系网络。在IEEE计算机视觉和模式识别会议论文集，第3588-3597页，2018年[9] Han Hu，Zheng Zhang，Zhenda Xie，and Stephen Lin.用于图像识别的局部关系网络在IEEE/CVF计算机视觉国际会议论文集，第3464-3473页[10] 彼得·J·胡贝尔。位置参数的鲁棒估计在统计学的突破，第492Springer，1992年。[11] Satoshi Iizuka，Edgar Simo-Serra，and Hiroshi Ishikawa.有颜色！：全局和局部图像先验的联合端到端学习，用于自动图像着色和同时分类。 Proc.ACMTransactions on Graph-ics（ToG），35，2016。[12] Manoj Kumar，Dirk Weissenborn和Nal Kalchbrenner。彩色化Transformer。在ICLR，2020年。[13] 古斯塔夫·拉尔森迈克尔·梅尔格雷戈里·沙赫纳洛维奇。学习自动着色的表示。欧洲计算机视觉会议（ECCV），2016。[14] Kwonjoon Lee ， Huiwen Chang ， Lu Jiang ， HanZhang，Zhuowen Tu，and Ce Liu. Vitgan：培训甘斯与视觉变压器。2021年，在国际学术会议上发表[15] Anat Levin，Dani Lischinski和Yair Weiss。使用最佳化着色。 Proc. ACM Transactions on Graphics（ToG），23：689 -694，2004。[16] Bo Li，Yu-Kun Lai，Matthew John，and Paul L Rosin.基于实例的图像彩色化，感知跨尺度匹配。 IEEE Transactions on ImageProcessing，28（9）：4606[17] Li Li，Bin Sheng，Ping Li，Riaz Ali，and CL PhilipChen.通过基于范例的broad-gan进行全局和局部语义着色。IEEE Transactions on Image Processing，30：8526[18] Ze Liu ， Yutong Lin ， Yue Cao ， Han Hu ， YixuanWei ， Zheng Zhang ， Stephen Lin ， and BainingGuo.Swin Transformer ：使用移位窗口的分层视觉Transformer。ICCV，2021。[19] 伊利亚·罗希洛夫和弗兰克·哈特。Sgdr：带热重启的随机在2017年国际学习代表[20] 伊利亚·罗希洛夫和弗兰克·哈特。解耦权去cay正则化。在2018年国际学习代表会议上[21] 彭璐，于晋北，彭旭君，赵昭然，王晓杰。Gray2colornet：从参考图像中传输更多颜色第28届ACM国际多媒体会议集，第3210-3218页，2020年[22] Maria-Elena Nilsback和Andrew Zisserman。对大量类进行自动花分类。2008年印度计算机视觉、图形和图像处理[23] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zeming Lin ， Natalia Gimelshein ， LucaAntiga，et al. Pytorch：命令式的高性能深度学习库。Proc. the Advances in Neural Information ProcessingSystems（NeurIPS），32：8026[24] 杰克·雷和阿里·拉扎维变压器是否需要深度远程存储器？在计算语言学协会第58届年会的会议记录中，在线，2020年7月。计算语言学协会[25] Colin Raffel、Noam Shazeer、Adam Roberts、KatherineLee、Sharan Narang、Michael Matena、Yanqi Zhou、Wei Li 和 Peter J Liu 。使用统一的文本到文本Transformer探索迁移学习的局限性。机器学习研究杂志，21：1[26] Olga Russakovsky ， Jia Deng ， Hao Su ， JonathanKrause ， San- jeev Satheesh ， Sean Ma ， ZhihengHuang ， Andrej Karpathy ， Aditya Khosla ， MichaelBernstein，Alexander C.伯格和李飞飞。ImageNet大规模视觉识别挑战。国际计算机视觉杂志（IJCV），115（3）：211[27] W enzhe Shi，Jose Caballero，Ferenc Husz a'r，Johannes Totz，Andrew P Aitken，Rob Bishop，Daniel Rueckert，and Zehan Wang.使用有效的子像素卷积神经网络实现实时单图像和视频超分辨率。在IEEE计算机视觉和模式识别会议论文集，第1874-1883页[28] 托马斯·史密斯和约翰·基尔德。cie色度标准及其应用。光学学会学报，33（3）：73，1931。[29] AndreasSteiner ， AlexanderKolesnikov ， ZhaiXiaohua ， Ross Wightman ， Jakob Uszkoreit ， LucasBeyer 。如何训练你的vit？数据、增强和正则化。arXiv预印本arXiv：2106.10270，2021。1797[30] 苏正伟、朱洪国、黄家斌实例感知的图像着色。在IEEE/CVF计算机视觉和模式识别会议论文集，第7968-7977页[31] Ashish Vaswani，Noam Shazeer，Niki Parmar，JakobUszko-reit ， Llion Jones ， Aidan N Gom

下载后可阅读完整内容，剩余1页未读，立即下载