基于直方图的图像颜色控制的HistoGAN方法及其在真实图像上的扩展

151 浏览量更新于2024-01-22 收藏 4.22MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

7941HistoGAN：通过颜色直方图Mahmoud Afifi Marcus A.Brubaker Michael S. 布朗约克大学{mafifi，mab，mbrown}@ eecs.yorku.caDaniel Chodusov Flickr-CC BY-ND 2.0格特鲁德·KFlickr-CC BY-NC-SACarl Dunn Flickr-CC BY-NC-SA 2.0目标颜色直方图基于指定直方图特征的GAN生成图像自动重新着色输入图像，无需手动指定目标直方图图1：HistoGAN是一个生成对抗网络（GAN），它学习基于直方图特征来操纵图像颜色。顶部：GAN生成的图像，颜色分布通过目标直方图特征控制（左列）。下图：ReHistoGAN的结果，这是HistoGAN的一个扩展，使用采样的目标直方图对真实图像进行重新着色。摘要虽然生成对抗网络（GAN）可以完全生成高质量的图像，但它们可能会挑战控制。简化基于GAN的图像生成对于它们在平面设计和艺术作品中的采用至关重要。这一目标引起了人们对可以直观地控制GAN生成的图像外观的方法的极大兴趣。在本文中，我们提出了His-toGAN，这是一种基于颜色直方图的方法，用于控制GAN生成的图像的颜色。我们专注于颜色直方图，因为它们提供了一种直观的方式来描述图像颜色，同时保持与特定领域的语义解耦。具体来说，我们引入了对最近StyleGAN架构的有效修改[31]，以控制由目标颜色直方图特征指定的GAN生成图像的颜色。然后，我们描述了如何扩展HistoGAN来重新着色真实图像。对于图像分类，我们与HistoGAN一起训练编码器网络。ReHistoGAN是一个无监督的模型，训练proach以鼓励网络保持原始图像我们表明，这种基于直方图的方法提供了一种更好的方法来控制GAN生成的和真实图像1. 动机及相关工作颜色直方图是图像颜色内容的表达和方便的表示。颜色直方图通常由传统的颜色转移方法（例如，[18、40、46、56]）。这些颜色转移方法旨在操纵输入图像中的颜色以匹配目标图像的颜色，使得图像共享相似的在颜色转移文献中，存在用于表示图像的颜色分布的各种形式的颜色直方图，诸如直接3D直方图[18，46，56]、2D直方图[4，6，10，11]、调色板[7，12，58]或颜色直方图[18，46，56]。7942× ×三位一体[52]。尽管颜色直方图对于颜色转移是有效的，但最近的深度学习方法几乎完全依赖于基于图像的示例来控制颜色。虽然图像样本会影响生成对抗网络（GAN）生成的图像和深度重新着色图像的最终颜色，但这些方法（因此，这些方法产生的结果的质量通常取决于输入图像和目标图像之间的语义相似性，或者目标图像和特定域之间的语义相似性[25，50]。在本文中，我们的注意力明确地集中在控制图像的颜色属性上，这可以被认为是图像风格转移的一个子类别具体来说，我们的方法不需要在输入/GAN生成的图像和目标图像或引导图像之间共享语义内容。相反，我们的方法旨在仅通过颜色直方图信息1来辅助深度网络。出于这个动机，我们首先探索使用颜色直方图来控制GAN生成的图像的颜色。控制色彩在GAN生成图像GAN通常被用作最近，已经提出了控制GAN生成的图像的风格的方法。例如，StyleGAN [30，31]提出了“风格混合”的想法为了将目标图像中的特定风格转换为GAN生成的图像，可以使用优化过程将目标图像投影到生成器网络然而，这个过程需要昂贵的计算来找到目标图像的潜在代码。另一个方向是联合训练编码器-生成器网络来学习该投影[13，35，43]。最近，方法提倡使用不同的方法来控制GAN的输出，例如使用归一化流[2]，潜在到特定域的映射[13]，深度分类特征[51]，少量图像到图像的转换[48]和单图像训练策略[49]。尽管性能有所改进，但这些方法中的大多数都限于使用目标和GAN生成的图像的单个域[35，43]。我们试图使用颜色直方图作为我们指定的图像风格表示来控制GAN生成的图像。颜色直方图使我们的方法，以接受从任何任意域的目标图1-top显示了GAN使用我们的方法生成的示例。如图一、我们生成的图像与目标图像共享相同的颜色分布，而不受目标图像的语义内容的限制或影响。除了控制GAN生成的图像外，我们还试图扩展我们的方法，以便在GAN框架内执行图像分类。在这种情况下，我们的方法接受一个真实的输入图像和一个目标直方图，以产生一个输出图像与输入图像的细节，但与目标直方图中给出的相同的颜色分布。我们的方法是以完全无监督的方式训练的，不需要地面真实的重新着色图像。相反，我们提出了一种新的基于对抗的损失函数来训练我们的网络提取和考虑给定目标直方图中的颜色信息，同时生成逼真的重新着色图像。使用颜色直方图表示作为我们的目标颜色的关键优势之一可以在图1-底部中示出，其中我们可以自动重新着色图像而无需直接指定目标颜色直方图。自动图像匹配是较少探索的研究领域，在文献中仅有几次尝试（例如，[7、8、16、34、59]）。2. HistoGAN我们首先描述我们的方法使用的直方图特征（第二节）。2.1）。之后，我们讨论了对第二版StyleGAN[31]的拟议修改，以将我们的直方图特征整合到生成器网络中（第二节）。2.2）。最后，我们解释了如何将这种方法扩展到控制实际输入图像的颜色以执行图像匹配（第二节）。2.3）。2.1. 直方图特征HistoGAN使用的直方图特征是从颜色恒定性文献[4-该功能是一个二维直方图图像的颜色投影到一个对数色度空间。该2D直方图由uv参数化，并传达图像对数色度空间由一个通道的强度定义，由其他两个通道归一化，给出了如何定义它的三种可能的选择不是只选择一个这样的空间，所有三个选项都可以用来构建三个不同的直方图，它们被组合在一起成为直方图特征H，作为h h3张量[6]。从给定的输入图像计算直方图首先将其转换为对数色度空间。例如，选择R颜色通道作为原色，并通过G和B进行归一化，得到：1项目页面：https://github.com/mahmoudnafifi/HistoGANIuR（x）=log.ΣIR（ x）+RIG（ x）+，IvR（x）=log.IR（ x）+RIB（ x）+Σ、（1）7943目标图像RGB-UV直方图目标颜色直方图生成的图像来自述第一块托尔巴克霍珀Flickr-C CBY-N D2.0RGB-UV∝∈{}·H1/2−H1/ 2噪声噪声到样式结合潜风格向量现代-现代结合潜conv3×3+至潜伏LReLU现代-现代转换为潜伏模转换1×1conv3×3+至潜伏LReLUGAN8×8×3上采样上采样8×8×2n mconst4×4×（4m）2n+1× 2n+1×32n+1× 2n+1×2nm噪声结合潜历史投影现代-现代到潜在的现代-现代+结合潜mod2n+1× 2n+1×3conv3×3+至潜伏LReLUconv3×3+至潜伏LReLUGANH（h×h×3）Conv1×12n+1× 2n+1×32n+1× 2n+1×2nm噪声结合潜风格向量现代-现代conv3×3+结合潜结合潜LReLU现代-现代+结合潜mod2n+1× 2n+1×3conv3×3+至潜伏LReLUGANConv1×1(A) StyleGAN第一个区块的简化版本（B）StyleGAN最后一个区块的简化版本（C）HistoGAN区块图2：我们将直方图注入StyleGAN [31]以控制生成的图像颜色。(A)和（B）是StyleGAN的第一个和最后一个块的简化版本。我们修改了StyleGAN的最后两个块，将直方图特征投影到每个块的潜在空间中，如（C）所示。参数m控制模型的容量。其中R、 G、 B下标指的是颜色通道对于图像I，λ是为数字增加的小常数cal稳定性，x是像素索引，并且（uR，vR）是+=UV 以R为主要变量内尔。通过将G和B颜色通道投影到对数色度空间来类似地计算其他分量IuG 、IvG、IuB、IvB在[6]中，RGB-UV直方图通过将颜色阈值化到仓来计算，并计算基于所述强度来计算每个像素像素的颜色变化，I（ x）=I2（x）+I2（x）+I2（x）。为了使目标图像直方图从最后两个块生成的图像最终生成yR G B目标颜色直方图HistoGAN图像表示可微，[4]取代了阈值算子，其具有对每个bin的核加权贡献。最终的未归一化直方图计算为：图3：使用Histo-GAN修饰逐步生成的图像。ΣH（u，v，c） k（IucX（x），Ivc（x），u，v）Iy（x），（2）通过“直方图投影”网络表示（图1）2- [C]）。该网络由八个全连接层组成，具有Leaky ReLU（LReLU）激活函数[38]。的其中cR， G， B和k（）是预定义的内核。而高斯核最初在[4]中使用，我们发现，逆二次核显著地提高了训练稳定性。逆二次核定义为：第一层有1,024个单元，而其余七层中的每一层有512个单元图2中以橙色显示的这个k（Iuc，Ivc，u，v）=.1+（|Iuc−u|/τ）2.Σ−1Σ−12层具有2nm个输出神经元，其中n是块数，并且m是用于控制网络的整个容量的参数10000+（|Ivc−v|/τ）、（3）为了鼓励生成的图像匹配目标颜色直方图，引入颜色匹配损失来训练其中τ是控制平滑度的衰减参数直方图的箱。最后，直方图特征被归一化为总和为1，即，u，v，cH（u，v，c）=1.2.2. 颜色控制图像生成我们的直方图功能被纳入一个architec-生成器.由于我们的直方图表示的可微性，损失函数C（Hg，Ht）可以分别是生成的直方图Hg和目标直方图Ht之间的相似性的任何可微度量。为了简单起见，我们使用定义为的Hellinger距离：1¨ ¨基于StyleGAN的True [31]。具体来说，我们修改了StyleGAN的原始设计（图2-[A]和[B]），这样我们就可以C（Hg，Ht）=¨ ¨格蒂22杰夫 ·霍利特Flickr-公共领域…………7944ǁ· ǁ、（四）输出图像的静态构造。StyleGAN的最后两个块（图2-[B]）通过用颜色直方图特征替换精细样式向量进行修改。然后将直方图特征投影到一个低维的哪里2是标准欧几里得范数，H1/2是逐元素平方根注意，海灵格距离与巴塔查里亚系数B（·）密切相关，其中C（Hg，Ht）=（1−B（Hg，Ht））1/2。7945结合潜伏性GAN跳跃连接NH（h ×h ×3）噪声潜编码解码log2 N− 2log2 N − 4块块潜conv3×3现代-现代历史投影··∼输入图像映射到HistoGAN头部的潜在维度再着色图像图4：我们的Recoloring-HistoGAN（ReHistoGAN）网络。我们使用编码器-解码器网络将输入图像映射到HistoGAN此外，我们通过前两个编码器块的潜在特征到我们的GAN将此颜色匹配直方图损失函数与该函数相结合，以给出发电机网络损失：Lg=D（Ig）+αC（Hg，Ht），（5）其中，Ig是GAN生成的图像，D（）是我们的判别器网络，它在给定图像的情况下产生标量特征（见附录）。更多细节），Ht是目标直方图特征（注入到生成器网络中），Hg是Ig的直方图特征，C（）是我们的直方图损失函数，α是控制直方图损失项强度的比例因子。由于我们的直方图特征是通过一组可区分的操作来计算的，因此我们的损失函数（等式2）4和5）可以使用SGD进行优化。在训练期间，需要不同的目标直方图Ht。为了为每个生成的图像生成这些，我们从训练集中随机选择两个图像，计算它们的直方图H1和H2，然后在它们之间随机插值。具体来说，对于在训练期间生成的每个图像，我们生成如下随机目标直方图：Ht=δH1+（1−δ）H2，（6）其中δ U（0，1）是均匀采样的。这种插值过程背后的动机是在训练期间扩大直方图的种类。这是直方图的数据扩充的一种形式，其中隐含假设目标域中直方图分布的凸性面部图像）。我们发现这种增强有助于减少训练图像直方图的过拟合，并确保测试时的鲁棒性。我们注意到，该假设对于具有高多样性的目标域不成立，其中目标直方图在对数色度空间中跨越宽范围并且可以是多模态的（例如，景观图像）。尽管如此，我们发现，即使在这些情况下，增强仍然有利于训练。通过对原始StyleGAN架构的修改，我们的方法可以控制生成的图像的颜色，输入图像目标颜色（无方差损失）含方差损失图5：具有和不具有等式中描述的方差损失项的训练ReHistoGAN的结果9 .第九条。年龄使用我们的颜色直方图功能。图3示出了Histo-GAN生成的图像的渐进构造。可以看出，最后两个块的输出被调整以考虑由目标直方图传达的信息，以产生具有在目标直方图中表示的相同颜色分布的输出图像2.3. 图像重新着色我们还可以扩展HistoGAN来重新着色输入图像，如图所示一号底。对现有输入图像Ii重新着色并不简单，因为随机采样的噪声和样式向量不可用，因为它们在GAN 生成的场景中是不可用的。如图 3 所示，HistoGAN的头部（即，最后两个块）负责控制输出图像的颜色。我们建议训练一个编码网络，将输入图像映射到HistoGAN头部的必要输入中，而不是优化可用于生成给定图像Ii的噪声和风格向量通过这种方法，可以向头部块提供不同的直方图输入，以产生输入图像的各种各样的重新着色版本。我们将此扩展称为ReHistoGAN的架构如图所示四、The “encoder” has a U-Net-like structure [ 为了确保在重新着色的图像中保留精细细节，由前两个U-Net块产生的早期潜在特征进一步通过跳过连接作为输入提供到 HistoGAN 的头中目标颜色信息被传递到HistoGAN头块输入图像目标颜色w/o跳过连接ReHistoGAN图6：使用没有跳过连接的编码器- GAN重建和使用我们提出的损失函数的Re-HistoGAN的图像重建的结果。NPiliRubioFlickr-CCBY-NC2.0HiroyukiTakedaFlickr-CCBY-ND2.0Conv1×1HistoGAN的头2个街区7946·目标颜色我们生成的图像图7：HistoGAN生成的图像。对于每个输入图像（左列），我们计算相应的目标直方图（左列的左上角），并使用它来控制每行中生成图像的颜色如SEC中所述。2.2.此外，我们允许目标颜色信息通过跳过连接影响从前两个U-Net编码器块到His-toGAN我们添加了一个额外的直方图投影网络，以及一个直方图的这种潜在代码通过权重调制解调操作[31]进行处理我们修改了HistoGAN块，如图2所示，以接受此传递的信息（参见supp.更多信息）。目标颜色信息的泄漏有助于ReHistoGAN考虑来自输入图像内容和目标直方图。我们使用He的初始化[ 23 ]初始化我们的编码器-解码器网络2.2）。然后，整个ReHistoGAN被联合训练以最小化以下损失函数：Lr=βR（Ii，Ir）+γD（Ir）+αC（Hr，Ht）（7）其中，R（）是重建项，其鼓励图像结构的保留，并且α、β和γ是用于控制每个损失项的强度的超参数（参见supp.用于相关消融研究的材料侦察-7947·∗··ǁ −ǁ×结构损失项R（）计算输入的二阶导数和重新着色的图像之间的L1范数，如下所示：RGB：KLDiv. =1.37，Hdis.=0.93RGB-uv：KLDiv. =2.86，Hdis.=0.64RGB：KLDiv. =0.38，Hdis.=0.66RGB-uv：KLDiv. =0.42，Hdis.=0.31R（Ii，Ir）=<$Ii<$L−Ir<$L <$1（8）其中L表示拉普拉斯算子的应用。采用图像导数的想法最初用于实现图像无缝克隆[42]，其中该拉普拉斯算子抑制图像颜色信息，同时保持最重要的感知细节。因此，ReHistoGAN经过训练以考虑输出图像中的以下方面：（i）具有与目标直方图中表示的颜色分布相似的颜色分布，这是（ii）是现实的，这是D（·）的目标，以及（iii）具有输入图像的相同内容，这是R（·）的目标。目标颜色（为MixNMatch输入形状背景RGB：KLDiv. =2.62，Hdis.=0.77RGB-uv：KLDiv. =0.35，Hdis.=0.27MixNMatchRGB：KLDiv. =2.23，Hdis.=0.76RGB-uv：KLDiv. =0.35，Hdis.=0.27我们我们的模型使用等式中描述的损失函数进行训练7产生了合理的验证结果。然而，我们注意到，在某些情况下，我们的模型往往只应用全局色偏（即，移动重新着色的图像为了减轻这种行为，我们在等式中增加方差损失项。7 .第一次会议。方差损失可以是描述为：Σ图8：与MixNMatch方法的比较[35]。在所示结果中，目标图像用作MixNMatch方法的输入形状和背景图像[35]。3. 结果和讨论本节讨论了我们的结果，并与文献中提出的其他方法进行了比较。V（Ii，Ir）=−wc∈{R，G， B}|、|,（九）拖钓颜色由于硬件限制，我们使用了原始StyleGAN[31]的轻量级版本，将m设置为16，如图2所示。我们首先介绍我们的其中，σ（）计算其输入的标准差（在在这种情况下，Ii和Ir的模糊版本使用高斯-具有尺度参数15的模糊核G），并且w=HtHi1是随着目标直方图和输入图像的直方图H t和H i变得不相似而增加的加权因子，并且全局移位解决方案变得更有问题。方差损失鼓励网络通过增加输入图像和重新着色图像中的颜色方差之间的差异来避免全局移位解决方案使用每个图像的模糊版本的原因是为了避免方差损失和重建损失之间的矛盾-前者旨在增加每个图像中平滑颜色的方差之间的差异，而后者旨在保持输入和重建图像的精细细节之间的相似性。图5显示了我们的训练模型的验证结果，有和没有方差损失项。我们用从目标域数据集采样的目标直方图训练ReHistoGAN，如前面第2节所述。2.2（等式6）。最初实验了一种更简单的架构，其不使用跳过连接和端到端微调（即，Histo-GAN头的重量是固定的）。然而，这种方法给出了不满意的结果，并且通常不能保留输入图像的精细细节。这种方法和上述ReHistoGAN架构之间的比较可以在图1B中看到。六、图像生成的结果，其次是我们的结果，对图像排序。其他结果，比较和讨论也可在supp。材料.图像生成图7显示了我们的HistoGAN生成图像的示例。每行显示使用相应的输入目标颜色从不同域生成的样本。对于每个域，我们固定了负责粗略和中间样式的样式向量，以显示HistoGAN与最近的MixN-Match方法[35]的定性比较见图。8 .第八条。为了评估由我们对StyleGAN的修改引起的生成图像多样性和质量的潜在改善/退化，我们训练了m=16的StyleGAN [31]（即，与我们的模型容量相同），而无需修改直方图。我们在不同的数据集上评估了这两种模型，包括我们收集的景观图像集。对于每个数据集，我们使用StyleGAN和HistoGAN生成了10，000256256个图像我们使用Frechetinception distance（FID）度量[26]使用Inception模型[53]的第二个最大池化特征评估了生成的图像质量和密度我们进一步评估了StyleGAN通过训练回归深度神经网络（ResNet [24]）来控制GAN生成图像颜色的能力，以转换生成的7948输入图像重新着色的图像图9：我们的ReHistoGAN结果。显示的结果是在使用目标颜色（在顶行中显示）对输入图像（在左列中显示）进行分类之后。表1：与StyleGAN的比较[31]。术语“W/项目”是指将目标图像颜色投射到StyleGAN的潜空间中。我们计算了目标和生成的直方图在RGB和投影RGB-UV颜色空间中的相似性对于每个数据集，我们报告训练图像的数量。请注意，这里显示的StyleGAN结果并不代表[31]的实际输出，因为这里使用的模型容量较小（m=16）。数据集StyleGAN [31]HistoGAN（我们的）FIDRGB历史（带投影）RGB-紫外线历史值（带投影）FIDRGB历史（带投影）RGB-紫外线历史值（带投影）无项目包括项目吉隆坡分区H dis.吉隆坡分区H dis.吉隆坡分区H dis.吉隆坡分区H dis.[30]第30话9.501814.1941.31240.97101.21250.67248.93870.98100.74870.44700.3088鲜花（8，189）[41]10.87615.5021.03040.96142.71100.70384.95720.89860.73530.38370.2957猫（9,992）[5]14.36621.8261.66590.97401.40510.530317.0681.00540.72780.34610.2639[32]第三十二话16.70630.4031.90420.97031.48560.565820.3361.35650.74050.43210.3058鸟类（9，053）[55]3.553912.5641.90350.97061.91340.60913.22511.49760.78190.42610.3064[14]第14话2.50029.88900.97470.98691.43230.59295.37570.85470.62110.13520.1798手（11，076）[3]2.68532.78260.93870.99420.36540.37092.24380.33170.36550.05330.1085景观（4，316）24.21629.2480.88110.97411.94920.626523.5490.83150.81690.54450.3346[57] 2016年中国汽车工业发展报告10.59914.6731.57090.97031.26900.53634.53201.37740.72780.25470.2464汽车（16，185）[33]21.48525.4961.68710.97490.73640.423114.4081.07430.70280.29230.2431空中场景（36，000）[39]11.41314.4982.11420.97981.14620.515812.6020.98890.58870.17570.1890图像返回到相应的精细样式向量。这些精细样式向量由Style- GAN的最后两个块使用，并负责控制精细样式，例如颜色和灯光[30，31]。每个域分别使用100，000个StyleGAN生成的训练图像进行训练，输入图像目标颜色/样式HiDT我们的它们对应的在测试阶段，我们使用经过训练的ResNet来预测目标图像的相应精细样式向量-这些目标图像用于生成HistoGAN实验的目标颜色直方图然后，我们根据每个目标图像的预测精细风格向量生成输出图像在StyleGAN和HistoGAN的评估中，我们使用了从同一领域随机选择的目标图像。图10：与高分辨率白天的比较翻译（HiDT）方法[8]。使用Hellinger距离和KL散度来测量生成图像的直方图与目标直方图之间的颜色误差;参见表1。图像重新着色图9显示了使用我们的ReHistoGAN进行图像重新着色的示例。与re-re-re-PaoloJetLagFlickr-CCBY-NC2.0Flickr-公共领域FranklinSamirDatteinFlickr-CCBY-NC2.0Andrea Maria Cannata Flickr-CC BY-NC 2.0Andrea Maria Cannata Flickr-CC BY-NC 2.0DavidKaczmarekFlickr-CCBY-NC-SA2.0目标颜色7949IanLiveseyFlickr-公共领域AlysonHurtFlickr-CCBY-NC2.0JillyAnnaJoyFlickr-CCBY-NC2.0ChristopherMitchellFlickr-CCBY-NC2.0raymondclarkimagesFlickr-CCBY-NC2.0输入图像目标颜色Reinhard等人Xiao等Pitié和KokaramNguyen等人Gatys等人Sheng等人我们图11：我们的ReHistoGAN和其他图像颜色/风格转移方法之间的比较，这些方法是：Reinhard等人，[46]，Xiao etal.，[56]，Pitie 'and Kokaram [44]，Nguyen et al.，[40]，Gatys et al.，[21]和Sheng等人，[50 ]第50段。Afifietal.我们图12：与Afifi等人的最近方法的自动验证比较，[7]的文件。输入图像彩色图像图13：使用我们的ReHistoGAN进行多样化图像着色的结果。图10中示出了10美分高分辨率日间翻译（HiDT）方法[8]。图11中显示了与图像匹配和风格转移方法的其他比较。可以说，我们的ReHistoGAN产生的图像匹配结果在视觉上比其他图像颜色/样式转换方法的结果更引人注目。如图11，即使当目标图像来自与输入图像不同的域时，与其他图像风格转移方法（例如，[21，50]）。最后，我们提供了一个定性的比较，与最近的自适应方法提出的Afifi等人，[7]在图12中。在所示的示例中，我们的目标直方图是通过从预定义的直方图集合中采样并在采样的直方图之间应用线性插值来动态生成的（参见等式（1））。6）。什么是学习？我们的方法学习映射的颜色信息，表示的目标颜色直方图，输出图像的颜色与现实主义的考虑，在重新着色的图像。通过学习目标颜色和输入图像草可以是绿色的，但不能是蓝色的。为了证明这一点，我们检查了一个用于图像着色任务的训练ReHistoGAN模型，其中输入图像是灰度的。灰度图像的输入意味着我们的ReHistoGAN模型没有关于输入图像中对象颜色的信息。图13显示了输入被“彩色化”后的输出可以看出，输出图像已经基于图像的内容以良好的语义颜色匹配进行了着色4. 结论我们已经介绍了HistoGAN，这是一种简单而有效的方法，用于控制GAN生成的图像的颜色。我们的HistoGAN框架学习如何将封装在目标直方图特征中的颜色信息转换为生成的输出图像的颜色。尽最大据我们所知，这是第一个直接从颜色直方图控制GAN生成图像颜色的工作。颜色直方图提供了一种与空间信息分离的图像颜色的抽象表示。这使得直方图表示的限制性更小，并且适用于跨任意域的GAN生成。我们已经表明，HistoGAN可以扩展到控制ReHistoGAN模型形式的真实图像的颜色。我们的图像拼接结果在视觉上比目前可用的图像拼接解决方案更具吸引力。我们的图像识别还可以通过从预定义的直方图集合中采样来实现“自动识别”。这允许图像被重新着色为大范围的视觉上合理的变化。HistoGAN可以作为基于GAN的图形设计和艺术环境的直观颜色控制的一步。7950引用[1] Rameen Abdal，Yipeng Qin，and Peter Wonka.如何将图像嵌入到风格的潜在空间？在ICCV，2019年。2[2] Rameen Abdal ， Peihao Zhu ， Niloy Mitra ， and PeterWonka. StyleFlow：使用条件连续规范化流对StyleGAN生成的图像进行属性条件探索。arXiv预印本arXiv：2008.02401，2020。2[3] 马哈茂德·阿菲菲11K手：使用大型手部图像数据集进行性别识别和多媒体工具和应用，78（15）：208357[4] Mahmoud Afifi和Michael S Brown。dnn模型中与传感器无关的光照估计。在BMVC，2019年。一、二、三[5] Mahmoud Afifi和Michael S Brown。还有什么能骗过深度学习？解决深度神经网络性能上的颜色恒定性误差。在ICCV，2019年。2[6] Mahmoud Afifi，Brian Price，Scott Cohen，and MichaelS Brown.当色彩恒常性出错时：纠正不适当的白平衡图像。在CVPR，2019年。一、二、三[7] Mahmoud Afifi ， Brian L Price ， Scott Cohen ， andMichael S Brown. 基于目标颜色分布的图像分割在Eurographics 2019（短论文），2019年。一、二、八[8] Ivan Anokhin 、 Pavel Solovev 、 Denis Korzhenkov 、AlexeyKharlamov 、 TarasKhakhulin 、 AlekseiSilvestrov、Sergey Nikolenko、Victor Lempitsky和GlebSterkin。高分辨率的白天翻译没有域标签.在CVPR，2020年。二、七、八[9] 马丁·阿吉奥对凯，苏米特·钦塔拉和莱·安·博图。沃瑟斯坦河arXiv预印本arXiv：1701.07875，2017年。2[10] Mor Avi-Aharon，Assaf Arbelle和Tammy Riklin Ra-viv. Deephist：可区分的关节和颜色直方图层，用于图像到图像的转换。arXiv预印本arXiv：2005.03995，2020。1[11] 乔纳森·巴伦卷积颜色恒定性。InICCV，2015.一、二[12] Huiwen Chang ， Ohad Fried ， Yiming Liu ， StephenDiVerdi，and Adam Finkelstein.基于调色板的照片拼接。 ACM Transactions on Graphics （ TOG ）， 34（4）：139-1，2015. 1[13] Yunjey Choi，Youngjung Uh， Jaejun Yoo ，and Jung-Woo Ha.StarGAN V2：多领域的多样化图像合成在CVPR，2020年。2[14] 斯宾塞·丘吉尔。动漫人脸数据集。https：//www.kaggle.com/splcher/animefacedataset。[On-行;访问2020年10月27日]。7[15] 克里斯·克劳福德和NAIN Cat数据集https：//www.kaggle.com/crawford/cat-dataset 。 [ 在线 ;2020年10月27日访问]。7[16] Aditya Deshpande，Jiajun Lu，Mao-Chuang Yeh，MinJin Chong，and David Forsyth.学习多样化的图像着色。在CVPR，2017年。2[17] 伊娃·艾本伯格和埃利·安杰洛波洛。对数色度空间中归一化通道的重要性。在CIP，2012年。2[18] SheikhFaridul ， TaniaPouli ， ChristelChamaret ， Jür genStauder，Erik Reinhard ，Dmitry Kuzovkin ， and AlainTre 'meau. 色彩映射：最近的方法，扩展和应用的回顾在计算机图形论坛，2016年。1[19] 格雷厄姆·D·芬莱森和史蒂文·D·霍德利。像素的颜色JOSA A，2001年。2[20] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.艺术风格的神经算法。 arXiv 预印本 arXiv ：1508.06576，2015年。2[21] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在CVPR，2016年。二、八[22] Ian Goodfellow ， Jean Pouget-Abadie ， Mehdi Mirza ，Bing Xu ， David Warde-Farley ， Sherjil Ozair ， AaronCourville ， and Yoonne Bengio. 生成性对抗网。InNeurIPS，2014. 2[23] 何开明，张翔宇，任少卿，孙健。深入研究整流器：在ImageNet分类上超越人类水平InICCV，2015. 5[24] 何开明，张翔宇，任少卿，孙健。用于图像识别的深度残差学习。在CVPR，2016年。6[25] 何明明，廖静，陈东东，陆远，和佩德罗V桑德.渐进的色彩转移与密集的语义对应。ACM Transactions onGraphics（TOG），38（2）：1-18，2019。2[26] Martin Heusel，Hubert Ramsauer，Thomas Unterthiner，Bernhard Nessler，and Sepp Hochreiter. 通过两个时间尺度更新规则训练的GAN 收敛到局部纳什均衡。在NeurIPS，2017年。6[27] Phillip Isola，Jun-Yan Zhu，Tinghui Zhou，and Alexei AEfros.使用条件对抗网络进行图像到图像的翻译。在CVPR，2017年。2[28] 贾斯汀·约翰逊亚历山大·阿拉希和李飞飞。实时风格转换和超分辨率的感知损失。在ECCV，2016年。2[29] Tero Karras ， Timo Aila ， Samuli Laine ， and JaakkoLehtinen.GAN的渐进式增长，以提高质量、稳定性和变异性。arXiv预印本arXiv：1710.10196，2017。2[30] Tero Karras Samuli Laine和Timo Aila一种用于生成对抗网络的基于风格的生成器体系结构在CVPR，2019年。二、七[31] 泰罗·卡拉斯、萨穆利·莱恩、米卡·艾塔拉、詹娜·赫尔斯滕、亚科 · 莱赫蒂宁和蒂莫 · 艾拉。分析和改进StyleGAN的图像质量。在CVPR，2020年。一、二、三、五、六、七[32] Aditya Khosla，Nityananda Jayadevaprakash，BangpengYao，and Fei-Fei Li.用于细粒度图像分类的新数据集：斯坦福狗。在CVPR研讨会，2011年。7[33] 乔纳森·克劳斯，迈克尔·斯塔克，邓佳，李飞飞。用于细粒度分类的3D对象表示。在ICCV研讨会，2013年。7[34] Pierre-Yves Laffont， Zhile Ren ， Xiaofeng Tao ， ChaoQian，and James Hays.瞬态属性为高层次的理解和编辑的户外场景。ACM图形交易（TOG），33（4）：1-11，2014年。27951[35] Yuheng Li，Krishna Kumar Singh，Utkarsh Ojha，andYong Jae Lee. MixNMatch：用于条件图像生成的多因子解纠缠和编码。在CVPR，2020年。第二、六条[36] Huidong Liu，Xianfeng Gu，Dimitris Samaras.具有二次运输费用的Wasser-stein GAN.在ICCV，2019年。2[37] Fujun Luan，Sylvain Paris，Eli Shechtman，and KavitaBala.深度照片风格转移。在CVPR，2017年。2[38] Andrew L Maas，Awni Y Hannun和Andrew Y Ng。整流器的非线性改善了神经网络声学模型。InICML，2013. 3[39] Emmanuel Maggiori ， Yuliya Tarabalka ， GuillaumeCharpiat，and Pierre Alliez.语义标注方法能推广到任何城市吗？inria航空影像标注基准。国际地球科学与遥感研讨会（IGARSS），2017年。7[40] Rang MH Ngu

下载后可阅读完整内容，剩余1页未读，立即下载