没有合适的资源?快使用搜索试试~ 我知道了~
DoveNet:基于域验证的深度图像协调方法
8394DoveNet:通过域验证实现深度图像协调丛文燕1,张建福1,牛莉1,刘柳1,凌志新1,李伟源2,张丽青11上海交通大学MoE人工智能重点实验室2华东师范大学1{plcwyam17320,c. sis,ustcnewly,Shirlley,1069066484}@sjtu.edu.cn210162100162@stu.ecnu.edu.cnzhang-lq@cs.sjtu.edu.cn1www.example.com摘要图像合成是图像处理中的一项重要操作,但前景与背景的不一致性严重影响了合成图像的质量。图像协调是一项很有前途但又很有挑战性的任务,其目的是使前景与背景协调一致.然而,缺乏高质量的公开可用的数据集的图像协调,极大地阻碍了图像协调技术的发展。在这项工作中,我们通过基于COCO生成合成复合图像来贡献图像协调数据集iHarmony4(分别为,Adobe5k、Flickr、day2night)数据集,从而得到我们的HCOCO(分别为Hadobe5k、HFlickr、Hday2night)子数据集。此外,我们提出了一种新的深度图像协调方法DoveNet,使用一种新的域验证算法,其洞察力是前景需要被转换为与背景相同的域。在构造好的数据集上进行的大量实验证明了该方法的有效性.我们的数据 集 和 代 码 可 在 https://github.com/bcmi/ImageHarmonization Datasets上获得。1. 介绍图像合成的目标是通过提取一幅图像的前景并将其粘贴到另一幅图像的背景上来生成合成然而,由于前景和背景通常不兼容,合成图像的质量会显著下降。为了解决这个问题,图像和谐化旨在调整前景,使其与合成图像中的背景相匹配。传统方法[20,47,54]和基于深度学习的方法[43,45]都已被探索用于图像协调,其中基于深度学习的方法[43,45]可以取得有希望的结果。作为一种数据饥渴的方法,深度学习需要*通讯作者。合成图像和归一化图像的大量训练对作为输入图像及其地面实况输出。然而,给定合成图像,手动创建其协调图像,即,将前景调整为与背景相适应,这对于熟练的专业人员的广泛努力是高度需要的。因此,这种构造数据集的策略非常耗时且昂贵,使得生成大规模训练数据变得不可行。或者,如[43]中所提出的,我们可以将真实图像视为协调图像,分割前景区域,并将该前景区域调整为与背景不一致然后,可以使用合成的合成图像和真实图像的对来代替合成图像和谐波化图像的对。因为前景调整可以自动完成(例如,颜色转移方法)而无需耗时的专业编辑,收集大规模训练数据变得可行。尽管在[43]中提出了这一鼓舞人心的策略,但Tsai等人 [43]没有公开构建的数据集。此外,该数据集还存在合成图像的多样性/真实性不足以及缺乏真实的合成图像等缺点。考虑到[43]中构建的数据集的不可用性和缺点,我们倾向于构建自己更强大的数据集。总体而言,我们采用[43]中的策略来生成成对的合成合成图像和真实图像。与[43]类似,我们基于Microsoft COCO数据集[24],MIT-Tube 5 k数据集[2]和我们自己收集的Flickr数据集生成合成复合图像。对于Flickr数据集,我们通过使用ImageNet数据集[5]中的类别名称作为查询来从Flickr图像网站中抓取图像,以增加抓取图像的多样性。然而,并非所有抓取的图像都适合图像协调任务。因此,我们手动过滤掉纯彩色或模糊背景的图像,没有明显前景物体的杂乱图像,以及由于艺术编辑而显得明显不真实的图像。除了[43]中建议的COCO,Tube5k和Flickr之外,我们还考虑了包含多个8395在不同条件下拍摄的同一场景的图像。这样的数据集对于图像协调任务自然是有益的,因为可以通过用另一图像中的相同前景区域替换一个图像中的前景区域来容易地生成合成图像更重要的是,两个前景区域都来自真实图像,因此合成图像实际上是真实的合成图像。然而,据我们所知,在这个范围内只有少数可用的数据集[40,53,18]。最后,我们选择day2night数据集[18],因为day2night提供了在各种条件下捕获的对齐图像的集合(例如,天气、季节、一天中的时间)。 根据原住民的名字, 对于最终数据集,我们将我们构建的子数据集称为HCOCO,HADobe5k,HFlickr和Hday2night,其中“H”代表“Harmonization”。所有四个子数据集包括大规模图像协调数据集。构造四个子数据集的细节以及与[43]第三节将详细介绍。作为另一个贡献,我们提出了DoveNet,这是一种新的深度图像协调方法,具有新的域验证算法。给定一幅合成图像,其前景和背景可能在不同条件下被捕获(例如,天气、季节、一天中的时间),并且因此具有独特的颜色和照明特性,这使得它们看起来不相容。根据域适应[32,29]和域生成[31,30]中的术语,我们将每个捕获条件称为一个域,并且可能存在许多可能的域。在这种情况下,合成图像的前景和背景属于两个不同的域,而真实图像的前景和背景属于同一域。因此,图像协调的目标,即将前景调整为与背景一致,可以认为是在不知道前景和背景的域标签的情况下将前景的域转换为与背景相同的域。受对抗学习[9,11]的启发,我们提出了一种域验证算法,以在协调图像中拉近前景和背景的域。具体来说,我们对待成对的前景和背景表示的一个真正的(分别。合成)图像作为正像(分别为负)对。一方面,我们训练神经网络来区分正对和负对。另一方面,生成器被期望产生一个和谐的图像,这可以欺骗机器人将其前景-背景对感知为积极的。为了验证我们提出的域验证算法的有效性,我们对我们构建的数据集进行了全面的实验。我们的主要贡献总结如下:• 我 们 发 布 了 第 一 个 大 规 模 图 像 协 调 数 据 集iHarmony4,由四个子数据集组成:HCOCO、Hadobe5K、HFlickr和Hday2night。• 本文首次提出了领域验证的概念,并提出了一种新的图像协调方法DoveNet,该方法配备了一种新的领域验证机制。阳离子交换树脂2. 相关工作在这一部分中,我们回顾了图像和谐化的发展此外,由于图像协调是图像到图像翻译的一种特殊情况,我们讨论了在这一领域的其他图像协调:传统的图像协调方法集中在更好地匹配低级应用统计,例如匹配全局和局部颜色分布[35,37],映射到预定义的感知和谐的颜色模板[4],应用梯度域合成[34,14,42],并转移多尺度变化统计[41]。为了将较低级别的图像统计与较高级别的属性联系起来,在[20,47]中进一步考虑了合成图像的视觉真实性。最近,Zhu等人。 [54]训练了一个CNN模型来执行合成图像的真实感评估,并应用该模型来提高真实感。Tsai等人。 [43]提出了第一个端到端CNN网络来直接产生谐波化图像,其中使用额外的分割分支来合并语义信息。在[45]中,提出了一个atten- tion模块来分别学习关注的前景和背景特征。与现有的方法不同,我们提出的方法的目的是通过使用域验证转换器将前景域转换为背景域。图像到图像转换:将输入图像映射到对应的输出图像的各种任务统称为图像到图像转换,诸如图像超分辨率[15,16,22]、图像修复[33,50]、彩色图像处理[33,52]、图像处理[33,53]、图像处理[33,54]、图像处理[33,55]。[51][21][22][23][24][25][26][27][28][29][29]ing [38,3]、demo-saicking [8]、解压缩[6]和少拍图像生成[10]。然而,在图像协调领域,基于深度学习的研究仍然有限。此外,还提出了几种图像到图像翻译的一般框架[11,27,49]。对于具有成对训练数据的任务,其中,为成对训练数据设计的成对GAN[11]可以应用于图像协调,但它们没有考虑图像协调问题的唯一性。我们的模型扩展了配对GAN与域验证判别,tor,它超越了传统的成对GAN。3. 数据集构建在本节中,我们将全面描述构建数据集iHarmony4的数据该方法首先根据真实图像生成合成图像,然后过滤掉不合格的合成图像.8396i=1i=1i=1i=1(a) Microsoft COCO Flickr(b)MIT-Adobe Fivek day2night&&图1:我们的数据采集过程的图示。(a)在Miscrosoft COCO和Flickr数据集上,给定一幅前景对象为Ot的目标图像It,我们从与Ot相同的类别中找到一幅前景对象为Or的参考图像r,然后将Or的颜色信息传递到Ot。(b)在MIT-Obe 5 k和day2night数据集上,给定具有前景对象Ot的目标图像It,我们找到其另一个版本Ir(编辑以呈现不同的风格或在不同的条件下捕获),并将Ot与Ir中相同位置处的对应Or重叠。3.1. 合成图像生成从真实图像生成合成的合成图像的过程具有两个步骤:前景分割和前景调整,如图1所示。Foreground Segmentation: For COCO dataset, we use theprovided segmentation masks for 80 categories.其他数据集(即、Flickr和day2night)与分割蒙版无关,因此我们手动分割每个图像的一个或多个前景区域。在所有四个子数据集上,我们确保每个前景区域占据整个图像的合理区域,并试图使前景对象覆盖广泛的类别。前景调整:在分割一幅图像I t中的前景区域O t之后,我们需要调整Ot的外观。为了便于描述,将It称为目标图像。如[43]中所建议的,选择包含前地区域Or的另一图像Ir作为参考图像。然后,颜色信息从Or转移到Ot,导致同步。合成图像大小不一。对于IBM 5 k数据集,每个真实图像由五个专业摄影师修饰,因此一个真实目标图像I t伴随有五个编辑图像{Ii|5}不同风格. 我们可以从{Ii}中随机选择Ir|5}和以上-将Ot放置在It中,相应的区域Or位于同一位置位置在R。对于day 2night数据集,在不同条件下捕获每个场景,从而产生一系列对齐的图像{I,|n {\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F}它 可能会移动或消失在我 的r。此外,即使是静态对象(例如,建筑物,山)可能与I r中的不同,例如建筑物在I t中开灯,而在I r中关灯。上述前景变化来自对象本身,而不是捕获条件,因此我们从数据集中排除了这些对。对于COCO和Flickr数据集,由于它们不具有对齐的图像,因此给定具有前景Ot的目标图像It,我们随机选择具有属于与Ot相同类别的前景Or的参考图像Ir。对于包含80个类别的分割标注的COCO数据集,给定COCO中的It,我们从COCO本身中检索Ir。对于没有分割注释的Flickr数据集,我们使用ADE20K预训练场景解析模型[52]来获得Ot的主导类别标签并从ADE20K数据集[52]中检索Ir然后,如[43]中所建议的,我们应用颜色传递方法将颜色信息从Or传递到Ot。然而,该工作[43]仅使用一种颜色转移方法[23],这限制了生成图像的多样性。考虑到颜色传递方法可以基于参数/非参数和相关/去相关颜色空间分为四组,我们从每组中选择一种代表性方法,即,,参数法[37](resp. [44],在解相关(resp. ,相关)颜色空间和非参数方法[7](分别。,[36])解相关(分别为)。相关)颜色空间。给定一对Ot和Or,我们从上述四种颜色转移方法中随机选择一种。3.2. 复合图像滤波类似于图像块5k,目标图像It和参考图像I t被配置为:Ir可以从{Ii,|n},然后是通过前景分割和调整,将It中的Ot与Ir中的相应区域Or重叠。然而,与Objecbe5k不同的是,我们需要确保Ot和Or是相同的对象,没有本质的变化。例如,移动对象(例如,、人、动物、汽车)在可以得到大量的合成合成图像。然而,一些合成的前景物体看起来不现实,所以我们使用美学预测模型[17]来去除不现实的合成图像。 以进一步除去8397图2:DoveNet架构的图示,其中包括(a)注意力增强的U-Net生成器,(b)全局判别器,以及(c)我们提出的域验证器。不切实际的合成图像,我们通过使用真实图像作为正样本和[17]确定的不切实际的合成图像作为负样本来训练二进制CNN分类器。在训练分类器时,我们还将前期掩码输入CNN以获得更好的性能。经过两步自动过滤后,仍然有一些不真实的图像。因此,我们要求人类注释者手动删除剩余的不切实际的图像。在手动过滤过程中,我们还要考虑另外两个关键问题:1)对于COCO数据集,由于某些被选取的前景区域不太合理,如高遮挡的目标,所以我们去除了这些图像; 2)对于COCO和Flickr数据集,某些前景对象的色调在颜色转移后发生了很大的变化,这通常发生在类内方差较大的类别中。例如,一辆红色的汽车被转换成一辆蓝色的汽车,或者一个穿红色T恤的人被转换成一个穿绿色T恤的人这种类型的颜色转移对于图像和谐化任务不是很有意义,所以我们也移除这些图像。3.3. 我们的数据集和[43]之间的差异我们的数据集iHarmony4是[43]中数据集的增强和增强版本:1)我们的数据集包含一个额外的子数据集Hday2night,这在[43]中没有考虑。与其他三个子数据集不同,Hday2night由真实的合成图像组成,更接近真实的图像。世界应用; 2)此外,我们还尝试解决一些在[ 43 ]中没有考虑的问题,例如合成的复合图像的多样性和质量问题; 3)我们采用精心设计的自动过滤和精心设计的手动过滤来保证数据集的高质量。4. 我们的方法给定真实图像I,我们具有对应的合成图像I,其中前景掩模M指示要被协调的区域,并且背景掩模是M<$=1−M。我们的目标是训练一个模型,I与和谐的图像I,期望尽可能接近I我们利用GAN [9]框架来生成合理和谐的图像。如图所示2,在DoveNet中,我们使用注意力增强的U-Net生成器G,它以(I_n,M)作为输入并输出一个和谐的图像I_n。此外,我们使用两种不同的鉴别器Dg和Dv引导G生成更真实、更和谐的图像。第一个矩阵g是传统的全局矩阵,它区分真实图像和生成图像.第二个是我们提出的域验证方法,它验证给定图像的前景和背景是否来自同一个域。8398GG4.1. 注意力增强型发电机我们的生成器G基于U-Net [39],具有从编码器到解码器的跳过链接。受[45]的启发,我们利用注意力块来增强U-Net。具体而言,我们首先将编码器和解码器特征连接起来,基于此,分别针对编码器特征和解码器特征学习完全注意力[48然后,我们将参与的编码器和解码器功能连接起来。总之,我们在U-Net中插入了三个attention块,如图2所示,attention块的详细信息可在补充部分中找到。我们执行生成的图像I= G(I,M)通过Lrec=I-I1 接 近 地 面 实 况 真 实 图像I。4.2. 全局鉴别器图像,其中,“域表示抽取器F(If,M)(resp. ,F(Ib,M))对前景表示I f(resp. b)基于If(resp. ,Ib)和M(resp. ,M<$)。同样,我也会伤害-对于归一化的图像I,我们应用相同的域表示提取器F来提取其用于背景表示If和背景表示Ib。在获得域表示之后,我们计算域相似度Dv(I,M)=lf·lb(resp. ,D v(I,M)=以实际(特别是,,生成)图像,其中·表示内积。 类似于(1),损失函数w.r.t.域名验证可以写成LDv=E[max(0, 1−Dv(I,M))]全球环境署g旨在帮助G-ˆ+E[max(0,1 +Dv(Iv,M))],L G= −E [D v(G(I,M),M)].(二)它把I当作真实的图像,把I当作假图像在[28]之后,我们在每个卷积层之后应用频谱归一化,并利用铰链损失来稳定训练,其由下式给出:LD=E[max(0,1-Dg(I))]+E[max(0,1+Dg(I))],v当通过最小化L Dv来训练D v时,D v被鼓励产生大的(相应地,,小)得分为阳性(分别为负)前景-背景对。当通过最小化LGv来训练G时,期望生成的图像欺骗Dv并获得大的分数。通过匹配L G= −E[D g(G(I,M))].(一)前景域与背景域,生成的图像有望具有兼容的前景当通过最小化LDg来训练Dg时,Dg被鼓励以产生大的(相应地,,小)分数为真实的(resp. 生成的)图像。当通过最小化LGg来训练G时,期望生成的图像欺骗Dg并获得大的分数。4.3. 域验证鉴别器除了全局域的验证外,我们还设计了一个局部域的验证算法来验证给定图像的前景和背景是否属于同一个域。如第1节所讨论的,一个真实的前景和背景(分别是)。、合成)图像在相同条件下被捕获(分别为:不同的条件),并且因此属于相同的域(分别地,,不同的域),这被称为一个积极的(分别。负)前景-背景对。为了提取前景和背景的域表示,我们采用了部分卷积[25],这是为图像协调任务量身定制的。部分卷积只对被掩蔽区域的特征进行聚合,避免了未掩蔽区域的信息泄漏或零填充等无效信息损坏。我们的域表示提取器F是通过堆叠部分卷积层形成的,其利用部分卷积的优点来分别提取前景和背景的域信息形式上,给定一个真实的图像I,令I f=IM(resp. 、Ib=IM<$)是地面的掩蔽物(特别是,背景)和背景。到目前为止,训练生成器G的总损失函数为L G=L rec+λ(L Gg +LGv),(3)其中,在我们的实验中,折衷参数λ被设置为0.01。类似于GAN [9],我们交替地更新生成器G和两个鉴别器Dg、Dv。由于使用DOmain VErification(DOVE)方法,我们将我们的方法命名为DoveNet。5. 实验在本节中,我们分析了我们构建的iHarmony4数据集的统计数据。然后,我们在构建的数据集上评估基线和我们提出的DoveNet。5.1. 数据集统计数据HCOCO:Microsoft COCO数据集[24]包含用于训练的118k图像和用于测试的41k图像。它为每幅图像提供了对象分割模板,总共标注了80个对象类别。为了生成更有说服力的复合材料,将训练集和测试集合并在一起,以确保更广泛的可用参考。基于COCO数据集,我们建立了我们的HCOCO子数据集,其中包含42828对合成的合成图像和真实图像。Hadobe 5 k:MIT-Hadobe 5 k数据集[2]涵盖了广泛的场景,对象和照明条件。所有的5000张照片,每一张都是由五位摄影师修饰的8399子数据集HCOCOHadobe5kHFlickrHday2night所有评估指标MSE↓PSNR↑MSE↓PSNR↑MSE↓PSNR↑MSE↓PSNR↑MSE↓PSNR↑输入复合69.3733.94345.5428.16264.3528.32109.6534.01172.4731.63拉隆德和埃夫罗斯[20]110.1031.14158.9029.66329.8726.43199.9329.80150.5330.16Xue等人[47个]77.0433.32274.1528.79249.5428.32190.5131.24155.8731.40Zhu等人[五十四]79.8233.04414.3127.26315.4227.52136.7132.32204.7730.72DIH [43]51.8534.6992.6532.28163.3829.5582.3434.6276.7733.41[45]第四十五话41.0735.4763.4033.77143.4530.0376.6134.5059.6734.35DoveNet36.7235.8352.3234.34133.1430.2154.0535.1852.3634.75表1:不同方法对我们四个子数据集的结果最佳结果以黑体表示子数据集HCOCOHadobe5kHFlickr Hday2night#培训38545194377449311测试次数42832160828133表2:我们的四个子数据集上的训练和测试图像的数量。制作了五种不同的版本我们使用4329张图像,每张图像中有一个分割的前景对象来构建我们的HADobe5k子数据集,从而产生21597对合成的合成图像和真实图像。HFlickr:Flickr网站是一个供业余摄影师上传图片的公共平台。我们构建我们的HFlickr子数据集的基础上抓取4833 Flickr图像与一个或两个分割的前景对象在每个图像。我们的HFlickr子数据集包含8277对合成的合成图像和真实图像。Hday2night:从AMOS数据集[13]收集的 Day2night数据集[53]包含在一天的不同时间使用固定网络摄像头拍摄的图像共有8571张图片总共101个不同的场景。我们从80个场景中选择106个目标图像,每个图像中有一个分割的前景对象来生成合成图像。由于3.1节中提到的严格要求,我们只得到444对合成的合成图像和真实图像,而不会降低数据集的质量。对于每个子数据集(即,HCOCO、Hadobe5k、HFlickr和Hday2night),所有对都被分成训练集和测试集。我们保证了相同的目标图像不会同时出现在训练集和测试集中,以避免训练后的模型简单地记住目标图像。表2总结了四个子数据集中的训练和测试图像数量。由于篇幅限制,样本图像和其他5.2. 实现细节遵循[12]中的网络架构,我们在生成器中应用了8个下采样块,其中每个块包含一个卷积,内核大小为4,步幅为2。在卷积层之后,我们应用LeakyReLU激活和实例规范化层。我们使用八个反卷积层来对特征进行上采样以生成图像。对于全球(验证)判别器,我们使用七个卷积(分别为:部分卷积)层,并且在两个鉴别器中的最后 一 个 卷 积 层 之 前 的 所 有 卷 积 层 之 后 应 用LeakyReLU。我们使用Adam优化器,学习率为0.002。遵循[43],我们使用RGB通道上的均方误差(MSE)和PSNR分数作为评估指标。我们-端口的平均MSE和PSNR的测试集。在训练和测试期间,我们将输入图像调整为256×256。并对256×256图像的均方误差和峰值信噪比进行了计算。5.3. 与现有方法的比较我们比较了传统方法[20,47]和基于深度学习的方法[54,43 ,45]。 Although Zhuet al. [54] is a deeplearning based method, it relies on the pretrained aestheticmodel and does not require our train- ing set. DIH [43]最初需要带有分割掩码的训练图像,这在我们的问题中不可用。因此,我们通过删除其语义分割分支与DIH进行比较,因为我们专注于纯图像协调任务,而不使用任何辅助信息。对于所有基线,我们使用他们发布的代码(如果可用)进行实验,否则基于我们自己的实现。在[43]之后,我们将所有四个子数据集的训练集合并为一个整体训练集来学习模型,并在每个子数据集的测试集和整个测试集上进行评估。不同方法的结果总结在表1中,从中我们可以观察到使用我们的训练集[43,45]的基于深度学习的方法通常优于传统方法[20,47],这证明了学习从配对训练数据中协调图像的有效性我们还观察到S2AM比DIH更好,这表明了其提出的注意力块的好处。我们的DoveNet远远优于所有基线,并在所有四个子数据集上取得了最佳结果,这表明了我们的域验证策略的优势。8400子数据集HCOCOHadobe5kHFlickrHday2night所有评估指标MSE↓PSNR↑MSE↓PSNR↑MSE↓PSNR↑MSE↓PSNR↑MSE↓PSNR↑U-Net46.8734.3077.1632.34160.1729.2557.6034.2568.5733.16U-Net+att43.1335.1557.5233.83159.9929.5656.4034.8961.1534.13U-Net+att+adv38.4435.5454.5634.08143.0329.9955.6834.7255.1534.48U-Net+att+ver39.7935.3353.8434.19136.6030.0455.6434.9455.0034.40U-Net+att+adv+ver36.7235.8352.3234.34133.1430.2154.0535.1852.3634.75表3:我们在四个子数据集上的特殊情况的结果。U-Net是主干生成器。“att”代表我们使用的注意力块,“adv”代表全球注意力的对抗性损失。“ver”代表我们提议的验证码的验证损失。最佳结果以黑体表示。前景比0%至5%5%至15%15%至100%0%至100%评估指标MSE↓fMSE↓MSE↓fMSE↓MSE↓fMSE↓MSE↓fMSE↓输入复合28.511208.86119.191323.23577.581887.05172.471387.30拉隆德和埃夫罗斯[20]41.521481.59120.621309.79444.651467.98150.531433.21Xue等人[47个]31.241325.96132.121459.28479.531555.69155.871411.40Zhu等人[五十四]33.301297.65145.141577.70682.692251.76204.771580.17DIH [43]18.92799.1764.23725.86228.86768.8976.77773.18[45]第四十五话15.09623.1148.33540.54177.62592.8359.67594.67DoveNet14.03591.8844.90504.42152.07505.8252.36549.96表4:基于整个测试集的每个前景比率范围中不同方法的MSE和前景MSE(fMSE)。最佳结果以黑体表示。方法B-T评分↑输入复合0.624拉隆德和埃夫罗斯[20]0.260Xue等人 [47个]0.567Zhu等人 [五十四]0.337DIH [43]0.948[45]第四十五话1.229DoveNet1.437表5:不同方法对[43]中提供的99张5.4. 消融研究在本节中,我们首先研究DoveNet中每个组件的有效性,然后研究前景比率对协调性能的影响。首先,表3中报告了消融每个组件的结果。通过将“U-Net”与表1中的DIH进行比较我们还观察到,“U-Net+att”优于“U-Net”,这表明使用注意力块的好处。另一个观察结果是,“U-Net+att+adv”(分别为。,“U-Net +att+ver”)比“U-Net+att”执行得更好,这表明采用全局判别器(分别为:,我们的域名验证码)。最后,我们的完整方法,即。,在所有四个子数据集上的最佳结果。其次,我们的数据集具有广泛的前景比率(整个图像区域上的前景区域),其中大多数图像的前景比率在[1%,90%]的范围内(参见补充)。在这里,我们研究了不同的前景比例对协调性能的影响。 尤其是当前景比例的值很小时,背景的重建误差可能会超过前景的协调误差。因此,除了整个图像上的MSE之外,我们还引入了另一个评估度量:前景MSE(fMSE),其仅计算前景区域中的MSE。 我们不-将前景比率分成三个范围,即,、0%-5%、5%-15%和15%-100%。我们采用这样的分区,因为更多的图像具有相对较小的前景ra。tios。然后,我们在表4中报告了整个测试集上每个范围的不同方法的MSE和fMSE。显然,MSE随着前景比率的增加而增加。根据表4,DoveNet优于所有基线w.r.t. 在各个前景比例范围内的MSE和fMSE,特别是当前景比例较大时,这证明了我们的方法的鲁棒性。5.5. 定性分析在图3中,我们显示了地面实况真实图像,输入合成 图 像 以 及 DIH [43] , S2 AM[45] , DoveNet ( w/over),8401图3:不同方法在我们的四个子数据集上的示例结果从上到下,我们分别展示了Hadobe5k、HCOCO、Hday2night和HFlickr子数据集的一个示例从左到右,我们显示了地面真实图像,输入合成图像,DIH [43],S2 AM[45],我们的特殊情况DoveNet(w/o ver)和我们的完整方法DoveNet。和DoveNet。DoveNet(w/o ver)对应于我们观察到,我们提出的方法可以产生更和谐,更接近地面真实图像 的 协 调 图 像 。 通 过 比 较 DoveNet ( w/o ver ) 和DoveNet,可以看出,我们提出的验证判别器能够将前景域推到背景域附近,从而获得更好的协调图像。5.6. 真实合成图像我们进一步将我们提出的DoveNet与[43]中使用的99个真实合成图像的基线进行比较。由于所提供的99幅真实合成图像不具有真实图像,因此不可能使用MSE和PSNR来定量地比较不同的方法。遵循[43]中的相同程序,我们对99个真实合成图像进行用户研究,以进行主观评价。具体地,对于每个真实合成图像,我们可以获得7个输出,包括原始合成图像和6种方法的协调图像(见表1)。对于每个真实的合成图像,我们可以通过从7个输出中选择来构建输出对。然后,我们邀请50名人类评分员每次查看一对输出,并要求他/她选择更真实和和谐的一个。对于所有99幅真实合成图像,总共收集了51975个成对结果,其中25个成对结果是真实的。平均地获得每对输出的结果。最后,我们使用Bradley-Terry模型(B-T模型)[1,19]计算每种方法的全球排名得分,并在表5中报告结果。从表5中,我们得到了与表1类似的观察结果。特别是,使用我们的训练集的基于深度学习的方法通常优于传统方法,其中DoveNet获得了最高的B-T分数。为了使比较可视化,我们将不同方法的结果放在补充中的所有99个6. 结论在这项工作中,我们贡献了一个图像协调数据集iHarmony 4 , 其 中 包 含 四 个 子 数 据 集 : HCOCO 、Hadobe5k 、 HFlickr 和 Hday2night 。 我 们 还 提 出 了DoveNet,一种新的深度图像协调方法,具有域验证功能。在我们的数据集上的大量实验证明了我们所提出的方法的有效性确认本 课 题 得 到 了 国 家 重 点 研 发 计 划(2018AAA0100704)的资助,国 家自然科学基金(61902247)和上海航海计划(19YF1424400)的部分资助。8402引用[1] Ralph Allan Bradley和Milton E Terry。不完全区组设计的 秩 分 析 : I. 成 对 比 较 的 方 法 。 Biometrika , 39(3/4):324-345,1952. 8[2] VladimirBychko vsky , Syl vainParis , EricChan 和 Fre´doDurand。使用输入/输出图像对的数据库学习摄影全局色调调整CVPR,2011。一、五[3] B. Cai , X. Xu , K. 贾 角 , 澳 - 地 Qing 和 D. 涛 .Dehazenet:用于去除单一图像雾度的端到端系统。IEEE Transactions on Image Processing , 25 ( 11 ) :51872[4] Daniel Cohen-Or , Olga Sorkine , Ran Gal , TommerLeyvand,and Ying-Qing Xu.颜色协调。25(3):624-630,2006. 2[5] J. 邓,W。东河,巴西-地索赫尔湖J. Li,K.Li和L.飞飞ImageNet:一个大规模的分层图像数据库。CVPR,2009。1[6] Chao Dong , Yubin Deng , Chen Change Loy , andXiaoou Tang. 通过 深度卷积 网络减少 压缩伪 影。在ICCV,2015年。2[7] Ulrich Fecker,Marcus Barkowsky和Andre 'Kaup。基于直方图的多视点视频亮度和色度补偿预滤波。IEEETransactionsonCircuitsandSystemsforVideoTechnology,18(9):1258- 1267,2008。3[8] Micha eülGharbi , Gaura vChaurasia , Syl vainParis ,andFre'doDurand. 深 度 联 合 去 马 赛 克 和 去 噪 。 ACMTransactions on Graphics,35(6):191,2016。2[9] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。NeurIPS,2014。二、四、五[10] Yan Hong, Li Niu ,Jianfu Zhang,and Liqing Zhang.Match- ingGAN : 基 于 匹 配 的 少 镜 头 图 像 生 成 。 在ICME,2020年。2[11] P. Isola,J. Zhu,T. Zhou和A. A.埃夫罗斯使用条件对抗网络的图像到图像翻译。在CVPR,2017年。2[12] Phillip Isola,Jun-Yan Zhu,Tinghui Zhou,and Alexei AEfros.使用条件对抗网络的图像到图像翻译。在CVPR,2017年。6[13] N. Jacobs,N. Roman和R.求你在许多户外场景中一致的时间变化。CVPR,2007。6[14] Jiaya Jia,Jian Sun,Chi-Keung Tang,and Heung-YeungShum. 拖放粘贴。ACM Transactions on Graph-ics,25(3):631-637,2006. 2[15] Jiwon Kim,Jung Kwon Lee,and Kyoung Mu Lee.使用非常 深的 卷积 网络 实现 精确的 图像 超分 辨率 。在CVPR,2016年。2[16] Jiwon Kim,Jung Kwon Lee,and Kyoung Mu Lee.用于图像超分辨率的深度递归卷积网络。在CVPR,2016年。2[17] 空舒,沈晓辉,林哲,拉多米尔机甲,福克斯查理。照片美学排名网络与属性和内容的适应。在ECCV,2016年。三、四8403[18] Pierre-Yves Laffont , Zhile Ren , Xiaofeng Tao ,Chao Qian,and James Hays.瞬态属性为高层次的理解 和 编 辑 的 户 外 场 景 。 ACM Transactions onGraphics,33(4),2014. 2[19] Wei-Sheng Lai,Jia-Bin Huang,Zhe Hu,NarendraAhuja,Ming-Hsuan Yang.单幅图像盲去模糊的比较研究。在CVPR,2016年。8[20] Jean-Francois Lalonde和Alexei A Efros。使用颜色兼容性评估图像真实性。载于ICCV,2007年。一、二、六、七[21] 古斯塔夫·拉尔森迈克尔·梅尔格雷戈里·沙赫纳洛维奇。学习自动着色的表示。在ECCV,2016年。2[22] Chri s tianLedig,LucasTheis,FerencHus za'r ,Jo seCaballero , AndrewCunningham , AlejandroAcosta,Andrew Aitken,Alykhan Tejani,JohannesTotz,Zehan Wang,et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在CVPR,2017年。2[23] Joon-Young Lee , Kalyan Sunkavalli , Zhe Lin ,Xiaoh
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功