没有合适的资源?快使用搜索试试~ 我知道了~
一对多网络:减少视觉上令人愉悦的压缩伪影
3038一对多网络用于减少视觉上令人愉悦的压缩伪影郭军赵宏阳中山大学数据与计算机科学学院与中山大学-卡内基梅隆大学顺德国际联合研究院摘要我们考虑压缩伪影减少问题,其中压缩图像被变换成无伪影图像。针对这个问题的最新方法典型地使用输出和地面实况之间的每像素L2损失来训练一对一映射我们指出这些方法产生的结果过于平滑,PSNR不能反映它们的真实性能。在本文中,我们提出了一个一对多网络,它使用感知损失,自然度损失和JPEG损失来衡量输出质量。我们还避免了网格状文物在反卷积使用“移位和平均”的大量的实验结果表明,我们的方法在艺术状态的戏剧性的视觉改善1. 介绍压缩伪影抑制是计算机视觉中的一个经典问题。这个问题的目标是从有损压缩图像中估计无伪影图像在这个信息爆炸的时代,互联网上传播的图像数量迅速增加。有损压缩(例如,[41],[42],[43],[44],[45],[46],[47],[48],[49],特别是用于节省带宽和存储空间。然而,有损压缩本质上导致信息丢失和不期望的伪像,这严重降低了用户体验。因此,如何恢复视觉上令人满意的无伪影图像引起了越来越多的关注.鉴于JPEG是世界上使用最广泛的有损压缩方案,在下文中,我们重点讨论JPEG压缩伪影的减少。已经提出了各种方法来抑制JPEG压缩伪像。早期的作品[37]手动开发过滤器来去除简单的伪影。近年来,基于学习的方法占据了主导地位。[22,5,2,28,27,36]提出了使用稀疏编码重建无伪影图像这些方法可以产生锐化图像,但通常伴随着电 子 邮 件 : 郭 军 ( artanis. outlook.com ) 和 赵 红 阳(isschhy@mail.sysu.edu.cn)(a) ARCNN的结果(b)我们的结果图1:压缩伪影减少示例。与ARCNN比较,我们的结果具有更丰富的纹理;例如,看第一排的毛和第二噪声边缘和不自然的区域。到目前为止,深度学习已被证明具有强大的视觉任务能力特别是,ARCNN[8]和DDCN[15]已经证明了深度卷积神经网络(CNN)在消除JPEG压缩伪影方面的能力。D3[44]将稀疏编码投射到深度全连接网络中,也获得了令人印象深刻的结果。然而,最先进的深度学习方法恢复的图像过去过于平滑,与(未压缩的)地面实况图像相比,包含的纹理明显较少见图1a为例(地面真理可以在图中找到(五)。以图像作为输入,JPEG编码器首先divi- des它成非重叠的编码块。然后,对每个块进行离散余弦变换(DCT),并根据JPEG量化表对DCT系数进行均匀量化。对于解码,JPEG解码器对量化的系数执行逆DCT可以看出,信息损失和压缩伪影都是由于量化,30394第大多数基于学习的方法,包括上述的最新技术(例如,ARCNN,D3和DDCN),只需学习JPEG压缩图像和相应的地面实况之间的一对一映射这样的设计有一个缺点。由于量化的多对一属性,压缩图像确实存在多个由于人类视觉系统对图像的主观偏好,不同的人可能会喜欢不同的地面实况。因此,最好开发一个一对多的映射来恢复无伪影的图像,它为用户提供一系列高质量的候选图像,让用户选择他们喜欢的图像。然而,测量输出质量是一项艰巨的任务。大多数现有的方法,如ARCNN,采用了每像素的L2损失,因为它是直接的,可以鼓励寻找像素值接近地面实况的解决方案。不幸的是,L2损失是一个凸函数,因此给定一个输入只有一个最优解。这与量子化的多对一性质相反,并且将导致不正确的结果。考虑一个玩具的例子,这4个不同的灰度级,例如1、2、3和4,都被量化为1。现在我们要从1000万美元中1. 如果我们使用L2损失来学习映射,我们对映射进行建模,最后我们将找到一个唯一解,并将1映射到该特定值。 作为映射被训练以最小化在数据集上平均的L2误差,则该解将趋向于地面真实平均(例如,1+2+3+4=2。5),这显然不是任何地面真理。回顾压缩伪影减少,现在也清楚了现有方法的那些过度平滑的输出来自哪里:由于每个压缩图像都是解压缩的,由于每个像素的L2损失,最终映射到地面实况平均值,在平均过程中,许多细节相互抵消,导致到处都是模糊的区域。更糟糕的是,每像素损失并不能很好地描述图像之间的感知差异。例如,如果我们将两个相同的图像中的任何一个移动一个像素,这两个图像在感知上仍然是相似的,尽管它们在每像素损失的测量中会有很大的不同。最近的研究发现,感知相似性可以通过从预训练的CNN中提取的高级图像特征之间的差异该技术已应用于特征可视化[38]、特征反转[31]、风格转换[11,10]等,并且与每像素损失相比,成功地恢复了语义结构然而,高级特征通常对低级细节是不变的,因此这种技术的结果通常由可见的失真和不足的纹理组成。另一方面,生成对抗网络(GANs)[12]已被证明在产生精细细节方面很有前途[12,7,34]。 这种有趣的技术通常用于生成看起来自然的图像,其自然度由二元分类器测量。的测量部件L天然L·埃普普LJPEG图2:一对多网络的概述给定JPEG压缩的图像,建议组件生成无伪影的候选者,其质量由测量组件进一步评估。直觉是,如果生成的图像很难与自然图像区分开来,那么它们对人类来说应该足够然而,尽管已经引入了显着的改进[7,34],GAN仍然难以生成视觉上令人愉悦的语义结构。在这项工作中,我们结合了这两种技术在一对多映射的好处。更具体地说,我们提出了一个一对多网络,它被分解为两个组件-建议组件和测量组件,如图所示。二、Propo- sal组件将JPEG压缩图像作为输入,然后输出一系列无伪影的候选图像。测量组件估计输出质量。我们采用依赖于预训练VGGNet的高级特征的感知损失[39]来估计候选者的感知质量。此外,我们训练了一个判别网络来衡量候选人的自然度,这成为我们的第二个损失。同时,我们注意到,使用这两个损失仍然不足以获得好的结果。这两种因此,建议组件的输出通常包含不需要的噪声,并且与输入或地面实况相比具有不同的对比度。为了解决这个问题,我们进一步引入了JPEG损失使用JPEG量化表作为先验,正则化的DCT系数的输出范围。此外,我们发现,当与高度非凸损失函数结合时,反卷积通常会导致网格状伪影。我们提出了一个“移动和平均”的策略来处理这个问题。实验证明,我们的方法是能够产生人类青睐的结果。比较图图1a和图1b为示例。2. 相关作品2.1. 压缩伪影减少已经提出了许多方法来处理压缩伪影。早期的作品利用精心挑选的过滤器,以抑制阻塞和振铃文物。例如,Reeve和Lim[35]将高斯滤波器应用于编码块边界周围的像素,以平滑块效应。此外,Chenet al. [3]对相邻编码块的DCT系数采用低通滤波器进行去块。然而,这种手动设计不太可能充分模拟压缩退化。提案组成部分3040近年来,基于学习的教学方法逐渐成为首选。其中一种代表性的方法是稀疏编码[22,5,2,28,27,36]。一般来说,这些方法首先通过以下方式对输入图像进行编码:压缩图像字典,然后将稀疏系数传递到未压缩图像字典中用于重构。基于稀疏编码的方法通常是低效的,因为它们需要复杂的优化过程。更糟糕的是因此,它们的性能是有限的。神经网络可以追溯到几十年前[25]。如今,深度神经网络,特别是深度CNN,在高级[24,39,33]和低级[9,8,44,15]视觉问题方面都取得了爆炸性的成功ARCNN[8]证明了端到端训练CNN在消除各种压缩伪影方面的巨大潜力DDCN[15]指出,4层ARCNN不足以消除复杂的伪影,因此提出了一个更深的(20层)架构。D3[44]将稀疏编码方法转换为基于LISTA的深度神经网络[14],并获得了速度和性能的提升。DDCN和D3都采用了JPEG相关的先验知识来提高重建质量。2.2. 感知损失最近的一些工作使用感知损失作为优化目标,感知损失定义在从预训练的CNN中提取的高级特征上。Mahendran和Ve- daldi[31]通过最小化特征重建损失来反转卷积网络的特征类似的优化目标已用于特征可视化[38]、艺术风格转移[11,10]等。[21]训练了一个前馈网络来解决优化问题,大大降低了计算成本。 这项工作特别重要对于我们来说,因为他们在图像超分辨率方面表现出了令人印象深刻的结果,通过在CNN的训练过程中用感知损失代替每像素的L2然而,正如在引言中所讨论的,仅仅最小化虚拟损失通常会导致不令人满意的细节。2.3. 生成对抗网络从Goodfellowet al开始。[12]他引入了GAN来生成数字,GAN在图像生成领域引起了极大的关注。一般来说,GAN包含生成网络和判别网络。判别网络被训练以确定图像是来自现实还是来自生成网络。生成网络经过训练,以改善其输出,使其足够好,不能轻易与现实区分开来。训练GAN是棘手和不稳定的。Denton等 人 [7]构 建了 GAN 的 拉普 拉 斯金 字 塔( Laplacianpyramid of GAN),以粗略到精细的方案生成自然图像此外,DCGAN[34]提出了一些训练GAN的良好实践GAN的更多应用可以在[32,19,42]中找到。与我们的工作同时,Lediget al. [26]还结合了基于VGGNet的感知损失和GAN进行图像恢复,并取得了令人印象深刻的结果。3. 一对多网络3.1. 制剂考虑JPEG压缩图像Y。我们的目标是从Y中恢复一系列无伪影的图像F(Y),这些图像尽可能类似于未压缩的地面实况X。请注意,这里我们只考虑每个输入的一个地面真值。虽然压缩图像可能来自许多未压缩图像,但在实践中,由于可用的数据,大多数时候我们只能访问压缩图像的一个然而,我们的讨论可以很容易地扩展到多个地面事实。3.2. 提案组成部分我们的一对多网络包含两个主要组成部分。在这一小节中,我们描述了提案组成部分,它为F提供了一个模型。更具体地说,我们将映射F开发为深度CNN。为了实现一对多属性,在网络中,我们引入辅助变量Z作为隐藏的附加输入。该网络将压缩图像Y作为输入;同时它从标准差为1的零中心正态分布中采样Z。然后,Y和Z都被馈送到网络中进行非线性映射。由于JPEG压缩不是最佳的,JPEG编码器忽略的冗余信息仍然可以在压缩图像中找到。Y上的深度CNN可以有效地发现和利用这些信息来恢复被量化消除的细节。采样的Z为网络增加了随机性,鼓励它探索和生成不同的无伪影候选者。3.2.1网络结构建议组件大致遵循[42]和[21]提出的网络结构。首先将压缩图像Y和采样图像Z作为两个不同分支的输入之后,这两个分支的输出被级联。在级联的特征图之上,进一步执行聚合子网络以生成无伪影预测。图图3显示了该组件。最近,跳过连接,特别是身份快捷方式,在构建深度神经网络中变得非常流行。Heet al.“的深度残差网络(ResNet)[16]由许多堆叠的残差单元组成,在几个具有挑战性的识别任务中表现出了最先进的精度我们的工作遵循他们的智慧。在建议组成部分中,每个分支包含5个剩余单元,并且ag-3041Z轴N(0,1)Conv4Conv48242448Y10个单位{F(Y;Z)ResUnit起来Conv48485个单位图4:移位和平均策略的说明。看起来。让我们考虑一个1-D示例,使用具有滤波器大小4的步幅-2去卷积层进行上采样。将过滤器表示为[w1,w2,w3,w4]。现在假设我们对常数输入[···,c,c,···]应用解码,其中c是标量。预期输出也应该是恒定的。然而,实际输出将是c[···,w2+w4,w1+w3,w2+w4,w1+w3,···]。如果我们要求实际输出满足期望输出,则训练后的滤波器应满足w1+w3=w2+w4。如果我们在去卷积层上使用每像素的L2损失,则可以隐式地学习该约束,因为L2损失足够简单,使得学习滤波器权重几乎是凸优化问题。但是如果采用高度非凸的损失,我们发现网络在学习这个要求时会很困难,导致明显的网格状伪像。实际上,这种伪像可以在许多先前的工作的结果中看到,这些工作将去卷积与复杂的损失函数(例如,见[21]中的图8)。请注意,使用不同的过滤器大小相反地,在这项工作中,我们提出了一个简单策略,即图3:提案组件的架构。的最后一层的滤波器数量等于输入的通道其他卷积层包含64个滤波器。分离子网络包括10个剩余单元。对于剩余单元,我们采用He等人提出的变体。后来的工作[18]。更具体地说,每个残差单元包括两个批归一化[20]层,两个ReLU[24]层和两个卷积层。在将压缩图像转发到网络之前,它会被stride-2 4×4卷积层下采样。最后通过stride-2 4×4解卷积层对网络输出进行上采样,以保持图像大小。下采样网络有两个好处,然后上采样。首先,由于降低了输入分辨率,计算成本要低得多(与无下采样版本相比仅为1第二,在滤波器尺寸和层数相同的情况下,2倍下采样可以使有效感受野尺寸增加2倍,有利于大面积空间信息的融合。3.2.2上采样天下没有免费的午餐。虽然下采样有几个好处,但上采样并不像第一次那样微不足道平均”。继续前面的例子,在我们获得反卷积输出(表示为deconv)之后,执行以下两个步骤:1. 复制deconv并将其右移1个像素。2. 平均解卷积和转换版本。图4提供了图示。我们可以看到,一个恒定的输入将导致一个恒定的输出,这是预期的。这种策略可以很容易地扩展到2-D数据。对于2-D步幅-2去卷积,3次移位(即,右移、下移、右移和下移)。 总的来说,对于步长N的2-D去卷积,需要N个2-1移位然而,所提出的策略中的两个步骤都可以有效地并行化,因此在GPU上运行得非常快3.3. 测量部件在我们从预处理组件获得输出X=F(Y;Z)来评估人类是否喜欢X染色体。我们定义了三个损失函数进行度量。3.3.1感知损失感知损失估计语义相似性之间X和X. 以前的工作[10,11,21]发现,下来ResUnitReLUConv总和ReLUBNConvReLUBN转换:3x3卷积向下:下采样向上:上采样剩余单位:剩余单位BN:批次归一化cwic(w2+w4)c(w1+w3)1Σ42 i=1…平均……ResUnitReLUResUnitResUnitResUnit.........… C C …德孔夫……移位30422从预训练用于图像分类的深度网络可以很好地描述感知信息。特别是Mahendran和Vedaldi[31]表明,从较低层提取的特征往往保留精确的信息,而高层特征对颜色、纹理和形状差异更不敏感。因此,定义感知损失以鼓励X和X共享类似的高层特征,而不是倡导每像素匹配:1表 1 : DCGAN 和 我 们 的 网 络 D 的 比 较 。 conv 是convolution的缩写。除了最后一个卷积层之外,每个卷积层后面依次是Batch Normalization和Leaky ReLU。过滤器尺寸始终为4×4。过滤器编号显示在“conv”之后Lpercept(X,X)=φ(XHφ其中φ是从网络计算的特征,Hφ是特征大小。在这项工作中,我们采用了16层VGGNet [39]的最后一个卷积层的激活,即,层3.3.2自然度损失这种感知损失具有高度的几何不变性和光度量不变性.这有利于语义结构的重建,但也有一些缺点。考虑自然图像和适度平滑的版本。最小化感知损失然而,我们希望恢复尽可能“自然”的无伪影图像。我们引入另一个损失来解决这个问题,遵循GAN的精神我们建立一个额外的网络D来区分图像是从建议组件F生成的还是自然图像。 网络D执行二进制分类,并输出输入为“自然”的概率。 我们在X上加上这个概率(的负对数),作为测量的第二个损失分量,鼓励X具有高概率:Lnatural(X)=−log(D(X)).(二)网络D也需要训练。我们采用二进制熵损失作为其优化目标:3.3.3JPEG丢失直觉上,如果我们调整图像的对比度,很少有语义信息会改变。也就是说,感知损失对重构图像X的颜色分布不敏感 。除此之外,Eq。(2)自然度损失与输入Y的颜色分布是否匹配无关。但是,为了减少压缩伪影,我们希望输入的颜色分布可以大致保留。因此,我们引入了一个额外的JPEG相关的损失,以执行这一约束。估计真实的颜色分布是相当困难的。幸运的是,JPEG标准是由各种预定义的参数组成的通过明智地利用这些参数,至少我们可以获得像素值的下限和上限。如上所述,为了压缩,JPEG编码器将输入图像的DCT系数除以量化表,然后将结果舍入到最接近的整数。JPEG解码器执行decompression,通过乘回量化表。因此,压缩图像Y和相应的未压缩图像X之间的关系可以公式化为:LD(X,X)=−.Σlog(D(X))+log(1−D(X)).(三)YDCT(i,j)=ROUND.XDCTΣ(i,j)/Q(i,j)(i,j),(4)从Eq.(2)和Eq。(3)网络F和网络D相互竞争:网络F试图生成一个无人工智能的图像X,这对网络D来说很难与自然图像区分开来,而D则被训练成避免被F愚弄。对于网络D的结构,我们通常遵循DCGAN[34]提出的架构指导原则,网络深度加倍。具体来说,我们还采用了4其中Xdct和Ydct分别是X和YQ是量化表。i和j是DCT域中的索引。当量(4)意味着以下DCT系数范围约束:Ydct−Q/2≤Xdct≤Ydct+Q/2 。(5)因此,每个接收到的无人工因素图像X_n应该满足:当量(5)也。我们提出以下JPEG损失:卷积单元,但是每个单元由2个卷积层而不是1个卷积层组成。每个卷积层,除了最后一个是一个批规范化和一个泄漏LJPEG(X,Y)=1HXXMax. .Σ2Xdct−Ydct.Σ2Σ-Q,0 2ReLU [30]. 最后一个卷积单元的输出被馈送到逻辑回归分类器中。尽管我们的网络D和DCGAN在表1中存在差异。(六)其中HX是X的大小。 可以看出,JPEG损失是截断的L2损失. 重建图像X,其DCGAN网络DConv Unit 1stride-2 conv(64)stride-1 conv(64)stride-2 conv(64)Conv Unit 2跨2转换器(128)stride-1 conv(128)跨2转换器(128)Conv Unit 3跨2转换器(256)stride-1 conv(256)跨2转换器(256)30432DCT系数落在下限/上限之外(即,|Q)将被处罚。|>Q)willbepenalized.3.4. 一对多网络的联合训练我们合并上述所有损失函数来构建度量组件:uniform initializer [17]. 在测试过程中,建议组件作为一个完全卷积网络运行[29]来对全图像预测进行基因评级。4.1. 基线评价用于评估压缩的传统指标是-L(X,Y)=Lpercept(X,X)+λ1L自然(X)+(七)Tifactors减少是PSNR,SSIM [43]和PSNR-B [45]。所有这些都依赖于像素之间的低级别差异λ2Lj∈ g(X,Y).在本文中,我们总是将λ1设置为0。1.一、λ2需要一些特殊的处理。请注意,JPEG编码器对每个8×8非重叠编码块单独执行量化。对于与编码块边界,我们无法获得其DCT系数。因此,我们根据给定的补丁设置不同的λ2一般来说,我们的一对多网络的训练过程类似于原始的GAN[12],它在每次迭代中包括两个主要步骤:1. 修 正 建 议 分 量 F , 用 等 式 D 优 化 区 分 网 络 D(三)、2. 固定网络D,用测量组件优化建议组件F(即,当量(七))。如果输入面片与JPEG编码块边界对齐,则将λ2设置为0。1;否则将λ2设置为0。在训练的第一个时期中,我们只执行第二步而不使用网络D,即,网络D在第一个时期中不被训练也不被使用。原因是,一开始生成的图像并不好,所以即使是一个微不足道的网络D也可以将它们与自然图像区分开来。将它们提供给网络D只是浪费计算资源。4. 实验在本节中,我们进行实验来证明所提出的一对多网络的有效性。数据集。在所有实验中,我们使用ImageNet数据集[6]进行训练。BSDS 500数据集[1]的验证集用于验证。遵循以前方法的标准协议,MATLAB JPEG编码器被应用于生成JPEG压缩图像。然而,其他JPEG编码器通常是可以接受的,因为我们参数设置。我们大致遵循DCGAN 中的参数设置[34]。我们使用Adam [23]训练我们的一对多网络3个时期,学习率为1e−4,动量项β1=0。五、批大小设置为16. 对于Leaky ReLU,泄漏的斜率设置为0。二、训练图像被准备为相同大小的补丁,用于网络。工作投入。所有权重均使用Heet al.S特别是,PSNR相当于每像素的L2损失。因此,当通过PSNR测量时,被训练以最小化每像素L2误差的模型应该总是优于最小化等式2的模型。(七)、为了公平的比较,在这个实验中,我们用每像素的L2损失代替测量分量我们还删除了建议组件中的辅助变量,因为在L2下只有1个损失在下文中,我们将此变体命名为我们比较了我们的基线与两个最新的压缩伪影减少方法,即,ARCNN和DDCN,在BSDS 500数据集的测试集上[1]。我们还包括最新的通用图像恢复框架TNRD[4]进行比较。D3在这里没有被检查,因为到目前为止没有开放的代码或模型进行评估。评估三种JPEG质量:5,10,20。本节中的所有实验都是根据先前方法的协议在亮度通道(在YCbCr颜色空间中)上进行的。表2显示了定量结果。总的来说,我们的基线在所有 JPEG 质 量 和 评 估 指 标 上 都 大 大 优 于 ARCNN 和TNRD,并与DDCN相当。特别是,我们的基线在质量5方面表现最好,这表明它特别适合低质量的输入,这些输入对良好的重建有更高的要求。我们强调,本文的目标不是实现最佳的PSNR / SSIM / PSNR-B结果,而是提高恢复的无伪影图像的人类可识别性因此,我们在科尔斯。在图5的3 - 4中,我们呈现了来自DDCN的恢复图像和我们用于定性评估的基线。在基因-我们可以看到,这两种方法都倾向于产生过于平滑的结果。与地面实况相比,重建图像缺乏精细的细节和丰富的纹理。虽然我们的基线在PSNR上优于现有的方法,但其视觉质量仍然远远不能令人满意。4.2. 有利性评价在本节中,我们评估人类对重新覆盖的图像的可识别性。不幸的是,目前还没有客观的度量来衡量可扩展性。因此,我们进行定性实验进行评价。如已经讨论的,多对一量化步长使得重构非常不适定。随着输入质量的降低,模糊性变得更加极端。对于低质量的图像,去除了原始图像的大部分高频信息.3044Ground-truth/PSNRJPEG/24.DDCN/25。20基线/25。29一对多/23. 59Ground-truth/PSNRJPEG/24. 24DDCN/25。26基线/25。38一对多/23. 57图5:BSDS500上质量5下的比较。第1行:图像6046;第2行:图像344010。屏幕上最好的视图表2:与BSDS500数据集上的最新技术水平的比较。红色表示最佳性能;蓝色表示第二好的表现。质量方法峰值信噪比(dB)SSIMPSNR-B(dB)JPEG25.360.676422.91ARCNN26.720.725626.485TNRD26.810.727926.65DDCN26.980.733326.76基线27.120.740626.87JPEG27.800.787525.10ARCNN29.100.819828.7310TNRD29.160.822528.81DDCN29.590.838129.18基线29.560.835229.10JPEG30.050.867127.22ARCNN31.280.885430.5520TNRD31.410.888930.83DDCN31.880.899631.10基线31.890.897731.04因此,在下面的实验中,我们专注于质量5,因为较低的质量需要更有效的细节恢复我们根据3.4节训练一对多网络。我们对图像6045和图像344010的一对多网络的结果显示在图3的最后一列。五、通过将它们与现有方法的结果和我们的基线进行比较,我们可以看到我们的一对多网络在恢复边缘和细节方面做得很好。在我们的方法中,纹理要丰富得多,例如图像6046中的毛皮和岩石,以及图像344010中的灌木丛等。请注意,我们的一对多网络不会不加选择地添加例如,在图6046中,我们的方法在很大程度上丰富了驴子的皮毛,但背景天空仍然是干净的,这表明一对多网络知道图像语义。我们还对Set14数据集进行了评估[46]。在这里,对于每个压缩图像,我们对两个不同的Z进行采样以获得两个重建的候选,并在图1的最后两列中示出它们。六、可以看出,这些候选人有不同的细节,并且所有这些看起来都比我们的基线结果更生动有趣的是,从PSNR的角度来看,在两个图。我们的一对多网络的表现甚至比JPEG压缩的输入图像更差,但很明显,我们的结果在视觉上更令人愉悦。这表明PSNR不足以用于质量测量。4.3. 扩展到彩色图像我们的方法不仅限于灰度图像。我们在RGB图像上重新训练一对多网络,并在图中显示结果。7.第一次会议。可以看出,与DDCN或我们的基线相比,我们的方法产生了更精细的细节。4.4. 进一步分析我们进行另一个实验来检验所提出的移位和平均策略。通过比较图从图8a和图8b中,我们可以观察到,在没有所提出的策略的情况下,网格状伪影在整个图像上是可见的,这表明它们是传统去卷积操作和高度非凸损失函数的合成的结果。所提出的策略是能够抑制这样的文物,而不损害感知质量。损失图8也显示了每种损失的影响。图8b示出了使用L_xept进行测量能够恢复主要语义信息。在添加L自然,精细的细节补充,如图所示。8c. 然而,结果图像的对比度与输入或地面实况(两者都可以3045Ground-truth/PSNRJPEG/22. 32基线/23。28一对多(1)/21. 50一对多(2)/21. 53Ground-truth/PSNRJPEG/25. 43基线/26。77一对多(1)/24. 99一对多(2)/25. 32图6:Set14上质量5下的比较第1行:图像屏幕上最好的视图Ground-truth JPEG DDCN Baseline一对多图7:在BSD 500上的质量5下的比较。第1行:图像100039;第2行:图像108004。屏幕上最好的视图5. 结论本文系统地研究了如何从JPEG压缩图像中有效地恢复出无伪影的图像。作为多对一JPEG压缩的自然逆,我们提出了一个一对多网络。提出的模型,当优化与感知损失,一个na-(a)(b)(c)第(1)款图8:(a)使用L-1000进行训练,而不使用移位和平均策略;(b)使用L-1000进行培训,并采用移位和平均策略;(c)使用L-100和L-natural进行训练。在图中找到(五)。 一旦我们把LJPEG,对比度是调整(见图1行,列5)。(五)。 更有趣的是,似乎还出现了更多的细节。一种解释是,高对比度的自然图像通常比低对比度的图像具有更复杂的纹理,因此Lnatural将鼓励网络在通过Ljpeg增强对比度后合成更多的细节。这些实验证明了所有提出的损失的重要性turalness损失和JPEG损失可以重建多个更受人类青睐的无伪影候选,从而大大提高了恢复质量。我们的方法的一个限制是可扩展性,以各种JPEG质量。目前,我们需要为每个质量训练一个单独的模型此外,如何客观地评价输出图像的可扩展性仍然是一个问题。我们希望在未来解决这些问题。确认这 项 工 作 得 到 了 中 国 国 家 科 学 基 金 会 的 资 助U1611461,61672548和中国广州科学技术计划的资助201510010165。3046引用[1] P. Arbelaez,M.迈尔角Fowlkes和J.马利克轮廓检测与分层图像分割。IEEE transactions on pattern analysis andmachine intelligence,33(5):898[2] H. 张,M。K. Ng和T.小曾。通过学习字典减少jpeg解压缩中的伪影IEEE transactions on signal processing,62(3):718[3] T. Chen,H. R. Wu和B.邱用于减少块效应的变换系数IEEE视频技术电路与系统学报,11(5):594[4] Y. 陈威Yu和T.Pock 学习优化的反应扩散过程以实现有效的图像恢复。在IEEE计算机视觉和模式识别会议的Proceedings,第5261-5269页[5] I.崔,S。金,M。S.布朗和Y.- W.泰一种基于学习的减少 图 像 抠 图 中 jpeg 伪 影 的 方 法 。 在 2013 年 IEEEInternational Conference on Computer Vision的论文集,第2880-2887页中[6] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞。Imagenet:一个大规模的分层图像数据库。 在计算机视觉和模式识别,2009年。CVPR 2009。IEEE会议,第248-255页。IEEE,2009年。[7] E. L. Denton,S.钦塔拉河Fergus等人使用对抗网络的拉普拉斯金字塔的深度生成图像模型。神经信息处理系统的进展,第1486-1494页,2015年[8] C.董,Y.登角,澳-地Change Loy和X.唐通过深度卷积网络减少压缩伪影。IEEE International Conference onComputer Vision,第576-584页,2015年[9] C.东角,澳-地C. Loy,K.他,还有X。唐学习用于图像超分辨率的深度卷积网络。在欧洲计算机视觉会议上,第1842014年春天[10] L. A. Gatys,A.S. Ecker和M.贝丝艺术风格的神经算法arXiv预印本arXiv:1508.06576,2015。[11] L. A. Gatys,A.S. Ecker和M.贝丝使用卷积神经网络的图像风格在IEEE计算机视觉和模式识别会议集,第2414-2423页[12] I. 古德费罗 J. 波吉特-阿巴迪 M. 米尔扎 B. 许、D. 沃德-法利,S。奥扎尔A.Courville和Y.本吉奥。生成性对抗网络。神经信息处理系统进展,第2672-2680页,2014年[13] Google.WebP–一新图像格式的web.Google 开 发 者 网 站 ( https ://developers.google.com/speed/webp/)。[14] K. Gregor和Y.乐存。学习稀疏编码的快速近似。在Proceedings of the 27 th International Conference onMachine Learning(ICML-10),第399-406页[15] J.Guo和H.赵构建双域表示以减少压缩伪影欧洲计算机视觉会议,第628-644页施普林格,2016年。[16] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。arXiv预印本arXiv:1512.03385,2015。[17] K.他,X。Zhang,S. Ren和J. Sun.深入研究整流器:超越人类水平的图像网络分类性能。在IEEE计算机视觉国际会议论文集,第1026-1034页[18] K.他,X。Zhang,S. Ren和J. Sun.深度剩余网络中的身份映射。arXiv预印本arXiv:1603.05027,2016。[19] D. J. Im,C.D. Kim,H.Jiang,和R.梅米塞维奇使用循环 对 抗 网 络 生 成 图 像 。 arXiv 预 印 本 arXiv :1602.05110,2016年。[20] S. Ioffe和C.赛格迪批次标准化:通过减少内部协变量偏移 来 加 速 深 度 网 络 训 练 。 arXiv 预 印 本 arXiv :1502.03167,2015。[21] J. Johnson,A. Alahi和L.飞飞实时风格转换和超分辨率的感知损失。arXiv预印本arXiv:1603.08155,2016年。[22] C.荣格湖,澳-地Jiao,H. Qi和T.太阳通过稀疏表示的图像去块。信号处理:Image Communication,27(6):663 -677,2012.[23] D. Kingma和J. BA. Adam:一种随机优化方法。arXiv预印本arXiv:1412.6980,2014。[24] A.克里热夫斯基岛Sutskever和G. E.辛顿Imagenet分类与深度卷积神经网络。在神经信息处理系统的进展,第1097[25] Y.莱昆湾博泽,J. S. Denker、D.亨德森河E.何-沃德,W。Hubbard和L. D.杰克反向传播算法在手写体邮政编码识别中的应用。神经计算,1(4):541[26] C. 莱迪格湖Theis,F.Husza'r,J.Caballero,A.坎宁安A.阿科斯塔A.艾特肯A. Tejani,J. Totz,Z. wang等人使用生成对抗网络的照片级真实感单幅图像超分辨率。arXiv预印本arXiv:1609.04802,2016。[27] X. Liu,G. Cheung,X. Wu和D.赵具有稀疏性和图信号平滑性先验的jpeg图像块间一致软解码在图像处理(ICIP)中,2015 IEEE国际会议,第1628IEEE,2015年。[28] X. Liu,X. Wu,J. Zhou,and D.赵双变换像素域中基于数据驱动稀疏性的jpeg压缩图像恢复在Proceedings ofthe IEEE Conference on Computer Vision and PatternRecognition中,第5171[29] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络 。在IEEE计算 机视 觉和模 式识 别会议 论文 集(Proceedings of the IEEEConference on Computer Visionand PatternRecognition),第3431-3440页[30] A. L. Maas,A. Y. Hannun和A. Y. Ng.整流器的非线性改进了神经网络声学模型。在Proc.ICML,第30卷,2013中。[31] A. Mahendran和A.维达尔迪通过反转它们来理解深度图像 表 示 。2015 年 IEEE计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第5188-5196页。IEEE,2015年。3047[32] M.马蒂厄角Couprie和Y.乐存。超越均方误差的深度多尺 度 视 频 预 测 。 arXiv 预 印 本 arXiv : 1511.05440 ,2015。[33] H. Noh,S. Hong和B.韩用于语义分割的学习反卷积网络在IEEE计算机视觉国际会议论文集,第1520- 1528页[34] A.拉德福德湖,澳-地Metz和S.钦塔拉使用深度卷积生成对抗网络进行无监督表示学习arXiv预印本arXiv:1511.06434,2015。[35] H. C. Reeve III和J. S.林图像编码中块效应的降低。光学工程,23(1):230134[36] R. 罗特河Timofte和L.货车有效的回归先验,用于减少图像压缩伪影。在图像处理(ICIP)中,2015 IEEE国际会议,第1543-1547页。IEEE,2015年。[37] M.- Y. Shen和C. C.郭敬明压缩伪影消除的后处理技术综述。视觉传播与图像表征杂志,9(1):2[38] K. Simonyan、A. Vedaldi和A.齐瑟曼。卷积网络内部:可视化图像分类模型和显着图。arXiv预印本arXiv:1312.6034,2013。[39] K. Simonyan和A.齐瑟曼。用于大规模图像识别的深度卷积网络。arXiv预印本arXiv:1409.1556,2014。[40] G. J. 沙利文,J. -R. 哦,W.-J. Han和T.维根高效视频编码标准综述。IEEE Tra
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功