没有合适的资源?快使用搜索试试~ 我知道了~
4086×个基于双先验学习的JPEG压缩伪影去除傅学阳1,王曦1,刘爱平1,韩俊伟2,查正军1 *1中国科学技术大学2@ustc.edu.cn,wangxxi@mail.ustc.edu.cn,jhan@nwpu.edu.cn摘要基于深度学习(DL)的方法在解决病态JPEG压缩伪影去除问题方面取得了巨大成功然而,由于大多数DL架构被设计为直接学习像素级映射关系,因此它们在很大程度上忽略了语义级信息并且缺乏足够的可解释性。为了解决上述问题,在这项工作中,我们提出了一个可解释的深度网络来学习像素级回归先验和语义级判别先验。具体来说,我们设计了一个变分模型来制定图像去块问题,并提出了两个先验项的图像内容和梯度,分别。内容相关先验被公式化为基于DL的图像到图像回归器,以从像素级执行去块。梯度相关的pri-或作为基于DL的分类器,以区分是否从语义级的图像被压缩。为了有效地解决变分模型,我们设计了一个交替的最小化算法,并展开到一个深网络架构。通过这种方式,不仅增加了深度网络的可解释性通过将两个先验集成到单个框架中,可以很好地约束图像去块问题,从而导致更好的性能。在基准测试和真实用例上的实验证明了我们的方法比现有的最先进方法的优越性。1. 介绍随着消费者设备(例如,数码相机和智能手机)和无线网络,图像和视频的数量实现了爆炸式增长*通讯作者:查正军这项工作得到了中国国家重点研究和发展计划的部分支持,资助号为2020 AAA 0105702;国家自然科学基金U19B2038和61901433;部分由安徽省高校协同创新计划资助GXXT-2019-025;部分由中国科学技术大学“双一流”项目科研基金资助,项目编号:YD 2100002003。增长,这给存储和传输系统带来了更多的压力和挑战。为了节省存储容量和传输带宽,捕获的图像和视频通常被压缩以减少信息冗余。有损压缩算法,联合摄影专家组(JPEG)[43]和高效视频编码(HEVC)[41]已经被广泛探索以实现该目标。然而,由于在压缩期间不可避免的信号损失,这些压缩算法通常产生视觉上不愉快的压缩伪影。S.这些伪影不仅降低了视觉质量,而且降低了下游计算机视觉系统的性能,特别是在高压缩比下。因此,去除压缩伪影是一项重要的后处理任务,并且近年来吸引了更多的关注[20,30]。我们建议读者查阅文献[28,30]以了解更多细节。在本文中,我们专注于减轻JPEG压缩,这是最流行的压缩标准之一所造成的静态图像退化。JPEG压缩首先应用离散余弦变换(DCT)上的8 - 8像素块。然后,对这些DCT系数进行粗量化以去除高频细节以节省空间。由于对每个像素块的独立处理和高频细节的去除此外,使用大的量化步长,条带伪影将出现在平滑区域中。最近的一些研究已经提出了去除不期望的JPEG压缩伪影的方法根据设计机制,这些方法可以大致分为两类:基于模型的方法和基于深度学习(DL)的方法。早期的基于模型的作品执行过滤以去除压缩伪影。例如,Foiet al. [12]提出了一种用于压缩伪影减少的形状自适应DCT滤波方法另一方面,由于可以从单个压缩图像估计多个潜在清晰版本,因此该任务本质上是一个不适定的逆问题,其需要先验知识来约束它。沿着这个研究方向,许多研究者将这个问题表述为一个变分模型的最小化问题。4087有能力的优先条款。基于最大后验(MAP)框架,许多先验模型,已经开发了量化步骤[55]、稀疏表示[3]和低秩[59虽然这些模型驱动的方法表现出良好的性能,手工制作的先验的表示能力是有限的,这导致不稳定的结果时,处理具有复杂结构的压缩图像。在过去的几年中,基于DL的方法在去除JEPG伪影方面取得了重大进展[8,57,63]。由于强大的非线性能力[16,21,22,29,53]和大量的训练数据,这些方法可以学习压缩退化的逆映射,从而产生比模型驱动方法更好的结果。然而,目前大多数基于深度学习的方法采用前馈网络直接预测清晰图像,使其像黑箱一样,缺乏可解释性。此外,由于这些基于DL的方法仅学习像素级映射,因此语义级信息未被充分探索和利用,这进一步限制了它们的性能改进。与这些方法不同的是,我们结合基于模型的方法和数据驱动的深度学习模型的优点,提出了一种可解释的深度网络具体地说,我们引入了一个有效的算法与DL学习像素级的图像内容的回归先验和图像梯度的语义级判别先验,分别。首先,我们将内容相关先验建模为图像到图像的回归量来执行去块,并将梯度相关先验设计为二元分类器来区分图像是否被压缩。然后,图像去块效应问题被制定为一个最小化的变分模型与两个建议的先验。为了有效地求解该模型,我们设计了一种基于梯度下降技术和半二次分裂方法的交替最小化方案。最后,将迭代算法展开为一个深度网络结构,通过有效的网络训练策略自动学习两个先验知识。我们表明,我们的方法是能够预测视觉上令人愉快的去块图像,同时充分消除不良的JPEG文物。本工作的贡献如下:我们提出了两个有效的先验描述图像的内容和图像梯度从像素级和语义级,分别。通过使用两个先验作为正则化,我们引入了一个新的变分模型的JPEG压缩伪影去除。我们提出了一个交替的最小化算法,这是基于梯度下降技术和半二次分裂方法,以解决变分模型。通过展开算法,我们设计了一个新的深度网络架构的图像去块问题。以这种方式,可以从训练样本中自动估计所提出的两个先验。在ad-此外,由于前馈过程模仿交替最小化算法的处理流程,因此增加了深度模型的可解释性。我们收集了一个新的数据集,其中包含基于流行的在线社交软件微信的压缩/清晰图像对。该数据集旨在补充现有的Twitter数据集[8],以服务于相关的研究社区。大量的实验表明,我们提出的网络在基准测试和现实世界的用例中都表现良好2. 相关工作2.1. 基于模型的方法在早期的研究中,图像滤波技术被广泛探索以显式地去除压缩伪影。例如,在[36]中提出了一种具有自适应的二次规划技术,以去除块效应并保留图像细节。在方法[54]中引入了用于在移位窗口中进行s平滑和后滤波的自适应邻域。Yoo等人[49]利用基于组的滤波来改善图像块之间的相关性并减少块效应。Foi等人[12]通过在形状自适应DCT域中进行滤波来实现图像去噪和去块。另一方面,先验知识也起着至关重要的作用,在这项任务中,因为它是一个不适定的反问题。许多研究者致力于探索有效的先验知识来约束解空间。作为最重要的先验之一,量化步长可以用于估计清晰图像的DCT系数的范围以约束去块结果[35,55]。其它图像先验,例如,稀疏表示[3,4,40,52]、低秩[59]、非局部自相似性[60]和图[34]也被探索和利用。Li等[27]结合图像分解算法和稀疏先验,实现JPEG伪影去除和图像增强。Liu等[35]通过利用图像和DCT域中的稀疏性来改进图像去块在[37]中,引入了基于图的低秩先验以反映图像块的流形结构。Zhang等人[59]通过探索DCT域中的非局部相似性来减少压缩伪像。Liu等[34]基于Retinex理论提出了在联合减少压缩伪像和提高对比度之前的图形平滑。虽然这些基于模型的方法是灵活的并且具有良好的可解释性,但是它们通常具有有限的手工过滤器和先验的表示能力。2.2. 深度学习方法在过去的几年里,深度学习在JPEG压缩伪影去除方面取得了突破性进展···4088argmaxy−x+λf(x),(2)∇∇|2|··由于深度学习方法具有强大的非线性表示能力,通常比基于模型的方法具有更好的性能Dong等人[8]通过设计四层CNN架构引入了第一种基于DL的方法,在压缩伪影去除方面取得了突破性进展。受残差学习的启发,几种深度网络架构被很好地设计用于JPEG压缩伪影去除和相关恢复任务[18,32,42,57,62,63]。Fan等人[11]通过结合用于各种图像恢复任务的不同参数化图像算子来构建为了产生视觉上令人愉悦的结果,利用生成对抗网络(GAN)来捕获底层数据分布以生成生动的图像纹理[14,15,20]。Yoo等人[48]通过估计局部块的频率分布来实现图像去块Kim等人[23]提出了一种伪盲去块方法,其中针对盲和非盲去块两者估计许多基于双域学习的方法[5,10,19,61]也通过考虑DCT相关先验而引入。最近,许多研究人员试图将领域知识和深度学习结合起来,用于各种图像恢复任务。Wang等人[45]通过使用DCT像素域稀疏编码和学习的迭代收缩阈值算法来构建双域网络。Chen等人[6]设计基于经典迭代非线性反应扩散的深度网络,用于有效和高效的图像恢复。在文献[7,13]中,作者采用了经典的卷积稀疏编码来解决图像去块效应问题。Yang等[46]通过结合压缩感知理论和深度学习,使用稀疏采样的测量值进行图像在替代的最小化框架下,深度CNN也被用于学习先验并作为正则化器[9,31,33,56,58]。我们的方法共享这些类似的精神,但不同于上述方法,只学习像素级映射关系,我们进一步引入语义级信息,以更好地处理JPEG压缩伪影去除。3. 方法3.1. 动机通常,JPEG伪影去除旨在从其压缩观察y=x+v获得清晰图像x,其中v包含压缩伪影和残留图像内容。由于该任务是不适定的逆问题,因此从贝叶斯的角度来看,可以通过求解MAP问题来获得清晰的图像:arg max logp(y x)+logp(x),(1)X其中logp(y x)和logp(x)分别表示数据似然性和先验项。 形式上,通过表演负对数变换,等式(1)可以被重新表述为能量最小化变分模型:22X其中f(x)表示与先验logp(x)相关联的正则化子,并且λ是折衷参数。很明显,正则化子在获得高质量的解决方案中起着至关重要的作用。在基于模型的优化方法中,已经探索了许多正则化器,例如,低秩[59]和非局部自相似性[60]。虽然这些方法通常是耗时的,但手工制作的先验并不强大,不足以获得良好的性能。因此,利用强大的非线性能力,深度展开网络[7,13]已经被探索用于从训练样本中提取先验。尽管在可解释性和性能方面有所改进受压缩伪像影响(例如,分块、模糊和条带化),JPEG压缩图像的整体质量将显著低于其清晰的对应物。换句话说,应该容易区分图像是否已经从语义级压缩。这一观察激励我们引入一个语义级的歧视之前,补充现有的方法,图像去块。此外,根据我们的领域知识,大多数压缩伪影对高频部分的影响大于对低频部分的影响。如图1所示,由于梯度的固有稀疏性,梯度域上的直方图比图像域具有更强的规律性。此外,压缩梯度y的直方图比清晰梯度x稀疏得多,如图1所示。这是因为高频部分的量化间隔比低频部分的量化间隔大得多压缩前后高频部分的t变化。因此,我们认为,使用图像的高频部分可以提供更好的判别信息。基于上述观察,我们设计了一个语义级先验,并将其应用于图像梯度,这是最常用的高频图像信息[38]。通过在等式(2)之前添加语义级判别式,我们的最终变分模型为:argmaxy−x2+λ1fp(x)+λ2fs(x),(3)其中是微分算子。fp()和fs()分别表示用于传递像素级回归先验和语义级判别先验的正则化器3.2. 优化为了构造用于等式(3)的逐步对应的深度展开网络架构,我们首先设计了一个深度展开网络架构。X4089∇∇2····图1:统计直方图。从左至右:y; x; y和x的直方图;y和x的直方图。有效的交替最小化算法来获得展开推理。通过引入两个辅助变量u和g,等式(3)可以被重写为无约束等式(2)。将清晰图像标记为0(负),将压缩图像标记为1(正)。以这种方式,在优化期间,等式等式(9)为g提供了增加或减小其值是否将提高清晰度的语义确定,这补充了等式(8)中的像素级约束。3)由于方程(7)是最小二乘问题,因此它具有封闭形式的解。为了加快计算速度,我们采用快速傅立叶变换(FFT)对角化微分算子,这样就可以避免大矩阵求逆。通过将一阶导数设置为零,等式(7)的解为:−1F(y)+αF(uk)+β,Σd∈{h,v}F*(d)F(gk),优化问题:argmaxy−x2+αu−x2+βg−x2xk=FF(I)+αF(I)+β,Σd∈{h,v}F*(d)F(d),,(十)二、二x, u, g2其中I是单位矩阵,F是FFT算子,F*+λ1fp(u)+λ2fs(g),(4)其中α和β是惩罚参数。等式(4)可以通过交替地求解子问题来解决:arg maxαu−xk−12+λ1fp(u),(5)是复共轭算子,F−1是逆FFT算子,h和v分别是水平和垂直差分算子。因为所有的计算都是基于-以像素方式形成,可以有效地计算x的更新。但是,如果复杂的手工去阻止程序和u2分类器的使用,将整个优化过程arg maxβg−xk−12+λ2fs(g),(6)arg maxy−x2+αuk−x2+βgk−x2,计算成本高。因此,我们将上述算法展开到深度网络中,以从基于模型的优化和数据驱动的深度学习中获得优势二二二X(七)3.3. 深度展开网络其中k=1,2,…K是迭代。下面,我们详细介绍每个子问题的更新。1) 子问题(5)是fp(u)的邻近算子,对应于对图像xk-1进行去块。解可以表示为:uk=deblocker(xk−1),(8)其中,de-blocker()可以是任意图像去块算法。在本文中,我们设计了一个深度卷积神经网络来执行去块。通过这种方式,可以直接从训练数据中学习复杂的图像内容相关先验,而无需手动设计。2) 既然我们想引入语义级由于分类是最基本的语义相关分析,所以将用于图像去块的判别信息fs(g)因此,不像求解直接部署图像到图像回归网络的u,我们遵循Li等人。[26]并通过反向传播以计算fs(g)的导数。求解g的解为:如图2所示,我们的深度展开网络包含K个阶段,这些阶段被有意设计为与优化算法中的K次迭代相对应。在每个网络阶段中,首先更新两个辅助变量,然后计算去块图像。因此,现在留给我们的问题是如何设计像素级正则化器fp()和语义级正则化器fs()。去块器fp()为了实现图像到图像的恢复,为了探索像素级内容相关先验,我们首先设计一个基本单元,然后采用它来构造去阻塞器。由于不同的量化步骤,在不同的空间尺度上的压缩伪影将出现。因此,为了捕获全局和多尺度局部空间信息,我们利用非局部操作[62]和扩张卷积[50]来形成基本单元。具体而言,在每个基本单元中,我们首先部署非本地操作来捕获全局空间信息。与[62]类似,非局部操作被执行为:M_out=M_in+θ(M_in)ν(M_in)ξξ(M_in)W,(11)G4090g−联系我们(j)(j−1)(j−1)fs(g(j−1))d,kgd,k=gd,k −ηβ(gd,k−dxk−1)+λ2(j1)d,k,(九)其中M_in和M_out是输入和输出特征;θ(·)、ν(·)和ξ(·)是用于减少信道数量的1×1卷积;†是转置运算;W是1×1卷积;其中d、h、v是水平和垂直方向,分别η是步长,并且j是内部迭代。为了适应整体能量最小化,我们有意地卷积以执行隐藏到输出操作。我们根据关联规则将(θνί)ξ重新排序为θ(νίξ),这可以通过以下方式大大降低计算复杂度:4091·Σ∧∧×个图2:我们的K阶段网络的框架。每个阶段由三个操作组成,以完成u、g和x。总体优化过程和图示分别在顶行和底行上示出避免了大量的矩阵计算。然后,将这些全局空间信息发送到具有不同膨胀因子的三个级联的膨胀卷积层中。以这种方式,基本单元可以捕获宽范围的空间信息,并使单个网络能够处理多个量化步骤。最后,我们利用基本单元来构造解阻塞器。请注意,我们采用密集结构[22]和跳跃连接来避免梯度消失并传播图像细节以提高去块性能。为了进一步利用图像去块的语义信息,我们构建了基于DL的二进制分类器,其接收图像梯度作为输入并输出单个标量,以表示被压缩的概率。具体来说,我们采用六个标准卷积层(非线性激活),一个全球平均池层,和两个全连接层,构建分类器。输出标量由sig-moid非线性函数处理请注意,全局平均池化操作可以将因此,可以通过等式(9)的计算来更新梯度,使得可以沿着“清晰度”的方向来通过考虑像素级和语义级信息两者,可以通过等式(10)获得去块图像。3.4.实现细节由于我们的深度展开网络包含大量参数,因此手动确定这些参数是不切实际的。因此,我们使所有可学习的参数从训练样本中自动学习。我们强制去块器和分类器共享它们自己的参数,以减少参数的数量,从而避免过拟合。对于等式(8)至(10)中的权重,我们让它们被有区别地学习。在本文中,我们采用两阶段训练策略来训练我们的深度展开网络。在第一阶段,我们只通过二进制交叉熵损失函数训练分类器1NL=−zlog(z)+(1−z)log(1−z),(12)特征映射到单个标量中,这允许我们的分类器处理任意大小的输入梯度而且由于CE编号我我我i=1如果整个分类器是可微的,则它可以参与等式(9)的计算以更新g。如图2所示,通过将去阻塞器和分类器插入优化中,可以构建深度展开网络。应该指出,我们的网络具有良好的可解释性,即,每个网络模块对应于优化中的每个步骤。去块器在实现等式(8)的功能之前实现图像内容相关的探索,其是去除JPEG伪影。该分类器完成图像梯度相关先验知识的探索,并参与对图像梯度相关先验知识的学习其中N是训练样本的数量,z i是分类器r的输出标量,并且z∧i是标签。对于压缩图像,我们设置z∧i=1,对于清晰图像,设置z∧i=0。在第二阶段中,冻结经训练的分类器的参数网络中的其余参数采用平均绝对误差(MAE)进行训练。在我们的深度展开网络中,所有卷积核大小都设置为3 3。去块器和分类器的特征图的数量分别为112和32。我们设置K=5和J=3,并使用经典的ReLU [25]作为非线性激活。膨胀因子被设置为1、3和4。4092||×个d,k∇表1:PSNR SSIM PSNR-B值和参数数量比较。最好和次好的结果是粗体加下划线。我们的网络实现了最佳的整体效果与容忍的参数数。数据集质量SADCT [12] LD [27] PCA [40] ARCNN [8] TNRD [6] DnCNN [57]1028.88 |0.8071|二十八点十六分二十八点三十九分|0.7997|二十七点五九二十九点三二|0.8002|二十九点零八分二十九点零三分|0.7929|二十八点七十六分二十九点二十八|七九九二|二十九点零四分二十九点四十|0.8026|二十 九 点十三分经典5LIVE1BSD5002030.92 |0.8663|二十九点七五三十点半|0.8584|二十九点三七三十一点五六|0.8584|三十一点一二三十一点十五|0.8517 |30.59三十一点四十七|0.8576|三十一点零五分31.63|0.8610 |31.193032.14 |0.8914 |30.83三十一点四十七|零点八八三○|三十点一七三十二点八六|0.8838个单位|三十二点三十一分三十二点五一|0.8806|三十一点九十八三十二点七八|0.8837|三十二点二十四三十二点九一|0.8861|三十 二点三八1028.65 |0.8093个单位|二十八零一二十八点二六|0.8052 |27.6829.01|0.8090|二十八点八三二十八点九六|0.8076|二十八点七七二十九点十四分|零点八一一一|二十八点八八二十九点十九分|0.8123|二十 八块九2030.81 |0.8781|二十九点八二30.19|0.8715|二十九点六四三十一点二八|0.8746 |30.72三十一点二十九|0.8733|三十块七十九三十一点四十六|0.8769|三十一点零四分三十一点五十九|0.8802|三十 一 点零七分3032.08 |0.9078|三十点九二二十九点四十一|零点八九六|二十九点三十六分三十二点六二|0.9034 |32.18三十二点六七|0.9043|三十二点二二三十二点八十四分|0.9059|三十二点二八三十二点九八|0.9090|三十 二点三四1028.23|七七八零|二十七点三八二十八点零三分|0.7824|二十七点二十九二十八点六四|0.7793|二十八零一二十八点五六|0.7907|二十七点八七二十八点六|0.7926 |27.95二十八点八四|0.8006|二十 八点四十四2030.09 |0.8510|二十八点六一二十九点八二|0.8514|二十八点四十三分30.73|0.8510|二十九点四二三十点四十三|0.8594|二十九点十分三十点五一|0.8611|二十九点三十四分三十一点零五分|0.8741|三十 点二十九三十三十一点二一|0.8838个单位|二十九点三十四分30.87|0.8719|二十九点十五分三十一点九九|0.8840 |30.84三十一点五二|0.8904|二十九点九二三十一点五十八|0.8902 |30.02三十二点三十六|0.9049|三十 一点四十三推特27.61 |0.7281|二十七点五十三分二十七点五十八|0.7274|二十七点四九二十七点七一|0.7302|二十七点六六二十七点五四|0.7295|二十七点四九二十七点六|0.7272|二十七点五十二分二十七点六三|七二九四|二十 七点五四微信29.60 |0.7995|二十九点五九二十九点四十八|0.7956|二十九点四十七二十九点六三|七九九四|二十九点六二十九点半|七九八七|二十九点二十九二十六点六四|0.7908|二十六点六三二十九点五十七|0.7982|二十 九点五十七#参数(×105)-1.06 0.21 6.69数据集质量LPIO [11] M-Net [42] DCSC [13] RNAN [62] RDN [63]拟定1029.35 |0.8015|二十九点零四分二十九点六九|0.8107|二十九点三十一分二十九点六二|零点八二七|二十九点半二十九点八七|0.8278|二十九点四二三十点零三分|0.8194|二十九点五九三十点二十六|0.8403|三十 分零五分经典5LIVE1BSD5002031.58|零点八五六七|三十一点一二三十一点九|0.8658|三十一点二十九三十一点八一|0.8804|三十一点三十四32.11|0.8693|三十一点二十六分三十二点十九分|0.8704|三十一点五十三分三十二点四十|0.8881|三十 一 点九六3032.86 |0.8835|三十二点二八三十二点九十七分|0.8881|三十二点四十九分三十三点零六分|0.9030|三十二点四十九分三十三点三八|0.8924|三十二点三十五三十三点四六|0.8932|三十二点五十九分三十三点五六|0.9080|三十 二 点九1029.17 |0.8119|二十八点八九二十九点四十五|0.8193|二十九点零四分二十九点三十四分|0.8317|29.01二十九点六三|0.8239|二十九点十三分二十九块七|0.8252|二十九点三七二十九点七五|0.8395|二十 九点五一2031.52 |0.8766|三十一点零七分三十一点八三|0.8846|三十一点一四31.70|零点八九六|三十一点一八三十二点零三分|0.8877|三十一点一二三十二点十分|0.8886|三十一点二十九三十二点零六分|0.9009|31.623032.99 |0.9074|三十二点三十一分三十三点零七|0.9108|三十二点四十七三十三点零七|0.9218|三十二点四十三三十三点四十五|0.9149|三十二点二二三十三点五四|0.9156|三十二点六二三十三点四三|0.9254|三十 二 点八一1028.81 |0.7815|二十八点三十九分二十八点九六|0.8039|二十八点五六28.95|0.8050|二十八点五五二十九点零八分|0.8054|二十八点四八二十九点二十四|0.8080|二十八点七一二十九点四十八|0.8146|二十 九 点十三分2030.92 |0.8551 |30.07三十一点零五分|0.8742|三十点三十六31.13|0.8758|三十点四十一三十一点二五|0.8751|三十点二十七三十一点四十八|0.8789|三十点四十五分31.65|0.8825|三十 点九六三十三十二点三十一分|0.8866|三十一点二十七三十二点六一|0.9072|三十一点十五三十二点四二|0.9057|三十一点五二三十二块七|0.9068|三十一点三三三十二点八三|0.9076|三十一点六三十二点九三|0.9108|三十 一 点九七推特27.47 |0.7333|二十七点四十一二十七点九八|0.7441|二十七点八七二十七点六三|0.7313|二十七点四十三二十七点四十三|0.7183|二十七点四二二十七点四十四|零点七一九○|二十七点三十九分二十八点二七|0.7498|二十 八 点二六微信28.90|八千|二十八块九二十九点八二|零点八零六七|二十九点八二二十九点五十八|0.8004|二十九点五十八二十九点五六|0.7996|二十九点五六二十九点五十七|八千|二十九点五一三十点一六|0.8196|30.13#参数(×105)13.94 6.67 3.21 74.09 220.03 88.215. 为了训练网络,我们使用Matlab JPEG编码器生成JPEG压缩图像。JPEG质量因子(QF)设置为10,20和30。我们使用BSD500 [2]中的训练集和测试集作为我们的训练集。训练过程在Y-CrCb空间的Y通道图像上进行我们随机生成64 - 64训练补丁对,批量大小为10。我们采用Adam求解器[24]作为优化器,学习率固定为10- 4。我们使用TensorFlow [1]来实现我们的网络。注意我们仅训练一个单个模型来处理所有JPEG压缩因子。我们初始化x0=y和g(0)= dxk−1,并且等式(8)至(10)中的所有权重被初始化为0.01。4. 实验结果我们将我们的网络与三种模型驱动的方法进行比较:形状自适应DCT(SADCT)[12],层分解(LD)[27]和PCA基础学习(PCA)[40],以及几种基于深度学习的方法:伪影减少卷积神经网络(ARCNN)[8],可训练非线性反应扩散(TNRD)[6],Denoising卷积神经 网 络 ( DnCNN ) [57] , 学 习 参 数 化 图 像 算 子4093(LPIO)[11],记忆网络(M-Net)[42],深度卷积稀疏编码(DCSC)[13],残余非局部注意力网络(R-NAN)[62]剩余密集网络(RDN)[63]。4.1. 合成数据集我们首先报告了在三个广泛使用的合成数据集上的比较结果,Classic5[51]中有5张图像,LIVE1[39]中有29张图像,BSD500[2]的验证集中有100张图像。我们采用PSNR、SSIM [44]和PSNR-B [47]进行定量评估。由于PSNR-B比PSNR和S-SIM对块效应更敏感,因此建议[8]在该去块问题中使用表1报告了定量结果,我们的网络在所有合成数据集上都获得了最佳的总体结果。特别地,对于QF = 10的Classic 5数据集,我们的方法在最近提出的RD-N [63]上的平均增益分别为PSNR中的0.23dB、SSIM中的0.0209和PSNR-B中的0.46dB与其他方法相比,我们的方法是遥遥领先的请注意,我们只训练一个模型来覆盖所有三个QF,这证明了我们方法的灵活性和有效性,在这些数据集中包含的各种在图3中,我们显示了两个视觉比较,很明显,其他比较方法可以有效地去除大多数压缩伪影,但无法恢复图像细节。S.而我们的网络可以很好地恢复图像纹理,具有更好的视觉质量。这是因为我们的方法学习双重先验,这使得网络能够同时利用低级像素信息和高级语义信息。这样一来,不仅形象4094g1·∇·····' Classic5 '中的示例' LIVE1 '中的示例QF = 10 SADCT [12] LD [27] PCA [40]ARCNN [8] TNRD [6] DnCNN [57]LPIO [11]M-Net [42]DCSC [13] [63]第63话:我的世界QF = 20 SADCT [12] LD [27] PCA [40]ARCNN [8] TNRD [6] DnCNN [57]LPIO [11]M-Net [42]DCSC [13] [63]第63话:我的世界图3:具有不同JPEG质量因子的不同合成数据集的视觉比较去除了与内容相关的压缩伪像,而且恢复了与图像梯度相关的清晰度。4.2. 真实世界用例的比较在线社交媒体软件已广泛用于消息发布和共享。为了减少传播-(a)x0(b)fs(g1)(c) fs(g3)3(d) fs(g5)5这些平台通常在服务器端压缩和重新缩放原始图像这导致当用户查看所发布的图像时出现不期望的和不可避免的压缩伪影。为了补充现有的Twitter数据集[8]并在真实场景中为相关研究社区提供服务,我们基于流行的社交媒体微信手动构建了一个新的数据集。该数据集包含300张图像及其微信压缩版本1.为了避免由于图像分辨率过高而导致的内存不足,我们首先随机地裁剪图像,然后执行去块操作和测量计算。我们在表1中显示了定量结果,其中由于有效的双重先验,我们的模型始终产生最佳的整体性能。图4示出了两个视觉比较。由于不同的压缩策略,很明显,这两个压缩后的图像包含不同的外观的文物,我们的方法仍然取得了优于其他比较方法的性能。据观察,我们的方法可以产生更清晰的结果比其他竞争的。4.3. 分析我们首先在图5中可视化分类器在不同阶段的导数。通过参考x0,g的大导数值的面积基本相同,这些导数值被归一化以用于可视化1数据集可在https://xueyangfu.github.io/图5:分类器的衍生物的可视化作为压缩伪像的区域。由于梯度表示函数的增加方向,因此使用等式(9)可以沿着较少伪影的方向更新g在图6中,我们将分类器中最后一个卷积层的激活可视化。很明显,我们的分类器可以有效地区分清晰的图像和他们的压缩版本产生于不同的平台。由于我们使用分类器来探索梯度相关的先验知识,因此压缩和清晰激活之间的差异主要集中在图像纹理和结构以及压缩伪影的边缘等领域。这证明了使用我们的梯度相关先验可以为网络提供与“清晰度”相关的约束我们还在图7中显示了一个可视化结果,以演示fs()的效果。清楚的是,仅使用像素级fp()可以获得具有模糊边缘的去块结果。通过添加语义级fs(),边缘变得更清晰,具有更好的视觉质量。对于像素级去块器,我们通过使用三个运算器与场景进行比较具体来说,我们测试了手工制作的l1稀疏性[17],基于DL的DnCNN [57]和我们的默认fp()。表2示出了对BSD500(QF = 10)的定量比较,并且使用我们的fp(·)获得了最佳结果。比较d布吕格布吕格4095·[12]第十七届中国国际汽车工业展览会ARCNN [8] TNRD [6] DnCNN [57]压缩SADCT [12] LD [27] PCA [40] ARCNN [8] TNRD [6] DnCNN [57]Twitter LPIO示例M-Net [42]DCSC [13] [63]第63话:我的世界在' WeChat '中的示例LPIO [11]M-Net [42]DCSC [13] [63]第63话:我的世界图4:两个真实用例的视觉比较。(a) 压缩(b)激活(a)(c)清除(d)激活。(c)图 6 : 分 类 器 中 的 特 征 图 的 激 活 。 从 上 到 下 :BSD500、Twitter和微信。(a) 压缩(b)Wwithoutfs(·)(c)Withfs(·)图7:fs(·)的有效性。利用其他两个去块器,我们的fP()可以提取全局和多尺度局部特征。这特别适合于图像去块,因为压缩伪影通常具有不同空间尺度的外观。K级分析还分析了K级对BSD500(QF)的影响,并给出了定量结果= 10)。使用K=1作为基线,很明显,性能具有3个阶段的明显改善。当K=7时,定量结果呈现出略微下降的趋势,这可能是由于表2:使用不同去阻断剂的比较近端操作员PSNR SSIM PNSR-Bl1稀疏性[17]28.180.798527.28DnCNN [57]我们的fp(·)28.9729.480.80940.814627.9529.13图8:不同级数K的定量结果。梯度传播由于增加的阶段。因此,我们将K=5设置为默认级数。5. 结论在本文中,我们提出了两个数据驱动的先验JPEG压缩伪影去除。具体来说,我们设计了一个像素级先验和一个语义级先验,分别提供回归和判别信息。然后,我们嵌入这两个先验变分模型,并开发一种替代的优化算法来解决它。该优化算法被进一步展开为深度网络,在深度网络中,可以有效地从训练样本中探索双重先验。在基准测试和真实用例上的实验表明,我们的方法与最先进的方法相比表现良好。4096引用[1] Mart´ın Abadi,Paul Barham,et al. Tensorflow:一个大规模机器学习系统。2016年USENIX操作系统设计与实现研讨会。六个[2] 巴勃罗·阿贝莱斯,迈克尔·梅尔,查利斯·福克斯,还有吉坦德拉·马利克.轮廓检测和分层图像分割。IEEETransactionsonPatternAnalysisandMachineIntelligence,33(5):898-916,2010. 六个[3] 克里斯蒂安·布莱迪和马丁·霍勒。一种基于全变分的jpeg压缩模型。SIAM Journal on Imaging Sciences,5(1):366-393,2012. 二个[4] Huibin Chang,Michael K Ng,and Tieyong Zeng.通过一个 学 习 字 典 减 少 jpeg 解 压 缩 中 的 人 工 制 品 。 IEEETransactions on Signal Processing,62(3):718-728,2013. 二个[5] Honggang Chen , Xiaohai He , Linbo Qing , ShuhuaXiong,and Truong Q Nguyen. DPW-SDNet:双像素小波域深度cnn,用于JPEG压缩图像的软解码。在CVPR研讨会,2018年。三个[6] Yunjin Chen和Thomas Pock。可训练的非线性反应扩散:一个灵活的框架,快速有效的图像恢复。IEEETransactionsonPatternAnalysisandMachineIntelligence,39(6):1256-1272,2016. 三六七八[7] Nathaniel Chodosh和Simon Lucey何时使用卷积神经网络求解反问题。在CVPR,2020年。3[8] Chao Dong , Yubin Deng , Chen Change Loy , andXiaoou Tang. 通过 深度卷积 网络减少 压缩伪 影。在ICCV,2015年。二三六七八[9] Weisheng Dong,Peiyao Wang,Wotao Yin,GuangmingShi,Fangfang Wu,and Xiaotong Lu.去噪先验驱动深度神 经 网 络 图 像 恢 复 。 IEEE Transactions on PatternAnalysis and Machine Intelligence,41(10):2305三个[10] Max Ehrlich,Larry Davis,Ser-Nam Lim,and AbhinavShri- vastava.量化引导jpeg伪影校正。在欧共体-简历,2020年。三个[11] 范庆南,陈东东,卢远,华刚,余能海,陈宝泉.参数化图像算子的通用解耦学习框架。IEEE Trans- actionson Pattern Analysis and Machine Intelligence , 2019 。doi:10.1109/TPAMI.2019.2925793。三六七八[12] Alessandro Foi , VladimirKatkovnik , and KarenEgiazarian.用于灰度和彩色图像高质量去噪和去块效应的 逐 点 形 状 自 适 应 dct 。 IEEE Transactions on Image
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功