深度卷积稀疏编码网络架构用于减少JPEG压缩伪影

31 浏览量更新于2023-10-12 收藏 3.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2501基于深度卷积稀疏编码的傅雪阳1号，查正军，凤舞一：丁兴浩2，约翰·佩斯利31中国科学技术大学信息科学与技术学院2厦门大学信息学院3美国哥伦比亚大学电气工程系数据科学研究所{xyfu，zhazj，fengwu}@ ustc.edu.cn，dxh@xmu.edu.cn，jpaisley@columbia.edu摘要为了有效地减少JPEG压缩伪影，我们提出了一种深度卷积稀疏编码（DCSC）网络架构。我们在经典学习迭代收缩阈值算法的框架中设计DCSC [16]。为了专注于识别和分离伪影，我们稀疏地编码特征图而不是原始图像。最终的去块图像直接从编码特征重建。我们使用扩张卷积来提取多尺度图像特征，这使得我们的单个模型可以同时处理多个JPEG压缩级别-S.由于我们的方法将基于模型的卷积稀疏编码与基于学习的深度神经网络集成在一起，因此整个网络结构紧凑且更易于解释。当与最先进的方法相比时，所得到的轻量级模型生成相当或更好的去块结果1. 介绍JPEG、WebP和HEVC-MSP等图像压缩方法允许高效的图像存储和传输。然而，它们可能的粗量化可能导致可见的伪影。这些伪影严重降低了感知质量和随后的计算机视觉系统。S.减少有损压缩的伪影是一项重要的计算机视觉任务，尤其是对于最广泛使用的JPEG格式。JPEG压缩是通过对8×8像素块应用离散余弦变换（DCT）来实现的。对DCT系数进行进一步的粗量化以节省存储空间。然而，该方案导致在块的边界处的图像不连续性，这产生* 通讯作者。本工作得到了国家重点研发计划项目2017YFB1300201 、国家自然科学基金项目 61622211 、61620106009 、 61701158 和中央高校基础研究基金项目WK2100100030的资助。阻塞和模糊伪像。为了提高JPEG压缩图像的质量，人们一直在探索不同的方法。通常，JPEG伪影减少方法是基于模型的[31，46，11，33，29]或基于学习的[8、41、53、6、14、55]。前者通常使用领域知识设计，而后者旨在直接从训练数据中学习虽然基于学习的方法已经取得了竞争力的性能相比，基于模型的方法减少JPEG伪影，这两种方法具有复杂的优点。基于模型的方法通常具有明确的物理意义，但存在优化耗时的问题，而基于学习的方法测试速度快，但学习的模型解释性不足。最近的工作已经显示了将强大的深度学习建模方法与基于模型的稀疏编码（SC）相结合以通过双域网络减少JPEG伪影的优势[41]。在本文中，我们通过使用卷积稀疏编码[4，22，36]的思想，基于浅的、完全连接的层开发了这条初始工作线。由于卷积稀疏编码（CSC）是空间不变的，并且可以直接处理整个图像，因此它适用于各种低级视觉任务，例如图像超分辨率[18]和层分解[50，17，51]。我们的主要贡献是提出了一个深入的模型，JPEG文物减少，增加了可解释性。使用CSC的学习迭代收缩阈值算法（LISTA）的框架，我们构建了一个递归的深度模型，将伪影从潜在的特征图中分离出来。我们利用膨胀卷积进行多尺度图像特征提取，使我们的单一模型能够处理多种JPEG质量。由于我们遵循经典的优化算法来构建深度卷积稀疏编码，因此每个模块都是专门设计的，而不是简单地堆叠，使我们的模型紧凑且易于实现。与几种最先进的方法相比2502图1.提出的DCSC网络的JPEG伪影减少的框架我们网络的每个组件都是为了完成特定的任务而设计的首先，对JPEG压缩图像J执行扩张卷积以获得多尺度特征X。然后，构造卷积和迭代LISTA来稀疏编码X以识别和分离伪影。学习的稀疏码UR最终用于生成残差H以预测去块图像O。请注意，根据ISTA（3）的前馈展开形式，S在迭代中共享。1.1. 相关工作早期的JPEG伪影减少方法严重依赖于设计，例如图像域[31，7，46]或变换域[30]中的滤波;例如，[11]使用基于形状自适应DCT的图像滤波器，[49]使用join- t图像/DCT域滤波算法。另一个方向是将伪影去除公式化为不适定的逆问题，并通过优化来解决，例如通过投影到凸集[43]上，使用回归树[24]，图像分解[29]或非局部自相似性属性[52，54，28]。稀疏性已经被充分探索作为一种有效正则化这个不适定问题的技术[5，33，34，32]。在过去的几年里，通过使用深度卷积神经网络（CNN）的基于深度学习的方法，在这个问题上取得了显着的进展这些方法的目的是学习一个非线性映射，从未压缩的图像配对其相应的JPEG压缩版本。[8]介绍了第一种基于深度CNN的JPEG伪影减少方法，其中作者在流行的超分辨率网络的基础上设计了一种相对较浅的网络结构[9]。文献[6]提出了一种用于一般图像恢复的可训练受剩余学习[21]和密集连接[23]在高级视觉任务中，引入了两个非常深的网络用于一般图像恢复，包括JPEG伪影减少，图像去噪和超分辨率[53，39]。由于增加网络深度可以增加接收场，因此[53，39]实现了出色的性能。基于图像和DCT域中的JPEG相关先验[34]，分别提出了用于去块的两种不同的双域网络[19，41]。在[19]中，作者设计了一个20层双域网络来消除复杂的伪影。在[41]中，为了获得速度和性能增益，作者构建了一个级联网络，[16 ]在双域中执行LISTA [16]。在[45]中，为了有效地恢复高频细节，作者将去块问题公式化为DC-T域中的分类问题。受有吸引力的生成对抗网络[15，27]的启发，提出了一些去块方法[14，20]来生成照片般逼真的细节，以进一步提高视觉质量。最近，提出了一种解耦学习框架[10]，将不同的参数化图像算子用于图像滤波和消除任务。我们的网络架构通过结合领域知识和深度学习来减少JPEG伪影，与方法[412. 方法我们在图1中显示了所提出的DCSC的框架。如图所示，我们的模型包含三个组件：多尺度特征提取，对提取的特征进行卷积LISTA，然后进行图像重建。整个网络是一个端到端的系统，它以JPEG压缩图像J作为输入并直接生成输出图像O。该网络相当简单，每个组件都旨在实现特定的任务。下面我们将介绍我们的网络架构和培训策略。2.1. 网络架构2.1.1多尺度特征提取因为JPEG压缩质量可以根据需要而变化，所以由于压缩而产生的伪像可以在其空间范围上变化，较低的JPEG质量在平滑区域中引起较大比例的伪像。为了处理不同的JPEG质量，现有的基于深度学习的方法要么在每个特定的JPEG质量上训练单独的模型[9]，要么以更大的参数负担为代价构建深度模型以增加感受野[53，39]。为了解决这个问题，我们采用扩张卷积[47]来提取多尺度fea，2503¨¨真的。通过将相同的滤波器扩展到不同的尺度，扩展卷积可以在不引入额外参数的情况下增加上下文区域具体来说，我们首先使用不同的膨胀因子生成一系列特征，然后将这些特征连接起来，其中x是输入信号，Φ是过完备字典，u是相应的稀疏码，F是FrobeNius范数，λ是正参数。为了解决SC问题（2），引入原始的ISTA来用以下迭代方程找到XDF=WDF<$J+bDF，X=concat（ XDF），（1）ur=σθ（ ur−1 +1ΦT（x−ΦuLr−1））=σ（1ΦTx+（I−1ΦTΦ）u）其中DF是膨胀因子，XDF是输出功能θL Lr−1在扩张卷积中，WDF表示卷积运算，WDF和bDF表示扩张卷积的核和偏置，concat（·）表示级联。在这项工作中，我们使用三个膨胀因子，即，DF∈{1，2，4}，我们根据经验注意到这对我们的问题来说已经足够了。图2（d）-（e）示出了d-1的视觉示例。JPEG压缩图像的不同XDF（质量=10）。显然，随着膨胀因子的增加，相应的特征图捕获更大尺度的结构和内容。由于级联的X包含多尺度JPEG压缩功能，我们的单个网络可以处理不同的JPEG质量。=σθ（Gx+Sur−1），u0=σθ（Gx），（3）其中r是当前迭代，L是必须是ΦTΦ的最大特征值n的上限的常数，σθ（·）是具有阈值θ的收缩函数[13]。为了加速实时应用的ISTA，提出了LISTA [16]，通过学习参数来近似ISTA的稀疏编码从数据中提取参数。尽管传统的SC已经扩展到各种图像恢复任务[2，42，5]，但这些方法学习实际上是相同特征的移位版本的多个特征为了解决这个问题，已经引入了卷积稀疏编码方法来以移位不变的方式构建目标函数[51]，这是通过以下方式实现的：(a) 时间复杂度为O（c）¨arg min-−导线UΣMm=1¨w（m）U（m）<$FΣM+λm=1单位（m）（四）(d)XDF=1（e）XDF=2（f） X DF=4图2.多尺度特征的可视化XDF。对于每个膨胀因子，我们仅显示4个特征图以进行可视化。2.1.2卷积列表为了结合基于模型和基于学习的JPEG伪影减少方法的优点，我们通过将经典的C-SC方法[4，51]与LISTA[16]集成来设计我们网络的第二个组件。原始稀疏编码的问题是寻找最优稀疏码，使目标函数（2）最小化，arg min<$x−Φu<$F+λ<$u <$1，（2）u2504当M个稀疏系数U与M个卷积字典w卷积时，它可以用来近似输入图像X。为了解决（4），已经提出了几种耗时优化的算法[17，51然而，卷积运算可以通过将内核转换为循环矩阵来执行矩阵乘法[35]。因此，CSC模型（4）可以看作一般SC模型（2）的特例。这促使我们修改ISTA（3）的形式作为我们网络的第二个组件，其中矩阵乘法被卷积运算取代。此时，经典CSC中的卷积字典被嵌入到可学习的卷积核G和S中，稀疏特征系数成为特征映射Ur。我们选择广泛使用的校正线性单元（ReLU）[26]作为非线性作用函数σθ（·），因为ReLU能够将稀疏性引入模型。请注意，S是根据迭代形式共享的在事实上，G和S之间存在耦合关系，即，S=I-GΦ根据等式（3）。然而，这种关系限制了模型的灵活性和容量。为了充分利用深度学习的优势，我们使用独立的内核来分别对G和S进行建模。2505i=1图3示出了所学习的稀疏特征UR的示例。很明显，JPEG伪像（顶行）和对象结构（底行）被识别和分离。这表明，通过将基于模型的卷积LISTA与深度学习相结合，一个简单的网络结构能够学习有效和有区别的特征。图3.图2的学习稀疏特征的可视化。顶行示出了分离的分块伪影，底行示出了清晰的结构。由于篇幅所限，我们只展示了6个特征。受[53，12]的方法的启发，其中残差信息用于简化学习问题，我们将UR映射到残差图像H，H=WRUR+bR，（5）其中WR和bR是卷积中的参数。如图2（c）所示，估计的残差H主要包含块效应和高频信息。最终的去块图像O通过计算O=J + H。（六）2.2. 损失函数图像恢复任务中最广泛使用的损失函数是均方误差（MSE）[8，53]。然而，由于平方惩罚在图像内的边缘处效果不佳，MSE通常会生成过度平滑的结果。相反，我们使用平均绝对误差（MAE）进行网络训练。MAE不会过度惩罚较大的错误，因此可以保留结构和边缘，这在总变差最小化应用中是众所周知的。在N次训练中，为了证明可解释性，下面我们在迭代过程中可视化两个稀疏特征图（ReLU之后）。作为年龄对{Oi，Ji}N目标函数，，目标是最大限度地减少如图4所示，随着迭代的进行，1个N？变得稳定。这与传统的优化方法是一致的，通过多次迭代，稀疏码收敛到最优解。既然我们可以清楚地看到-L（Θ）=Ni=1<$f（Ji;Θ）−Oi<$1，（7）服务于特征图的变化状态，我们的深度CSC允许在推断期间发生某种可解释性。同时，稀疏性也可以在特征图中观察到，因为在ReLU之后一定数量的像素值等于0。图4.迭代过程中两个稀疏特征映射的示例2.1.3图像重建在R次迭代之后，稀疏特征图UR最终被馈送到卷积层中以生成输出图像。其中f（·）表示我们的DCSC网络，Θ表示所有可训练参数2.3. 参数设置在我们的网络架构中，所有卷积核的大小都是3×3，迭代次数R设置为40。为了保持所有特征图的分辨率不变，我们在所有卷积之前进行零填充。每个扩张卷积层的特征映射的数量是32，并且我们对于剩余的卷积层，将此数字设置为642.4. 培训详情我们使用来自BS-D500 [3]的不相交训练集和测试集作为我们的训练数据。我们使用Matlab JPEG编码器，通过设置输入质量值为10，20和30，生成JPEG压缩图像。我们强调，我们只训练一个模型来处理所有三种JPEG质量。训练过程在YCrCb空间的Y通道图像上进行。我们随机产生一百万-lion80×80 patch pairs用于训练，并使用TensorFlow [1]来实现我们的端到端DCSC网络。公司现采用国际Adam solver [25]，小批量大小为10，并将学习率固定为10−4。2506(a)GT：峰值信噪比|SSIM |PSNR-B（b）JPEG：34.69 |0.921 |34.66（c）LD：36.69 |0.951 |36.87（d）ARCNN：37.52 |0.966 |37.45(e)TNRD ：37.81 |0.968|（f）DnCNN：38.19| 0.970 |38.11（g）LPIO：38.10 |0.970|（h）我国的：38.17 |0.971|38.14图5.在BSD 500数据集的JPEG压缩图像（质量=10）上进行视觉比较请放大以获得更好的可视化效果。(a)GT：峰值信噪比|SSIM |PSNR-B（b）JPEG：30.47 |0.827 |30.47（c）LD：31.25 |0.836 |31.14（d）ARCNN：31.57 |0.847 |31.54(e)TNRD ：31.68 |0.850|（f）DnCNN：31.75| 0.853 |31.67（g）LPIO：31.33 |0.853 |31.33（h）我国：31.72 |0.853|31.70图6.对来自LIVE1数据集的JPEG压缩图像（质量=20）进行视觉比较请放大以获得更好的可视化效果。3. 实验3.1. 与现有技术方法的我们将我们的网络与一种基于模型的方法，基于层分解（LD）[29]和四种基于学习的方法，伪影减少卷积神经网络（ARCNN）[8]，可训练非线性反应扩散（TNRD）[6]，去噪卷积神经网络（DnCNN）[53]和学习参数化图像算子（LPIO）[10]进行比较。为了进行测试，我们采用了Classic5[48]（5张图像）、LIVE 1 [38]（29张图像）和BSD500的验证集[3]（100张图像）作为数据集。图5和图6分别显示了质量为10和20的两个JPEG压缩图像的视觉结果。可以看出，我们的DCSC具有与DnCNN和LPI-O相当的视觉结果此外，DnCNN和LPIO在边缘周围包含轻微的伪影，如红色矩形所示。在计算方面，处理一个1024×1024图像，我们的DCSC需要1.4秒的CPU和0.3秒的GPU。所有实验均在PC2个Intel i7-8700 CPU和1个GTX 1080Ti GPU。我们还计算了PSNR，结构相似性（SSIM）[40]和PSNR-B [44]用于定量评估。PSNR-B被推荐[8]用于这个问题，因为它被设计成比SSIM对块效应更敏感定量结果示于表1中。我们的方法具有与DnCNN [53]相当的PSNR和SSIM值，并且在所有JPEG质量上都具有最佳的PSNR-B结果的2507表1. PSNR |SSIM |PSNR-B值和参数编号比较。最好的和第二好的结果用粗体和下划线表示。请注意，我们的DCSC在PSNR和SSIM上取得了令人满意的结果，在PSNR-B上取得了最好的结果，PSNR-B是专门为评估这种去块效应任务而设计的，参数数量相对较少。数据集质量[29]第二十九话ARCNN [8]TNRD [6]DnCNN [53]LPIO [10]我们的DCSC1028.39 |0.800|27.5929.03 |0.793|28.7829.28 |0.799|29.0429.40 |0.803|29.1029.35| 0.801|29.0429.25|零点八零三|29.24经典52030.30 |0.858|29.9831.15 |0.852|30.6031.47 |0.858|31.0531.63 |0.861|31.1931.58 |0.856|31.1231.43|零点八六|31.413031.50 |0.882|31.3132.51 |0.881|32.0032.78 |0.884|32.2432.91 |0.886|32.3632.86 |0.883|32.2832.68 |0.885|32.661028.26 |0.805|27.6828.96 |0.808|28.7729.15 |0.811|28.8829.19|0.812| 28.9129.17| 0.811|28.8929.17 |0.815|29.17LIVE12030.19 |0.871|30.0831.29 |0.873|30.7931.46 |0.877|31.0431.59|0.880| 31.0831.52 |0.876|31.0731.48 |0.880|31.473031.32 |0.898|31.2732.67 |0.904|32.2232.84 |0.906|32.2832.98 |0.909|三十二点三十五32.99 |0.907|32.3132.83 |0.909|32.811028.03 |0.782|27.2928.56 |0.783|28.5428.42 |0.781|28.3028.84| 0.783 |28.4428.81| 0.781|28.3928.81 |0.784|28.79BSD5002029.82 |0.851|29.5730.42 |0.852|30.3930.35 |0.854|30.1631.05|0.857| 30.2930.92 |0.855|30.0730.96 |0.857 |30.923030.89 |0.883|30.8331.51 |0.884|31.4731.36 |0.887|31.1232.36|0.891| 31.4332.31| 0.886|31.2732.24 |0.890|32.19#参数（×105）-1.060.216.6913.940.94(a)GT：峰值信噪比|SSIM |PSNR-B（b）JPEG：33.76 |0.938 |33.74（c）LD：33.97 |0.940 |33.94（d）ARCNN：34.03 |0.940 |34.01(e)TNRD ：34.76 |0.948|（f）DnCNN：36.53|0.965| 36.41（g）LPIO：36.12 |0.962 |36.08（h）我国：36.51 |0.965|36.49图7.Twitter数据集中JPEG压缩图像的视觉比较[8]。PSNR-B的结果表明，我们的模型是更适合这个JPEG文物减少任务。此外，与DnCNN相比，我们的模型获得了相当的结果，而参数数量减少了86.49%。这是因为我们的DCSC是从经典的LISTA推导出来的，这提高了可解释性。这种可解释性可以指导我们通过更好地设计网络体系结构来提高性能，而不是简单地堆叠网络层。3.2. Twitter上的用例为了进一步证明我们的DCSC模型对真实用例的泛化能力，我们进行了比较-s在ARCNN提供的Twitter数据集上[8]。该数据集包含114张高质量图像及其Twitter压缩版本。对于这个任务，我们不重新训练任何基于深度学习的方法。图7显示了一个示例，其中我们看到我们的模型生成了一个比较结果，2508使用DnCNN [53]和LPIO [10]的整体视觉质量更好，而红色矩形中显示的边缘和结构表2显示了定量评估，其中我们再次看到我们的模型一致性生成最佳PSNR-B值。这表明该模型具有较好的推广能力和潜在的应用价值。3.3. 消融研究接下来，我们考虑不同的模型配置来研究它们对性能的影响。3.3.1多尺度特征我们首先通过训练另一个具有相同结构的网络来评估我们的多尺度特征提取策略，但不使用扩张卷积。图8显示了JPEG压缩图像的一个视觉比较，2509表2. PSNR |SSIM |Twitter数据集上的PSNR-B比较[8]。[29] 0.693 24.17 28.12 0.752 28.11 28.460.761 28.43 28.65 0.770 28.43 25.84 0.758 25.80 28.550.770 28.54||||||||||||(a) Ground truth（b）JPEG压缩图像表4. PSNR |SSIM|通过使用不同数量的过滤器和迭代（质量= 10）对LIVE 1数据集进行PSNR-B比较。过滤器数量=32过滤器数量=64过滤器数量=128R=2028.34 |0.801|28.3228.46 |0.806|28.4128.67 |0.809|28.64R=4029.14 |0.813|29.1029.17 |0.815|29.1729.19 |0.815|29.17R=6029.19 |0.814|29.1629.21 |0.815|29.1829.25 |0.817|29.23参数编号0.38×1050.94×1052.60×105（c）无扩张卷积（d）有扩张卷积图8.膨胀卷积对JPEG压缩图像的影响，质量=10。表3. PSNR |SSIM|使用扩张卷积对LIVE 1数据集进行PSNR-B比较。质量无扩张卷积有扩张卷积1029.10 |0.812 |29.0829.17 |0.815 |29.172031.41 |0.878 |31.3931.48 |0.880 |31.473032.79 |0.906 |32.7832.83 |0.909 |32.81=10。如图8（a）所示，在不使用扩张卷积的情况下，去块图像保留了明显的块伪影，因为多尺度信息没有被建模。这个问题可以通过堆叠更多的卷积层来解决[39]以牺牲更多的参数和记忆要求为代价来增加感受野。如图8（b）所示，使用扩张卷积可以在不增加参数数量的情况下显著减少LIVE1数据集上的定量比较也显示在表3中，其中我们看到使用多尺度特征改善了结果。3.3.2过滤器和迭代次数直观地说，性能可以通过在两个维度上增加网络来提高，无论是过滤器的数量还是深度（或者在我们的情况下，迭代）。我们测试了这两个因素对LIVE1数据集的影响，i=10。具体来说，我们测试深度R∈ {20，40，60}过滤器的数量∈ {32，64，128}。如表4所示，添加更多的迭代可以实现更明显的改进。(a) JPEG图像（b）MSE损失（c）MAE损失图9.不同损失函数的比较使用MAE损失会产生更清晰的结果。表5. PSNR |SSIM|使用不同损失对LIVE 1数据集进行PSNR-B比较。质量DnCNN [53]我们的（MSE损失）我们的（MAE损失）1029.19|0.812| 28.9129.13|0.806 |29.1529.17 |0.815|29.172031.59|0.880| 31.0831.34|0.876 |31.3331.48 |0.880|31.473032.98|0.909|三十二点三十五32.70|零点九零五|32.4132.83 |0.909|32.81”[16]《明史》：“。增加滤波器的数量可以改善网络的线性表示，这对解决非线性学习问题的帮助有限。为了平衡有效性和效率之间的权衡，我们选择R=40和过滤器数量=64作为默认设置。3.3.3损失函数我们使用MAE损失，因为它不会过度惩罚较大的错误，因此可以保留结构和边缘。相反，PSNR所基于的广泛使用的MSE损失通常会产生过度平滑的结果，因为它会惩罚较大的错误并容忍较小的错误。因此，与MAE相比，MSE难以保留图像结构。图9分别显示了MSE和MAE生成的两个结果可以看出，使用MAE可以保留更多的细节。还对LIVE1数据集进行了定量比较，如表5所示。请注意，当我们的方法和DnCNN都使用MSE损失时，我们的模型实现了更好的PSNR-B结果。2510(a) JPEG（b）我们的结果（c）JPEG（d）我们的结果图11.用于对象检测的预处理（阈值=0.5）。(a)JPEG压缩图像（b）增强（a）(c)LD [29]（d）（b）+我们的后期处理图10.用于图像增强的后处理我们的模型模拟实现了文物删除和内容保存。3.4. 应用我们的DCSC模型也可以在彩色图像上训练，并应用于其他视觉任务，我们将在下面讨论3.4.1图像增强的后处理图像增强对于边缘检测、目标分割和许多其他视觉任务是有用的然而，增强算法通常不仅会增强图像外观，还会增强JPEG伪影，从而影响性能和感知。在这种情况下，我们发现应用我们的方法作为后处理是有用的。在图10中，我们通过与LD [29]进行比较显示了一个示例，LD [29]旨在实现联合图像增强和伪影减少。可以看出，使用我们的DCSC提高了增强JPEG图像的视觉质量。此外，与LD相比，我们的模型可以保留更清晰的边缘和更多的内容，例如，云，在红色矩形中显示。3.4.2高级视觉任务大多数用于高级视觉任务的现有模型都是使用高质量图像进行训练的。这些学习的模型在应用于JPEG压缩图像时会降低性能，即使问题对人眼来说并不困难。在这种情况下，JPEG伪影减少模型对于这些高级视觉应用是有用的。为了测试使用我们的模型是否可以提高检测性能，我们在JPEG压缩图像上采用YOLO [37]算法。图11显示了两个视觉结果，其中在JPEG压缩图像中没有检测到狗和一些汽车。相反，使用我们的DCSC作为预处理，通过检测狗和更多的汽车，具有更高的置信度分数，并具有更准确的边界框位置。4. 分析我们的网络架构是通过下面的等式（1）、（3）、（5）和（6）构造的，因此是紧凑的。此外，本文提出的DCSC方法与其它相关方法有明显的区别例如，在[41]中，作者通过结合基于模型和基于学习的方法构建了一个双域网络，其中包含DCT和像素域的两个模块。然而，该模型仅对每个模块使用一步浅SC推理，并且直接将JPEG图像映射到去块图像。相比之下，我们的方法迭代地对多尺度特征进行CSC推断与[41]相比，我们的深度模型能够捕获更多的上下文信息。有趣的是，如图1所示，添加（GX）可以被视为一种身份连接，这与ResNet的网络结构相吻合[21]。添加（GX）表示使用身份连接时的数据保真度项，ResNet的目标是训练深度网络。对于深度模型，两者都可以在前馈过程中有效地传播信息，并在反向传播过程中解决梯度消失问题。同时，如果输入X是连续的或在推理过程中发生变化，我们的模型将成为标准的RNN形式。换句话说，RNN可以被视为具有顺序输入的经典LISTA的特殊情况。这可能会为探索基于模型的方法和深度学习之间的内在联系提供新的思路。5. 结论在这项工作中，基于卷积稀疏编码和深度学习的结合，我们设计了一个可解释的网络来减少单张图像的JPEG伪影我们还使用膨胀卷积，使我们的单一模型，以处理文物在不同的尺度上产生的不同JPEG压缩水平。网络架构简单，规模小，我们相信直观，同时仍然实现有竞争力的去块性能。最后，我们的DCSC方法对其他视觉任务具有潜在的价值在未来的工作中，我们将探索与JPEG相关的处罚的整合，在图像和DCT域，到我们的模型。2511引用[1] Mart´ın Abadi， Paul Barham ， Jianmin Chen ， ZhifengChen ， Andy Davis ， Jeffrey Dean ， Matthieu Devin ，Sanjay Ghe-mawat，Geoffrey Irving，Michael Isard，etal. Tensorflow：一个大规模机器学习系统。在操作系统设计与实现研讨会上，2016年。4[2] Michal Aharon，Michael Elad，Alfred Bruckstein，等.K-SVD：一种为稀疏表示设计过完备字典的算法。IEEE Transactions on Signal Processing ， 54 （ 11 ）：4311-4322，2006. 3[3] 巴勃罗·阿贝莱斯，迈克尔·梅尔，查利斯·福克斯，还有吉坦德拉·马利克.轮廓检测和分层图像分割。IEEETransactionsonPatternAnalysisandMachineIntelligence，3（5）：898-916，2011. 四、五[4] 希尔顿布里斯托，安德斯埃里克森，和西蒙露西。快速卷积稀疏编码。CVPR，2013。第1、3条[5] Huibin Chang，Michael K Ng，and Tieyong Zeng.通过学习字典减少JPEG解压缩中的伪像。IEEE Transactionson Signal Processing，62（3）：718- 728，2014。二、三[6] Yunjin Chen和Thomas Pock。可训练的非线性反应扩散：一个灵活的框架，快速有效的图像恢复。IEEETransactionsonPatternAnalysisandMachineIntelligence，39（6）：1256-1272，2017。一、二、五、六、七[7] Kostadin Dabov、Alessandro Foi、Vladimir Katkovnik和Karen Egiazarian。稀疏三维变换域协同滤波图像去噪IEEE Transactions on Image Processing ， 16 （ 8 ）：2080-2095，2007. 2[8] Chao Dong ， Yubin Deng ， Chen Change Loy ， andXiaoou Tang. 通过深度卷积网络减少压缩伪影。在ICCV，2015年。一、二、四、五、六、七[9] Chao Dong ， Chen Change Loy ， Kaiming He ， andXiaoou Tang.学习用于图像超分辨率的深度卷积网络。2014年，在ECCV。2[10] 范庆南，陈东东，卢远，华刚，余能海，陈宝泉.参数化图像算子的解耦学习。在ECCV，2018。二五六七[11] 亚历山德罗·福伊，弗拉基米尔·卡特科夫尼克，凯伦·埃吉亚扎里安.逐点形状自适应DCT，用于灰度和彩色图像的高质量去噪和去块。IEEE Transactions on ImageProcessing，16（5）：1395一、二[12] Xueyang Fu，Jiabin Huang，Delu Zeng，Yue Huang，Xinghao Ding，and John Paisley.通过深度细节网络从单个图像中去除雨水。在CVPR，2017年。4[13] Xueyang Fu ， Delu Zeng ， Yue Huang ， Xiao-PingZhang，and Xinghao Ding.同时估计反射率和照度的加权变分模型。在CVPR，2016年。3[14] 莱昂纳多·加尔泰里，洛伦佐·塞代纳里，马可·贝尔蒂尼，阿尔-贝托·德尔宾博.深度生成对抗压缩伪影去除。InICCV，2017. 一、二[15] Ian Goodfellow 、 Jean Pouget-Abadie 、 Mehdi Mirza 、Bing X-u 、 David Warde-Farley 、 Sherjil Ozair 、 AaronCourville和Yoshua Bengio。生成性对抗网。在NIPS，2014。22512[16] Karol Gregor和Yann LeCun。学习稀疏编码的快速近似。ICML，2010年。一、二、三、七[17] 古书航、梦德宇、左王梦、张磊。用于单个图像层分离的联合卷积分析和合成稀疏 InICCV，2017. 第1、3条[18] 古书航、左望梦、谢启、孟德宇、冯湘楚、张磊.图像超分辨率卷积稀疏编码。在ICCV，2015年。1[19] 郭军，赵宏阳。构建双域表示以减少压缩伪影。在ECCV，2016年。2[20] 郭军，赵宏阳。一对多网络，用于减少视觉上令人愉悦的压缩伪影。在CVPR，2017年。2[21] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。二、八[22] Felix Heide，Wolfgang Heidrich，and Gordon Wetzstein.快速灵活的卷积稀疏编码。CVPR，2015。1[23] Gao Huang，Zhuang Liu，Laurens Van Der Maaten，and K-ilian Q Weinberger. 密集连接的卷积网络。在CVPR，2017年。2[24] Jeremy Jancsary ， Sebastian Nowozin ， and CarstenRother.非参数图像恢复模型的损失特定训练：一个新的艺术状态。ECCV，2012年。2[25] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。见ICLR，2014年。4[26] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。NIPS，2012年。3[27] Chri s tianLedig ， LucasTheis ， FerencHus z'r， Jo seCaballero，Andrew Cunningham，Alejandro Acosta，Andrew Aitken ， A- lykhan Tejani ， Johannes Totz ，Zehan Wang，et al.使用生成式对抗网络的照片级真实感单幅图像超分辨率。在CVPR，2017年。2[28] 李涛，何晓海，林波清，滕启智，陈洪刚。压缩图像级联解块和超分辨率的迭代框架。IEEE Transactionson Multimedia，20（6）：1305-1320，2018。2[29] Yu Li，Fangfang Guo，Robby T Tan，and Michael SBrown.具有JPEG伪影抑制的对比度增强框架2014年，在ECCV。一、二、五、六、七、八[30] AW-C Liew和Hong Yan。使用过完备小波表示抑制块编码图像中的块效应IEEE Transactions on Circuits andSystems for Video Technology ，14 （ 4 ）：450-461 ，2004。2[31] Peter List ， Anthony Joch ， Jani Lainema ， GisleBjontegaard，and Marta Karczewicz.自适应去块滤波器。IEEE Transactions on Circuits and Systems for VideoTechnology，13（7）：614-619，2003。一、二[32] Xianming Liu，Gene Cheung，Xiaolin Wu，and DebinZhao.基于随机游走图拉普拉斯平滑先验的JPEG图像软解码。IEEE图像处理学报，26（2）：509-524，2017年。2[33] Xianming Liu，Xiaolin Wu，Jiantao Zhou，and DebinZhao.基于数据驱动稀疏性的JPEG压缩图像双变换像素域恢复。CVPR，2015。一、二2513[34] Xianming Liu ，Xiaolin Wu，Jiantao Zhou，and DebinZhao.双变换像素域压缩图像的数据驱动软解码。IEEETransactions on Image Processing ， 25 （ 4 ）： 1649-1659，2016。2[35] James G Nagy和Dianne P O'Lear

下载后可阅读完整内容，剩余1页未读，立即下载