基于深度聚集的图像复原算法

121 浏览量更新于2023-10-15 收藏 2.42MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1基于深度聚集的交替极小图像复原算法Youngjung Kim1岁，Hyungjoo Jung1岁，Dongbo Min2岁，Kwanghoon Sohn1岁1延世大学2忠南国立大学摘要基于正则化的图像复原一直是图像处理和计算机视觉领域的研究热点它通常利用在不同场中捕获的引导信号作为附加线索。在这项工作中，我们提出了一个图像恢复的一般框架，称为深度聚集交替最小化（DeepAM）。我们建议训练深度神经网络，以推进传统AM算法中的两个步骤：邻近映射和β-延拓。这两个步骤都是以端到端的方式从大型数据集中学习的。所提出的框架使卷积神经网络（CNN）能够作为AM算法中的正则化器。我们表明，通过深度聚合学习的正则化器优于最近的数据驱动方法以及基于非局部的方法。我们的框架的灵活性和有效性在几个恢复任务中得到了证明，包括单张图像去噪，RGB-NIR恢复和深度超分辨率。1. 介绍图像复原是从退化的观测值重建干净图像的过程。假设观察到的数据通过考虑噪声、模糊和采样的前向成像模型与理想图像相关。然而，一个简单的建模只与观测数据是不够的有效恢复，因此，先验约束的解决方案是常用的。为此，图像恢复通常被公式化为具有显式正则化函数（或正则化子）的能量最小化问题。最近关于关节置换的工作利用了从不同设备捕获的引导信号，作为规则化修复过程的额外提示。这些方法已成功应用于各种应用，包括联合上采样[11]，交叉场降噪[32]，去雾[31]和固有的IM。[2]两位作者对这项工作的贡献相当。†通讯作者：khsohn@yonsei.ac.kr.年龄分解[8]。基于正则化的图像恢复涉及非凸和非光滑能量函数的最小化，以产生高质量的恢复结果。求解这样的泛函通常需要大量的迭代，因此在运行时间至关重要的情况下，有效的优化是优选的最流行的优化方法之一是引入辅助变量的交替最小化（AM）算法[34]。能量泛函被分解成一系列的子问题，这是相对简单的优化，和最小的方面，每个变量，然后计算。对于图像恢复，AM算法已被广泛采用，具有各种正则化函数，例如，全变差[34]、L0范数[36]和Lp范数（超拉普拉斯）[16]。值得注意的是，这些功能都是手工制作的模型。图像梯度的超拉普拉斯算子[16]相对较好地反映了自然图像的统计特性，但使用手工模型的基于梯度的正则化方法的恢复质量与最先进的方法[9，30]相差甚远。一般来说，为特定的图像恢复问题设计最优正则化函数是不平凡的。在过去的几年中，已经进行了几次尝试，通过从大规模训练数据中学习图像恢复模型来克服手工正则化器的限制[9，30，38]。在这项工作中，我们建议一种用于图像恢复的新方法，其有效地使用能量最小化框架中的数据驱动方法，称为深度聚合交替最小化（DeepAM）。与现有的仅从卷积神经网络（CNN）产生恢复结果的数据驱动方法相反，我们设计CNN来实现对AM算法的正则化子的学习。由于CNN完全集成到AM过程中，因此可以以端到端的方式同时学习整个网络我们表明，我们从深度聚合中学习的简单模型比最近的数据驱动方法[9，17，30]以及最先进的基于非局部的方法[10，12]取得了更好的结果。64196420我们的主要贡献可概括如下：• 我们设计CNN来学习AM算法的正则化器，并以端到端的方式训练整个网络。• 我们在AM算法中引入了聚合（或多变量）00.20.40.60.811.2不1.41.61.82-2-1.5-1-0.50不0.511.52• 我们将所提出的方法扩展到联合恢复任务。它具有广泛的适用性，以各种各样的图像处理问题，包括图像去噪，RGB/NIR恢复，和深度超分辨率。2. 相关工作基于正则化的图像恢复在这里，我们提供了一个简短的审查基于正则化的图像恢复。全变分（TV）[34]由于其凸性和边缘保持能力，已被广泛用于几个恢复问题。其他正则化函数，如总广义变差（TGV）[4]和Lp范数[16]也被用来惩罚没有表现出所需特性的图像。除了这些手工制作的模型之外，还尝试了几种方法来从训练数据中学习正则化模型[9，30]。Schmidt等人。[30]提出了一种使用学习的高斯RBF内核的收缩场（CSF）级联。在文献[9]中，用参数化线性滤波器和正则化函数对非线性扩散-反应过程进行了建模。还研究了使用在不同配置下捕获的引导图像的联合恢复方法[3，11，17，31]。在[3]中，使用同一场景的闪光灯和非闪光灯对恢复在昏暗光线下捕获的RGB图像。在[11，15]中，RGB图像用于辅助低分辨率深度图的正则化过程。Shen等人。 [31]提出使用暗闪光NIR图像来恢复嘈杂的RGB图像。 Li等人使用CNN选择性地转移在引导和目标图像中一致的突出结构[17]。图1：正则化函数Φ的图示（左）以及相应的近端映射（右）。主要该映射的目的是去除具有小幅度的Duk代替这种手工制作的正则化器，我们隐式地使用深度aggre- gation来parametrim正则化函数，从而得到更好的恢复算法。与 CNN 相结合，以获得高质量的深度解析 [25]。Riegler等人 [26]将各向异性TGV集成到深度网络的顶部。他们还制定了双层优化问题，并通过展开TGV最小化以端到端的方式训练网络。请注意，只有当能量最小化模型是凸的并且是两次可微的时，双层优化问题才是可解的[24]。上述方法试图将手工制作的正则化模型集成到CNN的顶部。相比之下，我们设计CNN来参数化AM算法中的正则化过程。3. 背景和动机基于正则化的图像重建是求解计算成像中各种逆问题的有力框架。该方法通常涉及公式化用于退化观测的数据项和用于要重建的图像的正则化项。然后通过最小化平衡这两项的目标函数来计算输出图像。给定观察到的图像f和平衡参数λ，我们解决相应的优化问题1：在深度网络CNN缺乏对广告的规则性约束argminuλu−f22+Φ（Du）。（一）jacking相似的像素，经常导致不良的边界局部化和虚假区域。为了解决这些问题，将能量最小化模型集成到CNN中受到了极大的关注[24Ranftl等人。 [24]使用CNN的输出定义马尔可夫随机场（MRF）的一元和成对项，并使用双层优化训练网络参数。类似地，全连接条件随机场（CRF）的平均场近似被建模为递归神经网络（RNN）[37]。一种非局部Huber正则化Du表示[Dxu，Dyu]，其中Dx（或Dy）是图像的x-导数（或yΦ是强制输出图像u满足期望的统计特性的正则化函数。（1）的无约束优化问题可以使用许多标准算法来解决。本文主要讨论交替极小化（AM）1对于超分辨率，我们将f视为来自低分辨率输入的双线性上采样221.81.6L1L1.5一个！！e xp（！t2=72）11.41.2“log 1 +t2=72j t j =7 log（1 + jt j =7）0.5100.8-0.50.6-10.4-1.50.20-2max（jtj！ = 1; 0）“符号（t）1（abs（t）！>= 2）“t“t！texp！t2=72t！t=（1 +t2=72）t！t=，（，+jtj）？（Prox？6421¨22(a) 噪声输入（b）TV [34]（c）CSF [30]（d）我们的（e）参考图2：单张图像去噪示例：（a）输入图像，（b）TV [34]，（c）CSF [30]和（d）我们的。(e)是在使用λ=5的Du的AM迭代的一个步骤之后获得的，其中u是无噪声图像。我们的深度聚合AM优于现有的逐点映射算子。方法[34]，它是（1）形式的各种问题的ad-hoc。3.1. 交替最小化AM方法的思想是通过引入新变量v来解耦数据和正则化项，并将（1）重新表示为以下约束优化问题：每个像素独立地被处理，而不考虑与相邻像素的空间相关性基于这一观察，我们提出了一种新的方法，其中正则化函数Φ和惩罚参数β是从大规模训练数据集中学习的。与基于手工正则化器的逐点邻近映射不同，所提出的方法通过CNN学习和聚合Dukminu，vλu−f22+ Φ（v），服从v = Du。（二）4. 该方法我们通过使用惩罚技术[34]来求解（2），得到增广的目标函数。在本节中，我们首先介绍用于单个图像恢复的DeepAM，然后将其扩展到联合恢复任务。在下文中，下标i和j表示minu，vλu−f22+ Φ（v）+βDu−v2，（3）2像素的位置（以矢量形式）。其中β是惩罚参数。 AM算法的优点是重复执行以下步骤。4.1.深度聚集AM我们从一些直觉开始，为什么我们的学习和vk+1 = arg min Φ（v）+βkük二度¨2- v′，聚合映射对于AM算法是至关重要的。（4）中的第一步将具有小幅度的Duk映射为零vké2uk+1=arg minλu−f2+β，uβk+1=αβk，（四）由于假设它们是由噪声引起的，原始信号传统上，该映射步骤已应用于逐点的Manner中，更不用说它是否其中α >1是连续参数。当β较大时学或不学。其中Φ（v）=iφ（vi），Schmidt et al.[30个]变量v接近Du，因此（3）收敛于原始公式（1）。3.2. 动机最小化（4）中的第一步取决于正则化函数Φ和β的选择而变化。该步骤可以被视为与Φ相关的Du k的近端映射[22]。当Φ是L1或L0范数的和时，它相当于软阈值算子或硬阈值算子（见图1）。1和[22]对于这种关系的各种例子）。由于Φ和β是人工选择的，因此这种映射算子可能不会揭示（4）的优化方法的全部潜力。此外，执行映射运算符，将逐点映射函数建模为高斯RBF核，并学习了它们的混合系数2.相反，我们不假定Φ的任何性质。相反，我们训练多变量映射过程（Duk→vk+1）关联。通过使用CNN，与Φ和β进行了计算图2显示了TV [34]，CSF [30]和我们的了我们的方法优于使用基于手工模型的逐点映射的其他方法（图1）。 2（b））或学习模型（图（见插图）。我们用以下公式重新公式化（4）中的原始AM迭代：6422我2当Φ（v）= φφ（v i）时，（4）中的第一步相对于每个v i是可分离的。因此，它可以通过逐点操作来建模6422G近红外RGB（指导）⋯u1fRGB深度（降级输入）深度聚合网络DeepAM（iter）v22⋯参数（）网络DeepAM引导网络（用于关节修复）损失层-等式（十）DeepAM（iter1uuuIJIJ降级输入制导u2uk 1图3：我们模型的一次迭代由四个主要组件组成：深层聚合网络、制导网络、γ参数网络和重构层。通过利用来自深度聚合网络的中间层的特征来估计空间变化的γ。通过迭代（5）和（6）将所有这些子网络级联，然后将最终输出输入到损耗层。步骤3.. vk+1，γk +1CNN （uk，wk），（5）uk+1=arg min<$rk+1（u−f）<$2+<$Du−vk+1<$2，（6）u其中DCNN（·，wk）表示一个由wk参数化的卷积网络，且Γk+1=diag（γk+1）.请注意，β完全被CNN吸收，并与平衡参数γ（也将被学习）融合vk+1通过CNN深度聚合uk来估计。这个公式允许我们把优化过程(1) 转换为级联神经网络架构，可以通过标准反向传播算法学习[20]。（6）的解满足以下线性系统：Luk+1=rk+1f+DTvk+1，（7）其中拉普拉斯矩阵L=（Γk+1+DTD）。可以看出，（7）起到自然地将空间和外观一致性强加于中间输出im的作用−1年龄uk+1使用核矩阵A = L [37]。（7）的线性系统成为深度神经网络的一部分（参见图（3）第三章。当γ为常数时，块Toeplitz矩阵L可通过快速傅里叶变换（FFT）对角化。然而，在我们的框架中，直接应用FFT是不可行的，因为γ是空间变化的自适应正则化。幸运的是，矩阵L仍然是稀疏的和半正定的，因为使用了简单的梯度算子D我们采用预条件共轭梯度法（PCG）求解方程（7）的线性方程组.不完全Cholesky(a) u1（b）u2（c）u3(d)第1条（e）款第2项（f）款第3项图4：我们的DeepAM获得的去噪结果（图3中联合训练了K=3次迭代）。详见正文。最近，Chan et al. [7]用现成的图像去噪算法Dσ代替（4）中的近端映射，例如，非局部的方法[5]，如下：vk+1<$Dσ（Duk+1）.（八）虽然这在概念上类似于我们的聚合方法4，但[7]中的算子Dσ仍然依赖于手工模型。图3显示了所提出的图像恢复任务的学习模型DeepAM，由深度AG组成，将分离网络、γ参数网络、引导网络（将在下一节中详细描述）和重建层迭代K次，然后是损失层。预处理器使用带零填充的因式分解[1]4使用相邻像素的聚合通常用于3梯度算子D被吸收到CNN中。现有技术的去噪方法。⋯重建层-等式（七）6423CGPCGMATLAB反斜杠uGp=1u1图4显示了我们方法的去噪结果在这里，它使用DeepAM的三个通道进行训练。输入图像被标准差σ=25的高斯噪声破坏。我们可以看到，随着迭代的进行，高质量的恢复结果产生了.在第一次和第二次迭代中训练的网络去除了噪声，但是中间结果被过度平滑（图1和图2）。（见第4段（a）和（b）分段）。然后恢复高频信息在最后一个网络（图）。 4（c））。为了分析这种行为，让我们追溯到现有的软阈值算子，10#10-3987654321246 8101214161820迭代次数256×256时间（秒）PCG0.028(10iter）MATLAB0.155反斜杠k+1i=max{|杜K|i− 1/βk，0}sign（Du）i在[34]中。的图5：左图显示了PCG传统的AM方法将β设置为小常数，在迭代中增加它。当β较小时，v的范围缩小，不利于较大的梯度幅度。图像的高频细节被恢复为β增加。有趣的是，DeepAM显示出非常相似的结果（图1和图2）。4（d）-（f）），但是由于通过CNN的聚合映射而优于现有方法，如将在实验中验证的。4.2. 扩展至关节修复在本节中，我们将所提出的方法扩展到联合恢复任务。联合恢复的基本思想是提供结构指导，假设不同种类的特征图之间存在结构深度/RGB和NIR/RGB。通过考虑输入图像和引导图像的结构，这种约束已经被施加在传统的映射算子上[15]。类似地，可以如下修改（5）的深度聚合映射：解算器少量的PCG迭代就足够了，反向传播MATLAB反斜线的结果绘制在原点.右表比较了PCG与10次迭代和直接求解器的运行时间。深度聚集网络由10个卷积层和3×3滤波器组成（感受野为21×21）。网络的每个隐藏层都有64个特征图。由于v包含正值和负值，因此最后一层不使用重构线性单元（ReLU）。的所有卷积层的输入分布被归一化为标准高斯分布[21]。深度聚合网络的输出通道对于水平梯度和垂直梯度是2。我们还通过利用来自深度聚合网络的第八卷积层的特征来提取空间变化的γ。 ReLU用于确保γ的正值。对于联合图像恢复，引导网络由3个卷积神经网络组成，lutional图层，其中过滤器在3×3空间上运行. vk+1，γk +1CNN （（ukg），wk），（9）地区它将引导图像g作为输入，并提取特征图，然后将特征图与其中，G是引导图像，并且G表示连接算子。然而，我们发现这种早期的连接，因为引导图像混合了异质数据，所以不太有效。这与多光谱行人检测文献中的观察结果一致[18]。相反，我们采用类似于[17，18]的中途级联引入另一个子网络DCNN（g，wk）来提取引导图像的有效表示，然后将其与DCNN（uk，wk）的中间特征相结合。4.3. 学习深度聚合的AM我们观察到，当直接使用输入和去噪图像训练CNN时，更深的网络不一定会产生更好的结果。然而，我们的网络产生一个稀疏的梯度图，而不是去噪图像本身，如图所示。4.第一章这使得我们的网络很容易训练，因为它不需要在整个网络中携带输入信息。基于这一观察，我们选择使用更深层次的架构和小卷积核，以实现最佳性能。深度聚合网络的第三卷积层训练DeepAM是通过标准的反向传播算法学习的[20]。我们不需要复杂的双层公式[24，26]。给定M个训练图像对{f（p），g（p），t（p）}M，我们通过最小化L1损失函数来学习网络参数。L=1u（p）−t（p），（10）Mp其中t（p）和u（p）分别表示（7我们使用随机梯度下降（SGD）来最小化（10）的损失函数。反向传播的导数如下获得：（p）（p）u（p）= sign（u-t ）。（十一）为了学习网络中的参数，我们需要损失L（p）对v（p）和γ剩余（12）v6424（p）的导数。让6425B.V.（p）γ（p）(a) 噪声输入（b）BM3D[10]（c）EPLL[38]（d）MLP[6]（e）TRD[9]（f）WNNM[12]（g）DeepAM（3）图6：σ=50的去噪示例。(from从左到右）噪声输入、BM3D [10]、EPLL [38]、MLP [6]、TRD [9]、WNNM [12]和DeepAM（3）。输入图像来自BSD 68 [27]。表1：12幅图像的PSNR结果（σ=25）。CSF [30]和TRD [9]运行5个阶段，使用7×7内核。C. 人房子佩普史达夫飞Airpl.鹦鹉莉娜芭芭拉船人几BM3D [10]29.4732.9930.2928.5729.3228.4928.9732.0330.7329.8829.5929.70CSF [30]29.5132.4130.3228.8729.6928.8028.9131.8728.9929.7529.6829.50EPLL [38]29.2132.1430.1228.4829.3528.6628.9631.5828.5329.6429.5729.46MLP [6]29.3632.5330.2028.8829.7328.8429.1132.0729.1729.8629.7929.68TRD [9]29.7132.6230.5729.0529.9728.9529.2232.0229.3929.9129.8329.71WNNM [12]29.6333.3930.5529.0929.9828.8129.1332.2431.2829.9829.7429.80DeepAM（3）29.9733.3530.8929.4330.2729.0329.4132.5229.5230.2330.0730.15b=Γf+DTv+DTv，则可由（7）推导出：MATLAB反斜线（在256×256图像上）。 PCG与xxyy（p）10次迭代比直接线性迭代快5倍L（p）L=.（十二）b（p）我们用sum layer实现b，它将v作为输入，因此，可以如下表示：系统解算器5. 实验我们共同训练我们的DeepAM 20个epoch。从这里（K）我们称DeepAM为通过cas训练的方法，L（p）（p）L（p）KDeepAM迭代的cade。MatConvNet库[2]B.V.（p）=D L−1，D L−1xu（p）y u（p）.（十三）（配备12GB NVIDIA Titan GPU）用于网络建设和训练。网络初始化运行-类似地，对于LPL（p），我们有：使用高斯分布。动量和重量衰减参数分别设置为0.9和0.0005。（p）γ（p）.L（p）=L−1u（p）◦ （f（p）−u（p）），（14）活泼地我们不进行任何预训练（或微调）。将该方法应用于单幅图像去噪、深度超分辨率和RGB/NIR复原。再-其中，“”是逐元素乘法。失联以来L（p）是一个标量值，L（p）和L（p）分别为N×1和N×2并与其它方法进行了比较作者提供的源代码γ（p）向量，其中N是像素的总数。关于（13）和（14）的推导的更多细节可在补充材料中获得。系统矩阵L在（13）和（14）中被共享，因此其不完全因式分解仅被执行一次。图5示出了用于求解（12）的线性系统的PCG方法的收敛性。我们发现，几个PCG迭代是足够的反向传播。经过 10 次迭代后， 20 张图像的平均残差为1.3×10−6。图中的表格5比较了PCG迭代的运行时间，64265.1. 单幅图像去噪我们从BSD 300的200个训练图像中采样的一组10个5，32×32的补丁中学习了DeepAM（3）[19]。这里，K被设置为3，因为DeepAM（K）的性能在3次迭代之后收敛（参见表2）。噪声水平设置为σ=15、25和50。我们对比了各种最新的最先进的技术，包括BM3D[10]，WNNM [12]，CSF [30]，TRD [9]，[ 38 ][39][39][39][39] 前两种方法基于6427表2：来自[27]的68张图像的平均PSNR/SSIM，用于图像去噪，σ=15，25和50。σPSNR /SSIMBM3D [10]MLP [6]CSF [30]TRD [9]DeepAM（1）DeepAM（2）DeepAM（3）1531.12 /0.872-31.24 /0.87331.42 /0.88231.40 /0.88231.65 /0.88531.68 /0.8862528.61 /0.80128.84 /0.81228.73 /0.80328.91 /0.81528.95 /0.81629.18 /0.82429.21 /0.8255025.65 /0.68626.00 /0.708-25.96 /0.70125.94 /0.70126.20 /0.71426.24 /0.716(a) RGB图像（b）地面实况（c）NMRF[23]（d）TGV[11]（e）DJF[17]（f）DeepAM（2）图7：深度超分辨率示例（×8）：（a）RGB图像，（b）地面实况，（c）NMRF [23]，（d）TGV [11]，（e）DJF [17]和（f）DeepAM（2）。非局部正则化方法，其他的是基于学习的方法。表1示出了在2010年12月31日的2010日的峰值信噪比（PSNR）。表3：来自NYU v2 数据集 [33]的449张图像和来自Middle-bury数据集[29]的10张图像的平均BMP（δ=12个测试图像[10]。每个图像的最佳效果以粗体突出显示。DeepAM（3）在大多数图像上产生最高的PSNR结果。我们可以发现，我们在映射步骤中使用的深度聚合优于 CSF [ 30 ] 的逐点映射 0.3 dB 至0.5dB。基于学习的方法往往比手工方法有更好的性能-制作的模型。然而，我们观察到基于非局部正则化的方法[10，12“房子”和“芭芭拉”。非局部自相似性在规则和重复纹理上是一种强大的先验，但在不规则区域上可能会导致较差的结果。图6显示了使用BSD 68数据集[27]中的一张图像的去噪结果。DeepAM（3）在视觉上超越了最先进的方法。表2总结了通过测量BSD 68数据集[27]中68张图像的平均PSNR和结构相似性指数（SSIM）[35]进行的正如预期的那样，我们的方法实现了显着的改进，基于非本地的方法，以及最近的数据驱动的方法。5.2. 深度超分辨率现代深度传感器，例如MS Kinect，在动态场景中提供密集的深度测量，但通常具有BMP（δ=3）：NYU v2 [33] / Middlebury [29]方法×4×8×16NMRF [23]1.41/4.564.21/7.5916.25 /13.22TGV [11]1.58/5.725.42/8.8217.89 /13.47SD滤波器[13]1.27/2.413.56/5.9715.43 /12.18DJF [17]0.68/3.751.92/6.375.82/12.63DeepAM（2）0.57/3.141.58/5.784.63/10.45低分辨率解决此问题的常见方法是利用高分辨率（HR）RGB图像作为指导。我们将DeepAM（2）应用于此任务，并在NYU v2数据集[33]和Middlebury数据集[29]上进行了评估。NYU v2数据集[33]由1449个室内场景的RGB-D图像对组成，其中1000个图像对用于训练，449个图像对用于测试。深度值在范围[0，255]内归一化。为了训练网络，我们随机收集了10个5RGB-D贴片对，大小为32×32的训练集。低分辨率（LR）深度通过最近邻下采样（×4、×8和×16）合成图像。该网络将LR深度图像（其被双线性插值到所需的HR网格中）和HR RGB图像作为输入。6428σ=25σ=50表4：来自[14]的5个RGB/NIR对的PSNR结果。通过添加合成高斯噪声来生成带噪RGB图像。(a)第1（b）段第2（c）段第3（d）段第4（e）段第5段(a) 红外图像（b）RGB图像（c）交叉场[31]（e）DeepAM（2）DeepAM（2）图8：真实世界示例的RGB/NIR恢复PSNR图7显示了NMRF [23]，TGV [11]，深度联合图像滤波（DJF）[17]和DeepAM（2）的超分辨率结果。TGV模型[11]使用仅取决于RGB图像的各向异性扩散张量。这种方法的主要缺点是RGB深度相干假设在纹理表面中被违反。因此，恢复的深度图像可能包含类似于彩色图像的梯度，这会导致纹理复制伪影（图2）。7（d））。虽然NMRF [23]结合了几种加权方案，从RGB图像，分割和初始插值深度计算，但仍然观察到纹理复制伪影（图10）。7（c））。NMRF [23]很好地保留了深度不连续性，但在光滑表面上显示出较差的结果。DJF [17]避免了纹理复制伪影，这要归功于从彩色图像和深度图中提取的忠实CNN响应（图1）。7（e））。然而，该方法缺乏正则化约束，该正则化约束鼓励输出上的空间和外观一致性，并且因此其过度平滑结果并且不保护薄结构。我们的DeepAM（2）保留了尖锐的深度不连续性，没有明显的伪影，如图所示。7（f）项。NYU v2数据集[33]和Middlebury数据集[29]的定量评价总结见表3。准确性通过不良匹配百分比（BMP）来衡量。[29]公差δ=3。5.3. RGB/NIR恢复RGB/NIR复原的目的是使用空间对准的NIR图像来增强在低照度下拍摄的有噪声的RGB图像将我们的模型应用于RGB/NIR恢复时的挑战是缺乏用于训练的地面真实数据为了构建大型训练数据，我们使用了由400个RGB/NIR对组成的室内IVRL数据集[28]。平均值28.19 27.38 28.2829.28在日光照明下记录的5.具体来说，我们通过添加σ=25和50的合成高斯噪声来生成带噪RGB图像，并使用300个图像对进行训练。在表4中，我们使用[14]中的5个测试图像进行了客观评价。 DeepAM（2）给出了比其他最先进方法更好的定量结果[10，13，31]。图8比较了Cross-field [31]，DJF [17]和我们的DeepAM（ 2 ）在真实世界示例中的RGB/NIR恢复结果。输入RGB/NIR对取自[31]的项目网站。该实验表明，所提出的方法可以应用于真实世界的数据，尽管它是从合成数据集训练的。据报道[14]，设计（或训练）在日光条件下工作的恢复算法也可以用于日光和夜间条件。6. 结论我们已经探索了一个名为DeepAM的通用框架，它可以用于各种图像恢复应用程序。与现有的仅从CNN产生恢复结果的数据驱动方法相反，DeepAM使用CNN来学习AM算法的正则化器。我们的公式将CNN与能量最小化模型完全集成，从而可以以端到端的方式学习整个网络。实验表明，映射步骤中的深度聚集是该学习模型的关键因素。作为未来的工作，我们将进一步研究像素级预测任务中的对抗性损失。5这个数据集[28]最初是为了语义分割而引入的(a)RGB图像，（b）NIR图像，（c）交叉场[31]，（d）σ=50BM3D [10]SD滤波器[13]跨领域[31]DeepAM（2）DJF [17]，（e）DeepAM（2）训练σ=25，和（f）序列131.8630.9731.4532.84DeepAM（2）使用σ=50进行训练。（c）的结果是序列227.6226.1327.5928.10网站首页[31]序列328.0828.0628.4730.43序列426.8525.6526.9128.13序列526.5226.1126.9826.9464297. 确认作者感谢匿名评论者的宝贵意见和建议。这项工作得到了信息和通信技术促进研究所（IITP）的支持，该研究所由韩国政府（MSIP）资助（编号：R 0115 -16-1007，从大规模RGB+D数据库生成高质量2D到多视图内容）。引用[1] http://faculty.cse.tamu.edu/davis/suitesparse.html/。 4[2] http://www.vlfeat.org/matconvnet/。 6[3] A.阿格拉瓦尔河Raskar，S. Nayar和Y.李使用梯度投影和闪光曝光采样消除摄影伪影。ACM事务处理图表，24（3），2005. 2[4] K. Bredies，K.Kunisch和T.Pock 完全的广义变异。SIAMJ. Imag. Sci. ，3（3），2010. 2[5] A.布阿德斯湾Coll和J.莫瑞尔一种非局部图像去噪算法。CVPR，2005年。4[6] H. C. 伯格角J. Schmidt和S.伤害。图像降噪：普通神经网络能与BM3D竞争吗？CVPR，2012年。六、七[7] S. Chan，X.Wang和O.埃尔根迪图像复原的即插即用admm：不动点收敛及应用。arXiv，2016. 4[8] Q. Chen和V. Koltun.一个简单的模型，用于具有深度线索的内在图像分解。ICCV，2013年。1[9] Y.陈威Yu，和T. Pock学习最佳反应扩散过程以有效复原影像CVPR，2015年。一、二、六、七[10] K.达博夫河Foi，V.Katkovnik，and K.埃吉亚扎利安人稀疏三维变换域协同滤波图像去噪。 IEEE传输图像处理。，16（8），2007. 一、六、七、八[11] D.弗斯特尔，C.莱因巴赫，R.兰夫特尔M.Ruther和H.比肖夫使用各向异性总广义变分的图像引导深度上采样。ICCV，2013年。一、二、七、八[12] S.古湖，澳-地Zhang，W. Zuo和X.峰加权核范数最小化及其在图像去噪中的应用。CVPR，2014年。一、六、七[13] B. Ham，M.周和J·庞塞使用联合静态和动态引导的鲁棒图像滤波CVPR，2015年。七、八[14] H.本田和L. V. G. R. Timofte使五一节-高保真彩色去噪与近红外。CVPRW，2015年。8[15] Y.金湾，澳-地哈姆角还有K。孙rgb-d相机的结构选择深度超分辨 IEEE Trans. 图像处理。，25（11），2016.二、五[16] D. Krishnan和R.费格斯。使用超拉普拉斯先验的快速图像去卷积。NIPS，2009年。一、二[17] Y. Li，J. Huang，N. Ahuja和M.杨深度联合图像滤波。ECCV，2016。一、二、五、七、八[18] J. Liu，S. Zhang，S. Wang和D. Metaxas用于行人检测的多光谱深度神经网络BMVC，2016年。5[19] D.马丁角，澳-地Fowlkes，D. Tal和J.马利克人类分割自然图像数据库及其在评估分割算法和测量生态统计中的应用。ICCV，2001年。6[20] M.莫泽一种用于时域模式识别的聚焦反向传播算法。Complex Systems，3（4），1989. 四、五[21] H. Noh，S. Hong和B.韩用于语义分割的学习反卷积网络。ICCV，2015年。5[22] N. Parikh 和 S. 博伊德近端算法 Found. and Trends inOptimization，2014. 3[23] J. 帕克，H。金，Y。W. 泰，M。S. 布朗，我。奎恩用于3d-tof相机的高质量深度图上采样。ICCV，2011年。七、八[24] R. Ranftl和T. Pock一种用于图像分割的深度变分模型。GCPR，2014年。二、五[25] G. Riegle r，D. Ferstl，M. Ruüther和H. 比肖夫用于引导深度超分辨率的BMVC，2016年。2[26] G. Rie gle r，M. Ruüther和H. 比肖夫Atgv-net：精确的深度超分辨率。ECCV，2016。二、五[27] S. Roth和M. J.布莱克。专家领域。IJCV，82（2），2009年。六、七[28] N.萨拉马蒂湾拉卢斯湾Csurka和S.暂停将近红外信息引入语义图像分割。arXiv，2014. 8[29] D. Scharstein和R.塞利斯基密集两帧立体对应算法的分类与评估IJCV，47（1）. 七、八[30] 联合Schmidt和S.罗斯有效图像恢复的收缩场CVPR，2014年。一二三六七[31] X. 申角，澳-地延湖，澳-地许湖，加-地Ma和J.贾基于比例图优化的多光谱IEEE Trans.模式分析马赫内特尔，1（1），2015. 一、二、八[32] X.申角周湖，加-地Xu和J. Jia.联合滤波的互结构。ICCV，2015年。1[33] N. Silberman，D.霍耶姆山口Kohli和R.费格斯。室内分割和支持从rgbd图像推断。ECCV，2012年。七、八[34] Y. Wang，J.杨，W.Yin和Y.张某一种新的全变分图像重建的交替极小化算法。SIAM J. Imag. Sci. ，1（3），2008. 一、二、三、五[35] Z. Wang，中国山核桃A.C. Bovik，H.Rahim和E.P. 西蒙切利图像质量评估：从误差可见性到结构相似性。IEEE传输图像处理。，13（4），2004. 7[36] L. Xu，C. Lu，Y. Xu，和J.贾通过l0进行梯度最小化ACM事务处理图表，30（6），2011. 1[37] S. Zheng，S. Jayasumana湾帕雷德斯河谷Vineet，Z. 苏D.杜角，澳-地Huang，和P.乇作为递归神经网络的条件随机场。ICCV，2015年。二、四[38] D. Zoran和Y.韦斯从自然图像块的学习模型到整体图像恢复。ICCV，2011年。1、6

下载后可阅读完整内容，剩余1页未读，立即下载