学习图正则化的超分辨率引导方法

92 浏览量更新于2023-10-25 收藏 1.06MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1979用于引导超分辨的学习图正则化Riccardo de Lutio1，*Alexander Becker1，StefanoWegner1，2Konrad Schindler11生态视觉实验室，摄影测量和遥感，苏黎世2苏黎世大学计算科学研究所firstname. geod.baug.ethz.ch摘要我们介绍了一种新的公式引导超分辨率。它的核心是一个可区分的优化层，它在学习的亲和图上运行。学习的图形潜力使利用丰富的控制成为可能，感受野源引导数据保真度从引导图像的文本信息，而前，... ...这是什么？图体系结构内的显式图形优化保证了高分辨率目标对低分辨率目标的严格保真度了解到正则化分辨率来源由于决定采用源作为约束而不是仅作为预测的输入，我们的方法不同于用于引导超分辨率的最先进的深层架构，其产生的目标在下采样时仅近似地再现源。这不仅在理论上很有吸引力，而且还能产生更挑剔、更自然的图像。我们的方法的一个关键属性是，虽然图连接性被限制到像素晶格，但相关的边缘电位是用深度特征提取器学习的，并且可以在大的感受野上编码丰富的上下文信息通过利用稀疏图连通性，可以通过优化层传播梯度并从数据中学习边缘电位。我们在多个数据集上广泛评估了我们的方法，并在定量重建误差方面始终优于最近的基线，同时还提供了视觉上更清晰的输出。此外，我们还证明了我们的方法特别适用于训练过程中没有看到的新数据集。1. 介绍引导超分辨率将两个不同分辨率的图像（低分辨率源和来自不同域的高分辨率引导）作为输入。它返回源的高分辨率版本作为输出，称为目标。这项任务在许多实际应用中是相关的*同等贡献。Graph Regulariser目标图1.我们的方法将低分辨率源图像和另一模态的高分辨率引导图像作为输入，以使用高级图像特征来构建图。然后在可微分优化层中使用该图作为正则化来重建目标。例如医疗[62]和卫星成像[26]，其中从低质量图像执行诊断或分析可能非常困难。另一个非常流行的- 计算机视觉中最大的示例是对深度图进行上采样，其中低分辨率深度是源，常规灰度或RGB图像是引导，并且目标是高分辨率深度图。消费级深度传感器提供低分辨率深度图，但高分辨率RGB相机通常安装在同一设备上，并且可以获取同一场景的高分辨率图像。引导超分辨率方法可以分为两大类，传统方法和基于深度学习的方法。前者通常将任务转换为优化问题[7，8，10，12]。目标是创建高分辨率的目标图像，当下采样时，该图像与源匹配，同时符合适当的正则化项，该正则化项有利于期望的图像特性，例如（分段）平滑度。深度学习方法[15，17-为此，模型必须学习统计相关性，使其能够将高频细节从指南转移到目标。1980××获取，同时确保预测的目标-获取保持接近源。传统方法的一个相当大的优点是，通过单独解决每个图像的适当制定的优化，预测通常保证匹配的源。另一方面，设计一个适当的正则化项的基础上低级别的图像特征是一项复杂的任务。深度学习方法表现出相当互补的优势：只要可以访问足够的训练数据，并且该数据代表了测试时遇到的图像，这些方法往往表现得非常好，因为深度网络具有无与伦比的能力，可以从图像中挖掘复杂，高度信息化的另一方面，在训练数据有限的情况下，或者当训练集和测试集之间存在域偏移时[54]，前馈方法不再能够保证对预测目标进行下采样将产生源，因此与超分辨率背后的基本关系相在这项工作中，我们展示了如何结合这两个学校，并学习基于优化的超分辨率方案的图形特别是，我们学习从两个输入（源和向导）到目标像素之间的亲和图的边缘电位（也称为边缘权重）所学习的图用作高分辨率目标的基于优化的重建的正则化器，其特别适合于具有分段平滑结构的信号。整个映射都是端到端训练的：映射函数被参数化为卷积网络，通过将损失的梯度反向传播到优化层，从训练数据中学习。CRF-RNN [9]还提出执行在线优化，并在其网络中包含用于语义分割的然而，他们构建了一个稠密图，并使用RNN来近似后验的推断。相反，我们表明，当执行精确的最大后验推理时，稀疏的局部图是足够的。我们在三个不同的引导深度超分辨率数据集上测试了我们的方法，并表明它在4到16的上采样因子范围内与传统和基于深度学习的方法相比具有优势。我们进一步表明，我们提出的方法对分布变化更加鲁棒，并且可以有效地推广到整个数据集。总之，本文的贡献如下：（i）我们引入了一种新的引导超分辨率公式，其中训练深度特征提取器以从输入（源和引导）图像中导出基于图的能量最小化的边缘势;（ii）我们开发了一种用于图正则化的可微分优化器，利用稀疏图连接来有效地处理高达2562像素1的大输入块;1代码可在https://github.com/prs-eth/graph-超级分辨率（iii）因此，通过这种方式，我们的方案将学习的深度特征提取器的力量与大的感受野以及端到端可训练框架中基于图的优化的严格性相结合。因此，它产生清晰，自然的图像，正确坚持基本的图像形成模型。2. 相关工作在概念层面上，引导超分辨率可以被视为引导滤波的一种形式[13]，其中源图像首先被天真地上采样以匹配目标分辨率，然后通过由（上采样的）源和引导的局部结构2.1. 的优化方法局部优化方法是上述滤波过程的变体。这里，首先对源进行上采样，然后对其应用由指南[24，60]的值控制的局部滤波器。这些方法的扩展包括使用测地线距离来定义滤波器[30]，或者通过结合指南和源图像中的对比度来构建滤波器[3]。全局优化方法在所有像素上构造全局能量函数并使其最小化以获得目标。能量通常由两部分组成：确保目标保持靠近源的数据保真度项，以及正则化超分辨率的不适定问题数据保真度通常被定义为源和下采样目标之间的距离项在引导设置中，正则化器不是各向同性平滑，而是由引导调制的取决于参数化，全局能量最小化可以被视为马尔可夫随机场（MRF）推理[7]，作为非局部均值的一种形式[35]，或作为具有总广义变差（TGV）的各向异性版本的变差推理[10]。一些作品[58，59]还提出用自回归模型代替TGV先验。快速双边求解器[2]求解稀疏线性系统[1]以获得具有尖锐不连续性的双边平滑输出SD滤波器[12]将引导图像滤波公式化为利用静态和动态引导的非凸优化问题Pixtransform方法[5]为每个像素单独估计从引导到目标的映射，并在空间上平滑映射函数，而不是目标输出。在类似的精神中，[34]预测目标作为波导的线性函数，其系数在空间上变化，由波导和源调制。引导深度解码器（GDD）[55]将深度图像先验[56]调整为高光谱图像的引导超分辨率。随机噪声图被解码为对源具有最大数据保真度的目标，由针对目标的联合编码器-解码器分支获得的1981×××为着力跨模态超分辨率（CMSR）[48]还将神经架构与单个源/引导对相匹配，从而优化单个对齐误差。[36]提出对图像进行（过）分割，并将平面视差归因于每个超像素，同时通过将它们连接到MRF中来鼓励超像素上的视差的平滑。在[42]中，作者还建议构建一个图，以增强引导也平滑的区域中目标的平滑性与我们的工作相反，他们的图是基于原始色差（类似于[7，36]），而我们的图编码了深层潜在特征之间的亲和力，不仅来自指南，而且来自源，并以端到端的方式进行训练，以最佳地支持超分辨率任务。2.2. 学习方法另一个大家族的引导超分辨率方法是基于学习的。在监督机器学习的大趋势下，人们希望通过从数据中学习如何最好地融合源和指南来恢复目标，从而超越传统模型。也许第一个基于学习的方法引导超分辨率是那些学习字典的源，引导和目标补丁。在测试时，然后将源和指南（软）匹配到字典，以检索合适的目标补丁并组装目标图像[25，29]。最近，深度学习方法已经成为引导超分辨率的主导。这些方法通过将从两个输入（引导和源）到目标的非线性映射参数化为卷积神经网络，并直接学习其权重深度联合图像滤波器[27，28]将上采样源和指南直接馈送到标准编码器-解码器架构中。深度原始-对偶网络[40]遵循类似的策略，但对原始上采样源输出残差校正。此外，输出是细化与非局部总变分，展开成一系列的网络层。多尺度引导网络（MSG-Net）[17]实现了一种新的策略，仅对引导进行编码，在编码器的不同级别提取丰富的分层特征，并将它们附加到网络的相应级别，该网络通过最终重建层将源解码为目标。从引导到上采样源的这种集成的多尺度引导允许解决深度图上采样中的模糊性。这种设计启发了其他几项工作：PMBANet [61]增加了多分支聚合块;快速深度超分辨率网络（FDSR）[15]增加了一个高频层，以从指南中提取精细细节，并努力实现计算效率，但有效的设计。DepthSR-Net [11]将该想法集成到残余U-Net架构[41]中。首先，对源进行简单的上采样到所需的分辨率，然后使用分层特征作为编码器结构中的输入金字塔来学习该朴素内插和相应目标在[57]中，一个显式的从粗到细的网络级联被用于迭代地细化输出，并逐步添加高频细节。在[52]中，两个网络被协同训练，一个用于从指南进行单目深度估计，另一个用于超分辨率源。此外，存在辅助结构预测任务以减轻深度和强度不连续性之间的差异。同样在最近的一项工作中，[43]探索了使用可学习的退化模型和表面法线估计作为附加特征来从未配对数据中学习深度超分辨率，以获得更准确的深度图。几位作者已经试验了基本卷积神经网络（CNN）层的修改，以实现基于指南的调制。像素自适应卷积（PAC）网络[51]提出了一种新型的学习滤波器，其中卷积取决于其他特征。对于引导超分辨率，从引导中提取这些调节特征。[50]中使用通道注意力来提高超分辨率高频内容丰富的频道。可变形核网络（DKN）[18]应用稀疏的空间变化核来预测每个目标像素的一组邻居和相关权重，使得它们的加权平均值产生像素3. 方法3.1. 符号和问题陈述在全文中，我们用粗体字母A表示矩阵和高阶十元，用对应的粗体字母a表示它们的扁平化的一维向量版本。在我们的引导超分辨率设置中，我们给出了具有空间维度H W和C通道的引导G，以及维度H W的低分辨率源S。为了简单起见，我们将假设源具有单个通道，因为扩展到多个通道是直接的。波导和源的空间维度之间的比率是上采样因子k=H/h=W/w。目标是将S上采样到具有与G相同的空间分辨率的目标Y。我们用D表示将y映射到s的下采样运算符。在我们的情况下，下采样是图像Y的k k窗口上的加权平均（点扩散函数）。注意，一些作者反而假设S不是下采样的，而是表示目标Y的稀疏采样版本，其不需要去卷积。由于传感器上像素的有限面积，相应地基于激光的扫描仪中的光束发散，这种没有低通滤波的稀疏子采样对于大多数实际感测系统来说不是非常现实的模型。1982f（Dy，s）=。×××22T∗GTIIJIJΣ图2.我们方法的架构采用神经网络主干从引导图像和源图像中提取深度特征图基于从这些特征图导出的成对亲和力构建像素上的图。最后，一个二次优化问题是解决目标图像，这是在协议的低分辨率源和结构的图形。至关重要的是，图优化层是可区分的，因此我们的方法是端到端可训练的。3.2. 图正则化在数学上将引导超分辨率问题形式化的一种自然方式是能量最小化：分辨率为Y。因此，该曲线图变成了指南的函数L（g）请注意，这并不意味着从指南的原始亮度（分别为，对比度）值。相反，人们不妨从更抽象的argminyF. Dy，s<$+λ·r（y），（1）每像素特征。正如我们将展示的，一个特别有用的过程是从数据中学习这些特征，使得图最佳地适应特定的超其中f是数据保真度项，用于衡量下采样的目标匹配源，并且r是用于重构目标的先验的、相应的正则化器，并且λ是对正则化的效果进行加权的参数。数据保真度项用于确保Dy和源s之间的相似性，通常以l1或（平方）l2范数。在这项工作中，我们使用后者，22一个有效的正则化器，经常被用于图像[7，42]是鼓励平滑的重建信号w.r.t.在图像像素上定义的一些图形。该图的亲和矩阵由A表示，并且具有大小HWHW。它描述了哪些像素是连接的，即，对彼此有着直接的、一级的影响通用元素Aij表示连接像素i到像素j的边缘的权重，对于所有不直接连接的像素对，Aij=0。度矩阵U是一个对角矩阵，其元素通过求和在节点处相遇的所有边的权重，U=A.−解决手头的任务。为了根据问题定制正则化器的图结构，我们通过CNN馈送源和指南，以获得深度特征表示F=fθ（G，S），大小为H W M，M是表示的通道深度，θ是网络的可训练参数。为了提高效率，我们将图限制为具有固定拓扑，其中每个像素（最多）连接到2D像素网格中的4个相邻像素。较长范围的连接原则上是可能的，但大大增加了计算工作量，回报迅速减少。事实上，我们的设置将深度特征附加到图形节点，其编码大的感受野并在4-邻居拓扑结构之外的引导图像中捕获语义和远程信息。图边的权重被定义为学习特征之间的标准负指数亲和力：Fi−Fj<$2一IJMµ最后，图拉普拉斯算子L被定义为L=UA.对于在图节点上定义的信号-年龄鼓励平滑是一种有效的正则化，只要图形匹配信号的内在结构。这样，目标就变成：其中μ是可学习的缩放参数。3.3. 优化层设y表示方程的最小值。（2），并且ygt是某个训练集的真实目标值我们可以argminyDy − s（二）组装三元组（g，s，ygt）并优化图形控制，最小化yt和ygt之间的损失的结构：剩下的就是构造正确的图，即，为了确定图像的像素之间的θ=argminθEp（g，s，y）=1. y（θ），ygt，（4）目标Y。这并不是微不足道的，但是在引导超分辨率中，我们可以利用引导g，其共享相同的高分辨率。深度特征提取器一个无向图源双三次上采样向前梯度流图像特征目标损失引导基于图的优化=e−、（3）1983其中l是适当的损失函数，例如l1损失或均方误差（MSE）损失。1984.Σ阿夫里≈×××LU −TsTs阿夫里这意味着，为了训练特征提取器，我们必须计算等式中的损失梯度。（4）w.r.t.图表。为此，我们首先注意到Eq。（2）是一个二次问题，并等价于求解线性方程组：λL（θ）+DTD y=DTs，（5）在这里，我们明确表示，图拉普拉斯算子L是唯一依赖于网络参数θ的项。对于误差反向传播，我们必须将梯度映射到w.r.t.将重建图像映射到L.利用隐函数定理[2]，我们得到：尔 =−λly<$T，（λL（θ）+DTD）<$l （6）因此，在生成源的过程中，我们在下采样期间仅考虑有效像素。此外，我们为目标和源生成像素有效性掩码，因此我们可以在训练和测试期间忽略无效像素NYUv 2 包含 1449 张使用 Microsoft Kinect 拍摄的RGB-D图像。我们将这些图像随机分为849张用于训练，300张用于验证，300张用于测试。DIML[4，20-对于我们的评估，我们使用高分辨率室内样本子集，这是使用Microsoft Kinect获得的。从这些数据中，我们构建了1440张用于训练的图像，169张用于验证的图像和503张用于测试的图像。我们将我们的模型与引导滤波器（GF）进行比较[13]，为了反向传播损失，我们必须求解第二线性方程组，然后产生图拉普拉斯算子的各个条目注意，导数w.r.t.拉普拉斯算子是不切实际的稠密矩阵（例如，对于256× 2像素的图像，该矩阵具有40亿个元素）。幸运的是，我们可以利用图拓扑是固定的这一事实，并且只计算w.r.t. L的非零条目（即，4-邻域的索引对）。一旦计算了图权重的梯度，它们就通过深度传播。特征提取器最后，我们总结了我们提出的模型，见图2。特征提取器fθ（G，S）计算来自引导图像和源图像的深度特征，并且这些特征通知4-邻居图的权重。该图，连同源S，形成输入的优化问题的方程。（2）估计目标。在训练期间，在预测和地面实况之间计算的损失引导特征提取，使得图权重优化地正则化高分辨率目标的预测。请注意，在测试时，我们必须解决一个二次问题，以预测目标图像。要做到这一点，非常有效的算法是可用的，尽管它当然不如传统的前向传递快。4. 实验结果在本节中，我们描述了我们提出的方法对RGB引导的深度图超分辨率任务我们在三个广泛使用的RGB-D数据集上进行了实验。对于每个数据集，我们将我们的方法与几个指导超分辨率基线进行比较。所有算法均在以下数据集上以3个上采样因子（4、8和16）进行评估Middlebury[16，44-我们将数据随机分为40张图像用于训练，5张用于验证，5张用于测试。该数据集的一个挑战性方面是它包含深度地面实况中的缺失值为静态/动态滤波器（SD）[12]，Pixtransform[5]，MSG-Net[17] ，可变形核网络（ DKN ）及其快速版本（FDKN）[18]，PMBANet [61]，最后是快速深度超分辨率（FDSR）[15]。我们无法与[52]最近的工作进行比较，因为在撰写本文时还没有发布代码。对于所有其他方法，我们使用相应的公开代码。我们使用PyTorch实现了我们的方法[37]。基于图形的优化层是使用CuPy库的稀疏映射支持实现的[33]，允许前向和后向传递的GPU加速实现。为了求解优化中所需的线性方程组，我们实施了共轭梯度法[32]。我们使用U-Net [41]网络和在ImageNet [6]上预训练的ResNet-50 [14]编码器作为图权重预测的特征提取器。我们还使用了简单的梯度裁剪，因为它提高了训练过程的稳定性作为基线，我们进一步与所提出的方法的一个版本进行比较，其中指南的RGB特征和源的双三次上采样是用于构造图的唯一像素特征，即，不使用深度特征提取器我们使用Adam [23] optimiser训练所有学习到的方法。根据具体数据集的不同，我们为所有方法固定了相同的批量大小，初始学习率和调度策略。为了比较的公平性，我们用我们的超参数配置和它们的原始超参数（当指示时）训练了所有学习的方法，并报告了最佳结果。每个数据集和方法的详细超参数对于所有学习的方法，我们在训练期间进一步使用数据增强，包括随机裁剪，随机水平翻转和随机旋转，其中旋转角度从（15°，15°）采样。所有方法都在2562像素的补丁上进行评估，然而，对于某些方法，由于内存限制，在如此大的补丁上进行训练是不可行的，在这种情况下，我们使用大小为1282或甚至642（对于因子为×4的PMBANet）。1985× ××0的情况。00100的情况。00050的情况。0000-0。0005-0。00100的情况。20的情况。1引导地面实况引导图形颜色预测误差图形深度特征预测误差图形颜色预测误差图形颜色边权重图形深度特征边权重图形颜色边权重1 .一、00的情况。80的情况。60的情况。40的情况。20的情况。01 .一、00的情况。80的情况。6在上面的例子中，模型已经了解到高对比度文本是周围对象的一部分，因此它预测相应图像区域的高边缘权重，并有效地实施平滑深度。这正确地导致文本不被传递到目标，这是在基于颜色特征的预测中可观察到的效果。另一方面，底部的图像显示，我们的模型已经学会了检测对象边界并突出显示它们，即使背景和前景具有非常相似的颜色。事实上，与基于颜色的权重相比，学习的边缘权重在深度不连续性相比之下，从颜色信息构建的图形无法执行适当的切割，导致出血伪影。4.2.深度超分辨率评价在表1和图4中，我们将我们的方法与所有选定的基线进行了定量和定性比较，0的情况。0-0。1-0。2图形深度特征地面实况预测误差图形深度特征边权重0的情况。40的情况。20的情况。0Middlebury，NYUv2和DIML数据集。我们优于所有其他方法w.r.t.上采样因子为4的MSE和MAE度量，8和十六岁从表中可以看出，测试方法的性能相当不同，在这三个数据集之间。传统的方法往往比学习的方法表现得更差。特别是，Pixtransform [5]显示出相当平坦的性能图3.学习边缘潜力的重要性。当从原始颜色（顶部）或深度特征（底部）导出时，我们可视化每个像素与其四个邻居的总亲和力。例子来自Middlebury测试集。4.1. 学习图权重如前所述，我们相信，基于仅在四个局部邻域上定义的图的平滑对于手头的问题是足够的，只要用于创建图的特征编码足够大的上下文。当然，当使用从整个数据集学习的深度特征时，使用具有大接收场的CNN时就是这种情况在图3中，我们将从普通颜色信息获得的图形该图是可视化的显示，ING，为每个像素，四个边缘的总和，连接到它的邻居。节点连接较强的区域显示为黄色，在这些区域中，图正则化将强制预测另一方面，在边缘权重较小的区域中，图形平滑度项较弱（当权重接近零时，它会消失），并且允许目标显示深度不连续性。图3表明，所提出的方法是能够提取语义信息的指导图像，并将其转移到边缘电位。在曲线，在较低的上采样系数下性能一般，但在较高的上采样系数下性能也不会突然下降在视觉效果方面，该方法揭示了许多从指南中遗留下来的工件。SD滤波器[12]在MAE上具有良好的性能，但MSE性能会因较大的上采样因子而快速下降。从视觉上看，它可以很好地捕捉到一些边缘，而它完全忽略并平滑了其他边缘，如图4所示。FDKN和DKN [18]在数据集上的性能比预期的要差，特别是在数量上。看起来这些方法被调整为稀疏下采样的源图像，并且不太适合于现实的（非脉冲形状的）点扩散函数。相比之下，我们的方法在所有三个数据集上都实现了良好的定量性能，同时生成了视觉上清晰的图像。它在较大的上采样因子下特别有效，显示了混合模型的优势，该模型利用了深度学习骨干和传统的在线优化层。最后，正如我们在下一段中解释的那样，它对域转移更鲁棒。跨数据集泛化。我们的工作的一个主要优点是，预测，下采样后，约束，以匹配源。这个额外的约束条件使模型对训练和测试之间的域偏移具有更好的鲁棒性（以推理时增加的计算为代价为了量化这种行为，我们执行预测误差[cm]边权重预测误差[cm]边权重1986××4×8×16×4×8×16×4×8×16[第13话]SD滤波器[12] Pixtransform [5]MSG-Net [17] DKN [18]FDKN [18]PMBANet [61][第15话] 我们的-颜色我们最小均方误差33.3 24.9 39.8 4.13 4.29 3.60 4.72 7.72 14.83.041.27 0.46 0.79 0.22 0.18 0.16 0.25 0.35 0.420.13最小均方误差40.5 82.5 32.7 10.5 11.2 10.4 9.48 23.2 68.37.261.49 0.86 0.82 0.43 0.38 0.37 0.38 0.69 0.830.24中、小型企业67.4 511 41.5 34.2 47.6 38.5 30.6 55.4 29724.72.21 1.73 1.24 1.06 1.42 1.18 0.89 1.51 1.690.67最低标准误差114 36.0 112 6.85 11.4 8.07 10.8 10.5 19.06.452019 - 03 - 25 0.93 0.94 1.110.73最低标准设备142 105 122 24.1 29.8 29.9 31.5 35.4 68.419.62.47 2.57 3.86 1.66 1.82 1.80 1.79 1.96 2.301.42中、小型企业249 533 219 84.5 115 113 84.9 179 26467.5MAE 6.34 5.07 5.40 3.35 4.01 3.95 3.26 4.68 4.562.90最小均方误差25.6 10.5 20.7 1.73 3.47 2.2 3.05 2.75 7.021.681.45 0.40 1.15 0.22 0.33 0.23 0.31 0.29 0.350.20最小均方误差34.1 44.9 23.0 4.13 5.47 5.95 5.87 8.40 15.23.511.77 0.83 1.26 0.40 0.45 0.47 0.66 0.670.31中、小型企业66.3 411 39.3 13.0 19.3 20.8 13.8 32.9 1339.452.74 1.91 1.78 0.93 1.20 1.24 0.87 1.66 1.720.68表1.在Middlebury [16，44下表显示了MSE（单位：cm2）和MAE（单位：cm）。米德尔伯里MSE 40.5 82.5 32.7 11.0 10.0 9.62 18.4 23.98.251.49 0.86 0.82 0.54 0.43 0.46 0.73 0.910.35MSE（低分辨率）17.91.8622.55.010.200.067.200.081. 1·10−3表2.与跨数据集综合的最先进算法的性能比较。所有学习的方法都是在NYUv2数据集上训练的[49]。该表显示了该方法在DIML [4，20- 22 ]和Middlebury [ 16，44 - 47 ]数据集上的性能，下表显示了MSE（单位：cm2）、MAE（单位：cm 2）和低分辨率MSE（单位：cm2）。一个跨数据集推广实验。对于所有方法，我们在NYUv 2上进行训练，并在Middle- bury和DIML上测试生成的模型从表2中可以看出，我们的性能明显优于所有其他方法此外，我们的预测在下采样时几乎完美地匹配源，如通过低分辨率MSE所测量的。4.3. 特征提取器比较我们继续研究我们的方法与不同的特征提取器的性能。表3比较了NYUv28上采样任务的误差，其中不同的主干用于提取图正则化层的特征，如第3.2节所述。我们已经测试了几个著名的骨干，总是用ImageNet上预先训练的权重初始化它们[6]。除了这些通用的骨干，我们还评估了从FDSR网络中提取的特征图，该网络是专门为引导深度超分辨率设计的。最后，为了探索特征提取的边界，我们采用了密集预测Transformer的变体[38，39]，其从Vision Transformer（ViT）中提取用于密集预测任务（如单深度或语义分割）我们调整了该模型，以考虑每个特征级别的（适当重新采样的）源图像，并将其称为引导密集预测Transformer（GDPT）。结果表明，我们的方法是相当不敏感的架构的选择，在一系列的能力（重新安装，参数计数）。这似乎表明，基于图的正则化虽然明显受益于高级特征，但限制了特征提取器的表达能力。我们推测，这是由于图不能表示输出图像中的长范围模式，而只能在需要的地方执行局部平滑，从而限制了可以有效地传输到预测目标的信息量但是，我们不建议使用容量非常低的主干：当使用FDSR时，性能优于原始FDSR模型，但明显低于容量更高的模型。特征提取器#参数MSE（cm2）MAE（cm）颜色268.42.30[53]第五十三话10M24.91.63UResNet-18 [14]14M21.71.52UResNet-50 [14]32M19.61.42[第15话]0.6M30.41.75GDPT [38，39]127M22.31.54表3.各种特征提取器在NYUv2上执行×8上采样任务的性能比较NYUv2DIML米德尔伯里测试数据集[第13话]SD滤波器[12]Pixtransform [5]MSG-Net [17]FDKN [18]PMBANet [61][第15话]我们的-颜色我们DIMLMSE34.144.923.05.766.747.357.7320.54.95Mae1.770.831.260.510.530.590.740.770.40MSE（低分辨率）17.71.456.196.160.200.040.450.03二、4·10−31987×××(a) 为着力(b)源头（c）GT。（d）SD。（e）Pixtr。（f）味精。(g)FDKN。(h)PMBA。（i）FDSR。（j）我们的。 (k)我们的猎物图4.上采样深度图的定性比较。从上到下，每组两行分别示出了Middlebury [16，4416个数据集。从左到右，第一组列是（a）指南，（b）来源和（c）地面真理;第二组包括从我们的定量评估中选择的方法，(d)SD filter [12]，（e）Pixtransform [5]，（f）MSG-Net [17]，（g）FDKN [18]，（h）PMBANet [61]和（i）FDSR [15];最后两列表示（j）模型预测的误差和（k）预测本身。然而，与所使用的主干无关，我们的方法在所有评估的方法中实现了最低的MAE;除了使用原始颜色作为特征时，即，低水平的图像对比度作为正则化器是不够的，并且使用学习的特征提取器是必要的。5. 讨论图形正则化层有效地充当可以从引导件携带到目标的信息量的瓶颈-正则化不能在目标图像中创建任意图案。这可以被视为一种限制，但也是一种理想的属性，因为它增加了模型的鲁棒性。我们方法w.r.t. 对于大多数传统的深转发体系结构来说，最大的问题是推理时间，这是保证对源的严格保真度的在线优化所付出的代价对单个2562像素贴片的前向传递，用于上采样因子 8，在NVIDIA GeForce上平均耗时111RTX 2080钛合金这个数字取决于COM-图像的复杂度和上采样因子。6. 结论我们提出了一种基于可学习的图正则化器的引导超分辨率新公式该方法采用深度特征提取器，该深度特征提取器将引导和源作为输入，并且在目标图像中的相邻像素上推断亲和图学习的图在源的上采样中充当正则化器，实现为可微分优化层。该架构内的这种明确优化保证了高分辨率目标对低分辨率源的严格保真度我们提出的方法结合了传统方法和基于深度学习的方法的理想特性：优化层保证保真度w.r.t.即使在测试集中的域移位的情况下，源图像也是满意的，而深度特征提取器使得学习的亲和图能够封装从大的上下文提取的有价值的信息。实验评估证实，我们的图正则化器是有效的，表现出分段平滑结构的信号，如深度图。1988引用[1] 乔纳森·T.Barron，Andrew Adams，YiChang Shih，andCar-losHer na'ndez. 最后的双边空间立体合成散焦。CVPR，2015。2[2] 乔纳森·T.巴伦和本·普尔。快速双边求解器。在ECCV，2016年。二、五[3] Derek Chan，Hylke Buisman，Christian Theobalt，andSebastian Thrun.用于实时深度上采样的噪声感知滤波器。在多相机和多模态传感器融合算法和应用研讨会-M2 SFA 2，2008年。2[4] 赵，宰勋和民，东波和金，永贞和孙，光勋。深度单目深度估计杠杆老化大规模户外立体数据集。专家系统与应用，2021年。五七八[5] 放大图片作者：Richard D. Wegner和Konrad Schindler。引导超分辨率作为像素到像素变换。在ICCV，2019年。二五六七八[6] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。在CVPR中。Ieee，2009年。五、七[7] James Diebel和Sebastian Thrun。马尔可夫随机场在距离传感中的应用。在NIPS，2006年。一、二、三、四[8] 董伟胜，石光明，李鑫，彭克凡，吴金健，郭振华通过联合局部结构和非局部低秩正则化的颜色引导深度恢复IEEE Transactions on Multimedia，2016。1[9] Zheng et al. Conditional Random Fields as RecurrentNeural Networks. 2015年，国际会议。2[10] David Ferstl 、 Christian Reinbacher 、 Rene Ranftl 、Matthias Ruüther和HorstBischof。使用各向异性总广义变分的图像引导深度上采样InICCV，2013.一、二[11] Chunle Guo ， Chongyi Li ， Jichang Guo ， RunminCong，Huaju Fu，and Ping Han.用于深度图超分辨率的分层特征驱动的TIP，2019年。3[12] Bumsub Ham，Minsu Cho，and Jean Ponce.使用非凸势的鲁棒引导图像滤波TPAMI，2018年。一、二、五、六、七、八[13] 何开明，孙建，唐晓鸥。引导图像滤波。TPAMI，2013年。二、五、七[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。五、七[15] Lingzhi He，Hongguang Zhu，Feng Li，Huihui Bai，Runmin Cong ， Chunjie Zhang ， Chunyu Lin ， MeiqinLiu，and Yao Zhao.迈向快速准确的真实世界深度超分辨率：基准数据集和基线。在CVPR，2021年。一三五七八[16] 你好，赫什穆勒和丹尼尔·沙尔斯坦。立体匹配代价函数的评价CVPR，2007。五七八[17] Tak-Wai Hui，Chen Change Loy，and Xiaoou Tang.通过深度多尺度引导实现深度图超分辨率。在ECCV，2016年。一三五七八[18] 金范俊，让·庞塞和范燮·汉姆。可变形核网络用于联合图像滤波。IJCV，2021年。三五六七八[19] Jiwon Kim，Jung Kwon Lee，and Kyoung Mu Lee.使用非常深的卷积网络实现精确的图像超分辨率。在CVPR，2016年。1[20] Sunok Kim，Dongbo Min，Bumsub Ham，SeungryongKim，and Kwanghoon Sohn.用于深度估计的深度立体置信度预测。在ICIP，2017年。五七八[21] 金英贞，范燮，吴昌在，孙光勋。rgb-d相机的结构选择深度超分辨。TIP，2016. 五七八[22] Youngjung Kim ， Hyungjoo Jung ， Dongbo Min ， andKwanghoon Sohn.通过全局和局部预测的集成进行深单目深度估计。 TIP，2018年。五七八[23] Diederik P. Kingma和Jimmy Ba。Adam：随机最佳化的方法。2015年，国际会议。5[24] 放大图片作者：Michael F.科恩，丹尼·利辛斯基和马特·乌滕代尔。联合双边上采样。ToG，2007年。2[25] HyeokHyen Kwon，Yu-Wing Tai，and Stephen Lin.通过多尺度稀疏表示的数据驱动深度图细化CVPR，2015。3[26] 拉纳拉斯，迪亚斯，加利亚尼，巴尔萨维亚斯和辛德勒。Sentinel-2图像的超分辨率：学习全局适用的深度神经网络。ISPRS Journal of Photogrammetry and RemoteSensing，2018。1[27] Yijun Li，Jia-Bin Huang，Narendra Ahuja，and Ming-Hsuan Yang.深度联合图像滤波。在ECCV，2016年。3[28] Yijun Li，Jia-Bin Huang，Narendra Ahuja，and Ming-Hsuan Yang.联合图像滤波与深度卷积网络。TPAMI，2019。3[29] Yanjie Li ， Tianfan Xue ， Lifeng Sun ，and JianzhuangLiu.联合基于示例的深度图超分辨率。载于ICME，2012年。3[30] Ming-Yu Liu，Oncel Tuzel，Yuichi Taguchi.深度图像的联合测地线上采样。CVPR，2013。2[31] Pushmeet Kohli Nathan Silberman，Derek Hoiem和RobFergus。室内分割和支持从rgbd图像推

下载后可阅读完整内容，剩余1页未读，立即下载