离散余弦变换网络在深度图超分辨率中的应用

192 浏览量更新于2023-10-25 收藏 16.58MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

guided edge attention weightRGB featureDepthfeature56970用于引导深度图超分辨率的离散余弦变换网络0Zixiang Zhao 1,2 Jiangshe Zhang 1 * Shuang Xu 1,3 � Zudi Lin 2 Hanspeter Pfister 201西安交通大学，中国西安2哈佛大学，美国剑桥3西北工业大学，中国西安0zixiangzhao@stu.xjtu.edu.cn, jszhang@mail.xjtu.edu.cn, xs@nwpu.edu.cn,0{linzudi,pfister}@g.harvard.edu0摘要0引导深度超分辨率（GDSR）是多模态图像处理中的一个重要主题，它从在次优条件下收集的低分辨率深度图像中，利用同一场景的高分辨率RGB图像重建高分辨率深度图。为了解决解释工作机制、提取跨模态特征和RGB纹理过度传递的挑战，我们提出了一种新颖的离散余弦变换网络（DCTNet）来减轻这三个方面的问题。首先，离散余弦变换（DCT）模块通过使用DCT来解决源自图像域的逐通道优化问题，重建多通道HR深度特征。其次，我们引入了一个半耦合特征提取模块，该模块使用共享卷积核提取公共信息，使用私有卷积核提取模态特定信息。第三，我们采用边缘注意机制来突出对引导上采样有用的轮廓。广泛的定量和定性评估证明了我们的DCTNet的有效性，相对较少的参数数量超过了先前的最先进方法。代码可在https://github.com/Zhaozixiang1228/GDSR-DCTNet获得。01. 引言0随着面向消费者的深度估计传感器的普及，例如飞行时间（ToF）和Kinect相机，深度图在自动驾驶[24,37]，姿态估计[42,56]，虚拟现实[20,28]和场景理解[10,64]方面推动了进展。不幸的是，由于技术限制和次优的成像条件，深度图像通常具有低分辨率（LR）和噪声。然而，高分辨率（HR）的RGB图像（或强度图像）相对容易在同一场景中获得。0*通讯作者。0共享核私有核私有核0共享核私有核私有核0半耦合残差块10半耦合残差块20半耦合残差块P0空间注意力0深度重建模块0输入输出0L0图0HRRGB图像0离散余弦变换模块0H0图0图1.DCTNet概述。首先，SCFE模块从深度（LR）和RGB（HR）图像中提取共享和私有特征。GESA模块利用RGB特征获取用于SR的边缘注意力权重。多模态特征和注意力权重然后由DCT模块处理，其中在每个通道中利用DCT获取HR深度特征。最后，重建模块输出SR深度图。0在获取深度图时，由于RGB图像的纹理边缘与深度图的不连续性之间存在统计共现，因此引导深度图超分辨率（GDSR）已成为多模态图像处理和多模态超分辨率（SR）中的一个重要主题。我们的研究基于这样一个假设，即RGB图像的纹理边缘与深度图的不连续性之间存在统计共现[40]。通过这种方式，当LR深度图对下游应用不满意时，可以利用RGB图像中的信息来恢复HR深度图。对于图像超分辨率，由于其能够对LR图像到HR图像的映射进行建模的能力，深度神经网络已成为事实上的方法学[5,25,62]。然而，图像超分辨率主要关注重建细节和纹理，而深度超分辨率模型需要推断无纹理和具有尖锐深度不连续性的分段仿射区域[40]。此外，深度图可能存在噪声，并且在实际应用中对伪影的容忍度较低[54]。因此，我们几乎无法在不评估深度超分辨率的独特特征的情况下采用图像超分辨率的方法。56980常规的GDSR方法可以分为三类，即滤波器方法[27, 29, 30,33]，优化方法[4, 6, 23, 35, 59]和基于学习的方法[8, 54,55]。基于滤波器的方法（或局部方法）侧重于在强度图像的指导下保留清晰的深度边缘。然而，对于纹理丰富的RGB图像，可能会将无关的边缘转移到深度图像中（称为纹理过度转移）。此外，明确定义的滤波器只能模拟特定的视觉任务，缺乏灵活性。基于优化的方法（或全局方法）根据多样的数据先验设计能量函数，通过数据保真度正则化项约束解空间[38,63]。然而，自然先验往往很难明确表示和学习。第三类包含基于学习的方法，它们采用数据驱动的流程来学习多模态输入之间的依赖关系。该类别中的代表性工作使用稀疏字典学习[15, 19,51]，以组学习的方式学习字典，并对不同模态的稀疏表示设置约束[2,63]。引入了深度学习（DL）模型来学习从LR到HR图像的映射[44, 47, 49, 50, 52,61]，但它们通常仍然与深度上采样的经典方法合作。例如，可学习滤波器[16,53]（DL和基于滤波器的方法的组合）和算法展开[3,58]（基于优化的方法的DL）已经显示出有希望的结果。然而，传统方法仍然存在一些挑战，包括RGB/深度图像之间的边缘不匹配和纹理过度转移，难以有效学习自然先验，以及DL架构的内部机制的解释能力有限。为此，我们提出了一种离散余弦变换网络（DCTNet）用于GDSR任务，灵感来自于耦合字典学习和基于物理建模。它由四个组件组成：半耦合特征提取（SCFE），引导边缘空间注意（GESA），离散余弦变换（DCT）模块和深度重建（DR）模块。工作流程如图1所示。我们的贡献可以总结如下：首先，我们提出了半耦合残差块，以利用RGB图像中的强度边缘与深度图像中的不连续性之间的相关性，同时保留两种模态中的详细纹理和段平滑等独特属性。在该块的每个卷积层中，一半的卷积核负责提取深度/RGB图像中的共享信息，这些信息应用于两种模态。剩余一半的卷积核分别设计用于提取深度和RGB图像中的唯一信息。私有核中的参数不共享。因此，具有半耦合块的特征提取器可以从输入图像对中有效地提取GDSR的信息特征。其次，我们提出了一种新颖的DCT模块，以提高经验设计的优化模型在GDSR中的工作机制的可解释性。该组件将DCT用于在多通道特征域中由RGB特征引导的HR深度图特征的获取。因此，除了学习LR到HR的映射外，我们的DCTNet更注重特征提取和边缘权重突出。尽管最近的工作已经将DCT用于识别[57]和图像SR[32]，但据我们所知，我们是首次将其用于恢复退化的深度图。我们进一步使DCT模块中的调整参数可学习，以提高模型的灵活性。第三，为了克服RGB图像中纹理细节过度转移的问题，我们在我们的GESA模块中采用了RFANet[26]中的增强空间注意（ESA）块，以突出对GDSR有用的RGB特征中的边缘。通过这种方式，一部分强度边缘被激活并与深度不连续性相关联，实现了从引导图像的纹理结构的自适应转移。我们在包括NYU v2[43]、Middlebury[13,41]、Lu[31]和RGBDD[12]在内的四个流行的RGBD数据集上进行了全面的评估。定量和定性结果表明，我们的DCTNet在GDSR中可以以相对较少的参数实现最先进的性能。0设计的DL架构。该组件利用DCT来解决一个经过精心设计的GDSR优化模型，并将其作为模块插入DL模型中，以在多通道特征域中获取由RGB特征引导的HR深度图特征。因此，除了学习LR到HR的映射外，我们的DCTNet更注重特征提取和边缘权重突出。尽管最近的工作已经将DCT用于识别[57]和图像SR[32]，但据我们所知，我们是首次将其用于恢复退化的深度图。我们进一步使DCT模块中的调整参数可学习，以提高模型的灵活性。第三，为了克服RGB图像中纹理细节过度转移的问题，我们在我们的GESA模块中采用了RFANet[26]中的增强空间注意（ESA）块，以突出对GDSR有用的RGB特征中的边缘。通过这种方式，一部分强度边缘被激活并与深度不连续性相关联，实现了从引导图像的纹理结构的自适应转移。我们在包括NYU v2[43]、Middlebury[13,41]、Lu[31]和RGBDD[12]在内的四个流行的RGBD数据集上进行了全面的评估。定量和定性结果表明，我们的DCTNet在GDSR中可以以相对较少的参数实现最先进的性能。02. 相关工作0超分辨率是一个基本的计算机视觉主题，涉及许多子领域和众多方法。在这里，我们只讨论GDSR的方法。02.1. 传统GDSR方法0基于滤波器的方法。基于滤波器（局部）的方法旨在使用RGB图像引导联合滤波器感知深度图中的边缘。从联合双边上采样[18]及其变体[1,60]开始，RGB图像引导双边权重的获取。Liu等人[27]用测地距离替换欧氏距离以保持深度图的不连续性。加权模式滤波器[33]、引导滤波[11]及其变体[30,48]在上采样过程中也被广泛使用。Lu等人[29]使用平滑方法处理由深度图引导的RGB图像分割得到的图像部分，以解决纹理传输问题。基于优化的方法。基于优化（全局）的方法通过马尔可夫随机场[4]、非局部均值滤波[35]、像素自适应自回归模型[59]、总广义变差[6]和多通道优化框架[23]建模颜色图像和深度图之间的相互依赖关系。基于学习的方法。早期的方法，如双模共稀疏分析[15]和联合字典学习[51]捕捉RGB和深度图像之间的相互依赖关系。56990Kwon等人[19]和Xie等人[55]采用多尺度字典学习策略和具有局部坐标约束的鲁棒耦合字典学习算法来解决信息传递中的过度平滑和过拟合问题。Gu等人[8]通过加权分析表示模型建立了一种任务驱动的学习方法来学习动态引导。Xie等人[54]从外部HR/LR图像对中学习HR边缘图推断方法。02.2. 深度学习GDSR方法0GDSR的性能进一步提升得益于神经网络强大的特征提取能力。Riegler等人[39]采用一阶原始-对偶算法并将优化处理展开到网络结构中，建立了基于DL方法和基于优化方法之间的关系。Li等人[21,22]使用具有跳跃连接的双流端到端网络学习LR到HR深度图的映射。Hui等人[14]提出了多尺度边缘传输指导。类似地，Guo等人[9]使用残差U-Net结构学习双三次插值上采样和地面真实值之间的残差信息，在多尺度指导下。基于迭代收缩阈值算法（ISTA）[7]的CoIAST[2]将HR深度图的估计视为两个LISTA分支的线性组合。CU-Net[3]使用两个模块通过多模态卷积稀疏编码分离公共/独特特征，并详细说明模型的可解释性。最近，DKN [16]和FDSR[12]通过学习空间可变核和八度卷积实现自适应滤波邻居/权重计算和高频引导特征分解，分别在合成和真实场景数据集中超过了先前的最先进（SOTA）方法。02.3. 与现有方法的比较0我们提出的DCTNet与基于优化和基于深度学习的耦合字典学习方法密切相关。 (1)我们模型中的DCT模块通过解决一个优化问题获得HR的深度图特征，据我们所知，我们是第一个使用DCT来解决这个问题的。此外，DCT模块被集成到DL框架中，完成多通道特征获取。可学习参数进一步增强了该模块中优化函数的灵活性。(2)对于RGB纹理过度传输的挑战，与局部/全局方法相比，我们使用ESA模块[26]以数据驱动的方式自适应学习边缘注意权重。(3)我们的特征提取编码器受到耦合字典学习的启发，但我们不需要显式学习字典。相反，私有/共享特征提取通过限制参数是否在卷积核之间共享来完成。03. 方法0在本节中，我们将详细介绍我们提出的DCTNet的细节。我们首先展示如何使用离散余弦变换（DCT）在图像域中解决GDSR任务的优化问题。然后，我们描述DCTNet的架构单元和训练目标。03.1. 问题定义0为了清晰起见，我们首先定义一些重要的符号。在GDSR任务中，模型预期将HR RGB图像R ∈RM×N×3和LR深度图像˜L ∈ Rm×n作为输入，其中{M,N}和{m,n}分别是输入RGB和深度图像的高度和宽度。我们的目标是在R的指导下获得HR深度图像H ∈RM×N。我们还执行一些预处理以获得˜R和L，其中˜R ∈RM×N表示R的YCrCb颜色空间中的Y通道，L ∈RM×N是˜L的上采样图像。如果给定了相同场景中的R和˜L，则可以通过最小化以下能量函数来获得H：0F = 102∥H − L∥22 +λ02∥L(H) − L(˜R) ◦ W(˜R)∥22，(1)0其中L(∙)是拉普拉斯滤波器，W(∙)可以被视为选择对GDSR有用的边缘的给定阈值函数。◦表示逐元素乘法，λ是控制第二项贡献的参数。当∂F时，可以得到最优解0∂H = 0，我们有0H + λL2(H) = λL�L(˜R) ◦ W(˜R)� + L. (2)0方程（2）可以被视为2D泊松方程（PE）。在执行卷积操作时，我们假设在图像边界处进行“反射填充”扩展，从而使图像边界上的梯度为零。因此，PE方程（2）具有Neumann边界条件（NBC）。从技术上讲，带有NBC的PE可以通过DCT来求解[45]。然后我们设置λL(L(˜R) ◦ W(˜R)) + L �E，并在方程的两侧实施DCT运算：0Fc(H) + λK2 ◦ Fc(H) = Fc(E)，(3)0Mπ � + cos � j−10Nπ�，1 ≤ i ≤ M，1 ≤ j ≤N。最后，可以通过以下方式计算HR深度图像：0H = F−1c � Fc(E) � I + λK2 ��，(4)0其中F−1c(∙)是逆DCT运算，�表示逐元素除法，I是单位矩阵。由于篇幅限制，我们将读者引用到补充材料中，以获取方程的详细推导。上述方法存在以下问题：(a)尽管H可以通过优化来解决，但需要额外的边缘感知方法来确定W(∙)。(b)SRp1(ΦRp−1) = ΦRp−1 ∗ C(ksharedp1, kR privp1),(5)SLp1(ΦLp−1) = ΦLp−1 ∗ C(ksharedp1, kL privp1),(6)ΦRp = ReLU SRp2(ReLU(SRp1(ΦRp−1))) + ΦRp−1,(7)57000半耦合残差块107X7池化0步幅卷积03X3卷积0卷积组0上采样01X1卷积0Sigmoid01X1卷积03X3卷积03X3卷积01X1卷积0(a) 半耦合特征提取模块 (c) 深度重建模块 (b) 引导边缘空间注意力模块0初始化卷积初始化卷积0半耦合0残差块p0半耦合0残差块P0图2. DCTNet工作流程的详细说明。子图(a)-(c)是图1中SCFE、GESA和DR模块的具体结构，分别用于提取跨模态特征，突出RGB边缘信息和重建HR深度图。0λ在方程（2）中是手动给定的，这限制了模型的灵活性。(c)在图像域中优化单个通道难以有效地建模跨模态内部特征相关性。结合第1节中讨论的挑战，例如RGB纹理过度传递和自然先验学习的困难，我们在下面的部分提出了一种新颖的DCTNet来缓解上述问题。03.2. DCTNet0我们提出的DCTNet包括四个组件，包括半耦合特征提取（SCFE）、引导边缘空间注意力（GESA）、离散余弦变换（DCT）和深度重建（DR）模块。详细说明如图1和图2所示。我们对模型进行了概述。首先，给定一对 L 和R，半耦合残差块从源图像中提取共享特征和私有特征。然后，GESA模块处理RGB特征以获取对SR有用的注意力边缘权重。随后，多通道RGB和深度特征以及注意力边缘权重输入到DCT模块中，以获取HR深度特征。最后，深度重建模块输出SR深度图。接下来将详细说明各个模块。03.2.1 半耦合特征提取0同一场景中的RGB和深度图可能具有冗余信息（例如形状和边缘）和互补信息（例如RGB纹理细节和深度不连续性）。同时，基于GDSR的基本假设，跨模态图像中的一些特征应该是相互依赖的，而其他特征是模态特定的。因此，我们的SCFE模块旨在实现共享和私有特征的跨模态提取。如图2（a）所示，我们可以将SCFE模块构建为特征提取的编码器。内部卷积包括两个初始卷积和P个半耦合残差块。这里我们将与L、R对应的初始卷积层表示为{S L 0，S R0}，与L、R对应的第p个半耦合残差块中的第q个卷积层表示为{S L pq，S R pq}，其中p = 1，2，∙∙∙，P0并且 q = 1 , 2 。 {S L pq , S R pq } 的输出特征用 { Φ Lpq , Φ R pq } ∈ R M × N × C 表示，其中 C 是 {S L pq ,S R pq } 中卷积核的数量。P 和 C在第4.2节中确定。注意当 q = 2 时，{ Φ L pq , Φ R pq }可以简化为 { Φ L p , Φ R p }。初始化层生成 Φ R 0 = S R0 ( R ) ，Φ L 0 = S L 0 ( L )。然后以第 p个半耦合残差块中的第一个卷积核为例，半耦合卷积操作可以表示为0其中 � 表示卷积，{ k shared p 1 , k R priv p 1 , k L priv p 1} 表示与 R 和 L 对应的共享卷积核和私有卷积核，C ( ∙ , ∙ )表示沿通道维度的连接。然后，R在第p个残差块的输出特征 Φ R p 变为0Φ L p 的输出与方程（7）类似，只需将上标从 R 替换为L。最后，SCFE模块的输出是包含跨模态图像对中的共享特征和私有特征的 Φ L P 和 Φ RP。与完全共享或独立设置相比，SCFE模块中的半耦合卷积核可以更有效地学习各自输入特征的共享/私有部分，从而更有效地提取特征。SCFE模块的有效性在第4.4节中进行了证明。03.2.2 引导边缘空间注意力0为了防止引导RGB图像包含丰富纹理时将无关纹理传递到SR深度图H的问题，我们采用了RFANet中的ESA块，该块在单幅图像SR中取得了出色的结果，如图2（b）所示。ESA块可以以轻量且高效的方式突出显示注意力权重，有助于学习具有区分性的特征。这种动机符合我们对GESA模块的要求。我们用A（∙）表示该模块中的操作，57010引导边缘注意力权重可以通过以下方式获得0˜WR = A(ΦRP) ∈ RM×N×C. (8)0该模块通过在公式(1)中手动给出W(∙)来替换获取W(˜R)的操作。因此，可以突出显示强度特征中的部分边缘。与手动设计用于提取有用于上采样的边缘权重的传统方法相比，数据驱动的策略可以实现自适应的注意力权重提取。03.2.3 离散余弦变换0在上述子节中，我们已经获得了与R、L1和引导边缘注意力权重˜WR相对应的多通道特征ΦR和ΦL。在本子节中，我们将使用它们来完成深度特征的上采样。在公式(4)中，我们说明了在给定一对L、R和阈值函数W(∙)的情况下，可以通过DCT操作来重建HR深度图像。因此，我们将DCT算法视为一个模块，可以集成到我们的DCTNet框架中。此外，它可以通过在每个特征通道上完成DCT操作来扩展以获得多通道HR深度图特征。数学上，DCT模块的计算表示为DCT(∙, ∙, ∙)，即0ΦH = DCT(ΦR, ΦL, ˜WR), (9)0其中ΦH ∈RM×N×C是深度图L的引导上采样特征。具体而言，DCT(∙,∙, ∙)0ΦE[c] � ˜λcL � L(ΦR[c]) ◦ ˜WR[c] � + ΦL[c], (10)0ΦH[c] = F−1c � Fc(ΦE[c]) � �I + ˜λcK2��，(11)0其中ΦH[c] ∈RM×N是ΦH的第c个通道特征图。我们要强调的是，与公式(1)和公式(4)中手动给定的λ相比，公式(10)中的˜λ ∈RC被设置为可学习的。通道参数随着训练进程进行更新，提高了模型的灵活性。总之，使用DCT模块有两个主要优势。首先，除了˜λ ∈RC，特征图ΦH的获取是无需学习的，可以减少具有较少可学习权重的网络大小。其次，使用DCT操作直接计算输出特征使得该组件比通常像黑盒子一样工作的神经网络更易解释。03.2.4 深度重建0最后，深度重建模块旨在从其特征图ΦH中预测HR深度图，该特征图是DCT模块的输出。详细结构如下所示01 我们简单地将{ΦLP, ΦRP}表示为{ΦL, ΦR}。0网络深度P(C = 64)设置2 3 4 5 60× 4 2.378 1.989 1.544 1.521 1.527 × 8 4.6443.963 3.152 3.174 3.166 × 16 8.245 6.9045.764 5.787 5.7760网络宽度C(P = 4)设置8 16 32 64 1280× 4 2.798 2.300 1.992 1.544 1.529 × 8 5.6944.476 3.808 3.152 3.171 × 16 9.531 7.6956.976 5.764 5.7340表1.使用验证集评估DCTNet的深度P和宽度C的影响。粗体表示最佳RMSE结果。0如图2(c)所示。具体来说，该模块的函数R(∙)可以表示为ˆH= R(ΦH)，其中ˆH ∈ RM×N是DCTNet预测的HR深度图。03.2.5 训练损失0与最近的研究[3, 21,22]一致，我们选择ℓ2损失作为训练目标。即D(ˆHi, Hi) =�Ni=1∥ˆHi−Hi∥22，其中Hi是地面真实的HR深度图。04. 实验0在本节中，我们对几个数据集进行了全面的定量和定性实验，以证明我们提出的DCTNet的有效性。04.1. 设置0数据集。我们使用最近的研究[16，21，22，46]中的协议使用流行的GDSR基准测试。具体而言，我们选择了前1000对NYUv2数据集[43]作为训练集（900对用于训练网络，100对用于验证），最后449对作为测试集。我们还使用Lu等人提供的Middlebury [13，41]（30对）和Lu[31]（6对）作为测试集。此外，还将RGBDD数据集[12]中的405对图像用于评估。我们在NYUv2数据集[43]上训练我们的DCTNet，并在上述四个数据集上进行测试。在我们的实验中，所有的LR深度图像都是通过对HR深度图进行双三次下采样合成的。最后，为了验证我们模型在自然场景中的泛化能力，我们在RGBDD数据集的真实世界分支上进行了测试2[12]。有关所有数据集的更多描述，请参阅补充材料。0度量和实现细节。在预处理阶段，训练样本被调整为256×256。网络经过1000个epoch的训练，每个mini-batch的大小为02该分支数据集包含2215/405对RGBD图像作为训练/测试集。LR深度图和目标HR深度图都是在真实场景中获取的，尺寸分别为192×144和512×384。(2)(1)(3)(4)(5)(6)(7)(8)0100020003000400050006000Iteration0.40.60.81.01.21.41.6Learnable in DCT Module57020图3.（左）突出显示的边缘注意权重和（右）可学习参数λ的变化曲线的视觉结果。左：（1）-（3）：输入R，地面真实H和输入L，分别。（4）-（8）：由GESA模块产生的代表性突出显示的边缘权重。右：训练期间可学习参数˜λ的值随迭代次数的变化。不同颜色的线表示对应于不同通道的˜λc。064.我们使用Adam[17]优化器，学习率为10^-3。在测试阶段，我们遵循常规做法，使用均方根误差（RMSE）来衡量与地面真实地图的深度SR性能。较小的RMSE意味着预测深度图像的质量更好。脚本主要使用Pytorch[36]实现。训练和测试在一台配备两个NVIDIA GeForceRTX 3090GPU的PC上进行。我们随机初始化可学习参数˜λ为e^θ，其中θ�N(0.1，0.3)。每个卷积层的半耦合滤波器的半耦合残差块数P和核数C分别设置为4和64。通过在第4.2节中使用验证集验证了P和C的选择。04.2.验证实验0网络深度和宽度的影响。对于我们提出的DCTNet，网络深度P和宽度C在超分辨率的有效性中起着重要作用。我们在验证集上展示了不同组合{P，C}的结果。我们首先固定C =64，并计算在验证集上当P =2，3，4，5，6时的预测质量。然后我们在固定P =4时验证C =8，16，32，64，128的SR结果。结果在表1中展示。当P <4时，模型能力受限。当P >4时，增加深度并不能明显提高性能，但会使模型更重。同样，当C超过64时，没有显著的性能改善，但会增加训练成本。为了在模型性能和计算成本之间取得良好的平衡，我们设置{P = 4，C = 64}进行后续实验。0突出显示边缘注意权重。我们从一个代表性样本对（图3）中可视化了Eq.（8）中引导边缘注意权重˜WR的前三个和后两个通道。我们可以清楚地看到，在GESA模块中进行权重注意操作后，对象的轮廓被有效地突出显示，并且对象内部的纹理信息被平滑处理，这可以缓解问题。0过度转移纹理并有益于GDSR任务。0DCT中可学习参数的演化。我们的一个贡献是将方程（10）中的调整参数˜λ变为通道级可学习参数的列表，以提高DCTNet的灵活性。在这里，我们展示了训练过程中每个通道的˜λ随迭代次数的变化曲线（图3）。图中显示，在数据驱动的设置下，˜λ可以自适应地调整保真度项和正则项之间的重要性。与方程（4）中手动给定的λ相比，我们的设计更能利用不同数据域的特征。04.3. 与现有技术的比较0在本节中，我们在NYUv2、Middlebury、Lu和RGBDD基准测试集上测试了我们的DCTNet，并与包括DJF [21]、DJFR [22]、PAC[46]、CUNet [3]、DKN [16]、FDKN [16]和FDSR[12]在内的最先进方法进行了比较，以展示其性能。0定性比较。我们在图4和图5中显示了SR深度图的误差图比较。定性上，DCTNet的深度预测具有更低的预测误差，并且更接近于真实图像。更多的视觉比较结果在补充材料中展示。0定量比较。在缩放因子为×4、×8和×16的四个测试集上的定量结果显示在表2中。与仅在某个特定数据集或超分辨率因子上表现良好的现有方法相比，我们的DCTNet在多个数据集和不同超分辨率尺度上实现了最佳或次佳性能。这显示了我们的模型在之前的最先进方法上的优势。此外，按照[12]的做法，对于RGBDD数据集的真实世界分支，我们使用在表2中训练的×4模型来验证它们在真实场景中的泛化能力。所有模型都是直接测试的，没有额外的微调。定量结果显示在表3中。我们提出的DCTNet的RMSE较之前更低。Learnable parameters ˜λ. Instead of using learnable ones,we fix ˜λ to e0.1 in Exp. IV (the mean of their initializationvalues). The result shows that a fixed tuning coefficient canreduce the flexibility of the model and restrict the SR ability.57030(a) RGB0(b) HR/LR深度图0(c) DJF [21]0(d) DJFR [22]0(e) PAC [46]0(f) CUNet [3]0(g) DKN [16]0(h) FDKN [16]0(i) FDSR [12]0(j) DCTNet (我们的)0图4. NYU v2数据集中“Image 1365”的8×超分辨率误差图的视觉比较。0(a) RGB0(b) HR/LR深度图0(c) DJF [21]0(d) DJFR [22]0(e) PAC [46]0(f) CUNet [3]0(g) DKN [16]0(h) FDKN [16]0(i) FDSR [12]0(j) DCTNet (我们的)0图5. Middlebury数据集中“05-Art”的16×超分辨率误差图的视觉比较。0方法，展示其泛化能力。0参数比较。我们在第3节中讨论了半耦合特征提取（SCFE）模块和DCT模块可以减少可学习参数数量同时提高模型的可解释性。因此，我们在图6中展示了在NYUv2数据集上模型参数数量与RMSE之间的对比。我们的模型在可学习参数数量相对较少的情况下与现有方法相比具有优势，展示了构建轻量级网络架构的有希望的未来方向。04.4. 消融研究0我们通过消融实验进一步验证了我们DCTNet的设计选择（表4）。由于篇幅限制，我们将读者引用到补充材料中了解Exp. III和V中的网络结构的详细信息。0半耦合滤波器。除了SCFE模块中的默认半耦合滤波器外，我们还测试了独立（实验I）或完全耦合（实验II）的情况，其中每个残差块中的参数不共享或完全共享。实验I的结果表明，独立卷积核提取特征的能力较弱，不如半耦合滤波器，这证明了使用共享卷积核提取公共特征的必要性。另一方面，实验II表明，完全共享滤波器的性能比半耦合滤波器差，这表明考虑两种模态之间的差异的重要性。0可学习参数˜λ。在实验IV中，我们将可学习参数˜λ固定为e0.1（其初始化值的平均值）。结果表明，固定调整系数可以降低模型的灵活性并限制超分辨率能力。0DCT模块。在实验III中，我们去除了DCT模块，使用一个三层CNN来学习方程（9）中的映射。去除DCT模块不仅增加了可学习参数的数量，还降低了预测质量，证明了遵循基于优化方法的DCT模块的有效性。0残差跳跃连接。在实验V中，我们去除了SCFE模块中的残差连接，只使用一堆卷积核。结果表明，残差连接在特征提取阶段起着重要作用，去除它们会导致性能显著下降。××××××××××××16DJF [21]1.683.245.622.805.339.461.653.966.753.415.578.15DJFR [22]1.323.195.572.384.949.181.153.576.773.355.577.99PAC [46]1.322.624.581.893.336.781.202.335.191.251.983.49CUNet [3]1.102.174.331.923.706.780.912.234.991.181.953.45DKN [16]1.232.124.241.623.266.510.962.165.111.301.963.42FDKN [16]1.082.174.501.863.586.960.822.105.051.181.913.41FDSR [12]1.132.084.391.613.185.861.292.195.001.161.823.061.41.61.822.22.42.6RMSEDJFDJFRPAC CUNetDKNFDKNFDSRDCTNet33.544.555.5RMSEDJFDJFRPACCUNetDKNFDKNFDSRDCTNet6789RMSEDJFDJFRPAC CUNetDKNFDKNFDSRDCTNetSVLRM [34]8.05DKN [16]7.38DJF [21]7.90FDSR [12]7.50DJFR [22]8.01DCTNet7.37FDKN [16]7.50et.57040方法 Middlebury NYU V2 Lu RGBDD0DCTNet（我们的）1.10 2.05 4.19 1.59 3.16 5.84 0.88 1.85 4.39 1.08 1.74 3.050表2.我们的DCTNet与先前最先进方法在四个基准数据集上的定量比较。我们使用RMSE指标（值越低越好）。最佳和次佳值分别用粗体和下划线标出。00 0.2 0.4 0.6 0.8 1 1.2 参数数量（百万）0数据集：NYU v2，缩放因子：400 0.2 0.4 0.6 0.8 1 1.2 参数数量（百万）0数据集：NYU v2，缩放因子：800 0.2 0.4 0.6 0.8 1 1.2 参数数量（百万）0数据集：NYU v2，缩放因子：160图6. 在NYUv2数据集上，模型参数数量与RMSE之间的关系，分别为×4、×8和×16的超分辨率尺度。我们的DCTNet（红色星号）在相对较少的参数数量下实现了更好或相当的性能，优于现有模型（蓝色点）。0方法 RMSE 方法 RMSE0FDSR � [ 12 ] 5.49 DCTNet � 5.430表3.RGBDD数据集的实际分支上的定量结果。最佳和次佳值分别用粗体和下划线突出显示。FDSR �和DCTNet�表示在实际分支数据上微调后的结果。0配置×4×8×160I w/ 独立滤波器 1.74 3.34 6.06 II w/ 完全共享滤波器1.80 3.48 6.46 III w/o DCT模块 1.78 3.46 6.61 IV w/o可学习参数 1.77 3.55 6.63 V w/o 残差连接 1.91 3.847.060我们的结果为1.59、3.16、5.840表4. 在NYUv2测试集上的消融实验结果。粗体表示RMSE方面的最佳得分。04.5. 限制0尽管我们提出的DCTNet更具可解释性，并且与较少可学习参数的现有方法相比具有优势，但一个限制是组件0模型中的组件使公式比使用端到端深度神经网络回归HR深度图的方法更复杂。在我们的未来工作中，我们将探索不同的方式来简化网络设计，同时保持可解释性和网络参数与SR性能之间的良好平衡。我们还将研究大多数引导深度SR方法普遍存在的挑战，例如配对的RGB图像中的低照度和模糊边界。05. 结论0在本文中，我们提出了一种基于离散余弦变换、半耦合卷积特征提取和自适应边缘注意力的新型引导深度超分辨率（GDSR）模型DCTNet。我们的DCTNet将直观的动机融入设计选择中，以减轻现有方法中RGB纹理过度传递、无效的跨模态特征提取和网络组件工作机制不清晰等挑战。未来，我们希望更多的多模态图像处理任务可以从DCTNet的所有或部分组件中受益。0致谢0本工作得到中国国家自然科学基金会的支持，编号61976174。57050参考文献0[1] Massimo Camplani，Tom ´ as Mantec ´ on和LuisSalgado。用于Kinect的三维场景建模的深度-颜色融合策略。IEEE网络期刊，43(6)：1560-1571，2013年。20[2] 邓鑫和Pier LuigiDragotti。用于多模态图像超分辨率的深度耦合ISTA网络。IEEE图像处理期刊，29：1683-1698，2020年。2，30[3] 邓鑫和Pier LuigiDragotti。用于多模态图像恢复和融合的深度卷积神经网络。IEEE模式分析与机器智能期刊，43(10)：3333-3348，2021年。2，3，5，6，7，80[4] James Diebel和SebastianThrun。马尔可夫随机场在范围感知中的应用。在NIPS中，页码291-298，2005年。20[5]董超，陈长乐，何凯明，唐晓欧。学习用于图像超分辨率的深度卷积网络。在ECCV中，页码184-199。Springer，2014年。10[6] David Ferstl，Christian Reinbacher，Ren ´ eRanftl，Matthias R ¨ uther和HorstBischof。使用各向异性总广义变差的图像引导深度上采样。在ICCV中，页码993-1000。IEEE，2013年。20[7] Karol Gregor和YannLeCun。学习稀疏编码的快速近似。在ICML中，页码399-406。Omnipress，2010年。30[8] Shuhang Gu，Zuo Wangmeng，Guo Shi，ChenYunjin，Chen Chongyu和ZhangLei。学习用于深度图像增强的动态引导。在CVPR中，页码712-721。IEEE计算机学会，2017年。2，30[9]郭春乐，李崇义，郭继昌，丛润民，付华柱，韩平。基于层次特征驱动的残差学习用于深度图超分辨率。IEEE图像处理期刊，28(5)：2545-2557，2019年。30[10] Saurabh Gupta，Ross B. Girshick，Pablo AndrésArbeláez和JitendraMalik。从RGB-D图像中学习丰富的特征用于目标检测和分割。在ECCV中，页码为345-360。Springer，2014年。10[11] Kaiming He，Jian Sun和XiaoouTang。引导图像滤波。IEEE模式分析与机器智能，35

下载后可阅读完整内容，剩余1页未读，立即下载