高分辨率双域学习网络用于光谱压缩成像的HSI重建

44 浏览量更新于2023-10-26 收藏 21.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

175420HDNet：用于光谱压缩成像的高分辨率双域学习0Xiaowan Hu�，1, 2，Yuanhao Cai*，1, 2，Jing Lin 1, 2，Haoqian Wang 1, 2，†，Xin Yuan3，Yulun Zhang 4，Radu Timofte 4和Luc Van Gool 401 深圳清华大学国际研究生院 2 深圳未来媒体技术研究院 3 西湖大学 4 ETH Zurich0摘要深度学习的快速发展为高光谱图像（HSI）的端到端重建提供了更好的解决方案。然而，现有的基于学习的方法存在两个主要缺陷。首先，具有自注意力的网络通常在模型性能与复杂性之间平衡时牺牲内部分辨率，失去了细粒度的高分辨率（HR）特征。其次，即使在空间-光谱域学习（SDL）的优化收敛到理想解时，重建的HSI与真实值之间仍存在显著的视觉差异。因此，我们提出了一种用于HSI重建的高分辨率双域学习网络（HDNet）。一方面，提出的HR空间-光谱注意力模块通过其高效的特征融合提供连续且精细的像素级特征。另一方面，引入频域学习（FDL）用于HSI重建，以缩小频域差异。动态FDL监督迫使模型重建细粒度频率，并补偿由像素级损失引起的过度平滑和失真。我们HDNet中的HR像素级注意力和频率级细化相互促进HSI的感知质量。广泛的定量和定性实验证明我们的方法在模拟和真实HSI数据集上实现了SOTA性能。https://github.com/Huxiaowan/HDNet01. 引言具有更多光谱波段的高光谱图像（HSI）可以捕捉更丰富的场景信息和固定波长成像特性，广泛应用于图像分类[32]、目标检测[50]和跟踪[17,30]等领域。具有单个1D或2D传感器的成像系统需要很长时间扫描HSI场景，不适合捕捉动态场景。最近，编码孔径快照光谱成像（CASSI）系统[24, 39, 40]可以以实时速率捕获3DHSI立方体。CASSI利用编码孔径调制HSI信号并将其压缩为2D测量。然而，CASSI系统的一个核心问题是从2D压缩图像中恢复可靠且精细的3DHSI信号。传统方法主要基于手工制作的先验对重建进行正则化，以描述HSI的结构。但手动调整的参数导致泛化能力差。研究人员开始使用卷积神经网络（CNN）进行HSI重建[41, 45]。一些方法[23, 27, 28,43]侧重于空间域的自注意力学习，但它们通常牺牲特征分辨率以降低非局部注意力图的计算复杂性[27,28]。这些操作不可避免地破坏了光谱自相关性和信息连续性。受高级视觉任务中像素级注意力的广泛探索的启发[5,22]，我们发现对于HSI来说，详细的高分辨率（HR）和细粒度的光谱-空间注意力至关重要。然而，尽管更细的注意力无疑有助于重建具有丰富光谱波段的HSI，但对于具有28个光谱通道的HSI来说，捕捉像素级的感知要比3通道的RGB图像更具挑战性。它需要在模型性能和资源成本之间进行最佳权衡。此外，现有的基于学习的方法[3, 14, 27, 28,0* 相等贡献。† 通讯作者。0λ-Net Truth0TSA-Net0DGSMP HDNet（我们的）0HSI0558.5 nm0636.5 nm0584.5 nm0481.5 nm0图1. 不同方法的频谱可视化。0编码孔径用于调制HSI信号并将其压缩为2D测量。然而，CASSI系统的一个核心问题是从2D压缩图像中恢复可靠且精细的3DHSI信号。传统方法主要基于手工制作的先验对重建进行正则化，以描述HSI的结构。但手动调整的参数导致泛化能力差。研究人员开始使用卷积神经网络（CNN）进行HSI重建[41, 45]。一些方法[23, 27, 28,43]侧重于空间域的自注意力学习，但它们通常牺牲特征分辨率以降低非局部注意力图的计算复杂性[27,28]。这些操作不可避免地破坏了光谱自相关性和信息连续性。受高级视觉任务中像素级注意力的广泛探索的启发[5,22]，我们发现对于HSI来说，详细的高分辨率（HR）和细粒度的光谱-空间注意力至关重要。然而，尽管更细的注意力无疑有助于重建具有丰富光谱波段的HSI，但对于具有28个光谱通道的HSI来说，捕捉像素级的感知要比3通道的RGB图像更具挑战性。它需要在模型性能和资源成本之间进行最佳权衡。此外，现有的基于学习的方法[3, 14, 27, 28,042]用于HSI重建主要集中在空间-光谱175430学习（SDL），其中频谱表示在频率域中稀疏表示。对每个频率的平等处理可能导致次优的模式效率。一些研究表明，由于CNN的固有偏差[29, 33, 34,37]，模型倾向于优先拟合易于合成的低频分量，而丢失高频分量。我们在图1中可视化了重建HSI的频谱。我们可以看到，即使基于SDL的先前方法收敛到理想解，重建的HSI与真实值之间仍然存在明显的频率域差异。TSA-Net[27]丢失了高频信息并具有可观察的棋盘状伪影。DGSMP[14]偏离了有限的频率区域。焦点频率损失[16]被证明在合成精细频率分量方面是有效的，但其在HSI重建中缩小频率域差距的潜力仍未得到充分探索。我们发现频谱中的每个频率是HSI中所有像素的统计和，因此频率级监督可以为全局优化提供新的解决方案。实验证明频率域学习（FDL）可以弥补像素级SDL引起的过度平滑和失真。在这些有意义的发现的启发下，我们提出了一种高分辨率双域学习网络，称为HDNet。双域监督充分利用了其空间-光谱域和频率域内的模型表示能力。一方面，在空间-光谱域中，我们将特征分为HR光谱注意力和HR空间注意力，并以高效的特征融合（EFF）方式将它们连接起来。所提出的细粒度像素级注意力避免了高内部分辨率的维度崩溃。另一方面，我们使用离散傅里叶变换（DFT）来自适应地监督真实值和重建HSI之间的频率距离。动态加权机制使模型集中于难以合成的高频率。在图1中，HDNet重建的频谱最接近真实值，显示了我们在缩小HSI之间的频率差异方面的优势。SDL中的HR像素级注意力和FDL中的频率级细化相互促进共同繁荣，并进一步改善图像质量。本文的具体贡献如下：0•首次使用动态频率级监督来缩小频率域差异，以提高HSI的感知质量。提出的FDL迫使模型自适应地恢复高频和困难频率。•我们在SDL中设计了HR像素级注意力，以提高内部特征分辨率，进一步辅助FDL中的频率对齐。互补的双域学习机制改善了HSI质量。•我们的方法在定量评估和视觉比较中实现了最先进的性能。大量实验证明了HDNet的优越性。02. 相关工作02.1. HSI重建传统方法[9, 19, 21, 23, 39, 44, 53,54]主要基于手工先验从二维压缩测量中恢复三维HSI立方体。然而，这些基于模型的方法的泛化能力较差。受深度学习的成功启发，研究人员开始使用深度CNN进行HSI重建[14,27, 28, 42,43]。GAP-Net[26]提出了一种深度展开方法，并利用预训练的去噪器进行HSI恢复。λ-Net[28]和TSA-Net[27]探索了空间特征的自注意力。DGSMP[14]使用深度高斯混合先验进行有希望的HSI重建。然而，当前基于学习的方法主要集中在空间-光谱域，对于HSI重建的频率域学习仍然未经深入研究。2.2.自注意力机制自注意力机制[38]被广泛用于捕捉长距离交互。许多注意力模块及其变体用于自然图像已经显示出巨大的潜力[2, 8, 13, 20, 36,47]。λ-Net[28]首次探索了HSI恢复中的特征自相关。然后[25]使用双向网络建模光谱相关性。TSA-Net[27]分别计算空间注意力图和光谱注意力图。Wang等人[43]利用光谱图像之间的局部和非局部相关性。然而，大多数现有网络为了加快计算而牺牲了注意力的内部分辨率，这不可避免地降低了性能。一些面向高级任务的像素级注意力模块[4, 5,57]进一步增强了模型的表示能力。因此，探索像素级高分辨率注意力对于HSI重建可以提供有针对性的解决方案以提升性能。2.3.图像频谱分析频谱分析描述了信号的频率特性[34,37]。F-Principle[52]证明了深度学习网络倾向于偏好低频以适应目标，这将导致频率域差异[51, 56]。最近的研究[15,46,55]表明频谱中显示的周期模式可能与空间域中的伪影一致。因此，一些工作尝试通过缩小输入和输出之间的频率域差距来减少视觉差异。[10]在训练过程中对低频和高频图像进行了不同处理。DASR[49]使用领域差异感知训练和领域距离加权监督来解决超分辨率中的领域偏差。姜等人[16]证明，关注困难频率可以提高重建质量。在HSI重建中，低频过拟合模型会带来平滑纹理和模糊结构。因此，探索对特定频率的自适应约束对于精细重建至关重要。……………CW1111.1111.…………��(��, ��……��(��, ��1DWCSigmoidMPPWCxt = F lRB(xl−1) = F lRB(F l−1RB (· · ·(F 1RB(x0)) · ··)),ˆxf = FSDL(xt),ˆxt = F gRB(xg1) = F gRB(F g−1RB ((F 1RB(ˆxf)))),(4)175440CONV0RB0RB0CONV0CONV0RB0RB0高分辨率光谱注意力0DSC0FDL：频域学习0DSCDSC0EFF：高效特征融合0H0W0H0C/20CONV0W0H0HW0HW0C/20Softmax0C/2 10C0H0W0C0W0H0C/20W0H0C/20C/2 10C/20Softmax0HW0C/2 HW0W0H0GAP0CONV0重建的HSI0测量掩码0�� 02D DFT 2D DFT0�� 0) ��(��, ��0SDL：空间-光谱域学习0RB0RB0SDL0HDNet0高分辨率空间注意力0DSC0图2.HDNet的架构。空间-光谱域学习（SDL）包括高分辨率光谱注意力、高分辨率空间注意力和高效特征融合（EFF）。在频域学习（FDL）中，使用2D离散傅里叶变换（DFT）来获取HSI频谱。每个频率坐标（u，v）的自适应权重θ（u，v）由频率距离动态确定。03. 提出的方法03.1. 总体架构我们提出的HDNet的总体网络架构和内部模块细节如图2所示。我们选择ResNet[11]作为基线来构建HDNet，以便构建一个轻量级模型，方便展示我们设计的即插即用组件的优越性。在CASSI中，掩码 m ∈ R H × W用于调制HSI信号。然后在色散过程中对调制的HSI进行平移。因此，我们将测量 y ∈ R H × ( W + d ( N β − 1))进行平移，其中 d 表示平移间隔，N β表示HSI中的波长数。然后我们将色散过程定义如下：0y ′ ( x, y, n β ) = y ( x, y − d ( β n − β r )) , (1)0其中 y ′ 表示测量的多通道平移版本，n β ∈ { 1 , ..., N β }索引光谱通道，βr 假设为参考波长，d ( β n − β r ) 表示第n β 通道的平移距离。然后我们使用掩码来调制 y ′作为输入：0x in = y ′ ⊙ m , (2)0其中 ⊙ 表示逐元素乘积。然后我们将3×3卷积层定义为 F 3× 3 conv ( ∙ )，以提取浅层特征，并将相应的特征 x 0定义为：0x 0 = F 3 × 3 conv ( x in ) . (3)0为了证明空间-光谱域学习模块的有效性和效率，我们只在叠加残差块（RBs）的中间插入一个SDL块。我们将在SDL之前和之后叠加的RB的数量分别定义为l和g，并按照以下方式处理输入：0其中，F RB(∙)和FSDL(∙)对应于RB和SDL模块函数。SDL模块包括HR光谱注意力、HR空间注意力和高效特征融合(EFF)。这些模块的内部实现细节将在第3.2节中描述。为了保持从堆叠的RB中提取的特征的高内部分辨率，我们使用特征重塑和矩阵乘法操作代替特征下采样和通道缩窄操作，并设计了分组分割与合并结构以实现高效的特征融合。全局跳跃连接将浅层特征x0与深层特征结合起来，进一步增加模型的稳定性和信息流动性。通过卷积层的通道调整，我们得到重建的HSI如下：0y pred = F 3×3卷积(F 3×3卷积(ˆx t) + x 0)。(5)0如图2所示，预测的HSI ypred通过双域学习机制进行监督。SDL模块被设计为即插即用，FDL机制用于损失优化，其自适应地约束重建HSI与真实HSI之间的频率距离。动态加权机制使模型关注SDL容易忽略的难度频率重建。SDL中的HR像素级注意力和FDL中的频率级细化实现了互补学习，进一步改善了HSI质量。接下来，我们将详细介绍这两个域。(6)Fkgt(u, v) =H−1h=0W −1w=0 ygt(h, w, k)e−j2π( uhH +1754503.2. 空间-光谱域学习0我们分别从光谱和空间方向提取HR空间-光谱注意力，并进行高效特征融合(EFF)。HR光谱注意力。我们使用两个卷积层分别获得全空间分辨率的查询向量f qc和半通道分辨率的键向量f kc。然后，查询向量对键向量进行注意力重映射，得到值向量f vc，其光谱维度保持为C/2，避免了过度的连续性损失。输入x t ∈ RH×W×C的处理如下：0f q c = F 1×1卷积(x t) ∈0f k c = F 1×1卷积(x t) ∈0f v c = FR(f k c) � Softmax[FR(f q c)] ∈ RC/2×1×1，0其中，F1×1卷积(∙)是1×1卷积函数，重塑函数FR(∙)用于方便尺寸匹配。�表示矩阵乘法操作。在图2中，经过通道调整和Sigmoid激活后，可以获得每个通道的权重因子。然后，通过通道元素逐个乘法操作重新校准原始特征xt，得到HR光谱注意力特征x spe，定义如下：0x spe = xt ⊙ F 1×1卷积(Sigmoid[f v c])。(7)0HR空间注意力。对于输入x t ∈RH×W×C，我们获得半通道分辨率和全空间分辨率的键向量f k s和查询向量f q s。查询向量f qs被视为调整空间注意力的重映射因子，用于值向量f vs。即使全局平均池化(GAP)牺牲了f q s的通道分辨率，f vs的全空间分辨率仍会在空间维度上带来HR特征。这些操作定义如下：f q s = F GAP(F 1×1卷积(x t)) ∈ R1×1×C/2，0f k s = F 1×1卷积(x t) ∈0f v s = Softmax[FR(f q s)] � FR(f k s) ∈ R1×HW，0其中，FGAP(∙)是GAP函数。如图2所示，我们通过每个空间特征坐标的权重因子重新校准原始特征xt，这些权重因子来自fvs的Sigmoid激活值。然后，HR空间注意力特征xspa计算如下：x spa = xt ⊙ Sigmoid [FR(fv s)]。(9)0高效特征融合。为了进一步提高光谱空间注意力学习中的特征利用和交互性，我们使用一种高效的融合方式对输入特征进行分组和重新交互。首先，我们融合光谱注意力特征 xspe 和空间注意力特征 x spa：x f = x spe + x spa，(10)0其中 x f ∈ R H × W ×C。然后，考虑到不同通道的多样重要性，我们将特征 x f 分成m 组，因此 x f 可以表示为 [ x 1 f , x 2 f , x 3 f , ..., x m f ]。0每个组 x i f ( i ∈ [1 , m ] ) 的通道数为C/m。如图2所示，我们用深度可分离卷积（DSC）[7, 12,35]替换标准卷积以减少计算成本。对于每组特征 x if，独立提取显著特征。通过 Softmax层激活后，每个组的相应加权因子 f i e 可表示为：0f i e = F DSC ( x i f )0= Softmax [ F P W C conv ( F MP ( F DW C conv( x i f )))]，(11)0其中 F P W C conv ( ∙ ) 是逐点卷积（PWC），F DW Cconv ( ∙ ) 表示深度卷积（DWC）。F MP ( ∙ )表示具有3×3内核大小的最大池化函数。归一化权重 f i e重新校准 x if。然后我们引入残差跳跃连接以进一步促进信息流动，并得到重新交互特征：ˆ x i f = f i e x i f + x if。我们遍历每个组并连接每个组的特征图，以获得最终的融合特征 ˆ x f，如下所示：0ˆ x f = [ˆ x 1 f , ˆ x 2 f , ˆ x 3 f , ..., ˆ x m f ]，(13)，其中 [ ∙] 表示连接操作。高效分组的 DSC动态调整每个组的特征交互，而不是平等对待，进一步确保提取高分辨率特征。高效计算大大降低了参数成本和计算负担。03.3. 频域学习0CNN的固有偏差使得在SDL中合成高频特征具有挑战性，这导致了图1中其他方法中的频域差异。因此，我们引入动态FDL进行频率级监督。离散傅里叶变换。DFT将离散信号从时域转换为频域以分析频率结构。对于有限长度的离散1D信号，通过以下对应关系获得每个频率的正弦波分量：F ( w ) = 10N , (14)其中 F ( w ) 代表与1D离散时间域信号 f ( n )对应的频域信号。HSI频谱分析。我们使用2DDFT将HSI转换为频域，以重构更多高频细节。我们将地面真实值和重建的HSI定义为y gt和y pred，其维度为R H ×W ×C。我们计算每个通道的频谱。在特定通道k中，空间坐标（h，w，k）和频域坐标（u，v）之间的转换关系表示为：0W ) ,0W ) , (15)其中 F gt 和 F pred 是所有频谱的频率谱175460通道对应于 y gt 和 ypred。如图2所示，它们的频谱可视化表示灰度变化的严重程度。结构纹理和边缘被映射为高频信号，而背景被映射为低频信号。因此，我们可以轻松操纵HSI的高频或低频信息。然后，我们引入动态权重使网络能够适应不同的频率。频率距离优化。我们使用频率距离系数 α 来调整距离相关性。在每个通道 k中，地面真实值和预测的HSI之间的频率距离等于它们频谱之间的功率距离，定义为：d k( u, v ) = ∥ F k gt ( u, v ) - F k pred ( u, v ) ∥ α。频率距离系数 α的分析在第4.3节中提供。然后我们定义一个与距离 d ( u, v ) 线性相关的动态权重因子 θ (u, v )，使模型更加关注难以合成的频率。然后，单通道 k中地面真实值和预测的HSI之间的距离定义为：d ( F k gt , F k pred ) = 10HW � H - 1 u = 0 � W - 1 v = 0 θ k (u,v) d k (u, v), (17)0其中 θ k (u, v) 随着第 k0(|d k (u, v)|).我们遍历k = {0, 1, 2, ..., C -1}，并对每个光谱距离进行求和，计算FDL中的频域损失：LF DL (F gt, F pred) = Σ C - 1 k = 0 d (F k gt, F k pred).(18)03.4. 训练目标我们选择最小绝对误差作为SDL中的损失，即L SDL (y gt, y pred) = ∥y gt - ypred∥1。FDL中的损失是在公式（18）中定义的 L F DL (Fgt, F pred)。我们引入权重因子 λ来平衡SDL和FDL，并将双域学习与总损失结合起来，表示为：0L total = L SDL (y gt, y pred) + λL F DL (F gt, F pred). (19)0值得一提的是，如何在FDL中将模型集中于困难频率可以通过公式（16）中的 α来控制。α越大，对困难频率的惩罚越大。04. 实验 4.1. 实验设置数据集：我们在两个公开可用的模拟HSI数据集CAVE[31]和KAIST[6]上进行实验，以进行公平比较。CAVE包含32个HSI，具有31个光谱波段，空间尺寸为512×512，KAIST包含30个HSI，具有31个光谱通道，尺寸为2704×3376。按照TSA-Net [27]和DGSMP[14]的做法，我们使用尺寸为256×256的相同掩码进行模拟。采用了由光谱插值处理得到的28个波长，范围从450nm到650nm。与TSA-Net[27]一样，我们使用CAVE数据集进行训练，并从KAIST中选择10个场景进行测试。0实现细节。我们遵循TSA-Net[27]的相同实验设置。在训练过程中，从训练的3DHSI数据集中随机选择一个大小为256×256×28的补丁作为标签。经过掩码调制后，数据立方体在空间上以累积的两个像素步长进行平移，然后沿光谱维度求和，生成大小为256×310的2D测量。使用随机翻转和旋转进行数据增强。我们使用32个RB（l = g =16）并在中间插入一个SDL模块。我们在公式（16）中设置 α = 2，并在公式（19）中设置 λ =0.7。HDNet使用ADAM[18]进行优化，学习率为4×10-4，每50个epoch线性减半。我们的模型在NVIDIA GeForce RTX 2080 TiGPU上进行训练。峰值信噪比（PSNR）和结构相似性（SSIM）[48]被用作定量评估HSI重建的指标。与其他方法的比较0定量比较：我们将提出的HDNet与其他7种SOTA方法进行了HSI重建比较，包括三种传统方法（TwIST [1]，GAP-TV[53]和DeSCI [23]）和四种基于CNN的方法（λ-Net[28]，HSSP [42]，DNU [43]，TSA-Net [27]和DGSMP[14]）。在KAIST数据集的10个场景上，我们报告了PSNR和SSIM方面的定量结果，如表1所示。我们可以看到我们的HDNet明显优于其他方法。具体而言，我们的方法在平均PSNR方面比最近的最佳竞争者DGSMP高出1.71dB，在平均SSIM方面高出0.0406。与两个深度展开算法HSSP和DNU相比，我们的HDNet分别高出3.99 dB和3.60dB。与两种基于模型的方法TwIST和DeSCI相比，我们的HDNet的性能提高了11.22 dB和9.98dB。需要注意的是，尽管我们HDNet在Scene7中的PSNR略低于DGSMP，但SSIM远远超过了它，这证明我们使用的频域优化策略更加注重感知质量和结构相似性的改进。互补的空间-光谱域和频域进一步提高了重建性能。视觉比较：我们在图3中展示了在4个（共28个）光谱通道中对Scene7进行的模拟HSI重建比较。密度-波长光谱曲线对应于RGB图像中标识为a和b的绿色框。我们计算了所有比较方法与参考真值之间的曲线相关性。这些定量结果表明，我们重建的HSI与地面真值（GT）之间的相关性最高。此外，我们可视化了整个HSI并放大了图3右上方选择的黄色框。与以前的方法相比，我们的HDNet在高频结构内容和光谱维度一致性的重建方面产生了更加令人愉悦的结果，这得益于像素级和频率级的双域学习。450500550600650Wavelength (nm)0.20.30.40.50.60.70.80.91Density Reference DeSCI, corr: 0.9709 GapTV, corr: 0.9754 HSSP, corr: 0.9801 -Net, corr: 0.9834 TSA-Net, corr: 0.9866 Twist, corr: 0.9742 DGSMP, corr: 0.9715 HDNet, corr: 0.9924450500550600650Wavelength (nm)00.40.50.60.70.80.91Density Reference DeSCI, corr: 0.9763 GapTV, corr: 0.9291 HSSP, corr: 0.9823 -Net, corr: 0.9701 TSA-Net, corr: 0.9734 Twist, corr: 0.9324 DGSMP, corr: 0.9883 HDNet, corr: 0.9975175470方法TwIST [1] GAP-TV [53] DeSCI [23] λ-Net [28] HSSP [42] DNU [43] TSA-Net [27] DGSMP [14] HDNet (我们的)0场景1 25.16, 0.6996 26.82, 0.7544 27.13, 0.7479 30.10, 0.8492 31.48, 0.8577 31.72, 0.8634 32.03, 0.8920 33.26, 0.9152 34.95, 0.94780场景2 23.02, 0.6038 22.89, 0.6103 23.04, 0.6198 28.49, 0.8054 31.09, 0.8422 31.13, 0.8464 31.00, 0.8583 32.09, 0.8977 32.52, 0.95310场景3 21.40, 0.7105 26.31, 0.8024 26.62, 0.8182 27.73, 0.8696 28.96, 0.8231 29.99, 0.8447 32.25, 0.9145 33.06, 0.9251 34.52, 0.95690场景4 30.19, 0.8508 30.65, 0.8522 34.96, 0.8966 37.01, 0.9338 34.56, 0.9018 35.34, 0.9084 39.19, 0.9528 40.54, 0.9636 43.00, 0.98100场景5 21.41, 0.6351 23.64, 0.7033 23.94, 0.7057 26.19, 0.8166 28.53, 0.8084 29.03, 0.8326 29.39, 0.8835 28.86, 0.8820 32.49, 0.95650场景6 20.95, 0.6435 21.85, 0.6625 22.38, 0.6834 28.64, 0.8527 30.83, 0.8766 30.87, 0.8868 31.44, 0.9076 33.08, 0.9372 35.96, 0.96450场景7 22.20, 0.6427 23.76, 0.6881 24.45, 0.7433 26.47, 0.8062 28.71, 0.8236 28.99, 0.8386 30.32, 0.8782 30.74 , 0.8860 29.18, 0.93730场景8 21.82, 0.6495 21.98, 0.6547 22.03, 0.6725 26.09, 0.8307 30.09, 0.8811 30.13, 0.8845 29.35, 0.8884 31.55, 0.9234 34.00, 0.96090场景9 22.42, 0.6902 22.63, 0.6815 24.56, 0.7320 27.50, 0.8258 30.43, 0.8676 31.03, 0.8760 30.01, 0.8901 31.66, 0.9110 34.56, 0.95760场景10 22.67, 0.5687 23.10, 0.5839 23.59, 0.5874 27.13, 0.8163 28.78, 0.8416 29.14, 0.8494 29.59, 0.8740 31.44, 0.9247 32.22, 0.95000平均值 23.12, 0.6694 24.36, 0.6993 25.27, 0.7207 28.53, 0.8406 30.35, 0.8524 30.74, 0.8631 31.46, 0.8939 32.63, 0.9166 34.34, 0.95720表1. 10个场景上测试方法的PSNR（每个单元格的左侧条目）和SSIM（每个单元格的右侧条目）结果。0b a0RGB图像0测量0TwIST GAP-TV DeSCI λ-Net HSSP TSA-Net DGSMP HDNet（我们的）GT0648.0nm604.0nm575.5nm457.5nm0TwIST GAP-TV TSA-Net DGSMP HDNet GT光谱密度曲线0a b0图3. 使用4个（共28个）光谱通道对场景7进行模拟HSI重建的比较。我们展示了与RGB图像的选定绿色框相对应的光谱曲线（顶部中间）。我们的HDNet重建了更多视觉上令人愉悦的细节内容。04.3.消融研究模型分析。已有一些用于HSI重建的注意力网络。我们在表2中报告了它们的参数、空间分辨率、模型复杂度和性能。需要注意的是，我们使用相同的基线和方程（19）中的损失重新训练了λ-Net [28]和TSA-Net[27]的注意力，以进行公平比较。尽管λ-Net平等对待每个通道，但非局部空间机制使其参数数量高达62.64M。TSA-Net为了计算复杂度而牺牲了部分通道分辨率，但所使用的空间-光谱自注意力也具有更高的参数负担。我们的HDNet在模型性能和参数方面取得了最佳平衡。0参数，它还在通道分辨率（CR）和空间分辨率（SR）方面保持了最好的细节和分辨率。我们的HDNet参数为2.37M，比TSA-Net少了十八分之一，同时保持了相同的模型复杂度。这些结果显示了我们提出的HR注意力机制的优越性。注意力特征可视化：为了更直观地展示我们提出的HR空间-光谱注意力（HSA）在捕捉HR细粒度特征方面的优势，我们可视化了用于HSI重建的不同注意力模块的中间注意力图。我们以ResNet[11]为基线，然后分别添加TSA和我们的HSA。对应的结果如图4所示。175480方法参数 CR SR 复杂度 PSNR/SSIM0λ-Net [28] 62.64M 1 [H, W] C 2 WH + CW 2 H 2 30.85 / 0.9062 TSA-Net [27]44.25M C / 4 [H, W] CWH 32.68 / 0.9267 HDNet (我们的) 2.37M C / 2 [H, W] CWH34.34 / 0.95720表2.使用不同通道分辨率（CR）和空间分辨率（SR）的注意力网络的模型分析。0基线0使用TSA0使用HSA（我们的）0HSI0471.5 nm 594.5 nm 604.5 nm 525.5 nm 487.0 nm0图4. 使用不同注意力模块的特征可视化。0与基线相比，TSA和HSA都可以增强显著特征的提取。然而，TSA具有较低分辨率的注意力不可避免地会丢失很多纹理和边缘，甚至会错误地关注背景。我们提出的HSA很好地解决了这个问题。HSA中的连续高分辨率注意力使网络保留更多高频信息和完整的HSI结构。损失权重因子。方程（19）中的权重因子λ用于动态调整SDL和FDL的重要性。我们分析了模型性能随λ的变化情况，并在表3中报告了相应的结果。λ=0表示模型仅最小化空间-光谱域损失，其不理想的结果表明频率级别的监督是必要的。可以看到，随着FDL损失比例的增加，模型性能也增加。当λ=0.7时，模型性能达到最高的PSNR和SSIM性能。由于λ的持续增加而引起的性能下降表明，对频率的过度约束将破坏像素级优化平衡。FDL损失消融。我们计算对数频率距离（LFD）来评估重建的HSI与真实HSI之间的频谱差异。LFD的计算公式如下：0F LF D = log(1)0HW ∑ H−1u=0 ∑ W−1v=0 |d(u,v)| + 1 .(20)0如图5所示，我们使用或不使用FDL损失对重建的3D频谱进行可视化，并提供相应的LFD。可以看到，没有频率监督的重建的3D频谱会产生振铃伪影，在明暗变化处会产生振荡。幅度和相位失真使HSI的不同频率分量具有不同的增益幅度。0λ 0 0.1 0.3 0.5 0.7 0.9 10SSIM ↑ 0.9093 0.9369 0.9498 0.9538 0.9572 0.9425 0.9399 PSNR ↑ 31.9133.27 33.86 34.05 34.34 33.75 33.520表3. 不同损失权重因子的性能比较。0度量 α = 0.1 α = 0.3 α = 0.5 α = 1 α = 2 α = 30LFD ↓ 14.8633 14.3792 13.9825 13.6571 13.3238 15.0863 SSIM ↑ 0.93970.9428 0.9543 0.9569 0.9572 0.9065 PSNR ↑ 33.16 33.51 34.14 34.4034.34 31.890表4. 使用不同系数计算频域频谱距离的模型性能比较。0真实HSI0648.0 nm0648.0 nm0648.0 nm0图5.使用或不使用FDL的频谱可视化。使用度量LFD来衡量频率相似性。0相对位移，这在HSI中表现为变形的结构和颜色偏差。相反，使用我们提出的FDL损失优化的3D频谱可以更准确地重建频率，并且具有较低的LFD，更接近真实频率统计。细粒度的频谱监督进一步保留了更难合成的高频信息。频率距离系数。重建的HSI与真实HSI之间的远频率距离表示不准确的拟合，因此我们在方程（16）中引入系数α来控制模型对未很好重建的频率的关注程度。α越大，模型对欠拟合频率的惩罚越大。我们在表4中报告了不同系数对应的结果。当α=1时，模型获得最高的PSNR，当α=2时，模型获得最佳的SSIM和LFD性能。较小的α会导致较弱的频率惩罚和稍低的性能，但较大的α会带来更严格的FDL监督和过度约束，从而导致HSI失真。为了使模型同时关注结构相似性和感知质量，我们将α设置为2以平衡视觉和定量结果。基于块的频谱。为了进一步分析HSI的频率特性，我们将整个图像频谱计算替换为基于块的计算。原始HSI被裁剪成p ×p的块。每对图像的新频域距离ˆLFDL(Fgt,Fpred)将被重新定义为每对的平均值。175490TwIST GAP - TV DeSCI λ - Net HSSP TSA - Net DGSMP HDNet（我们的方法）0614.5 nm 614.5 nm 614.5 nm 614.5 nm 614.5 nm 614.5 nm 614.5 nm 614.5 nm0462.0 nm 462.0 nm 462.0 nm 462.0 nm 462.0 nm 462.0 nm 462.0 nm 462.0 nm0487.0 nm 487.0 nm 487.0 nm 487.0 nm 487.0 nm 487.0 nm 487.0 nm 487.0 nm0RGB图像0图6.从3个场景中随机选择的一个通道的真实HSI重建比较。HDNet恢复了更多的高频细节。0平均LFD: 14.8721 平均LFD: 14.6327 平均LFD: 13.3389 平均LFD: 13.52410� = 1 � = 2 � = 3 � = 40图7.基于块的频谱可视化。p是每个方向上的块编号。我们计算所有块的平均LFD。0指标 p = 1 p = 2 p = 3 p = 4 p = 5 p = 60LFD ↓ 14.7954 14.6287 13.3238 13.5982 14.6391 14.9625 SSIM ↑ 0.91930.9344 0.9572 0.9378 0.9304 0.9166 P

下载后可阅读完整内容，剩余1页未读，立即下载