双流Transformer:高光谱图像恢复的新方法

140 浏览量更新于2023-10-16 收藏 1.38MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

3739DSTrans：用于高光谱图像恢复的双流TransformerDabing Yu，Qingwu Li，Xiaolin Wang，Zhiliang Zhang，Yixi Qian，ChangXu河海大学{于大大兵，张志乐，211620010037，许昌}@ hhu.edu.cn，{李庆武，xlwang 1998}@ 163.com摘要大多数CNN模型在高光谱图像（HSI）恢复任务中表现出两个主要的缺点。首先，有限的高维HSI训练示例加剧了深度学习方法在学习有效的空间和频谱表示方面的困难。第二，现有的基于CNN的方法模型的本地关系和目前的限制，在捕捉长期的依赖关系。本文提出了一种新型的双流Transformer（DSTrans）用于HSI恢复，它主要由双流注意和双流前馈网络组成。具体地说，我们提出了由多个头的光谱注意（MDSA）和多个头的空间自我注意（MSSA）组成的双流注意。MDSA和MSSA重新计算局部窗口中沿光谱和空间维度的自注意力，以捕获长距离光谱依赖性并对全局空间相互作用进行建模。同时，双流前馈网络的开发，以提取全局信号和局部细节的并行分支。此外，我们利用一个多任务网络来训练辅助RGB图像（RGBI）任务和HSI任务联合，使大量的RGBI样本和有限的HSI样本都被用来学习参数分布的DSTrans。大量的实验结果表明，我们的方法实现了国家的最先进的结果对HSI恢复任务，包括HSI超分辨率和去噪。源代码可以从以下网址获得：https://github.com/yudadabing/Dual-Stream- Transformer-for-Hyperspectral-Image-Restoration.1. 介绍高光谱图像收集了丰富而详细的光谱信息，有效地反映了不同地物的细微光谱差异。依靠这一贡献，高光谱图像在各种任务中得到了广泛的推广，例如，土地覆被分类[21]、目标探测[70]、矿产勘探[44]、环境监测[41]和医疗诊断[25]。然而，主要是由于物理限制，光谱传感器，不可避免地收集退化的高光谱图像。首先，生成的高光谱图像具有低的空间分辨率，这是空间分辨率和光谱分辨率之间的折衷结果。超光谱图像传感器必须牺牲空间分辨率，以获得具有丰富光谱信息的高光谱分辨率[64]，[14]。其次，高光谱成像系统在空间或光谱维度上对目标场景进行长时间的扫描，不可避免地会引入大量的噪声[9]。这些退化对随后的高光谱图像解释产生负面影响[46]。高光谱图像恢复是一种后处理技术，如HSI超分辨率（SR）和HSI去噪，其目的是对不适定问题进行建模，并在不修改硬件传感器的情况下从其退化的对应物中生成高质量的HSI。作为一种基于学习的方法，Transformer已经证实了其在自然语言任务[12，45]和计算机视觉任务[8，52，15]上的卓越性能。trans-former依赖于自我注意（SA）机制来对全局上下文信息进行建模，并且具有缓解HSI恢复中基于 CNN 的方法的上述限制的潜力。最近，Transformer已被用于图像恢复任务[32，68，56]。然而，这些变形金刚只是为RGB图像量身定制的，而对高光谱图像的关注较少。主要原因有两方面。首先，缺乏具有高分辨率（HR）和高质量HSI样本的大规模HSI数据集。一般来说，Transformer利用大量的训练数据来学习数据分布和特征表示。有限数量的训练示例加剧了不期望的行为，例如记忆和对分布外样本的敏感性。其次，传统的Transformers在捕获全局空间位置的长程依赖性方面具有优势。在这种情况下，直接应用Transformer可以捕获空间相互作用，但不能对光谱间相似性和相关性进行建模。然而，全局光谱信息和全局空间信息对于HSI恢复同样重要。为了应对上述挑战，我们建议3740×10.502501250(a) GT（b）Our（c）Bicubic（d）GDRRN（e）ERCSR（f）SSPSR（g）HSISR图1.CAVE数据集中真实和假辣椒ms的4个图像SR的定性结果[65]。从上到下是可视化结果、错误图和频率可视化结果。双流Transformer（DSTrans）用于高光谱图像恢复。首先，受限于硬件的工艺，有限的HSI训练样本在可预见的将来不会被处理。受[28]的启发，在我们的工作中，我们选择了一种不同的方法来增加训练数据，即从异构数据集中选择大量的训练样本来训练Transformer模型。HSIs恢复和RGBI恢复学习网络共享来自相邻空间区域和光谱带的信息的相同目标。我们将这两个任务公式化为同一个Transformer，以便丰富的训练样本可以有效地正则化参数并实现出色的性能。其次，我们提出了双流注意力，能够建模全局像素连接和全局光谱相关。具体地说，双流注意是由位于移动窗口上的多头频谱注意（MDSA）和多头空间自我注意（MSSA）组成。空间上的全球背景是由MSSA学习。重要的是，MDSA确保了在计算基于协方差的通道图时对光谱之间的上下文化全局关系进行建模。我们将重建的HSI的视觉结果、误差图和频率图可视化在图11中。1.可以看出，我们的DSTrans保留了最显著的视觉结果和误差图，并减轻了重建结果与地面实况之间的频域差异。我们的贡献总结如下：1. 我们提出了一种新的DSTrans，这是一个量身定制的Transformer HSI恢复。据我们所知，这是首次尝试探索Transformer在HSI修复中的潜力。除了HSI样本，DSTrans还利用了来自异构数据集来学习DSTrans的参数分布。2. 我们提出了一种新的注意机制，双流注意，捕捉全局像素和光谱间的相似性和依赖性的HSIs在两个并行的分支。此外，我们提出了双流前馈网络，以同时提取全局信号和局部细节。3. 大量的实验证明，我们的DSTrans大大优于SOTA方法在多个HSI数据集的HSI去噪和HSI SR任务。2. 相关工作高光谱图像超分辨率。高光谱图像超分辨率方法可以大致分为基于融合的超分辨率[20，61，35，73，13，63，71，58，11]和单超分辨率[75，27，24，19，28，53]。Fusformer [20]首次使用Transformer来解决基于高光谱图像融合的超分辨率问题。基于融合的超分辨率的缺点是需要具有更高分辨率的良好配准的辅助图像。因此，单次超分辨率在真实场景中更受欢迎。得益于许多计算机视觉领域的优越性能，深度学习方法已被引入到单个HSI超分辨率任务中。深度神经网络学习直接将输入的低分辨率HSI映射到高分辨率HSI，这可以减少频谱失真并最终提高分辨率性能[31，62]。Jia等人[23]提出了3741.=xΣ.=xi=1∈∈∈≥.=x<$，XΣ∈∈∈∈图2.我们的DSTrans的网络架构DSTrans采用异构数据集上的双任务结构我们的DSTrans主要由残余设计中的残余组成，其中包含双流Transformer块。解决方案，并保持光谱信息。然而，2-D卷积仅关注HSI的空间信息。最近，3D递归神经网络[51，16]和混合2D/3D卷积网络[29]，[30]被设计用于同时提取空间-光谱特征。然而，这些方法侧重于探索局部高光谱图像去噪高光谱图像去噪任务早期作为逐波段图像去噪问题得到解决，例如BM 3D [10]、WNNM [17]。由于前馈网络捕获长距离像素交互，并实现出色的效果。3. 该方法3.1. 整体管道数据对齐。如图2、我们的DSTrans在异构数据集上一起学习两个相同的恢复任务。在本文中，我们选择RGBI数据集作为辅助数据集。给定HSI对于光谱连续特征的简化，这些数据集Ω HSIi恒指i恒指NHSIi=1RGBI数据集方法产生具有失真和AR的去噪结果频谱域中的时间。最近，神经网络-ΩRGBIiRGBIiRGBINRGBI，其中xHSI∈的方法引入到高光谱图像去噪任务[66，39，69，42，48]。 Wei等 [57]提出了一种交替方向的三维准递归神经网络，用于嵌入结构空间-谱相关性和沿谱的全局相关性。在[47]的工作中，提出了双注意去噪网络来考虑空间和光谱信息之间的全局依赖性。Cao等人[4]考虑了HSI噪声去除的局部和全局信息。视觉Transformer。Transformer最早由Vaswani等人提出。[49]自然语言处理（NLP）Transformer凭借其强大的代表能力取得了重大突破。近年来，Trans- former已经扩展到许多计算机视觉任务，并且在视觉应用中已经成为CNN的有效替代品，例如图像识别[15]，分割[52]，对象检测[5]。Transformer也被Rh× w × D表示退化的HSI，X HSIRH×W×D提供高质量的HSI对应物。类似地，x RGBIRh× w ×3是退化的RGB图像，而X RGBI R h × w × 3是退化的RGB图像。RH× W×3是高质量的对应物。h、w、H和W代表降级图像和期望图像的宽度和高度，D 是HSI的频带数对于HSI SR，我们具有H=λh，W=λw，并且λ是缩放因子。对于HSI去噪，λ被设置为1。N HSI和N RGBI是HSI和RGBI样品的数量。我们试图利用RGBI数据集的知识，这意味着RGBI数据集提供了大量高质量的样本。因此，我们有 NRGBI=vN HSI，并且v1。受[24]的启发，我们将每个HSI输入分为sam-具有重叠的频带组的PLE。更具体地说，我们将HSI的D波段划分为S波段组。对于RGBI样本，我们通过频谱带插值策略将通道增加到S[28]。所以生成的开发用于解决低水平视觉任务，例如IM-RGBI数据集 RGBI我RGBI，X¯iRGBIGANRGBI和HSI年龄恢复[56，33，22，8，38]。Liang等人[32]第三十二话数据集Ω<$HSI =.x¯i¯iHSINHSIi=1有类似的-提出了一种用于图像恢复的SwinIR模型，Swin Transformer在局部图像区域内应用自关注。Restormer [68]构建了多头注意力，mat，其中x<$RGBI Rh×w×S，X<$RGBIRH×W×S，x<$HSIRh×w×S，X<$HSIRH×W×S。快速提取。 G iv e分级HSI输入xHSI，X，Xi=1HSI3742SFSF·×F∈DF∈M2·××REM·×SFSFDFDFSFSF儿REMDFSFspe spe+B（·）和ΦRGBI（·）是残余增强.ΣI=ΦDFSF和RGBI输入x<$RGBI，我们的DSTrans首先应用卷积层来提取浅特征图FHSI∈Rh×w ×L和FRGBI∈Rh×w×L，F HSI、 F RGBI =HSF（x<$HSI，x<$RGBI）（1）其中L是浅特征的通道的数量。H SF（）是33卷积层，映射输入-把图像放到一个高维的特征空间中。然后将浅特征传输到共享编码器ΦEN窄带捕获长程光谱依赖性和建模全球空间相互作用同样重要。因此，我们提出了双流注意力，它包括多头空间自我注意力（ MSSA ）和多 Dconv 头光谱注意力（MDSA），分别在空间和光谱维度的长程依赖模型。如图3，我们遵循[36]并将双流注意力应用于移位窗口以减少提取深层特征HSIDFRh×w×L和FRGBI∈计算负担。给定一个输入X在Rh× w × C中。双流Transformer将输入划分为非Rh×w×L重叠局部窗口Xt∈ RM×M ×C，t∈2001年，hw。. FHSI，FRGBI=ΦEN。FHSI，FRGBI（2）然后，它分别计算双流注意力，每个窗口Multi-Dconv-head Spectral Attention。多通道-其中ΦEN（）由合并双流Transformer块的残差设计中的残差组成图像重建然后将聚合后的深特征、浅特征和退化图像映射到去噪器上，头部频谱注意力旨在跨频谱通道应用自我注意力。如图在图3（b）中，MDSA计算跨信道的互协方差以生成对全局频谱信号进行编码的注意力图。Xt是高质量的产出。自然有两个分支第一次投影并重新整形为查询QSPE∈RC×M2，将HSI恢复任务与RGBI恢复相匹配密钥KSPE∈RC×M2和值VSPE∈RC× M2 借─任务我们以HSI SR任务为例来描述该过程。在传递到残差增强模块之前，我们利用级联运算Cat（·）来级联-执行11个逐点卷积WP，随后是33个逐深度卷积WD，以对逐频谱空间上下文进行编码，QQ K基于xHSI的所有组的扩展功能在其原始谱带位置上，Qspe=WPWDXt，Kspe=WPWDXt，Vspe = WVWV Xt。（五）P D西西ER REM. Cat. H↑。FHSI+FHSI中国，（3）然后，利用自注意机制在局部窗口中计算出光谱注意图.我们在Qspe和Kspe上应用点积相互作用来生成注意力频谱图Aspe∈RC×C，IRG BI=ΦRG BI H↑。F RGBI+F RGBI双排，（4）其中ΦHSIREM. Q ·KSPEεHSI和RGBI任务的模块，并保持一致结构H↑（）表示一个放大模块，在本文中，我们利用子像素卷积的操作对聚合特征进行上采样[24]。残差增强模块包含三个3 3卷积层和残差连接。损失函数。我们结合L1损失和空间光谱全变差（SSTV）损失[24]来优化DSTrans的参数。更多细节见补充材料。3.2. 双流注意力注意力（Qspe，Kspe，Vspe）=WP·Vspe·Aspe，（7）其中ε是可学习的参数，用于在应用softmax函数之前重新加权Qspe和Kspe的点积。B是可学习的相对位置编码。多头空间自我注意力。MSSA的目的是应用自我注意spa一=Softmax、3743∈力在全球空间位置，并生成一个注意力地图建模的长期依赖性和空间相互作用。如示于图3（c），在MSSA分支中，X t首先线性投影到查询Q spa∈局部寻找相似的外部补丁是利用基于CNN的方法在HSI恢复，但他们有ig-RM2×C，键Kspa ∈RM2×C和值V∈RM2×C，排除了HSIs中的长距离特征相似性。最近，Transformer已经取得了令人印象深刻的性能，这得益于捕获远程依赖性的能力。与自然图像不同，HSI具有许多Qspa=WQ Xt，Kspa=WK Xt，Vspa=WV Xt，（8）其中WQ、WK和WVRC×C是可学习的投影矩阵，在局部窗口中共享注意-3744∈∈×××××图3.双流Transformer块（DSTB）的图示。（a）DSTB的核心模块是双流注意（DSA）和（d）流前馈网络（DSFN）。DSA由（b）多Dconv头频谱注意（MDSA）和（c）多头空间自注意（MSSA）组成，DSFN执行受控特征流，即，详细信号被激活并沿期望方向传播。因此，通过局部窗口中的自注意机制来计算作用矩阵。我们在Qspa和Kspa上应用点积交互来生成空间注意图平行路径在输入特征x∈Rh×w×0的情况下，DSFN被公式化为：水疗∈RM2×M2，x'=W1（LN（x≠ 0））→H凝胶u（WPWDLN（x≠ 0）），（十一）. Q水疗·K水疗x"=x+W2x“，水疗=SoftmaxC+B、（9）其中，H表示逐元素乘法，格卢代表注意力（Qspa，Kspa，Vspa）=Wout·Vspa·Aspa，（10）其中WoutRC×C也是可学习的投影矩阵。在多头SA [49]之后，MDSA和MSSA将通道数量划分为3.3. 双流前馈网络在传统的前馈网络中，应用两个全连接层来扩展输入特征通道并将输出通道映射回原始输入维度。全连接层对令牌信息进行逐点一致操作;从而忽略了本地信息。在我们的工作中，我们提出了双流前馈网络，其目的是通过对空间上相邻像素位置的信息进行编码来补充局部信息。如图在图3（d）中，我们在两个并行路径中提取全局信号和局部细节。我们利用全连接层模型的全局特征信息的定期分支。添加深度卷积以补充附加分支中的局部细节，随后是GELU非线性以激活局部信号。然后，门控机制被公式化为两个单元中的输出的逐单元乘积。表示Gelu非线性，W1和W2表示全连接层。整体而言，DSFN通过我们的管道中激活的本地信号控制信息流，从而允许每个级别专注于精细细节。4. 实验和分析4.1. 实验设置数据集。我们在基准数据集和两个HSI恢复任务的实验设置上评估我们的DSTrans：HSI超分辨率和HSI去噪。所考虑的数据集是四个自然HSI数据集：CAVE数据集[65]，哈佛数据集[6]，ICVL数据集[3]和HSIDwRD数据集[72]。在CAVE和Harvard数据集上进行了HSI超分辨率实验，在 ICVL （ Gaussian noising ）和 HSIDwRD（Real-world noising）数据集上进行了HSI去噪实验。对于SR任务，我们将图像裁剪为64 64像素的补丁，其中32像素重叠，补丁为128 128 pix- 对于上采样因子4和8，具有64个像素重叠的ELS。相应的LR图像通过以下步骤生成：双三次下采样。对于辅助RGBI SR任务，我们采用DIV2K数据集[1]。DIV2K的训练样本分别是CAVE [65]和Harvard [6]的30倍和12倍。特别地，我们提取的图像块为6464个像素，32个像素重叠，噪音任务对于高斯降噪，RGBI降噪任务3745×(a) GT（b）Bicubic（c）EDSR（d）RCAN（e）HAN（f）GDRRN（g）MCNet（h）ERCSR（i）SSPSR（j）HSISR（k）Ours图4.在CAVE数据集的代表性测试图像水彩ms上对HSI SR进行视觉比较，光谱带23-15-7为R-G-B，比例因子为4。规模方法山姆 ↓CC↑洞穴[65]ERGAS↓RMSE ↓MPSNR ↑MSSIM↑山姆 ↓CC↑哈佛大学[6]ERGAS↓RMSE ↓MPSNR ↑MSSIM↑双三4.1760.98685.2720.021234.7210.93032.5880.97583.8710.017737.5050.9122EDSR [34]3.9650.99263.7380.015537.7380.95192.5270.98253.2010.014639.1830.9306RCAN [74]4.0100.99283.6660.028937.9520.95152.8100.98033.4670.015638.5600.9240[43]3.7260.97616.8590.014738.4570.95412.8910.97903.6110.016138.2460.9215GDRRN [31]3.7260.99273.7350.015537.6870.95252.5810.98073.3690.015238.7500.9267×4MCNet [29]3.4120.98434.2220.014637.8700.95402.5580.98113.3560.014738.9240.9289ERCSR [30]3.2730.98474.1530.014438.0090.95532.5300.98203.3040.014738.9920.9295SSPSR [24]3.3600.99303.5430.014638.3020.95662.4740.98343.0630.014239.4840.9326[第28话]3.3190.99453.2040.013139.0600.96182.4710.98373.0560.014139.5720.9340我们3.1690.99532.8610.011840.0730.96592.4590.98463.0070.012940.0960.9359双三5.8960.96668.4350.034630.2060.84942.9810.95335.6060.026134.3570.8534EDSR [34]7.0360.97646.8870.028931.9560.87463.4250.95885.2780.024234.8470.8626RCAN [74]7.2880.97616.8570.028932.0150.87113.5790.95855.2980.024034.8330.8620[43]6.4290.97836.4650.027532.6350.88173.7950.95675.4220.024334.6870.8593GDRRN [31]5.8580.97317.3460.030731.4300.87093.0470.96085.0800.023535.1470.8666×8MCNet [29]5.4070.96953.5730.027832.4170.88732.8920.96404.9630.023235.3090.8766ERCSR [30]5.2100.96303.4400.026732.6020.89012.8840.96834.9570.023235.3910.8801SSPSR [24]4.7220.98006.0500.025733.2170.89362.8530.97534.7600.023335.6130.8867[第28话]5.1080.98215.9710.024634.0960.91012.8290.96674.6250.021935.8560.8901我们4.6230.98315.7230.023934.7970.91672.7460.97874.4300.020236.5370.9003表1.通过SAM、CC、ERGAS、RMSE、MPSNR和MSSIM对CAVE和Harvard数据集的最新SR方法进行定量评估突出显示了最佳结果。[24]第25话：我的世界，我的世界[25]×40.4M 17M 12.5M 6M 8.7M 12.2M×80.8M 23.5M 16.5M 7.6M 9.9M 14.4M表2.最新SR方法参数数量的比较通过加入高斯噪声对DIV2K进行训练，DIV2K的训练样本大约是ICVL的10倍[3]。对于真实的HSI去噪，在RENOIR [2]上执行辅助RGBI去噪任务，RENOIR的训练样本大约是HSIDwRD数据集的20倍。实验参数对于SR任务，RSTG数、DSTB数、窗口大小、注意头数通常分别设置为8、6、6和6对于HSI去噪，RSTG编号设置为6我们使用ADAM优化器，初始学习率设置为10−4。批量大小设置为12，epoch设置为20。指标. 我们通过六个标准指标定性评估所有方法的性能：光谱角映射- per（SAM）[67]，互相关（CC）[37]，相对误差全局维数合成（ERGAS）[50]，根均方误差（RMSE）、平均峰值信噪比（MPSNR）和平均结构相似性（MSSIM）[55]。4.2. HSI超分辨率结果我们将我们的DSTrans与最先进的方法进行比较：[34] ， RCAN[74] ， HAN[43] ， GDRNN[31] ，MCNet[29]， ERCSR[30]， SSPSR[24]， HSISR[28].的包括SAM、CC、ERGAS、RMSE、MPSNR和MSSIM的定量结果分别列于表1中，其中突出显示了最佳结果。表1表明，就所有评估指标而言，我们的DSTrans在CAVE和Harvard数据集上的现有方法上实现了显着的性能提升。与目前最好的方法HSISR相比，DSTrans在CAVE数据集上分别获得了1.013dB和0.701dB的改进。为了直观地显示我们的方法的性能，我们进一步展示了不同的SR方法的定性结果视觉效果和具有上采样因子的误差映射4显示在见图4。我们的方法在构造边缘和结构方面比其他算法有更好的性能。我们还比较了我们的DSTrans和最先进的超分辨率算法之间的参数数量。表2显示了参数的数量，其中结果3746×××(a) 大地真理(f)NGmeet(b) 嘈杂(g)HSID-CNN（c）BM4D(h) 公司简介（d）KBR(i) DPPR（e）WLRTR(j) 我们(a) GT（b）噪音（c）BM4D（d）ITSReg(e)LRTDTV（f）QRNN3D（g）DPPR（h）Ours图5.给出了高斯噪声下图像eve 0331-1549第20波段的去噪结果和误差图分别针对4和8个放大因子进行评估。结果表明，我们的DSTrans有一个更好的模型大小和性能之间的权衡。4.3. HSI去噪结果高斯去噪为了证明HSI去噪的同等卓越性能，我们将我们的DSTrans与六种最先进的HSI去噪算法进行了比较，包括三种传统方法，BM 4D [40]，KBR [59]，WL- RTR[7]和NGmeet [18]，以及三种最近开发的深度学习方法，包括 HSID-CNN [66] ， QRNN 3D [57] 和 DPPR[26]。ICVL数据集在不同噪声水平下的HSI去噪结果见表3。我们评估我们的DSTrans模拟高斯噪声的性能。在[26]之后，将加性高斯白噪声添加到具有不同强度的每个输入HSI，包括30，50，70和范围从30到70的随机强度。可以看出，所提出的DSTrans在所有噪声水平下的MPSNR、SAM和MSSIM方面优于大多数计算方法。视觉结果和误差图如图所示。5，“Noisy”是通过添加具有噪声水平50的加性高斯白噪声而获得的。实验结果表明，该方法较其他方法具有更好的效果，恢复了更多的细节，取得了满意的效果。真实世界的去噪。表4显示了DSTrans和最先进的HSI去噪算法之间的定量比较：[40] BM4D，ITSReg [60]，LRTDTV [54]，QRNN3D [57]和DPPR [26]。正如我们所看到的，与最近最好的方法DPPR相比，所提出的DSTrans具有1.7dB的MPSNR增益。这得益于所提出的Transformer结构和建模远程光谱和空间依赖性以及来自异构数据集的学习知识。在图中可以看到6图6. 图像46在具有光谱带23-15-7的真实世界噪声下的去噪结果为R-G-B。我们的DSTrans可以消除严重的噪音污染，生成干净的HSI，而不会影响精细的纹理。4.4. 消融研究为了验证所提出的组件的有效性，我们进行烧蚀实验，分析所有组件的贡献和参数的选择。对于消融实验，我们在CAVE数据集上训练比例因子为4关于辅助任务的讨论。在我们的DSTrans中，香港邮政将恢复恒生指数及RGBI的工作一并进行。这两个任务共享相同的双流Transformer来编码特征，使得存在大量的训练样本来学习参数分布。为了验证此策略的有效性，我们首先删除RGBI恢复任务。同时，我们进一步对RGBI样本的数量进行了消融研究。HSI样本的数量有限，我们逐步增加RGBI样本的数量。如表5所示，其中v表示RGBI样品与HSI样品的数量之比。“w/oRGBI”表示丢弃RGBI样品，因此定量结果变差。随着RGBI样本的引入，辅助RGBI SR策略导致了显著的性能改善。正如预期的那样，随着样本数量的增加，定量结果逐渐改善，性能增益逐渐饱和。DSA和DSFN的讨论。我们对不同的自我注意机制和前馈网络进行了一个消融研究。对于自我注意机制，我们将DSA与vanilla MSA进行比较[15]。我们进一步分析-解析两个关键组件MSSA和MDSA的性能。表6（d）表明，我们的DSA提供了优于基线的0.62 dB的有利增益。此外，单个MSSA或MDSA带来了预期的改进（参见0.50.25037475070[30、70]MSSIM↑0.1100沪ICP备05000000号-1MPSNR↑14.154 35.641 39.156 39.722 40.260 36.167 40.151 40.91141.3600.0462 0.8890 0.9743 0.9781 0.9784 0.9189 0.9820 0.98430.9889沪ICP备05000000号-1MPSNR↑11.231 33.677 36.714 37.520 38.656 34.312 38.303 38.81739.6670.0254 0.8450 0.9605 0.9667 0.9743 0.8856 0.9742 0.97630.9789沪ICP备16011501号-1MPSNR↑17.338 37.662 40.681 41.664 42.230 37.811 41.369 42.23142.5890.1144 0.9141 0.9790 0.9825 0.9852 0.9350 0.9847 0.98730.9914沪ICP备05000000号-1表3.ICVL数据集上最先进的去噪方法的定量评估结果突出显示了最佳结果。方法MPSNR↑MSSIM↑SAM↓噪音20.907 0.3186 25.299BM4D [40] 25.3180.81566.302[60] 25.4600.84005.143[54]第五十四话0.78596.488[57]第一次世界大战0.79110.019[26]第二十六话我们的27.6420.52440.840616.3984.629表4.HSIDwRD最先进的去噪方法的定量评估结果突出显示了最佳结果。vSAM↓MSSIM↑MPSNR↑不含RGBIv= 03.471 0.9587 38.9212019 - 06 - 29 00：00：00与RGBIv=20 3.181 0.9649 39.9212019 -06- 29 00：00：00表5.辅助任务的消融研究。我们添加或移除RGBI样本以修改RGBI样本的数目与HSI样本的数目的比率V网络组件(a)MSA+FNSAM↓3.327MSSIM↑0.9483MPSNR↑39.273多头(b)MSSA+FN3.2320.962039.683关注(c)MDSA+FN3.2350.961139.632(d)DSA+FN3.1860.963939.893前馈(e)MSA+DSFN3.2520.956139.497网络(f)DSA+DSFN3.1690.965940.073表6.不同自我注意机制和前馈网络的消融研究图7.不同DSTB数和DSTG数设置的消融研究。表6（b）和表6（c），两者的组合是最佳选择。实验结果证实，所提出的DSA捕获空间和光谱维度中的长程依赖性。对于前馈网络，我们将我们提出的DSFN与标准FN进行了比较[49]。表6（e）表明，将本地机制引入FN也带来了性能优势。与标准FN相比，我们的DSFN还带来了0.19dB的MPSNR增益（DSA见表6（f））。总的来说，我们的双流Transformer模块贡献比标准Transformer模块有0.80 dB的显著增益。关于DSTB数和DSTG数的讨论我们在图中显示了RSTG数和 RSTB 数对模型性能的影响。图 7 （ a ）和图 7（b）。可以观察到，MPSNR与RSTB数目和RSTG数目正相关。对于RSTB数和RSTG数，性能增益逐渐趋于饱和。为了平衡性能和模型大小，将RSTG数和RSTB数设置为8和6，以获得相对有效和较小的模型。5. 结论在这项工作中，我们定制了一个高光谱图像恢复Transformer模型DSTrans。受HSI特性的启发，我们将关键设计引入到Transformer块的核心组件中，用于捕获光谱间和像素间的相似性和长程依赖性。具体来说，我们的 Multi-Dconv-head spectral atten- tion （ MDSA ）和Multi-head Spatial self-attention（MSSA）通过在局部窗口上跨光谱和空间维度应用自注意力来建模局部和全局上下文。提出的双流前馈网络（DSFN）引入了一种门控机制来激活详细的功能。此外，我们用辅助RGBI恢复任务训练DSTrans。该策略利用大量高质量RGBI样本和稀疏HSI样本来优化我们的DSTrans。我们建立了一系列的HSI SR和去噪实验。定量和定性的比较表明，我们的DSTrans超越了国家的最先进的方法，并获得更愉快的视觉效果。Sigma度量噪声BM4D [40]KBR [59]WLRTR [7]方法NGmeet [18][66]第六十六话[57]第五十七话[26]第二十六话30MPSNR↑18.58938.4510.934141.4780.984042.6220.987842.9880.988938.7040.949342.2170.988343.05643.5340.99000.99343748引用[1] Eirikur Agustsson和Radu Timofte。Ntire 2017单图像超分辨率挑战：数据集和研究。2017年IEEE计算机视觉和模式识别研讨会（CVPRW），第1122-1131页[2] Josue Anaya 和 Adrian Barbu Renoir–a dataset for reallow-light Journal of Visual Communication and ImageRepresentation，51：144[3] 波阿斯·阿拉德和阿哈德·本·沙哈。从自然rgb图像中稀疏恢复在欧洲计算机视觉上，第19施普林格，2016年。[4] Xiangyong Cao ， Xueyang Fu ， Chen Xu ， and DeyuMeng.深空谱全局推理网络用于高光谱图像去噪。IEEE Transactions on Geoscience and Remote Sensing，60：1[5] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在欧洲计算机视觉会议上，第213Springer，2020年。[6] 阿扬·查克拉巴蒂和托德·齐克勒真实世界高光谱图像的统计见CVPR 2011，第193[7] Yi Chang，Luxin Yan，Xi-Le Zhao，Houzhang Fang，Zhijun Zhang，and Sheng Zhong.加权低秩张量恢复用于高光谱图像恢复。IEEE transactions on cybernetics，50（11）：4558[8] Hanting Chen，Yunhe Wang，Tanyu Guo，Chang Xu，Yiping Deng，Zhenhua Liu，Siwei Ma，Chunjing Xu，Chao Xu ， and Wen Gao. 预训练的图像处理Transformer。在IEEE/CVF计算机视觉和模式识别会议的论文集，第12299[9] Yong Chen，Ting-Zhu Huang，Wei He，Xi-Le Zhao，Hanyan Zhang，and Jinshan Zeng.基于因子群稀疏正则化非凸低秩逼近的高光谱图像去噪。 IEEETransactions on Geoscience and Remote Sensing ，2021。[10] Kostadin Dabov 、Alessandro Foi、Vladimir Katkovnik和Karen Egiazarian。稀疏三维变换域协同滤波图像去噪IEEE Transactions on image processing，16（8）：2080[11] 邓欣和皮尔·路易吉·德拉戈蒂。用于多模态图像超分辨率的深度耦合ista网络。IEEE Trans- actions on ImageProcessing，29：1683[12] 雅各布·德夫林张明伟李肯顿和克里斯蒂娜·图塔诺娃。Bert：为语言理解而进行的深度双向转换器的预训练。arXiv预印本arXiv：1810.04805，2018。[13] 董伟生，傅法佐，石光明，曹勋，吴金健，李广宇，李新.基于非负结构稀疏表示的高光谱图像超分辨率。IEEE Transactions on Image Processing ， 25 （ 5 ）：2337[1

下载后可阅读完整内容，剩余1页未读，立即下载