基于掩膜引导的光谱注意力变换器用于高效高光谱图像重建

49 浏览量更新于2023-10-25 收藏 15.33MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

101102103262830323436175020基于掩膜引导的光谱注意力变换器用于高效高光谱图像重建0蔡远豪1,2,�，林静1,2，胡晓婉1,2，王浩谦1,2，袁欣3，张宇伦4，Radu Timofte4，Luc Van Gool401 深圳大学国际研究生院，清华大学，2 深圳未来媒体技术研究院，3 西湖大学，4ETH Z¨urich0摘要0高光谱图像（HSI）重建旨在从编码孔径快照光谱成像（CASSI）系统的2D测量中恢复3D空间-光谱信号。HSI表示在光谱维度上高度相似且相关。建模光谱间的相互作用有助于HSI重建。然而，现有的基于CNN的方法在捕捉光谱相似性和长程依赖性方面存在局限性。此外，HSI信息在CASSI中由编码孔径（物理掩膜）调制。然而，当前的算法尚未充分探索掩膜对HSI恢复的引导效果。在本文中，我们提出了一种新颖的框架，即基于掩膜引导的光谱注意力变换器（MST），用于HSI重建。具体而言，我们提出了一种光谱多头自注意力（S-MSA），将每个光谱特征视为一个标记，并沿光谱维度计算自注意力。此外，我们定制了一种掩膜引导机制（MM），将S-MSA引导到具有高保真度光谱表示的空间区域。大量实验证明，我们的MST在模拟和真实HSI数据集上明显优于最先进的方法，同时需要更低的计算和内存成本。https://github.com/caiyuanhao1998/MST/01. 引言0高光谱成像是指每个通道在特定光谱波长处捕捉实际场景信息的多通道成像。一般来说，高光谱图像（HSIs）比普通的RGB图像具有更多的光谱波段，以存储更丰富的信息并描述图像场景的更详细特征。依靠这一特性，HSIs已广泛应用于许多与计算机视觉相关的任务，例如遥感[5, 34,59]、目标跟踪[21, 40]、医学图像处理...0* 平等贡献，† 通讯作者0FLOPS（G）0MST-S（0.93 M）0MST-M（1.50 M）0MST-L（2.03 M）0DIP-HSI（33.85 M）0DGSMP（3.76 M）0TSA-Net（44.25 M）0DNU（1.19 M）0�-Net（62.64 M）0U-Net（31.32 M）0图1.基于CNN的HSI重建方法的PSNR-Params-FLOPS比较。纵轴为PSNR（以dB为单位的性能），横轴为FLOPS（计算成本），圆圈半径为Params（内存成本）。我们提出的基于掩膜引导的光谱注意力变换器（MST）在需要更低的FLOPS和Params的情况下优于以前的方法。0处理[3, 33,37]等。为了收集HSIs，传统的带有光谱仪的成像系统沿着空间或光谱维度扫描场景，通常需要很长时间。因此，这些传统成像系统不适合捕捉和测量动态场景。最近，研究人员使用快照压缩成像（SCI）系统来捕捉HSIs。这些SCI系统将快照的信息沿光谱维度压缩成一个单一的2D测量[58]。在当前现有的SCI系统[10, 16, 32, 45,47]中，编码孔径快照光谱成像（CASSI）[36,45]脱颖而出，形成了一个有前途的主流研究方向。基于CASSI，已经提出了大量的重建算法，用于从2D测量中恢复3DHSI立方体。传统的基于模型的方法采用手工制作的先验知识，如稀疏性[23, 29, 46]、总变差[24, 51,57]和非局部相似性[30, 52,61]，来规范重建过程。然而，这些方法...175030传统的HSI重建方法需要手动调整参数，导致泛化能力差、重建质量不理想和恢复速度慢。随着深度学习的发展，HSI重建取得了显著的进展。深度卷积神经网络（CNN）应用了强大的模型，从2D测量学习到3DHSI立方体的端到端映射函数。尽管取得了令人印象深刻的结果，基于CNN的方法[20, 35, 36,39]在建模光谱间的相似性和长程依赖关系方面存在局限性。此外，HSI在CASSI中受到物理掩膜的调制。然而，以往的基于CNN的方法[35, 36, 38,48]主要采用掩膜与平移测量之间的内积作为输入。这种方案破坏了输入HSI信息，并没有充分探索掩膜的引导效果，导致改进有限。0近年来，自然语言处理（NLP）模型Transformer[44]已经被引入计算机视觉，并在许多任务中超越了CNN方法。Transformer中的多头自注意力（MSA）模块擅长捕捉非局部相似性和长程依赖关系。这一优势为解决基于CNN的HSI重建方法的上述局限性提供了可能性。然而，直接应用原始的Transformer可能不适合HSI重建，原因如下。首先，原始的Transformer学习捕捉空间上的长程依赖关系，但HSI的表示在光谱上高度自相似。在这种情况下，光谱间的相似性和相关性没有很好地建模。同时，光谱信息在空间上是稀疏的。与建模光谱相关性相比，捕捉空间交互可能不太划算。其次，HSI的表示受到CASSI系统中的掩膜调制。在计算自注意力时，原始的Transformer如果没有足够的引导，可能会容易关注到许多低保真度和信息较少的图像区域。这可能会降低模型的效率。第三，当使用原始的全局Transformer[15]时，计算复杂度与空间尺寸的平方成正比。这个负担是非常重的，有时是无法承受的。当使用基于局部窗口的Transformer[31]时，MSA模块的感受野被限制在特定位置的窗口内，一些高度相关的令牌可能会被忽略。0为了解决上述问题，我们提出了一种新的HSI重建方法，Mask-guided Spectral-wiseTransformer（MST）。首先，在图2(a)中，我们观察到HSI的每个光谱通道由于特定波长的限制而捕捉到同一场景的不完整部分。这表明HSI的表示在光谱维度上是相似且互补的。因此，我们提出了一种光谱感知的自注意力（S-MSA）来捕捉长程光谱间的依赖关系。0首先，S-MSA将每个光谱通道特征视为一个令牌，并沿着光谱维度计算自注意力。其次，在图2(b)中，CASSI系统中使用掩膜来调制HSIs。掩膜上不同位置的光透过率差异显著。这表明调制的光谱信息的保真度与位置有关。因此，我们利用掩膜作为一个关键线索，提出了一种新的基于掩膜引导的机制（MM），该机制指导S-MSA模块关注具有高保真度光谱表示的区域。同时，MM还减轻了S-MSA在建模HSI表示的空间相关性方面的限制。最后，通过我们提出的技术，我们建立了一系列极其高效的MST模型，其性能远远超过了最先进的方法，如图1所示。我们的贡献可以总结如下：•我们提出了一种新的HSI重建方法MST。据我们所知，这是首次尝试在这个任务中探索Transformer的潜力。0•我们提出了一种新颖的自注意力机制S-MSA，用于捕捉HSI之间的光谱相似性和依赖关系。0• 我们定制了一个MM，指导S-MSA关注具有高保真度HSI表示的区域。0•我们的MST在模拟中的所有场景上都显著优于SOTA方法，同时需要更少的参数和FLOPS。此外，MST在真实世界的HSI重建中产生了更美观的结果。02. 相关工作02.1. HSI重建0传统HSI重建方法[18, 23, 29, 30,0[43, 46, 52, 57,61]等传统HSI重建方法主要基于手工设计的先验知识。例如，GAP-TV [57]引入了总变差先验。DeSCI[30]利用低秩性和非局部自相似性。然而，这些基于模型的方法由于表示能力较差而无法达到令人满意的性能和通用性。最近，深度CNN被应用于学习HSI重建的端到端映射函数，以实现令人期待的性能。TSA-Net[36]使用三个空间-光谱自注意力模块来捕捉压缩空间或光谱维度中的依赖关系。额外的成本是可观的，而改进有限。DGSMP[20]提出了一种具有学习的高斯尺度混合（GSM）先验的可解释HSI恢复方法。这些基于CNN的方法在性能上表现出色，但在建模光谱间相似性和相关性方面存在局限性。此外，掩码的引导效果尚未得到研究。02.2. 视觉Transformer0Spectral (λ)Spatial (x)Feature EmbeddingK××Self-Attention(c1) Spectral-wise MSA𝐻𝑊×𝐶Shift asDispersion1×1 1×1 Conv5×5Conv 5×5MultiplicationSigmoidActivationShift ReversesDispersionshiftshiftMatrix MultiplicationMatrix MultiplicationA𝐻𝑊×𝐶XX𝐻×𝑊×𝐶𝑜𝑢𝑡1×1S+cMask guided MechanismshiftM′M𝐻𝑊×𝐶𝐻𝑊×𝐶𝐻𝑊×𝐶VKWQ𝐻𝑊×𝐶Embedding+(b) CASSI System𝐻𝑊×𝐶1×11×11×11×11×11×11×11×1X 𝑖𝑛 𝐻×𝑊×𝐶σcess in many high-level vision tasks, such as image classi-fication [2, 15, 17, 31], object detection [1, 13, 60, 64], seg-mentation [8,55,63], human pose estimation [7,25,26,56],etc. Due to its promising performance, Transformer has alsobeen introduced into low-level vision [6,9,11,14,27,28,54].SwinIR [27] uses Swin Transformer [27] blocks to buildup a residual network and achieve SOTA results in imagerestoration.However, these Transformers mainly aim tocapture long-range dependencies of spatial regions. As forspectrally self-similar and mask-modulated HSIs, directlyapplying previous Transformers may be less effective incapturing spectral-wise correlations. In addition, the MSAmay pay attention to less informative spatial regions.Y =Then weHconv3×3 (convolution with kernel size = 3) layer to mapH into feature X0 ∈ RH×W ×C. Secondly, X0 under-goes N1 MSABs, a downsample module, N2 MSABs, and adownsample module to generate hierarchical features. Thedownsample module is a strided conv4×4 layer that down-scales the feature maps and doubles the channels. There-fore, the feature of the i-th stage of the encoder is denotedas Xi ∈ RH2i ×175040移位0V0∙0转置0光谱0( a ) HSI特性 ( c ) MS - MSA0F M0S0F ′ F ′′ Y Y H �01 × 105 × 50∙0移位0M �0Q0softmax0W0位置01×1 HSI特征：在空间上是稀疏的，而在光谱上是相关的0W0图2. 提出方法的示意图。我们的Mask-guided Spectral-wise Multi-head Self-Attention (MS-MSA)受HSI特性和CASSI系统的启发。 (a)HSI的表示在空间上是稀疏的，而在光谱上是相关的。 (b) CASSI系统使用掩码来调制HSI。 (c) 我们在MST的第0阶段中使用的MS-MSA。(c1) S-MSA将每个光谱特征视为一个标记，并沿光谱维度计算自注意力。 (c2) Mask-guided Mechanism指导Spectral-wiseMSA关注具有高保真度HSI表示的空间区域。为简化起见，省略了一些组件。详细信息请参阅正文。03. CASSI系统0简洁的CASSI原理如图2(b)所示。给定一个3DHSI立方体，用 F ∈ R H × W × N λ 表示，其中H、W和 N λ 分别表示HSI的高度、宽度和波长数。首先，F首先通过编码孔径(物理掩膜) M � ∈ R H × W进行调制，得到调制后的HSIs F ′ 如下：0F ′ (: , : , n λ ) = F (: , : , n λ ) ⊙ M � , (1)0其中 F ′ 表示调制后的HSIs，n λ ∈ [1 , . . . , N λ ] 表示光谱通道的索引，⊙表示逐元素乘法。经过色散器后，F ′ 变为倾斜的HSI立方体 F ′′ 如下：0在 y 轴上倾斜并被认为沿 y 轴剪切。我们使用 F ′′ ∈ R H× ( W + d ( N λ − 1)) × N λ 表示倾斜的HSI立方体，其中d 表示移动步长。我们假设 λ c 是参考波长，即 F ′′ (: , : , nλ c ) 沿 y 轴不剪切。然后我们有：0F ′′ ( u, v, n λ ) = F ′ ( x, y + d ( λ n − λ c ) , n λ ) ,(2)0其中 ( u, v ) 表示探测器平面上的坐标系，λ n 表示第 n λ个通道的波长，d ( λ n − λ c ) 表示第 n λ 个通道在 F ′′上的空间偏移。最后，通过以下方式可以获得捕获的2D压缩测量 Y ∈ R H × ( W + d ( N λ − 1))：0n λ =1 F ′′ (: , : , n λ ) + G , (3)0其中 G ∈ R H × ( W + d ( N λ − 1))是由光子感应探测器生成的测量上的成像噪声。04. 方法04.1. 整体架构0MST的整体架构如图3(a)所示。我们采用了一个U型结构，包括编码器、瓶颈和解码器。MST由Mask-guidedSpectral-wise Attention Blocks(MSAB)构建。首先，我们反转色散过程(Eq.(2))并将测量值移回以获得初始化信号 H ∈ R H × W × Nλ，如下：0H ( x, y, n λ ) = Y ( x, y − d ( λ n − λ c )) . (4)02 i × 2 i C。第三步，X 2 经过+𝐻×𝑊×𝑁%𝐻×𝑊×𝐶2 × 2 ×2𝐶𝐻4 × 𝑊4 ×4𝐶𝐻4 × 𝑊4 ×4𝐶𝐻2 × 𝑊2 ×2𝐶𝐻 × 𝑊 ×2𝐶𝐻2 × 𝑊2 ×4𝐶𝐻2 × 𝑊2 ×2𝐶2 × 2 ×2𝐶𝐻×𝑊×𝐶𝐻×𝑊×𝐶𝐻×𝑊×2𝐶𝐻×𝑊×𝐶𝐻×𝑊×𝐶𝐻×𝑊×𝑁%𝐻×(𝑊 + 𝑑(𝑁% − 1))++×𝑁/×𝑁/×𝑁0×𝑁0×𝑁1𝑑𝑑𝑑𝑑𝑑4𝑑16bottleneck that consists of N3 MSABs. Subsequently, Wefollow the spirit of U-Net [42] and design a symmetricalstructure as the decoder. In particular, the upsample moduleis a strided deconv2×2 layer. The skip connections are ex-ploited for feature aggregation between the encoder and de-coder to alleviate the information loss caused by the down-sample operations. Similarly, the feature of the i-th stage ofAj = softmax(σjKTjQj), headj = VjAj,(6)175050MSAB0解码器0(b) MSAB0移位0编码器0瓶颈0(a) MST0H0H'0X 0 X 1 2 X0' X 2 ' X X 0 R0Y0下采样0下采样0嵌入0上采样0上采样0映射0测量0重建的HSIs0c c0移位反转色散通道连接 c shift 1 × 1 卷积0(c) FFN0层归一化0层归一化0MS-MSA0FFN0conv1 × 1 conv1 × 10conv1 × 10conv1 × 10GELU0DW conv3 × 30GELU0conv1 × 10图3. MST的整体架构。(a) MST采用U型结构，包括编码器、瓶颈和解码器。(b) MSAB由前馈网络(FFN)、MS-MSA和两个层归一化组成。(c)FFN的组件。02 i × 2 iC。经过解码器后，特征图经过一层3×3卷积层生成残差HSIs R ∈ R H × W × N λ。最后，通过 R 和 H的求和可以得到重建的HSIs H ′ ∈ R H × W × N λ，即 H′ = H + R。在实现中，我们将 C 设置为28，并改变组合 (N 1 , N 2 , N 3 )来建立一系列具有不同模型大小和计算成本的MST模型：MST-S (2,2,2)，MST-M (2,4,4)和MST-L(4,7,5)。MST的基本单元是MSAB。如图3(b)所示，MSAB由两个层归一化、一个Mask-guided Spectral-wise MSA(MS-MSA)和一个前馈网络(FFN)组成。FFN的详细信息如图3(c)所示。04.2. 光谱多头自注意力0非局部自相似性通常在HSI重建中被利用，但通常不被基于CNN的方法很好地建模。由于Transformer在捕捉非局部长程依赖性方面的有效性以及在其他视觉任务中的出色性能，我们旨在探索Transformer在HSI重建中的潜力。然而，直接将Transformer应用于HSI恢复时存在两个主要问题。第一个问题是原始Transformer在空间维度上建模了长程依赖性。但是HSI表示在空间上是稀疏的，并且在光谱上是相关的，如图2（a）所示。0建模空间相关性可能不如建模光谱相关性具有成本效益。因此，我们提出了将每个光谱特征图视为令牌并沿光谱维度计算自注意力的S-MSA。图2（c1）显示了MST阶段0中使用的S-MSA。输入X in ∈ RH×W×C被重塑为令牌X ∈RHW×C。然后，X被线性投影为查询Q ∈ RHW×C，键K∈ RHW×C和值V ∈ RHW×C：0Q = XW Q, K = XW K, V = XW V, (5)0其中W Q，W K和W V ∈RC×C是可学习的参数；为简化起见，省略了偏差。随后，我们将Q、K和V分别沿着光谱通道维度分成N个头：Q = [Q1，...，QN]，K = [K1，...，KN]和V =[V1，...，VN]。每个头的维度为dh = C0N。请注意，图2（c1）描述了N =1的情况，并且为简化起见省略了一些细节。与原始MSA不同，我们的S-MSA将每个光谱表示视为一个令牌，并计算每个头j的自注意力：0其中KTj表示Kj的转置矩阵。由于光谱密度相对于波长变化很大，我们使用可学习参数σj ∈R1通过重新加权矩阵乘法KTjQj在头部j内调整自注意力Aj。随后，N个头的输出在光谱上连接，经过线性投影，然后与位置嵌入相加：0S-MSA（X）= � N Concat j =1 ( head j ) � W + f p( V ) , (7)0其中W ∈RC×C是可学习参数，fp（∙）是生成位置嵌入的函数。它由两个, O(G-MSA) = 2(HW)2C,)C = 2M 2HWC,(8)175060深度卷积3×3层，GELU激活函数和重塑操作。HSI按照光谱维度上的波长进行排序。因此，我们利用这种嵌入来编码不同光谱通道的位置信息。最后，我们重塑方程（7）的结果，得到输出特征图X out ∈RH×W×C。我们分析了S-MSA的计算复杂度，并将其与其他MSA进行了比较。我们只比较主要区别，即方程（6）中的自注意机制：0O（S-MSA）= 2HWC20O（W-MSA）= 2（M2）2（HW0其中G-MSA表示原始的全局MSA[15]，W-MSA表示基于局部窗口的MSA[31]，M表示窗口大小。S-MSA和W-MSA的计算复杂度与空间大小HW成线性关系。这个成本比G-MSA（与HW成二次关系）要便宜得多。同时，S-MSA将整个光谱特征图视为一个令牌。因此，我们的S-MSA的感受野是全局的，不限于特定位置的窗口。04.3. 基于掩码引导的机制0直接使用Transformer进行HSI恢复的第二个问题是原始Transformer可能会关注一些具有低保真度HSI表示的不太信息丰富的空间区域。在CASSI中，使用物理掩码来调制HSI。因此，掩码上不同位置的光透过率是不同的。因此，调制光谱信息的保真度是位置敏感的。这一观察启发我们使用掩码作为指引，指导模型关注具有高保真度HSI表示的区域。在本部分中，我们首先分析了先前基于CNN的方法中掩码的使用方案，然后介绍了我们的掩码引导机制（MM）。先前的掩码使用方案。先前的基于CNN的方法[35，36，38，48]主要在初始化的HSIH和掩码M�之间进行内积，生成调制输入。这种方案引入了空间保真度信息，但存在以下限制：（i）此操作破坏了输入HSI表示，导致信息丢失和空间不连续性。（ii）此方案仅在输入时操作。掩码在指导网络关注具有高保真度HSI表示的区域方面的作用没有得到充分探索。（iii）此方案没有利用可学习参数来建模空间相关性。我们的MM。与先前的方法不同，我们的MM保留了所有输入HSI表示，并学习将S-MSA指导到关注具有高保真度光谱表示的空间区域。具体而言，给定图2（c2）中显示的掩码M�∈RH×W，由于CASSI系统的色散器使调制的HSI发生了位移，0我们首先像离散过程一样移动M�：0Ms(x, y, nλ) = M�(x, y + d(λn − λc)), (9)0其中Ms∈RH×(W+d(Nλ−1))×Nλ表示M�的移位版本。超出M�在y轴上的范围的移位区域设置为0。请注意，图2（c2）显示了MST的第0阶段中使用的MM。为了与MST的第i阶段中的特征图的尺度匹配，Ms需要通过图3（a）中的相同下采样操作。随后，Ms经过一个1×1卷积层，然后输入到两个路径。上路径是一个恒等映射，以保留原始的保真度信息。下路径经过一个1×1卷积层，一个深度卷积5×5层，一个sigmoid激活和与上路径的内积。S-MSA在捕捉光谱间的依赖性方面是有效的，但在建模HSI表示的空间相互作用方面存在局限性。因此，设计了下路径来捕捉空间相关性。然后我们有：0M′s = (W1Ms) ⊙ (1 + δ(fdw(W2W1Ms)), (10)0其中W1和W2是两个可学习的1×1卷积层的参数，fdw(∙)表示深度卷积5×5层的映射函数，δ(∙)表示sigmoid激活，M′s∈RH×(W+d(Nλ−1))×C表示中间特征图。为了将掩膜注意力图与CASSI系统（图2（b））中的调制HSIsF′和MST的初始化输入H（图3（a））进行空间对齐，我们反转离散过程并将M′s向后移动以获得掩膜注意力图M′∈RH×W×C，如下所示：0M′(x, y, nλ) = M′s(x, y − d(λn − λc), nλ), (11)0其中nλ∈[1, . . . ,C]索引匹配M′s的光谱通道的维度。我们将M′重塑为M∈RHW×C以匹配V的维度。然后，我们将M在光谱方面分为N个头：M=[M1, . . . ,MN]。对于每个头j，MM使用Mj∈RHW×dh对Vj进行引导。因此，当使用MM指导S-MSA时，S-MSA模块只需要通过重新制定方程（6）中的头j进行简单修改：0head j = (Mj ⊙ Vj)Aj. (12)0S-MSA的后续步骤保持不变。通过使用MM，S-MSA可以提取非损坏的HSI表示，享受位置敏感保真度信息的指导，并自适应地建模空间相互作用。05. 实验05.1. 实验设置0按照TSA-Net[36]的设置，我们采用了由光谱插值处理得到的450nm到650nm的28个波长进行HSI实验。我们在模拟和真实HSI数据集上进行实验。模拟HSI数据。我们使用了两个模拟高光谱图像数据集，CAVE [41]和KAIST [12]。CAVE125.160.700 26.82 0.754 27.13 0.748 30.10 0.849 31.48 0.858 31.72 0.863 32.68 0.890 32.03 0.892 33.260.91534.710.930 35.15 0.937 35.40 0.941223.020.604 22.89 0.610 23.04 0.620 28.49 0.805 31.09 0.842 31.13 0.846 27.26 0.833 31.00 0.858 32.090.89834.450.925 35.19 0.935 35.87 0.944321.400.711 26.31 0.802 26.62 0.818 27.73 0.870 28.96 0.823 29.99 0.845 31.30 0.914 32.25 0.915 33.060.92535.320.943 36.26 0.950 36.51 0.953430.190.851 30.65 0.852 34.96 0.897 37.01 0.934 34.56 0.902 35.34 0.908 40.54 0.962 39.19 0.953 40.540.96441.500.967 42.48 0.973 42.27 0.973521.410.635 23.64 0.703 23.94 0.706 26.19 0.817 28.53 0.808 29.03 0.833 29.79 0.900 29.39 0.884 28.860.88231.900.933 32.49 0.943 32.77 0.947620.950.644 21.85 0.663 22.38 0.683 28.64 0.853 30.83 0.877 30.87 0.887 30.39 0.877 31.44 0.908 33.080.93733.850.943 34.28 0.948 34.80 0.955722.200.643 23.76 0.688 24.45 0.743 26.47 0.806 28.71 0.824 28.99 0.839 28.18 0.913 30.32 0.878 30.740.88632.690.911 33.29 0.921 33.66 0.925821.820.650 21.98 0.655 22.03 0.673 26.09 0.831 30.09 0.881 30.13 0.885 29.44 0.874 29.35 0.888 31.550.92331.690.933 32.40 0.943 32.67 0.948922.420.690 22.63 0.682 24.56 0.732 27.50 0.826 30.43 0.868 31.03 0.876 34.51 0.927 30.01 0.890 31.660.91134.670.939 35.35 0.942 35.39 0.9491022.670.569 23.10 0.584 23.59 0.587 27.13 0.816 28.78 0.842 29.14 0.849 28.51 0.851 29.59 0.874 31.440.92531.820.926 32.53 0.935 32.50 0.941462.0 nm551.5 nm45050055060065000.20.40.60.81 Ground Truth DeSCI, corr: 0.9703 GapTV, corr: 0.9810 HSSP, corr: 0.9896 -net, corr: 0.9685 TSA-net, corr: 0.9903 Twist, corr: 0.9690 DGSMP, corr: 0.9716 MST-L, corr: 0.9947175070TwIST [4] GAP-TV [57] DeSCI [30] λ-net [39] HSSP [49] DNU [50] DIP-HSI [38] TSA-Net [36] DGSMP [20] MST-S MST-M MST-L 场景 PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIMPSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM PSNR SSIM0平均23.12 0.669 24.36 0.669 25.27 0.721 28.53 0.841 30.35 0.852 30.74 0.863 31.26 0.894 31.46 0.894 32.63 0.917 34.26 0.935 34.94 0.943 35.18 0.9480表1. 在模拟中的10个场景上的定量结果。报告PSNR和SSIM。MSTs明显超过其他竞争对手。0RGB图像测量0光谱密度曲线0TwIST0GAP - TV DeSCI λ - Net HSSP0TSA-Net0DGSMP0MST-L0地面真实值0594.5 nm0636.5 nm0波长（nm）0密度0图4. 使用28个光谱通道中的4个重建模拟HSI的比较结果，场景5。包括7个SOTA算法和我们的MST-L。光谱曲线（左下角）对应于RGB图像中选择的绿色框。放大以获得更好的视图。0数据集由32个512×512的高光谱图像组成。KAIST数据集由30个2704×3376的高光谱图像组成。按照TSA-Net[36]的计划，我们采用CAVE作为训练集。从KAIST中选择了10个场景进行测试。真实HSI数据。我们使用TSA-Net[36]中开发的CASSI系统收集的真实HSI数据集。评估指标。我们采用峰值信噪比（PSNR）和结构相似性（SSIM）[53]作为评估HSI重建性能的指标。实现细节。我们使用Pytorch实现了MST。所有模型都使用Adam [22]优化器（β1 =0.9和β2 =0.999）进行300个epochs的训练。学习率在训练过程中的前50个epochs设置为4×10^(-4)，之后每50个epochs减半。在进行模拟数据实验时，将从3D立方体中裁剪出大小为256×256的补丁输入到网络中。对于真实高光谱图像重建，补丁大小设置为660×660以匹配真实世界的测量。色散中的移动步长d设置为2。因此，模拟和真实HSI数据集的测量尺寸分别为256×310和660×714。反向色散中的移动步长为d/4i，i = 0, 1,2，对应于MST的第i阶段。批量大小为5。使用随机翻转和旋转进行数据增强。模型在一台RTX 8000GPU上进行训练。训练目标是最小化重建HSI与真实HSI之间的均方根误差（RMSE）和光谱恒定性损失[62]。0RTX 8000GPU。训练目标是最小化重建HSI与真实HSI之间的均方根误差（RMSE）和光谱恒定性损失[62]。05.2. 定量结果0我们将我们的MST与几种SOTAHSI重建算法进行比较，包括三种基于模型的方法（TwIST[4]，GAP-TV [57]和DeSCI [30]）和六种基于CNN的方法（λ-net[39]，HSSP [49]，DNU [50]，PnP-DIP-HSI [38]，TSA-Net[36]和DGSMP [20]）。为了公平比较，所有方法都使用与DGSMP[20]相同的设置进行测试。模拟数据集中10个场景上不同方法的PSNR和SSIM结果列在表1中。开源CNN-based算法的Params和FLOPS（测试尺寸=256×256）报告在表2c中。从这两个表中可以看出，我们的MST在所有10个场景上都显著超过以前的方法，而且所需的内存和计算成本更低。具体来说，我们最好的模型MST-L在Params和FLOPS方面分别比DGSMP、TSA-Net和λ-net高出2.55、3.72和6.65 dB，而成本只有54.0%（2.03 /3.76）、4.6%和3.2%。令人惊讶的是，即使我们最小的模型MST-S也比DGSMP、TSA-Net、PnP-DIP-HSI、DNU和λ-net高出1.63、2.80、3.00、3.52和5.73dB，而成本只有24.7%、2.1%、2.7%、78.2%和1.5%Params和2.0%、11.8%、20.1%、7.9%和11.0%FLOPS。为了直观地展示我们的MST的优越性，我们在图1中提供了不同重建算法的PSNR-Params-FLOPS比较。纵轴是PSNR（性能），横轴是FLOPS（计算成本），圆的半径是Params（内存成本）。可以看出，我们的MST占据了左上角，展示了我们方法的极高效率优势。175080471.5 nm0551.5 nm0594.5 nm0636.5 nm0RGB图像0测量 TwIST GAP - TV DeSCI λ - Net HSSP TSA - Net DGSMP MST - L0图5. 使用28个光谱通道中的4个重建真实HSI的比较结果，场景3与场景4。包括七个SOTA算法和我们的MST-L。MST-L重建了更多细节内容并抑制了更多噪声。请放大以获得更好的可视化效果。0dB，而成本分别为24.7%、2.1%、2.7%、78.2%和1.5%Params和2.0%、11.8%、20.1%、7.9%和11.0%FLOPS。为了直观地展示我们的MST的优越性，我们在图1中提供了不同重建算法的PSNR-Params-FLOPS比较。纵轴是PSNR（性能），横轴是FLOPS（计算成本），圆的半径是Params（内存成本）。可以看出，我们的MST占据了左上角，展示了我们方法的极高效率优势。05.3. 定性结果0模拟HSI重建。图4展示了使用七种SOTA方法和我们的MST-L重建的模拟HSI的可视化结果。请放大以获得更好的视图。从重建的HSI（右侧）和所选黄色框中的放大区域可以看出，之前的方法不太能恢复HSI的细节。它们要么产生过度平滑的结果，牺牲了细粒度的结构内容和纹理细节，要么引入了不可取的色彩伪影和斑点纹理。相比之下，我们的MST-L更能产生感知上令人愉悦和清晰的图像，并保持均匀区域的空间平滑性。这主要是因为我们的MST-L受到调制信息的指导，并捕捉了不同光谱通道的远程依赖关系。此外，我们绘制了与RGB图像（左上角）中绿色框选区域对应的光谱密度曲线（左下角）。我们的曲线与真实值之间的最高相关性和一致性证明了我们的MST在光谱一致性恢复方面的有效性。真实HSI重建。我们进一步将我们提出的方法应用于真实HSI重建。与[20, 36]类似，我们在CAVE[41]的所有场景上重新训练了我们的模型（MST-L）和0KAIST[12]数据集。为了模拟真实成像情况，在训练过程中向测量结果注入11位的拍摄噪声。图5展示了视觉比较结果。我们的MST-L在高频结构细节重建和真实噪声抑制方面超过了之前的算法。05.4. 消融研究在这部分中，我们采用模拟HSI数据集[12,41]进行消融研究。基线模型是通过去除我们的S-MSA和MM从MST-S得到的。分解消融。

下载后可阅读完整内容，剩余1页未读，立即下载