没有合适的资源?快使用搜索试试~ 我知道了~
Ankit Jha1*Shirsha Bose2∗Biplab Banerjee1{ankitjha16, shirshabosecs, getbiplab}@gmail.com63540GAF-Net:使用新型全局自注意力学习提高遥感图像融合性能01 印度孟买理工学院,印度 2 慕尼黑工业大学,德国0摘要0自注意力学习的概念已被发现可以大幅提升遥感(RS)图像融合的性能。然而,自注意力模型由于感受野的有限大小而无法融入全局上下文,而交叉注意力学习可能会生成模糊的特征,因为所有模态的特征提取器是联合训练的。这导致生成冗余的多模态特征,从而限制了融合性能。为了解决这些问题,我们提出了一种名为全局注意力融合网络(GAF-Net)的新型融合架构,配备了新颖的自注意力和交叉注意力学习技术。我们通过全局光谱-空间注意力学习引入了内部模态特征细化模块,其中使用查询-键-值处理来同时使用全局空间和通道上下文生成两个通道注意力掩码。由于在融合网络内部生成交叉注意力并不容易,我们提出利用模态特定分类的两个辅助任务来生成高度区分性的交叉注意力掩码。最后,为了确保非冗余性,我们提出惩罚注意模态特定特征之间的高相关性。我们在包括光学、多光谱(MS)、高光谱(HSI)、光探测与测距(LiDAR)、合成孔径雷达(SAR)和音频模态在内的五个基准数据集上进行了大量实验,结果表明GAF-Net在文献中具有优势。01. 引言0近年来,遥感(RS)成像技术的快速发展使得对地球表面进行精确监测成为可能。这些图像在城市规划、环境监测、地质学等方面有直接应用[42,1]。在不同的RS数据模态中,高光谱图像(HSI)以其实际连续光谱特性而闻名。0* 相等的贡献0图1. RS中融合网络的演变。 (a) 标准的特征提取与池化网络,(b)每个特征提取器在池化之前都有自注意力块,(c)带有自注意力和交叉注意力的网络,(d) 我们的GAF-Net。0光谱连续性特性具有统计学上的连续性,而多光谱图像(MSI)可以提供更精细的空间信息。另一方面,SAR数据或由LiDAR生成的高程数据对大气扰动不敏感。与这些视觉模态并行的是,声音被认为是识别某些现象的重要信息来源,特别是在军事语音情报检测、军事目标检测和灾害管理等国防应用中,从低质量图像源中识别某些现象可能很困难,但可以使用相应的声音基元进行识别。一些努力已经探索了将遥感视觉数据与音频数据相结合的可能性。多个数据源如果智能地结合起来,可以产生具有区分性和语义丰富的特征,这是各个模态可能无法实现的。多流CNN-based深度学习模型主要用于将多个模态的特征信息统一到一个组合表示空间中。为了突出重要的模态特定特征,同时抑制任何不相关的信息,在CNN框架中引入了自注意力学习的概念,同时解开了空间和光谱分量[31, 48, 36,22]。然而,基于CNN的融合网络与自注意力不与跨模态特征提取器交互。这导致一些重要的共享高级特征被忽视。此外,这种范式可能使不同的特征显著不平衡,其中每个特征63550不同模态的特征可能不具有相同的区分性[33,47]。交叉注意力的想法被设想为一种解决方法,其中不同模态的特征提取器可以相互影响(图1)。现有的自注意力学习技术存在一个主要问题,即它们基于局部卷积操作。这意味着在学习给定像素的注意力掩码时,只计算邻近像素的影响。这对于现有的空间和谱注意力学习模块是有效的。尽管如上所述,全局上下文信息被发现可以提升像地物分类这样的密集预测任务的性能(例如,建筑物和道路像素应该在上下文中共现),这在文献中已经提到[34]。全局特征学习可以解决局部模型的分割问题[34]。在这方面,transformers的多头注意力[43, 6,29]通过评估图像块之间的成对相似性来实现全局空间注意力,尽管它们并不是专门设计用于处理通道注意力。这引出了我们提出的第一个研究问题:如何学习解耦的全局谱空间自注意力掩码?同样,我们认为许多交叉注意力学习技术[33]没有很好地校准。这是因为这些掩码是从各个模态特定流中并行学习的,而不考虑它们的区分性质。因此,这种交叉注意力可能通过注入冗余或突出显示模态间模糊的特征限制了融合特征的泛化能力。这为如何学习具有区分性和高层次交叉注意力掩码而不影响融合网络的特征学习提供了重要的研究方向。最后,我们必须在融合之前强制执行特征的非冗余性以避免过拟合。注意力模块的应用确保了良好的模态特定特征学习,但并没有明确确保它们之间的非冗余性。这引出了我们的最终研究议程:如何惩罚模态特定特征之间的高相关性以进行融合?贡献:为了解决上述问题,我们提出了一种用于双模态遥感图像地物分类的通用特征融合网络GAF-Net。GAF-Net采用全局注意力学习策略进行特征细化,通过去除冗余和不相关的信息。我们提出了新颖的解耦谱空间自注意力和跨模态注意力学习,以帮助更好地学习模态特定特征。我们通过使用残差连接重新设计transformers的空间注意力模块,以实现更好的多尺度信息传播,并提出了两个用于捕捉类别谱特征的局部和全局变化的通道注意力模块。0为了生成交叉注意力掩码,我们假设给定模态的有区分性和高层次特征嵌入应该被考虑用于生成交叉注意力掩码。由于所有模态特定流都是联合训练的,从融合网络中获得这些特征是非常困难的。为此,我们提出通过两个辅助的模态特定分类网络来补充融合网络。交叉注意力掩码是从这些网络的最深特征层生成的,这些特征层具有很高的区分性和语义优势。这种高层次的跨模态信息有助于表达模态特征中的重要隐藏模式。最后,我们引入了一种新颖的非冗余正则化器,用于对每个模态的注意力特征表示进行去相关化。我们的重要贡献如下:-我们设计了一个简单且通用的用于遥感数据的双模态融合网络GAF-Net,通过基于注意力学习的特征细化以一种原则性的方式学习有区分性和紧凑的特征。-据我们所知,我们首次提出了基于键值处理的非局部谱空间自注意力学习模块。此外,我们引入了从辅助任务中学习交叉注意力的新范式。最后,我们通过一种新颖的正则化器明确减少模态特征之间的冗余。-我们将我们的注意力模块与现有的各种数据集(视觉、音频和深度模态)上的对应模块进行比较,结果显示所提出的全局自注意力模块明显优于基于局部操作的模型(参见图5(c))。同样,我们通过大量的消融实验证明了所提出的交叉注意力的优越性。我们坚信其他多模态问题也有可能从所提出的注意力模块中受益。02. 相关工作0多模态学习:在遥感中,多模态的融合在土地覆盖分类中起着重要作用。传统模型基于交叉核[2]、马尔可夫关系[24]、形态学[28]和属性[11]特征、基于加权中值滤波的格拉姆-施密特变换(WMFGS)[37]等方法已经在利用多模态遥感数据的线索并提供更好的分类地图方面取得了初步成功。后来,深度学习方法以其数据驱动的特征学习能力取代了这些特定方法。在这方面,一些研究[51, 44, 45,7]通过考虑在不同表示层级上融合信息的影响,提出了CNN融合架构:早期、中期或晚期融合。相比之下,[12]同时使用特征级和决策级融合技术将HSI和LiDAR数据组合在Co-CNN中。自监督学习-based HSI-MSI data fusion is proposed in [10]. Similarly,X-ModalNet [19] jointly used self-adversarial, interactivelearning, and label propagation modules for cross-modal RSclassification. CCR-Net [49], a compact way to fuse hetero-geneous RS features for better information exchange.There are few existing works on RS audiovisual deeplearning. DVAN [32] learns the correspondence betweenthe audio and visual modalities in cross-modal retrieval ofRS images. The clustering-based aural atlas [40] has beenbuilt on fusing the audiovisual information.The crowdcounting network was designed using joint audiovisual in-formation in [21]. Besides, [16] proposed a self-supervisedlearning-based approach to understand the key mapping be-tween the RS audiovisual samples and extended it to othertransfer learning tasks such as scene classification [20], se-mantic segmentation [8], cross-modal retrieval [5, 4], etc.In [20], the authors enforced sound-image pairs to trans-fer the sound event information for RS scene classification.While the existing models are designed for specific pairs ofmodalities, GAF-Net is generic and can be adapted to anypair of modalities by restructuring the feature extractors.Attention learning: The usage of attention learning withinthe CNN frameworks has been proven advantageous in mul-tiple scenarios.Researchers have proposed many easy-to-plugin self-attention modules to highlight the impor-tant and non-redundant spatial and spectral feature maps.Generally speaking, there are two variants for the self-attention based models: CNN coupled with self-attentionplugins [31, 36, 48], and the vision transformer-based mod-els [9], respectively, and GAF-Net falls under the first cat-egory.Squeeze-and-excitation (SE) block [22] provideschannel attention by re-calibrating the channel-wise fea-tures. A non-local operation-based self-attention moduleis proposed [46] to capture long-range dependencies in anydeep CNN models. Convolutional block attention module(CBAM) [48] and the block attention module (BAM) [36]merge the individually trained channel and spatial attentionmaps.Residual-based spectral-spatial attention network(RSSAN) [14] for classifying HSI data, where the spectraland spatial attentions help select prominent bands and spa-tial information, respectively. SSAtt [13] weightily fusedthe spectral and spatial attention branches.CBAM [48]learns spatial and channel properties from localized trans-formations, whereas we adopt a non-local approach basedon pixel/channel correlation for learning attentive features.GLAM [41] proposed spatial and channel attention basedmodules to extract the local and global features. We furtherextend Transformer’s [9, 3] spatial attention by incorporat-ing the channel attention modules.There are studies where cross-attention supports self-attention in multimodal learning such as MCA-Net [27],FusAtNet [33], MBT [35], self-attention based multimodalfusion [54], etc. MCA-Net [27] proposed the optical-SAR-3.1. Model architectureAs illustrated in Figure 2, the GAF-Net architecture con-sists of two major sub-networks: i) two separate modality-specific classification networks: T1 and T2 for X1 and X2,and ii) the bi-stream fusion network S where each of thestreams is dedicated to extracting features from a specificinput modality. By design, T1 and T2 comprise of the deepfeature extractors (FeT1, FeT2) followed by the classifiers(CT1, CT2), respectively. The main goal of T1 and T2 isto learn high-level and discriminative modality-specific fea-tures, which can subsequently be utilized to generate thecross-attention masks. On the other hand, the modality-specific feature extractors FeS1 and FeS2 of S concatenatethe feature-map outputs from each of the self-attended conv.layers with the proposed self-attention block (SAB) andpass them through the 1 × 1 conv. layer for reducing thedimensions. Note that the feature-map outputs of the inter-mediate conv. layers are resized via dimension matchingblock (DM), a global average pooling (GAP) operator thatis used to downsample the spatial resolutions of the featuremaps to the spatial resolution of the feature maps, which arethe output of the final layer of the encoder backbone.The different conv.layers produce features at differ-ent complexities (low, mid, or high-level features), andwe feel that considering them together would capturemore discriminative aspects from the data.Two sepa-rate modality-specific self-attention blocks (SAB) are ap-plied on FeS1 (X1) and FeS2 (X2) and the final self-attended63560基于交叉注意力模块生成联合注意力图。通过在[33]中生成自我注意特征图并将LiDAR数据的交叉注意特征结合起来,改进了HSI数据的土地覆盖分类。我们引入了从单模态分类网络中学习交叉模态注意力的新概念,与文献不同。与我们最接近的现有交叉注意力学习模型是[30],它将运动注意力从教师网络提取到3D-CNN用于人体活动网络。显然,[30]不涉及像GAF-Net这样的跨模态信息,因此不能直接用于任何上下文中的跨模态融合任务。03. 提议的方法0初步:设D ={X1,X2;Y}为多模态数据集,其中X1和X2表示一对模态(如音频-视觉,HSI-LiDAR等),Y是它们各自的标签空间。进一步,设xi1∈X1和xi2∈X2为第i个输入样本点,yi是其关联的标签。在这个设置下,我们的目标是获得融合的特征表示zi =Fe(xi1,xi2),zi∈Z,用于学习一个改进的分类器C:Z→Y。接下来,我们详细介绍GAF-Net的模型架构,其中Fe和C同时学习。63570图2.针对遥感图像分类的多模态融合的GAF-Net架构的提议。这里,T了我们提出的光谱-空间自注意力块(SAB)。分别从FeS1(X1))中获得特征,其中⊕用于实现残差连接,GAP表示沿深度维度的复杂度的重要特定模态特征表示;然而,这些特征中编码了一些以在语义分割等密集预测任务中有所帮助。然而,仅仅使用分割跨模态信息来改进ˆX1和ˆX2。为此,我们通过分别在FeT1(X1)力掩码。因此,得到了S中的最终特定模态特征:˜X1 = ˆX1 ⊕ (ˆXCAB(FeT1(X1))(1)0虽然子网络 S 直到生成 ˜ X 1 和 ˜ X 2 定义了 F,分类网络C S 定义了 f。接下来,我们详细介绍 CAB 和 SAB的架构。03.2. 提出的非局部谱空间自注意力块 (SAB)我们的自注意力块使用基于单头键-值的空间注意力 (SA)和通道注意力 (CA) 模块。此外,如图3 (d)所示,通道注意力包括全局通道注意力 (GCA)和局部通道注意力(LCA),它们有助于从两个不同的视角提取像素的重要通道属性。0通道注意力 (CA) 和空间注意力 (SA)模块在相同的输入特征图上工作,并且得到的输出进行逐元素求和。类似地,两个 CA模块的输出进行逐元素相加。我们将 SAB应用于各个编码器的各个卷积层的组合多级特征输出之后。SAB 执行多级特征细化 (MSFRB)和聚合,从而突出显示每个域的重要特征层次结构。空间注意力(SA):这个注意力模块旨在通过从输入特征图中获取短程和长程像素交互来学习有见地的空间特征 (图3(a))。在这里,相同的输入特征图维度为 R C × H × W(C、H、W 定义了特征图的通道、高度和宽度) 被提供给值(V)、键 (K) 和查询 (Q) 张量,并首先经过 1 × 1卷积层进行维度缩减。这是为了补偿传统的多头注意力块[43] 中处理非重叠特征集的多个头。准确地说,我们首先将K 和 Q 的通道下采样八倍,即 R C/ 8 × H ×W,然后将高度和宽度维度展平,形成维度为 R C/ 8 ×HW 的张量。随后,我们使用矩阵乘法 (�) 在 K 和转置的 Q特征之间进行矩阵乘法,创建一个大小为 R HW × HW的注意力掩码。然后,我们最终将注意力掩码传递给softmax 激活层,然后通过矩阵乘法累加在 V上以获得空间上的注意力输出特征图,定义为 V + V �softmax (K � Q T),维度为 R C × H × W (图3a)。与 [43]不同的是,我们在这里引入了残差连接来创建稳定性。63580图3. 我们提出的自注意力块,包括(a) 空间注意力 (SA),(b) 全局通道注意力 (GCA),(c) 局部通道注意力 (LCA) 模块和(d) SAB 的实现。全局通道注意力 (GCA):从图3 (b)可以看出,这个注意力模块在设计上与空间注意力块非常相似,除了残差路径和Q和K通道的下采样,这里不考虑。具体来说,我们提出使用维度为 R C × C 的通道注意力掩码计算。0通过在 R C × H × W 维度的输入特征图上对 1 × 1卷积后的 Q 和 K特征矩阵进行矩阵乘法运算。我们将这些注意力掩码通过softmax 层,并与形状为 R C × HW 的重塑 V矩阵进行矩阵乘法 (�),以获得最终的 R C × H × W维度的注意力特征。这种通道注意力的主要动机是评估给定通道与所有其他通道在光谱上关注给定像素之间的交叉相关性,从而为通道维度提供全局上下文。据我们所知,这样的范式尚未被考虑,因为传统的做法是独立地关注/加权通道维度。简而言之,计算得到的注意力特征图为:R ((R (conv1 × 1 (V)) � softmax (R (0conv 1 × 1(Q))� R(conv 1 ×0其中R定义应用于张量的重塑操作。局部通道注意力(LCA):该模块在通道维度上进行局部注意力,而不是全局通道注意力。根据图3(c),V、Q和K特征向量通过1×1卷积层作为空间注意力和全局通道注意力传递,但是Q和K特征向量还额外通过全局平均池(GAP)和全局最大池(GMP)层传递,以获得维度为R C × 1 ×1的维度,以突出空间上下文。这样,每个通道维度上的高频和低频空间信息被编码。我们连接Q和K,并使用1×1卷积层压缩融合特征。最后,我们通过压缩特征进行传递0通过softmax激活层将具有维度R C × 1 ×1的V特征向量与V特征向量进行逐元素乘法(⊙),以获得具有维度R C × H × W的注意特征图,如下所示,conv 1 ×1(V)⊙ softmax(conv 1 × 1(CONCAT(0GAP(conv 1 × 1(Q)),GMP(conv 1 × 1(K))))(3)03.3.跨模态交叉注意力块(CAB)判别性的跨模态信息进一步激活这些自我注意特征,以突出一些信息隐藏的特征属性。注意,CAB分别作用于矢量值的中间高级语义表示ˆX1和ˆX2。首先,设计Fe T1(X1)/ Fe T2(X2)以匹配ˆX1 /ˆX2的长度。因此,我们通过GAP和sigmoid层传递FeT1(X1)以生成注意力掩码,然后与ˆX2进行逐元素乘法(⊙),并添加残差连接。对于另一种模态,我们采用类似的过程,得到˜X1和˜X2(方程1)。03.4.GAF-Net训练的目标函数本节定义了用于以端到端方式训练我们提出的GAF-Net的损失函数。仅使用交叉熵(CE)损失L1和L2分别对T1和T2进行训练(X1,Y)和(X2,Y)。另一方面,我们连接˜X1和˜X2以获得Z,并在CS上定义另一个CE损失L3。我们还确保˜X1和˜X2之间的非冗余性;我们提出了一个非冗余性正则化器LNRR,该正则化器倾向于最小化˜X1和˜X2的l2归一化表示之间的互相关,即˜X'1和˜X'2,如下所示,LNRR =||˜X'T1˜X'2−I||2(4),其中I表示单位矩阵。这个损失约束了互相关项的取值为零,从而使得两种模态特定的特征在输入数据方面看到不重叠的方面。整体上HSI-LiDARHSI-MSIHSI-SARHSI-SAROAAAκOAAAκOAAAκOAAAκ63590表1. 我们提出的GAF-Net与Houston 2013 HSI-LiDAR和HSI-MSI,Berlin HSI-SAR以及AugsburgHSI-SAR高光谱数据集上的SOTA方法进行比较。$代表具有End-Net [17]的多输入。�和��分别是模态特定网络T1和T2在HS模态和其他模态上的性能。T1 +T2表示融合Fe T1和FeT2。±表示标准差。#中的结果使用Transformer作为特征提取器,而我们使用CNN块进行特征提取,这不是一个公平的比较。我们用粗体突出显示最佳结果。0方法 Houston2013 Houston2013 Berlin Augsburg0超级嵌入器 [50] 82.64 ± 0.45 83.15 0.8070 82.77 ± 0.30 83.81 0.8134 59.98 ± 0.38 60.12 0.4641 81.03 ± 0.21 52.56 0.72430End-Net $ [ 17 ] 88.52 ± 0.24 89.85 0.8759 87.65 ± 0.40 88.29 0.8610 64.01 ± 0.32 61.88 0.5001 84.11 ± 0.15 62.78 0.77580Co-CNN [12] 88.96 ± 0.41 89.21 0.8766 85.44 ± 0.33 84.10 0.8237 64.08 ± 0.26 62.83 0.5925 87.76 ± 0.52 62.71 0.80400CCR-Net [49] 89.66 ± 0.27 91.53 0.8877 88.15 ± 0.19 89.82 0.8719 69.85 ± 0.46 66.99 0.5716 86.32 ± 0.28 64.47 0.80030FusAtNet [33] 89.98 ± 0.34 94.65 0.8913 86.17 ± 0.51 86.39 0.8408 63.45 ± 0.29 63.19 0.5088 84.42 ± 0.30 62.66 0.77820S2FL [18] - - - 85.07 ± 0.23 86.11 0.8378 62.23 ± 0.19 62.48 0.4877 83.36 ± 0.22 61.38 0.76260AsyFFNet [26] - - - - - - 70.51 ± 0.14 70.31 0.5824 89.14 ± 0.27 69.16 0.84520MFT # [39] 89.80 ± 0.53 91.51 0.8893 89.15 ± 0.96 90.56 0.8822 - - - 90.49 ± 0.20 60.36 0.86260T � 1 86.02 ± 0.32 88.56 0.8481 86.02 ± 0.24 88.56 0.8481 68.11 ± 0.47 54.61 0.5951 84.08 ± 0.21 58.21 0.77590T �� 2 67.27 ± 0.19 70.66 0.6693 75.00 ± 0.40 78.84 0.7298 64.66 ± 0.23 36.30 0.3694 84.07 ± 0.33 50.46 0.77000T 1 + T 2 87.09 ± 0.23 89.15 0.8511 87.99 ± 0.34 89.43 0.8564 69.32 ± 0.19 58.77 0.6003 85.75 ± 0.25 60.89 0.77880GAF-Net 91.39 ± 0.21 94.92 0.9018 90.64 ± 0.17 93.30 0.8938 78.57 ± 0.23 70.92 0.6761 90.80 ± 0.12 70.10 0.86830Table 2. 我们提出的GAF-Net与SOTA方法在ADVANCE数据集上的比较。# TL代表来自[16]的三元组损失。±表示标准差。我们用粗体突出显示最佳结果。0Method Audio Visual Audio-visual Batch TL # Audio T 1 Visual T 2 T 1 + T 2 GAF-Net0Baseline [20] Baseline [20] Baseline [20] [16]0Precision 30.46 ± 0.23 74.05 ± 0.31 75.25 ± 0.27 89.59 ± 0.19 73.28 ± 0.55 89.48 ± 0.43 89.90 ± 0.20 93.37 ± 0.110Recall 32.99 ± 0.46 72.79 ± 0.25 74.79 ± 0.11 89.52 ± 0.18 73.50 ± 0.41 89.34 ± 0.25 90.21 ± 0.37 93.23 ± 0.210F1 28.99 ± 0.39 72.85 ± 0.27 74.58 ± 0.40 89.50 ± 0.33 73.38 ± 0.21 89.40 ± 0.45 90.05 ± 0.30 93.31 ± 0.170多任务损失函数定义如公示。0L Total =0i = 1 L i + L NRR (5)04. 实验协议0休斯顿2013HSI-LiDAR:国家空中激光测绘中心(NCALM)在2013年GRSS数据融合竞赛中介绍了这个数据,覆盖了休斯顿大学及其附近地区。它有144个光谱波段,波长范围从0.38微米到1.05微米。每个通道由349×1905像素的栅格地图组成,空间分辨率为2.5米,还有一个与HSI波段相同栅格大小的LiDAR波段。该数据集提供了2832个训练样本和12197个测试样本[33]。奥格斯堡HSI-SAR:原始数据[18]由三种不同的模态组成;HSI、SAR和数字地表模型(DSM),每次选择一对来定义三个融合任务:HSI-SAR、HSI-DSM和SAR-DSM。我们只关注HSI-SAR融合,并将其与不同的基线进行比较,共有7个类别。场景的空间分辨率为30米,尺寸为332×485,光谱波段范围为0.4微米到2.5微米,DSM图像有一个波段,双极化SAR图像有四个特征。它包含78294个样本,其中761个用于训练,77533个用于测试。柏林HSI-SAR:该数据集[18]由柏林市周边城市和农村地区的八个土地覆盖类别的1723×476像素的HSI和SAR场景组成。总共有464671个样本,其中2820个用于训练,461851个用于测试。[18]提到了HS和SAR的图像预处理。休斯顿2013(HSI-MSI):根据原始的HSI和MSI图像,[18]创建了多模态数据。它具有与休斯顿2013HSI-LiDAR数据集相同的光谱和空间分辨率,以及相同的类别和样本。ADVANCE:为了更好地评估我们提出的GAF-Net的泛化能力,我们考虑了一组不同的多模态数据0数据除了HSI图像之外。[20]中提供的数据集包含5075对音频-视觉样本,其中4056个样本用于训练,其余用于测试,随后进行5折交叉验证。04.1. 模型架构和训练协议在我们的GAF-Net架构中,深度特征提取器Fe T 1和Fe T2由ResNet-50[15]架构组成,并提供维度为512的线性特征嵌入。而S的模态特定特征提取器Fe S 1和Fe S2由四对基于残差的卷积块组成,计算深度分别为64、128、256和512的特征图。此外,在每个卷积块内部,输出通过SAB模块进行自注意力处理,并应用残差连接产生输出特征图。为了确保稳定的训练,我们在Fe S 1和Fe S2的每个卷积块之后使用ReLU非线性激活函数和批量归一化。最后,分类器C T 1、C T 2和CS分别采用512、512和1024的线性特征嵌入。在这里,我们提到了与[33, 12,18]类似的标准设置下的训练策略,用于多模态HSI数据,并使用17×17的立方体补丁围绕每个像素以及具有地面真实标签的HSI、MSI和SAR图像。随后,使用PCA[38]来降低HSI数据的通道维度到30,并删除任何冗余的波段信息。使用ADAM优化器[25]进行训练,初始学习率为10^-2,每40个epoch,调度程序将学习率降低10^-1倍,总共进行200个训练epoch,每个mini-batch大小为16。对于ADVANCE数据集中的音频模态,按照[20,16]的方法生成400×64的频谱图,而视觉模态的图像则调整为256×256。为了补偿AD-VANCE中的数据和类别不平衡,我们使用随机增强技术,如随机...HSI-LiDARHSI-MSIHSI-SARHSI-SARA1:88.3290.080.873184.5187.210.838171.7864.790.642182.6461.800.7779A2:✗✗✓✗89.1090.890.879185.1187.970.841472.3864.970.643282.9962.200.7808A3:✓✗✗✗88.9790.770.877984.9187.560.838871.9564.830.642282.7861.990.7801A4:✓✗✓✗89.3191.370.881185.3588.850.848472.9465.370.648283.0362.590.7851A5:✗✓✗✗89.0690.990.880084.9588.370.841071.8864.730.639983.1762.220.7832A6:✗✗✗✓89.1191.250.882684.9587.860.840572.3264.970.645583.1762.390.7866A7:✗✓✓✗89.9891.930.887989.0290.670.882172.3165.010.644985.5064.800.8033A8:✗✓✓✓90.4193.000.891889.0890.450.881973.4565.330.657485.9565.110.8098A9:✓✓✗✓90.5593.180.893789.1390.660.882973.3965.020.651285.5964.990.8041A10:✓✓✓✗90.3592.550.890289.7491.800.888775.7067.610.660486.2165.170.8112B1:SA90.1193.020.891989.2391.670.882376.8867.810.664187.4467.500.8323B2:GCA89.9992.910.889589.0591.040.878976.7567.590.660687.5167.700.8341B3:LCA89.3791.450.883188.7390.850.875975.9866.940.659186.9967.010.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功