没有合适的资源?快使用搜索试试~ 我知道了~
82030遥感任务的自我监督材料和纹理表示学习0Peri AkivaRutgers大学0peri.akiva@rutgers.edu0Matthew PurriRutgers大学0matthew.purri@rutgers.edu0Matthew LeottaKitware公司0matt.leotta@kitware.com0摘要0自我监督学习旨在学习图像特征表示,而无需使用手动注释的标签。它通常被用作获得有用的初始网络权重的前置步骤,这有助于更快地收敛和更优越的下游任务性能。虽然自我监督允许减少有监督和无监督学习之间的领域差异,而无需使用标签,但自我监督目标仍需要对下游任务具有强大的归纳偏差,以实现有效的迁移学习。在这项工作中,我们提出了一种基于材料和纹理的自我监督方法,名为MATTER(材料和纹理表示学习),它受到经典材料和纹理方法的启发。材料和纹理可以有效地描述任何表面,包括其触觉特性、颜色和光泽。通过推广,材料和纹理的有效表示可以描述与该材料和纹理密切相关的其他语义类别。MATTER利用多时相、空间对齐的遥感图像在不变区域上学习对光照和视角的不变性,作为实现材料和纹理表示一致性的机制。我们展示了我们的自我监督预训练方法在无监督和微调设置中可以提高高达24.22%和6.33%的性能,并在变化检测、土地覆盖分类和语义分割任务上加快收敛速度高达76%。代码和数据集:https://github.com/periakiva/MATTER。01. 引言0遥感图像的自动化理解一直是计算机视觉领域的一个长期目标。其广泛的适用性推动了在施工阶段检测[23]、基础设施绘制[36,55,71,100]、土地利用监测[41]、自然灾害后的损害评估[42,89,97]、城市三维重建[39,57]、人口迁移预测[19]和气候变化追踪[79]等方面的研究和开发。大多数这些方法都需要一定程度的注释工作,这通常是昂贵和/或耗时的。卫星图像0遥感图像越来越丰富和易于获取,每天有数百颗卫星收集图像[1,35,81,94]。然而,标注土地覆盖、变化或类似标签通常需要领域知识和/或对细节的极端关注,因为遥感图像中的标签涵盖了更多数量和更小的从不熟悉的视角看到的对象。因此,与Pascal VOC [38]、COCO[61]或类似的标准基准数据集相比,注释者需要更多的领域专业知识。最近的自我监督学习工作旨在通过检测自我应用的变换(如颜色或旋转变化)或隐式的元数据信息(如时间顺序或地理位置)来减少对标记数据的要求。这些目标通常使用对比学习方法[17,45,53]来实现,其中原始图像和变换后图像的特征表示之间的距离被最小化。更高级的对比方法使用三元损失[10,84]或四元损失[18],还包括负例,使得特征表示之间的距离最大化。尽管这些方法填补了遥感领域的一个重要需求,但尚未得到深入研究。即使是使用对比方法的方法,如SeCo[68]和Ayush等人的工作[4],它们学习季节性变化的不变性或地理位置的一致性,仍然显示出较弱的下游任务学习的可转移性,如表1、3所示的性能和收敛速度较差。相反,我们假设材料和纹理对大多数下游遥感任务具有强大的归纳偏差,通过对表面表示进行预训练来提高这些任务的性能和收敛速度(以时期为单位)。以遥感图像中的变化检测任务为例:当语义类别发生变化(即从土壤到建筑物,或从森林到土壤),材料和纹理也会发生变化,这表明材料和纹理与变化检测任务之间存在很高的相关性。我们展示了我们的自我监督预训练特征在原始形式和微调形式下的有效性,在变化检测(无监督和微调)、土地覆盖分割(微调)和土地覆盖分类(微调)方面取得了最先进的性能。82040在这里,我们提出了一种新颖的自我监督材料和纹理表示学习方法,受到经典和现代纹理滤波器组[58, 87,113]的启发。纹理[52, 58,66]是指图像中微结构的描述,通常用于描述材料和纹理的一致性[25, 27, 58, 101,108]。注意,文献对材料、结构、纹理和表面的定义仅仅是宽泛的。在这里,我们将材料定义为任何单个或组合的元素(土壤、混凝土、植被等),对应于一些多光谱特征,结构定义为强度梯度,纹理定义为结构的空间分布,表面定义为材料和纹理的组合。注意,这里我们定义的是物理表面,而不是几何或代数表面,它由其材料和纹理特性来描述。因此,我们的目标是共同描述材料和纹理的组合。例如,在给定的图像块中,草和混凝土的混合物应该与单独的草块或混凝土块有所区别。在这个例子中,草-混凝土混合物可能与草和混凝土材料类别都相关联。为此,我们学习表面表示,描述与所有预定义表面类别之间的亲和性,以残差[48]的形式表示。我们通过对比学习未改变区域的多时序、空间对齐图像的残差之间的相似性来实现这一目标,以获得一致的材料和纹理表示,无论照明或视角如何。该框架作为下游遥感任务的预训练阶段。总体而言,我们的贡献有:1)我们提出了一种基于材料和纹理的新方法,用于自我监督预训练,以生成具有高归纳偏差的特征,用于下游遥感任务。我们提出了一种纹理细化网络,以放大低级特征,并将残差聚类学习适应于自我监督、对比学习框架中的混合材料和纹理块的特征描述。2)我们使用我们的预训练网络在无监督和有监督的变化检测、语义分割和土地覆盖分类上实现了SOTA性能。3)我们提供了我们精心策划的多时序、空间对齐和大气校正的遥感图像数据集,用于自我监督学习。02. 相关工作02.1. 下游遥感任务0我们在这项工作中研究的主要下游任务是变化检测、土地覆盖分割和土地覆盖分类。卫星图像中的变化检测问题已经得到了深入的研究[12, 13, 15, 24, 49, 77, 78,83]。值得注意的例子包括Daudt等人[29],该方法通过最小化特征差异来预测变化。0从给定的图像对输入的每个网络层的特征差异,以及Chen等人[13]利用空间-时间注意机制来检测图像序列中的异常。土地覆盖分割和分类也引起了人们的兴趣,有越来越多的带注释数据集[3, 32, 47, 91, 96]和方法[2, 5, 44, 82, 93,96]。H20-Net[2]合成多光谱波段,并使用自采样点生成洪水和永久水域分割的伪地面真值。VecRoad[93]将道路分割问题设置为迭代图探索。Multi3Net[82]从高分辨率图像中学习多时序、多光谱特征的融合,共同预测洪水和建筑物的像素。02.2. 自我监督0为了有效利用大量的未标记数据,最近的方法侧重于在没有明确注释的情况下获得良好的特征表示。这是通过从数据本身中获取信息或在数据实例中学习子任务而不改变整体目标来实现的。当可以获得高置信度标签并进行训练时,通常使用第一种方法,类似于[2,4],该方法通过提供的元数据或经典方法推断关于输入图像的弱监督。第二种更常见的方法是利用度量学习目标来学习相同数据实例或类的可泛化特征。最近的方法包括学习对颜色和几何变换的不变性[9, 50, 70],时间顺序[6,40],子块相对位置预测[34],帧插值[73],着色[33, 56,110],补丁和背景填充[102]以及点云重建[105]。与遥感领域更相关的是,SeCo[68]已经迈出了一步,通过对比学习季节不变性作为预训练的自我监督任务来利用卫星图像的潜力。然后,它在变化检测和土地覆盖分类等下游任务上微调预训练网络。Ayush等人[4]还提出了一种自我监督方法,强制执行地理位置一致性作为预训练目标,用于土地覆盖分割和分类等下游任务。虽然这两种方法在与随机权重初始化相比的基准数据集上显示出改进的结果,但我们表明它们的归纳偏差仍然显着弱于基于材料和纹理一致性的预训练权重,后者学习了照明和视角不变性以实现材料和纹理表示的一致性。02.3. 材料和纹理识别0早期的材料和纹理识别方法依赖于手工设计的滤波器组,其组合输出也被称为textons [ 58],用于编码图像块的统计表示[ 7 , 8 , 26 , 28 , 58 , 95 ,114 ]。82050表面残差编码器0NCE损失表面残差编码器0E0E0E0网络P裁剪0累积残差0学习的聚类中心 聚类数0图1.(左)MATTER:锚点、正样本和负样本图像 x a,x p和x n被密集窗口化为 P 个裁剪,这些裁剪被馈送给编码器 E,并对应于输出特征z a,z p和zn。裁剪还被馈送到纹理细化网络(蓝色显示),该网络放大了低层特征的激活,以增加它们在深层中的影响。然后将编码器的输出馈送到表面残差编码器,以生成逐补丁的累积残差,表示输入数据与所有学习的聚类之间的亲和力。特征输出 z a和聚类 υ之间的残差向量表示为 ra,υ。输出的学习残差、聚类权重和聚类数分别表示为 r、θ和Υ。(右)对比目标的简化示例,其中 Υ =3。从学习的聚类中提取并对所有裁剪的残差进行平均,作为输入与所有聚类之间相关性的表示。最佳查看放大和彩色。0后续的研究探讨了使用聚类和补丁间统计作为预定义滤波器组的替代方法[ 98 , 99],但需要定义其操作的特征空间。最显著的特征空间包括颜色强度[ 14 ]、纹理均匀性[ 43 , 58 , 69 ]、多分辨率特征[74 , 88 ]和特征曲率[ 63 , 86]。更近期的深度学习方法将纹理表示问题转化为通过纹理编码来明确识别材料[ 20 , 109 , 112 ]、差分角成像[ 106]、3D表面变化估计[ 31 ]、辅助触觉属性[ 85]以及辐射度量属性估计,如双向反射率分布函数(BRDF)[11 , 62 , 103 ]和双向纹理函数(BTF)[ 104]。这些方法旨在学习对材料分类和分割至关重要的低层特征。一些方法选择添加跳跃连接[ 60 , 107 , 115]以在深层中提供低层特征,而其他方法选择显式连接纹理相关信息[ 59 , 85]。其中许多元素旨在减小感受野或增加网络低层特征的影响,同时保持足够深度。FV-CNN [ 22]旨在生成对密集采样窗口进行纹理描述的特征。由于这些特征描述了与全局空间信息不相关的区域,它明确地将网络的感受野约束为窗口的大小。DeepTEN [ 109]使用材料标签在端到端的流程中学习材料图像的残差表示。我们的方法以两种方式结合了FV-CNN和DeepTEN的元素。首先,我们密集采样窗口并细化低层特征作为感受野约束。然后,我们对比学习隐式的表面残差表示,而无需使用材料标签或辅助信息。据我们所知,我们是第一个在预训练步骤中采用自监督的基于材料和纹理的目标的方法。03. 方法论0MATTER(MATerial and TExture RepresentationLearning)的目标是从给定的多时相卫星图像中提取出光照和视角不变的材料和纹理表示。为了训练我们的模型,我们利用了在第4.1节中描述的我们自己收集的数据集,该数据集采样了农村和偏远地区的多时相图像,假设每对连续采样的图像之间几乎没有变化。请参见图2,了解我们方法的概述。0给定一个锚定参考图像xa∈RB×H×W,该图像在未更改的区域上进行采样,我们获得一个正样本,即在相同区域上进行采样的时间上后续图像xp∈RB×H×W,以及一个负样本,即在不同区域上进行采样的图像xn∈RB×H×W。B,H和W分别对应输入图像的通道带数、高度和宽度。我们将所有图像划分为P个大小相等的对应补丁,每个补丁的大小为h×w,其中空间对齐的参考和正样本补丁ca和cp以及负样本补丁cn是从与参考区域不同的区域随机采样的。密集采样裁剪的使用旨在通过从全局空间上下文中移除特征来限制感受野,并防止模型学习在描述表面方面无效的更高级特征。我们在第5.1节中研究了感受野变化的影响。0为了学习材料和纹理中心特征,我们提出了纹理精炼网络(TeRN)(第3.1节)和基于补丁的表面残差编码器(第3.2节)。TeRN旨在放大对纹理表示至关重要的低层特征的激活(如图3所示),而表面残差编码器是我们对Deep-TEN[109]的基于补丁的自适应学习表面残差表示的调整。我们训练网络以最小化正样本对ca和cp的特征距离,并最大化负样本对ca和cn的特征距离,其中特征是学习到的残差表示。对于我们的学习目标,我们使用噪声对比估计损失[75]:…LNCE = −EC logexp(f(ca) f(cp)),(1)Capturing texture details is difficult in low resolution im-ages, and is especially challenging when considering satel-lite images that have low contrast.As a result, texturewill be less visible and have less impact on the final ex-tracted features. We address this challenge by using ourTexture Refinement Network (TeRN) to refine lower leveltexture features to increase their impact in deeper layers.TeRN utilizes the recently introduced pixel adaptive convo-lution layer [90], in which the convolution kernel weightsare a function of the features locally confined by the ker-nel. Here, our kernel considers the corresponding local pix-els in the original image as follows: given kernel ki,j cen-tered at location (i, j), we calculate the cosine similaritybetween pixel xi,j and all of its neighboring pixels N(i, j).We note that while this can be achieved with any similaritymetric, we observe that orientation based functions (suchas cosine similarity) produce better results than magnitudebased functions (such as Euclidean distance). The outputki,j = −1σ2N (i,j)xi,j · xp,q||xi,j||2 · ||xp,q||2, ∀ p, q ∈ N(i, j). (2)82060相似度0纹理精炼网络0TeRN集成0图2.纹理精炼网络(TeRN)根据卷积核中心像素与其邻居的余弦相似度以及该卷积核的标准差来分配卷积权重。然后我们卷积特征z(1),以精炼纹理和材料中心学习所必需的低层特征。符号�和⊙分别对应卷积和逐元素乘法操作。最佳观看方式为放大。0c j ∈ C exp ( f ( c a ) ∙ f ( c j ))0其中f(cj)是输入补丁cj的输出特征,C是正样本和负样本的集合。03.1. 纹理精炼网络0输入图像原始特征 精炼特征0图3.我们的纹理精炼网络(TeRN)的定性结果。可以看到,相似纹理的像素在精炼输出中获得了类似的特征激活强度。请注意,与原始特征输出相比,第二行中的建筑物在混凝土建筑像素位置处获得了类似的激活。最佳观看方式为放大和彩色。0然后,该矩阵除以 N ( i, j ) 中所有像素的平方标准差,记为σ N ( i,j ) 。0这些操作的输出矩阵描述了中心像素与其周围的相似性以及内核中的强度梯度。如前所述,纹理是结构的空间分布,其以强度梯度表示。由于我们希望强调纹理,在方差高或相似性低的区域中,我们明确地极化特征激活,内核权重随着方差高和/或余弦相似性低而减小。当在我们的低级特征上进行卷积时,它会突出显示边缘,并鼓励具有相似材料特征的像素的表示一致性,如图 3所示。所描述的操作构成了单个细化层的单个内核位置。当该操作在所有图像位置上重复时,我们定义一个单独的细化层 K 。我们构建了一个 L层细化网络,每一层都能够利用不同的内核大小、扩张和步幅。由于网络具有确定性定义的权重,它没有学习的参数。基本的TeRN内核及其在整个网络中的集成在图 2中进行了可视化,并在图 3 中显示了样本细化特征。03.2. 学习表面残差的一致性0残差编码的任务与经典的k-means聚类[ 64 ]和词袋模型[ 51]密切相关,在这些方法中,基于数据实例与聚类中心的接近程度学习了一些硬聚类分配。给定聚类中心,残差被计算为任何数据实例与其对应聚类中心之间的距离。实际上,我们可以使用残差来衡量给定数据实例与其分配的聚类以及所有其他聚类之间的相似性。我们的ri = 1Υθi,υri,υ,(3)82070该方法改编了Deep-TEN [ 109]中提出的通过可微分流程学习基于补丁的残差编码,而无需显式手工制作聚类。传统上,在Deep-TEN [ 109]和其他经典和深度聚类方法[ 9 , 17 , 21 , 45 , 65]中,目标是将基于图像的输入聚类到相应的类别聚类中心。相反,我们采用基于补丁的方法。包含某些材料和纹理的给定补丁可能与多个聚类相关联(即,如果一个补丁捕捉到多个材料元素),因此它需要一种软表示来描述对所有学习的聚类的亲和力,而不仅仅是最近的聚类。因此,我们学习小补丁的残差,并在相应的补丁残差之间强制多时相一致性,以实现聚类亲和力的相似性。给定某个裁剪区域 c i的输出特征向量 z 1 × D i ,以及一组 Υ 个学习的聚类中心Q = { q 0 , q 2 , ..., q Υ − 1 } ,每个形状为 1 × D,我们可以找到与特征向量 z i 和学习的聚类中心 q υ相对应的残差 r 1 × D i,υ = z i − q υ。我们对所有聚类中心重复此过程,并对来自每个聚类的残差进行加权平均,以获得累积残差向量。0Υ −10,其中 θ υ是学习的聚类权重。通过组合给定裁剪区域的残差,我们表示其与所有学习的聚类的亲和力。当最大化或最小化残差之间的相似性时,我们有效地强制输入裁剪区域之间的一致聚类亲和力。04. 实验04.1.自监督预训练预训练数据集。为了训练我们的自监督任务,我们收集了大量免费可用的、大气校正的Sentinel-2卫星图像,这些图像位于人类开发有限的地区。我们手动选择了一些感兴趣的区域,以涵盖各种气候。在给定的空间和时间范围内,我们使用PyStac库[ 37 ]从AWSSentinel-2目录中获取最接近我们感兴趣点的图像。删除了包含超过20%云覆盖率和少于80%数据覆盖率的空间-时间约束内的图像。每个区域最多收集了100张符合这些约束条件的图像。收集到的图像被划分为14,857个大小为1096×1096像素的瓦片进行训练。结果数据集包含了27个感兴趣区域,跨越了1217平方公里,历时三年。我们在补充材料中提供了所有感兴趣点(纬度、经度),并将在发表后发布数据集。0实现细节。我们采用标准的ResNet-34主干网络,第一层后插入TeRN,表面残差编码器作为输出层。TeRN由10个块构成,每个块包含三层,0数据集 OSCD [30]0方法 监督 精确度(%) 召回率(%) F-1(%)0完全监督0U-Net [80](随机) F 70.53 19.17 29.44 U-Net [80](ImageNet) F 70.4225.12 36.20 MoCo-v2 [45] S + F 64.49 30.94 40.71 SeCo [68] S + F 65.4738.06 46.94 DeepLab-v3 [16](ImageNet) F 51.63 51.06 53.04我们的方法(微调) S + F 61.80 57.13 59.370仅自监督0VCA [67] S 9.92 20.77 13.43 MoCo-v2 [45] S 29.21 11.92 16.93 SeCo [68]S 74.70 15.20 25.26 我们的方法 S 37.52 72.65 49.480表1.Onera卫星变化检测(OSCD)数据集验证集上“变化”类别的精确度、召回率和F-1(%)准确率(越高越好)[30]。F和S分别表示全监督和自监督。S +F表示自监督预训练后进行全监督微调。Random和ImageNet表示方法使用的主干网络权重初始化类型。卷积核大小为3×3,膨胀率为1-1-2。对于表面残差编码器,我们使用Υ =64。训练时使用7×7的补丁大小,批量大小为32,学习率为0.01,动量为0.6,权重衰减为0.001。对于噪声对比估计损失,我们使用温度缩放为0.05。我们预训练网络进行110,000次迭代或直到收敛。请注意,自监督基线方法SeCo[68]和Ayush等人[4]分别使用了100万和543,435张图像进行预训练,而我们仅使用了14,857张图像。4.2.0实现细节。该任务在Onera卫星变化检测(OSCD)数据集[30]上进行评估,有两种方式:自监督和监督微调。自监督方法仅利用预训练的主干网络从两个图像中提取基于补丁的残差特征,其中每个9×9的补丁表示其中心像素。我们计算相应残差特征之间的欧氏距离作为变化度量,当残差距离较大时,使用Otsu阈值法[76]对其进行阈值化,以预测变化像素。对于微调方法,我们使用图像作为输入,使用带有跳跃连接的DeepLab-v3[16]网络和我们预训练的主干网络,微调解码器30个epochs,同时冻结主干网络的权重。我们使用图像对的通道级拼接作为网络的输入,使用交叉熵损失和真实变化掩码优化输出特征。评估时,我们报告“变化”类别的精确度、召回率和F-1分数,见表1。我们使用批量大小为32,学习率为0.001,动量为0.6,权重衰减为0.001。对于自监督基线方法,我们使用公开可用的模型权重,并按照先前描述的自监督变化预测流程进行。完全监督基线82080数据集 BigEarthNet [91]0方法 监督 微调 Epochs mAP (%)0Inception-v2 [92] F - 48.23 InDomain [72] S + F 90 69.70S-CNN [91] F - 69.93 ResNet-50 [46](随机) F - 78.98ResNet-50 [46](ImageNet) F - 86.74 MoCo-v2 [45] S + F100 86.05 SeCo [68] S + F 100 87.81 我们的方法(微调) S + F24 87.980表2.BigEarthNet土地覆盖多标签分类数据集验证集上的平均精度准确率(越高越好)[91]。F和S分别表示全监督和自监督。S +F表示自监督预训练后进行全监督微调。0按照我们的微调方法的步骤进行,不使用预训练的权重初始化。0结果讨论。在表1和图6中,我们将我们的方法与自监督和微调方法的SOTA基线进行了比较。我们使用随机初始化、ImageNet [54]、MoCo-v2 [45]和SeCo[68]预训练的常见语义分割网络。我们假设材质和纹理的变化对应于场景的实际变化。因此,通过学习良好的材质和纹理表示,并比较图像对的表示,我们可以可靠地定位变化区域。如表1所示,我们的自监督方法学习到了足够好的材质和纹理表示,优于其他微调方法,比自监督的SeCo高出24.22%,比微调的SeCo高出2.08%。考虑到我们的微调方法,我们与基线相比进一步提高了性能,与基于自监督的基线相比,性能提高了12.43%,与全监督基线相比,性能提高了6.33%。此外,我们还表明,材质和纹理表示对于变化检测任务的归纳偏好是显著的,这可以从更快的收敛速度(以epoch为单位)看出,我们的方法仅需30个epoch即可收敛,而SeCo报告的收敛速度为100个epoch。04.3. 土地覆盖分类0实现细节。我们在BigEarthNet[91]数据集上评估我们预训练的骨干网络,用于多标签土地覆盖分类任务。该数据集提供了590,326个尺寸为120×120的多光谱图像,标注有多个土地覆盖标签,分为训练集和验证集(95%/5%)。我们在我们冻结的预训练骨干网络上添加一个分类器头,并使用给定的真实标签进行24个epoch的微调。我们使用SGD优化器,批量大小为128,学习率为0.0005,动量为0.6,权重衰减为0.001。性能方面,我们报告所有类别(19个)的平均精度。0数据集 SpaceNet [96]0方法 监督 微调 Epochs mIoU (%)0DeepLab-v3 [16](随机初始化) F - 69.44 DeepLab-v3[16](ImageNet预训练) F - 72.22 MoCo-v2 [45] S + F 100 78.05Ayush等人 [4] S + F 100 78.51 我们的(微调) S + F 24 81.120表3.SpaceNet建筑物分割数据集验证集上的平均交并比(越高越好)[96]。F和S分别表示全监督和自监督。S +F表示自监督预训练后进行全监督微调。Random和ImageNet表示方法使用的骨干网络权重初始化的类型。0图像 真实标签 DeepLab [16] 我们的(S + F)0图4.我们方法在SpaceNet数据集[96]上的定性结果。青色、洋红色、灰色和红色分别表示真正例、假正例、真反例和假反例。最好放大并显示颜色。0结果讨论。表2报告了基线和我们的方法在微调后的平均精度性能。虽然我们的方法仅比基线高出0.18%,但我们注意到我们的方法在24个epoch内收敛,这比我们最佳基线的收敛速度快得多,该基线在100个epoch内收敛。04.4. 语义分割0实现细节。我们在SpaceNet建筑物分割数据集上进行此任务。该数据集提供了10,593个尺寸为163×163的多光谱图像,标有像素级别的建筑物/非建筑物掩码,分为训练集和验证集(90%/10%)。我们使用带有跳跃连接的DeepLab-v3[16]网络和我们的冻结预训练骨干网络,在24个epoch内进行微调,批量大小为32,学习率为0.0085,动量为0.6,权重衰减为0.001。我们在表3中报告了最佳性能的epoch的平均交并比(mIoU)。全监督的基线遵循与我们的微调方法相同的步骤,但没有预训练权重初始化。-79111315171921546.6847.3846.9446.9445.7444.5143.7442.95748.5249.4849.0149.0247.7646.6445.9244.69948.5847.6048.0247.8346.5145.5745.4543.271148.9847.8347.3246.6545.6444.5144.1642.451347.4647.1446.3546.9944.6543.7943.0941.611547.6347.1547.3046.1045.5544.6844.1041.851746.7446.8146.4945.9244.6943.6043.1941.0982090结果讨论。表3和图4比较了基线方法和我们的方法的定量和定性结果。对于我们的基线方法,我们报告了Ayush等人[4]和MoCo-v2[45]的结果,它们使用了基于地理一致性目标的PSANet[111]和在地理一致性目标上预训练的骨干网络。我们还报告了使用随机初始化和ImageNet[54]预训练权重的DeepLab-v3的性能。如表3所示,我们的方法在SpaceNet建筑物分割数据集上获得卓越性能所需的时期显著减少。我们的自监督基线方法的性能超过2.61%,完全监督基线方法的性能超过8.90%,收敛速度减少了76%。05. 结果0通过我们的定性和定量结果,我们的方法在评估的下游任务中提供了卓越的性能和收敛时间(以时期为单位)。研究结果表明,材料和纹理与常见的遥感下游任务密切相关,有效地表示材料和纹理的能力可以提高这些任务的性能。由于在没有材料标签的情况下定量测量材料表示能力是困难的,我们通过视觉词图(像素级别的聚类分配)的形式分析和展示了定性纹理和材料结果。我们还在补充材料中讨论了限制、运行时间、伪代码和其他定性结果。0视觉词图生成。为了衡量我们的方法描述材料和纹理的有效性,我们定性评估了我们方法生成的视觉词图(像素级别的聚类分配)。理想情况下,我们希望相似的材料和纹理被映射到相同的聚类中,而不会过度或不足地将像素分组。我们在图5中对经典的Textons、基于补丁的骨干网络和我们的方法进行了视觉比较。基于补丁的骨干网络与MATTER具有相同的基础架构,但没有TeRN和表面残差编码模块。两种方法在相同的数据集上进行训练,使用相同的超参数和迭代次数,如第4.1节所述。可以看出,Textons和基于补丁的骨干网络方法生成了对材料和纹理变化过于敏感和不敏感的两种极端情况。由于Textons操作的是原始强度值,材料之间的差异很小,使其对小的纹理变化非常敏感。这可以在Textons生成的视觉词图中看到,在这个词图中,道路上的小不规则性导致映射到不同的视觉词。另一方面,基于补丁的骨干网络即使通过补丁输入进行了感受野约束,仍然丢失了对纹理表示至关重要的关键低层细节。这可以通过将明显不同的纹理分组到一个视觉词中来表示。相比之下,如图5所示,我们的纹理细化网络和表面残差编码器提升了图像的表面特征,既不对小的纹理不规则性过于敏感,也不对结构变化不敏感。0图像Textons基于补丁的骨干网络 我们的方法0图5.我们生成的基于材料和纹理的视觉词图的定性评估。可以看出,我们的方法提供了更具描述性的基于表面的特征,既不对小的纹理不规则性过于敏感,也不对结构变化不敏感,这与Textons或基于补丁的骨干网络不同。最好放大和着色查看。颜色是随机的。0推理裁剪尺寸0训练裁剪尺寸0表4.接受域约束分析。无监督变化检测任务的F-1分数(%)性能。报告的值是相对于训练和推理裁剪尺寸(无微调)的“变化”类别的值。可以看出,该方法受益于较小的感受野,在使用较小的训练和推理裁剪尺寸时实现了更好的性能。0低级特征的影响,生成基于表面的视觉词图。我们的方法能够保留纹理必要特征,并推广表面表示,从而产生优秀的基于表面的视觉词图。05.1. 消融研究0限制感受野。在表4中,我们研究了对我们方法的不同感受野约束的影响。如前所述,随着感受野的增加,低级特征的影响减弱,材质和纹理表示的质量也随之降低。与传统方法不同,传统方法通过使用较小的网络来减小感受野,我们通过将裁剪输入馈送到网络中来明确约束方法,将其从任何全局上下文中移除。回想一下,我们方法的目标是学习材质的表示和微结构的空间分布,这些都受到低级特征的影响,在较大的感受野方法中这些特征被削弱。实际上,在训练期间,我们网络的最大可能感受野是7×7=49个像素,这显著小于ResNet-50、ResNet-101和ResNet-152的感受野,它们的尺寸分别为483、1027和1507个像素。可以在82100图1 图2 地面真值 DeepLab [16] 残差差异 我们的(S) 我们的(S + F)0图6.我们方法在Onera卫星变化检测(OSCD)数据集[30]上的定性结果。可以看到,我们的自监督方法仅通过推断材质和纹理的变化就能够检测到变化。微调模型能够利用预训练的基于材质和纹理的权重,并比使用ImageNet权重初始化的模型取得显著更好的结果。青色、洋红色、灰色和红色分别表示真阳性、假阳性、真阴性和假阴性。最佳观看方式为放大和彩色。0表4表明,事实上,该方法受益于去除全局空间上下文和较小的感受野,有助于学习更好的材质和纹理表示,并在无监督变化检测任务上实现更好的性能。我们的最佳结果是在训练裁剪尺寸为7×7,推理裁剪尺寸为9×9时实现的,而最差性能是在最大的训练和推理感受野下实现的。模块的影响。在表5中,我们研究了我们提出的方法中每个模块的影响。我们评估了自监督变化检测任务的性能(“变化”类别的F-1分数),作为消融度量,因为它对材质和纹理表示学习具有很强的可迁移性。我们考虑了所有可能的网络组合,包括基于补丁的骨干、TeRN和表面残差编码器。基于补丁的骨干对应于由基于补丁的输入馈送的网络,没有TeRN或表面残差编码器。然后,我们选择性地将TeRN和表面残差编码器添加到网络中并记录其性能。每个网络组合都使用第4.1节和4.2节中描述的相同超参数和过程进行训练和评估。可以看出,每个模块都提供了增量性能提升,当两个模块都实现在网络中时,性能最佳。结论0在这项工作中,我们提出了MATTER,一种新颖的自监督方法,用于学习基于材质和纹理的多时相、空间对齐的卫星图像表示。通过利用基于补丁的输入和我们的改进0基于补丁的骨干纹理细化表面残差F-1分数(%)0� 37.42 � � 41.84 � � 43.23 � � � 49.480表5. 消融研究.使用自监督方法对Onera卫星变化检测数据集中“变化”类别的F-1分数,根据所使用的模块。0通过限制感受野并增强纹理关键特征,我们将其映射到学习到的聚类的残差上作为亲和度测量,从而表示采样补丁的材料和纹理组成。通过我们的自监督流程,MATTER学习到了各种材料和纹理表面的有区别的特征,这些特征与变化具有很强的相关性(表面变化意味着实际变化),或者可以用作其他遥感任务的预训练权重。0致谢本研究部分基于美国国家情报总监办公室(ODNI)、情报高级研究计划局(IARPA)通过2021-2011000005项目的支持进行。本文的观点和结论仅代表作者本人,不一定代表ODNI、IARPA或美国政府的官方政策,尽管其中可能含有版权注释,美国政府仍有权为政府目的复制和分发重印本。[15] Jie Chen, Ziyang Yuan, Jian Peng, Li Chen, Haozhe Huang,Jiawei Zhu, Yu Liu, and Haifeng Li. Dasnet: Dual attentivefully convolutional siamese networks for change detectionin high-resolution satellite images.IEEE Journal of Se-lected Topics in Applied Earth Observations and RemoteSensing, 14:1194–1206, 2020. 282110参考文献0[1] 世界气象组织(WMO)观测系统能力分析和评估(OSCAR)工具,https://space.oscar.wmo.int/satellites. 10[2] Peri Akiva, Matthew Purri, Kristin Dana, Beth Tellman,and Tyler Anderson. H2o-net:通过对抗域适应和标签细化的自监督洪水分割. In2021年IEEE/CVF冬季计算机视觉应用会议 , 页111–122, 2021.20[3] Hamed Alemohammad and Kevin Booth. Landcovernet:一个全球基准的土地覆盖分类训练数据集.arXiv预印本arXiv:2012.03111 , 2020. 20[4] Kumar Ayush, Burak Uzkent, Chenlin Meng, Kumar Tan-may, Marshall Burke, David Lobell, and Stefano Ermon.地理感知的自监督学习. In2021年IEEE/CVF国际计算机视觉会议 , 页10181–10190, 2021.1 ,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功