没有合适的资源?快使用搜索试试~ 我知道了~
6254OpenEarthMap:全球高分辨率土地覆盖制图基准数据集Junshi Xia1,*,Naoto Yokoya2,1,,†,Bruno Adriano1,,and Clifford Broni-Bediako11RIKEN AIP,Japan{junshi.xia,bruno.adriano,clifford.broni-bediako}@ riken.jp2日本东京大学yokoya@k.u-tokyo.ac.jp图1:显示OpenEarthMap中包含的97个地区位置的世界地图和8个注释示例。摘要我们介绍OpenEarthMap,一个基准数据集,全球高分辨率土地覆盖制图。OpenEarth- Map由220万个片段组成,涵盖6大洲44个国家的97个地区的5000幅航空和卫星图像,在0.25- 0.5米的地面采样距离上手动标注了8类土地覆盖标签。在OpenEarth-Map上训练的语义分割模型在世界范围内推广,并且可以在各种应用中用作现成的模型。 我们评估 用于无监督域自适应的现有技术方法的性能,以及适合于进一步技术开发的具有挑战性的问题设置。我们还研究了轻量级模型,使用自动化的神经架构搜索有限的计算资源和快速映射。数据集可在https://open-earth-map.org网站。1. 介绍土地覆盖分类图是土地利用规划、粮食安全、资源管理和灾害响应等各种应用中决策的基本信息。米级分 辨 率 的 卫 星 影 像 已 被 用 于 绘 制 世 界 地 图 , 如GlobeLand 30 [6]、FROM-GLC [5]以及最近的基准,如OpenSentinelMap [20]和DynamicEarthNet [44]。地面采样距离(GSD)亚米级的卫星图像能够提取核心地图信息,如建筑物和道路。近年来,在大面积建筑物足迹的自动构建方面取得了实质性进展[39]。自从深度学习出现以来,大量的工作都致力于开发基准数据集,*同等贡献。†通讯作者。高分辨率遥感图像分析,以促进理论和实践的进步。SpaceNet[47]和IEEE GRSS DFC[18]等机构定期通过竞赛向公众介绍基准数据集,推动研究和开发。建筑物检测、道路检测、物体检测和土地覆盖分类(语义分割)是这些数据集用于监督学习的最典型任务[57,29]。除了监督学习之外,这些数据集还被用于更现实的问题,包括迁移学习[49],半监督学习[4]和弱监督学习[36,21]。还开发了有助于解决有关变化检测和灾害损害绘图的社会问题的基准数据集[14,16]。用于亚米级分辨率的语义分割的基准数据集有两个问题:区域差异和注释质量。许多基准所包括的区域往往偏向于发达国家。因此,地图信息维护不好的地区的基准数据集是稀缺的。这一问题之所以难以解决,主要有两个原因:一是发展中国家缺乏高分辨率的开放式航空图像,二是商业高分辨率卫星图像基本上无法再分发。除了建筑物和道路之外,现有基准中的土地覆盖标注的注释质量这是由于在空间细节上人工标记亚米分辨率图像的成本很高。因此,大多数标注数据都是基于Open- StreetMap[35]和来自地方政府的开放地图数据在这项工作中,我们提出了OpenEarthMap,全球高分辨率土地覆盖测绘的基准数据集,目标是为每个人提供自动化测绘。OpenEarthMap在现有数据的基础上取得了重大进展6255×表1:用于语义分割的遥感基准数据集摘要。B:建筑物提取,R:道路提取,LC:土地覆被制图和光盘:变化检测在可用标签上对节段数进行计数。3关 于 地 理 多 样 性 和 注 释 质 量 ( 参 见 表 1 ) 。OpenEarthMap由8类土地覆盖标签组成,GSD为0.25-0.5m,包含5000幅图像,覆盖6大洲44个国家的97个地区。我们采用了一些现有基准数据集的RGB图像进行建筑物检测,并收集了这些基准数据集未覆盖的区域的额外图像,以平衡区域差异。所有图像均手动标记,以确保高质量注释。我们评估了最先进的语义分割和无监督域自适应任务的方法的性能,并确定了适合进一步技术开发的问题设置。此外,轻量级模型的基础上自动神经architectural搜索的情况下,需要自动映射的人有有限的计算资源或快速映射应用,如灾难响应。2. 数据集2.1. 图像来源我们的策略是尽可能多地重用现有基准数据集的图像 我 们 选 择 了 xBD[16] , Inria[30] , Open CitiesAI[33], SpaceNet[47], Landcover.ai[3], AIRS[8],GeoNRW[1]和HTCD[38]数据集,基于源图像可重新分发的条件,地面采样距离(GSD)等于或小于0.5m,并且图像具有地理坐标信息。如果有足够的图像的一个区域,我们定义在省或市的规模,我们采样50-70该地区的图像在1024 - 1024像素的大小。我们采用的每个数据集的图像数量是根据拍摄图像的大陆和国家的多样性和平衡来确定的。对于现有数据集未覆盖的国家和地区,收集了这些国家或地区可公开获得的航空图像,以缩小区域差距,这是大多数现有基准数据集的问题。开放数据从OpenAerialMap [34]和地理空间机构[15,32]下载。有关归属的更多详细信息,请参见补充材料。除了这种地理多样性之外, 我们的数据集包括卫星、飞机和无人机等对于GSD小于0.25 m的极基本上,这些图像是通过随机抽样和人工检查的组合选择的。此外,如果源基准数据集中特定区域的图像数量非常大,则我们使用顺序标记的数据(例如,每10个图像)和另一个回归模型来估计损失。然后,我们添加了具有高预测损失值的图像,因为使用可用标签训练的模型更难以分割它们。最终,我们收集了来自六大洲97个地区的5000张图像。图1显示了带注释的样本和97个区域的地理分布,不同的颜色表示源数据集。图2描述了我们的数据集中六大洲中每个大洲的图像数量,用颜色表示图像的来源。亚洲、非洲和南美洲没有被源数据集很好地覆盖;因此,我们添加了许多来自公共数据的图像,以平衡区域差异。图3显示了基于97个区域的图像特征相似性的t-SNE 2D图。对于每个区域,我们使用EfficientNet-B4提取的特征的平均值作为OpenEarthMap上U-Net的编码器。2D图中的12个代表性图像显示不同的位置对应于不同的图像。还可以看出,不同的源数据集是相互补充的,并且我们添加的开放数据丰富了图像的多样性。不同的符号对应着六大洲,并能看出各大洲之间的相似之处。例如,欧洲和北美以及非洲和南美的区域在图像特征上是相似的2.2. 类、注释和数据拆分类:我们提供了八个类的注释:裸地、草地、开发空间、道路、树木、水、农业用地、建筑物。类别选择与 现 有 产 品 和 基 准 数 据 集 ( 例 如 ,[12][14][15][16][17][19]图像级GSD(m)数据集任务类国家区域面积(平方公里)段仪表水平10[20]第二十话[44]第四十四话LCLC/CD157---75505,2027073,467,552897,8550.3-0.5[47]第四十七话B2555,555685,2350.5/0.3/0.5[12]第十二话R/B/LC2/2/7--2,220/984/1,717-/302,701/20,697亚米级0.02开放城市AI[33]B2811419792,4840.5xBD[16]B/CD2/415213,382850,7360.3[49]第四十九话LC713536166,7680.25-0.5OpenEarthMapLC844977992,205,3956256利马普恩特努瓦尔乌兰巴托皮斯科马河波德拉斯基东京莱凯非洲亚洲欧洲北美洲南美洲大洋洲拉布汗亚琛Jeremie开发荒地俄克拉荷马路树节水农业建筑类表2:八个类别的像素的数量和比例以及彩色像素段(十六进制)计数(M)(%)(K)OpenEarthMap.FFFFFF Road 331 6.7 27.9226126树996 20.2 902.90045FF水161 3.3 18.74BB549农业用地DE1F07号楼770 15.6 389.3图 3 : 97 个 区 域 的 t-SNE 2D 可 视 化 , 基 于 在 Open-EarthMap上训练的EfficientNet-B4提取的特征这些图片是12个地区的样本,底部附有阶级比例的水平-水平条形图表2示出了标记像素的数量和比例以及每个类别的段的数量。在这里,以及在表1中,我们将片段称为具有相同 标 签 的 连 接 像 素 的 集 合 , 并 且 使 用 OpenCV 的findContours函数对其进行计数可以看出,升高的血压(例如,树和建筑物)与地面对象(例如,农业用地)。从图3中12个代表性地区的水平条形图可以看出,不同地区的班级比例各不相同。注释:共有16人参与注释过程:8人负责注释图像,其余8人进行质量检查以指出错误。一个人标记图像,至少两个人执行质量检查。我们花了更长的时间标记前100张图像,并相互交换意见,以确保所有参与者都同意类的定义。平均而言,标记每张图像需要2.5小时这比Cityscapes的1.5小时长得多,这说明了标记遥感图像的困难。所有的标记都是手工完成的对于前基准数据集的图像的标记,仅使用建筑类作为起点。然而,由于发现了大量的标签噪声,建筑物的片段也被手动修改。OpenEarthMap标签最重要的特点如表1所示,OpenEarthMap中图像覆盖的区域并不是很大,然而,与其他基准数据集相比,片段的数量是LoveDA的10倍。通过让两个不同的人标记200个图像两次来评估人类注释的准确性我们根据每个区域的第一个注释选择了具有尽可能多的类别的两个或三个图像,在两种不同的注释中,由不同的人标记为相同类别的像素的百分 比 为 78% 。 这 一 比 例 明 显 低 于 Cityscapes 中 的96%[11],表明高分辨率遥感图像的注释比城市街道场景的注释更具挑战性。第3.4节讨论了人类标记准确度与最新分割模型估计准确度之间的关系。数据分割:对于语义分割任务,将每个区域的图像以6:1:3的比例随机分为训练集、验证集和测试集,在总共5000张图像中分别产生3000张、500张和1500张图像。为了确保每个区域中的所有类别都包括在训练集中,并且尽可能多的类别包括在测试集中,从多个随机试验中选择训练和测试类别之间具有最小失配的分割对于无监督域自适应(UDA)任务,我们采用两种数据分割方式来研究区域级和大陆级域间隙。对于区域级UDA,整个数据集分别被划分为73个这种划分是以这样一种方式进行的,即源域和目标域都包括来自所有六大洲的相对均匀的国家分布以及城市和农村地区之间的平衡。这种分裂不像LoveDA中的城乡分裂那样极端,而是领域适应中的一个现实场景,其中OpenEarthMap作为源数据并适应任何新地区的地图模型,而不仅仅是城乡适应。对于按大洲的UDA,我们使用来自一个大洲的数据作为源域,其他大洲作为目标域。2.3. 与相关数据集的最近,米级分辨率基准在全球土地覆盖物制图方面取得了很大进展;800000裸地741.56.300FF24牧场113022.9459.4图2:2010年六大洲的图像数量949494发展空间79816.1382.76257××OpenSentinelMap[20] 的 特 点 是 利 用 Sentinel-2 和OpenStreetMap 的 开 放 数 据 全 面 覆 盖 全 球 , 而DynamicEarthNet[44]则以高时间分辨率进行扩展。OpenEarthMap在提供亚米级的空间详细注释方面更进了与LoveDA[49]和DeepGlobe[12]进行了更详细的比较,它们具有与OpenEarthMap相似的解决方案和类定义。图4a显示了这三个类的比例比较(a) 班级比例(b) 段数直方图数据集。应该指出的是,LoveDA不包括牧场,在DeepGlobe土地覆盖分类数据集中,建筑物和道路被列入城市类别。OpenEarthMap中没有优势类,类的比例相对均衡。图4b中示出了单个图像中的片段数量的归一 化 直 方 图 。 在 图 像 大 小 方 面 , LoveDA 与OpenEarthMap相同(1024 1024像素),而DeepGlobe更大(2448 2448像素)。OpenEarthMap的直方图有一个很长的尾巴,在OpenEarthMap的每个图像中显示出比其他数据集更多的片段。Occupy EarthMap的空间详细标记反映在第5节和第6节中介绍的训练模型的跨数据集评估和样本外预测结果中。3. 土地覆盖语义分割3.1. 基线对于土地覆盖语义分割任务,在OpenEarthMap数据集上评估并比较了基于CNN和基于Transformer的架构 。 更 具 体 地 说 , 选 择 的 模 型 是 U-Net[37] , U-NetFormer[50] ,FT-U-NetFormer[50] ,DeepLabV3[7], HRNet[41],[56],SegFormer [54]和UPerNet [53],具有ViT [13],Twins [10],Swin Transformer [25],Con- vNeXt [26]和K-Net [55]的骨干。3.2. 结果一般结果:在OpenEarthMap测试集上获得的结果见表3。 主要研究结果如下:(1)以EfficientNet-B4为骨干的U-Net性能优于以ResNet-34为骨干的U-Net和以VGG-11为骨干的U-Net。原因可能是EfficientNet-B4对于提取相关特征更有效,并且为此,高级特征和低级空间信息都用于鲁棒分割。(2)带有Swin-B和Twins的UPerNet以及SegFormer和K-Net的性能优于DeepLabV 3和HRNet。这可能归因于Swin-B、Twins和MiT-B5的强大建模能力和动态特征聚合。(3)U-NetFormer和FT-U-NetFormer共享最高位置,因为这两种方法都采用图 4 : ( a ) 每 个 类 别 的 注 释 像 素 比 例 和 ( b )OpenEarthMap,LoveDA和DeepGlobe数据集的片段数量的归一化直方图。解码器,并使用高级编码器(例如,ResNeXt和Swin-B ) 来 提 取 特 征 。 ( 4 ) 具 有 ViT 和 Con-vNeXt 的UPerNet两个原因可能是超参数(例如,优化器和学习率)可能需要仔细调整,并且可能需要高级总之,考虑到性能以及参数和FLOP的数量,推荐使用U-Net-EfficientNet-B4、UPerNet-Swin-B和FT- U-NetFormer。可视化:图5中给出了从一些选定方法获得的分割结果的示例。U-Net-EfficientNet-B4和FT-U-NetFormer可产生 最 佳 的 详 细 可 视 化 结 果 。 在 图 5 的 第 一 行 中 ,DeeplabeV3错误地将大坝的水域划分为牧场,而其他方法则将其识别出来。在第二行,U-Net-EfficientNet-B4、SegFormer和FT-U-NetFormer能够识别图像右上角的微小道路在所有方法中,水类和裸地类的精度最高和最低建筑物和道路的边界很难正确识别,因为布局杂乱无章,大小不一牧场、农业用地和树木由于其光谱的相似性而容易混淆道路很容易被误认为是已开发的空间,因为一些农村地区的停车场和覆盖材料非常相似。3.3. 神经架构搜索[12][13][14][15][16][17][18][19][为语义分割任务设计的网络[37,41,7,27,23]相比之下,我们通过自动搜索紧凑的分割架构,使用两种自动神经架构搜索方法SparseMask[52]和FasterSeg[9]进一步实验了OpenEarthMap数据集这样的架构可能会提供一个有用的基线研究领域的自动神经结构搜索在遥感与OpenEarthMap。 继AR-6258×表3:OpenEarthMap数据集测试集上基线模型的语义分割结果结果是基于测试时间增强(TTA),特别是翻转。IoU(%)mIoU Params FLOPsBareland 牧场 发达 路树水 农业大厦 (%)(M)(G)U-NetVGG-1140.6956.7653.9962.1672.4482.8173.1477.7764.9718.26233.33U-NetResNet-3440.3557.7554.9262.8772.6582.2474.0678.5865.4324.44126.68U-Net高效网络B450.6358.1756.2764.8373.2086.0276.2880.2068.2020.3045.47U-NetFormerResNeXt10146.0960.6758.1265.0773.7786.3476.9879.9668.37192.71769.25FT-U-NetFormerSwin-B50.1960.8457.5865.8573.3387.4477.5080.2969.1395.98498.37DeepLabV3ResNet-5039.1156.1652.2860.5771.2579.3270.7575.8363.1668.14269.76HRNetW4839.7155.5053.4959.2271.1079.0371.3875.1263.0765.8994.06UPerNetViT34.3954.4550.6454.5769.7379.2466.2274.9260.52144.17395.07UPerNetSwin-B44.5258.9854.7863.4372.2083.7172.9778.1166.0959.94236.08SegFormerMiT-B536.8457.9453.5363.6070.5180.1172.2177.3564.0181.9751.86SETR PUPViT-L45.3555.7251.3155.4767.6373.1267.1475.4861.40309.35212.45UPerNet双胞胎37.2957.6253.8360.2372.3281.9371.7177.4964.0590.96250.91UPerNetConvNeXt40.6154.9451.7658.4770.4475.9568.9474.3061.93122.1292.42K-NetSwin-B44.0257.8154.8562.9171.7685.1873.4178.9166.11246.97419.51图5:表3所列一些基线模型的土地覆盖制图结果的直观比较。表4:在OpenEarthMap训练集上发现的轻量级模型FLOP和FPS是在1024 1024输入上测量的,mIoU是在OpenEarthMap的测试集上测量的。参数FLOPsFPS mIoU(%)(M)(G)(ms)无TTA TTASparseMask第1次2.9610.2851.258.2360.21第23.1010.3952.258.0660.00FasterSeg第1节2.2314.58143.257.5558.35第23.4715.37171.358.51 五 十 九 点四十一分在这两种方法的架构搜索协议中(更多细节请参见附录),我们在OpenEarthMap数据集上搜索轻量级分段网络进行了四个实验,每种方法两个,结果见表4。这两种方法都能够发现紧凑的网络,但是FasterSeg发现了最轻的网络。SparseMask发现的网络计算复杂度低,但推理速度慢。而FasterSeg网络具有高计算成本和 高 推 理 速 度 。 对 于 实 时 映 射 ( 没 有 TTA ) ,FasterSeg可以作为OpenEarthMap数据集的基线.对于非实时映射(其中使用TTA),可以采用SparseMask作为基线。与表3中列出的手动设计的基线模型相比,ered网络(<4 M参数)与UPerNet-ViT(144,17 M参数),落后于FT-U-NetFormer(95. 98M params),准确率约为9%。3.4. 人工标注与机器预测如第2.2节所述,200张图像被不同的人标记了两次 。 剩 下 的 4800 张 图 像 被 用 于 使 用 Swin-B 训 练UPerNet,以比较人类标记的质量和机器的结果 为了有效地研究比较,训练图像的数量从10%变化到100%;结果如图6所示。 可以看出,使用50%的训练图像,机器达到几乎相同的人类注释水平,并且更大的训练百分比提高了准确性(参见图6a)。 对于人类注释,标注类包括裸地、牧场和树木。对于裸地、牧场、开发空间和树木类,分别有50%、30%、50%和10%的训练集产生了比人类注释更好的结果(见图6b)。对机器来说,具有挑战性的类别是农业用地,它落后于人类注释2.3%。关于道路、水和建筑类,在100%的训练图像下,机器稍微(<0. 34%)落后于人类注释。方法主干方法试验6259→mIoU类型(%)→表5:仅在OpenEarthMap训练集的10%上训练的选定基线模型的语义分割结果Bare Range Dev Road Tree Water Agri Building mIoU U-Net-EfficientNet-B4 32. 62 52. 43 49. 77 58. 47 69. 26 74. 39 70. 1674.35 60.18SegFormer 16.15 44.08 45.88 51.39 65.72 61.42 58.5469.71 51.61UPerNet-Swin-B 18.32 47.82 48.2 53.46 66.89 59.6269.55 52.39K-Net 18.62 50.26 48.93 55.22 66.45 60.76 62.0672.33 54.33(a) mIoU(b)特定类别的IoU图6:人工注释与机器预测,不同数量的图像来自训练集。人工标注准确性是指两个不同人工标注之间的IoU3.5. 从有限的标签中我们还研究了基于CNN(U-Net-EfficientNet-B4)和基 于 Transformer ( SegFormer , UPerNet-Swin-B 和 K-Net)模型在有限训练样本上的性能 表5显示了仅使用OpenEarthMap训练集的10%来训练模型的结果。 从表5中可以明显看出,U-Net-EfficientNet-B4在所有特定于类的IoU中的所有三种基于Vision Transformer的方法中的性能主要原因是ViTs的表示能力通常缺乏CNN中的归纳偏差。因此,ViT需要比CNN更多的训练数据[24,13]。我们认为,具有小尺寸数据[24]或有限标签[19]的Vi- sion变压器是一个有趣的主题,需要进一步研究。此外,在有限的训练数据上训练时,仍然需要探索数据增强,正则化和超参数的调整[40]。4. 无监督域自适应4.1. 基线对于无监督域自适应任务,基于度量的方法(MCD[46]),对抗训练方法包括AdaptSeg [45],类别级对抗网络(CLAN)[28],TransNorm [51]和用于域自适应的细粒度对抗学习框架(FADA)[48]),以及自我训练方法包括金字塔曲线DA(PyCDA)[22],采用类平衡自训练(CBST)[58],实例自适应自训练(IAST)[31]和DAFormer [17]。DAFormer基于SegFormer,其他基于DeepLabV2。4.2. 结果区域层面的UDA:我们调查了区域层面的域名差距,因为同一大陆的不同地区可能会受到分布变化的影响。在OpenEarthMap的24个区域的测试集上获得的结果如表6所示。一般来说,Oracle设置获得了最佳结果。由于区域域的差距,源-只有设置产生了最低的准确性.的结果表6:OpenEarthMap数据集中24个区域的测试集上获得的无监督域自适应结果。IoU(%)裸范围Dev路Tree Water Agri构建基于DeeplabV2的Oracle-37.0643.6538.0343.12 61.6173.8975.90 63.9354.65源仅-26.8642.1436.4842.03 58.5861.3570.77 61.8750.01MCD-16.7741.5535.8944.24 56.1557.8462.57 63.8347.36AdaptSeg在28.7741.4736.0946.6534.4868.47 63.7445.60Fada在26.2937.9134.9137.13 54.1940.6865.36 58.3244.35族在22.9042.2539.4944.12 58.9858.9959.51 64.5348.85TransNorm在27.5445.1337.9945.56 57.0663.8466.26 64.7151.01PyCDASt21.9532.3322.8934.81 44.9534.1656.74 55.3137.89CBSTSt29.6443.7937.9949.19 57.3360.7571.93 65.4652.01IASTST33.6843.6437.0345.1659.6172.0874.72 61.7753.46基于SegFormer甲骨文-43.1453.0251.5061.1368.0681.89 81.38 79.81 64.99源仅-28.3748.9646.4954.0567.6275.32 77.93 75.79DAFormerSt37.16 51.0750.3658.07 68.3478.39 78.08 77.30仅源SegFormer明显优于仅源DeepLabV2。与制造类相比(即,建筑物和道路),自然类别的准确性(即,水和裸地)显著减少。除了TransNorm之外,由于OpenEarthMap数据集的多样性,对抗训练方法在这项任务中表现不佳。TransNorm略微提高了性能,因为源图像和目标图像具有不同的光谱统计数据,因为它们是从不同的传感器和区域拍摄的。通过CBST和IAST技术,使用伪标签创建来解决类不平衡问题,从而提高性能。由于SegFormer具有更好的领域泛化能力和有效的 自训 练策略 ,DAFormer 获得 了62.35% 的最 佳mIoU。UDA结果的可视化示例见图7。在图7的第一行中,仅源DeepLabV2几乎无法识别水域(右上)和道路(右下)。IAST和CBST的性能提高了水,但他们失去了识别道路的能力。DAFormer在这两个复杂的区域中表现得非常好。在第二行中,DAFormer在小水域(右上角)以及道路和建筑物的边界上显示出比其他UDA方法更好的可视化结果。大陆方面的UDA:我们还使用U-Net-EfficientNet-B4、SegFormer和DAFormer研究了OpenEarthMap数据集上的大陆域差距。结果如图8所示。与UDA设置(例如,具有相似内容和不同风格的GTA5城市景观)在计算机视觉和遥感中的先前设置(例如,LoveDA中的城市农村),UDA在大陆方面具有较大的内容和风格差距。林-6260OpenEarthMapLoveDAImageNetIoU(%)图7:表6中列出的一些基线模型的无监督域自适应结果的视觉比较。65 7060555045 40303520250 4 8 12 16 20历元100 4 8 12 16 20历元(a) 在DeepGlobe上微调(b)在LoveDA图8:洲际UDA结果。亚洲:AS,欧洲:欧盟、非洲:AF,北美:NA,南美洲:大洋洲:OC。以大洋洲(OC)为源域时,大洋洲数据的迁移率最低。相比之下,OC作为目标域的性能要优于其他设置。Expect OC、U-Net-EfficientNet-B4和SegFormer指出了两个较小的领域差距:欧洲(EU)-北美(NA)和亚洲(AS)-北美。EfficientNet-B4和SegFormer揭示的最突出的域名差距是非洲(AF)到欧盟和NA到AF , 重 新 分 配 。 对 于 具 有 挑 战 性 的 UDA 设 置 ,SegFormer通常优于U-Net-EfficientNet-B4(30个中的26个),这与语义分割(见表3)和区域UDA设置( 见 表 6 ) 中 的 结 果 相 反 。 与 Seg- Former 相 比 ,DAFormer在许多情况下(30例中有20例)改善了结果。AF到OC和NA到OC上的DAFormer由于在OC的有限数据中伪标签的崩溃构造而因此,具有挑战性的大陆UDA设置值得探索,可能的解决方案可能包括图9:OpenEarthMap、LoveDA和DeepGlobe预训练模型之间的比较DAFormer的扩展或U-Net- EfficientNet-B4的新UDA方法。5. 跨数据集评价在本节中,我们将评估使用OpenEarthMap数据集作为语义分割任务的起点(微调)相对于其他开源土地覆盖映射数据集的优势。我们将OpenEarth- Map与LoveDA [49]和DeepGlobe [12]进行比较。我们采用了相同的U-Net模型,其中EfficientNet-B4作为表3中列出的骨干,并使用与第3.2节类似的训练设置在三个数据集上从头开始训练。然后,我们在DeepGlobe数据集上微调了OpenEarthMap和LoveDA预训练模型。同样,OpenEarthMap和DeepGlobe预训练模型在LoveDA数据集上进行了微调所有的实验进行了三次,我们报告的平均值和标准的de-history分割精度为20个历元。如图9所示,结果表明,使用在OpenEarthMap上预训练的模型作为起点,可以产生比在LoveDA和DeepGlobe上预训练的模型更好的性能。例如,当在DeepGlobe数据集上进行微调时,OpenEarth-Map预训练模型的初始IoU得分比DeepGloble上完全训练的模型高出约4%(参见图9a)。虽然OpenEarthMap预训练的模型在早期阶段略低于LoveDA预训练的模型,但OpenEarth-OpenEarthMapDeepGlobeImageNetIoU(%)6261×表7:在OpenEarthMap和LoveDA上训练的模型的泛化性能,并使用切萨皮克湾高分辨率土地覆盖图用IoU(%)进行评估。数据集裸其他道路树水构建mIoU OpenEarthMap9.2958.27 49.29 75.7285.4663.44 56.91LoveDA 3.0740.14 37.71 69.3480.1245.85 46.04切萨皮克湾土地覆盖图在数据集之间不同的站点类别(低植被、农业用地和牧场OpenEarthMap模型的结果在分类和分辨率上与切萨皮克湾土地覆盖图相似,并实现了非常精细的空间分割。LoveDA模型OpenEarthMap模型与 LoveDA 模 型 相 比 这 证 明 了 OpenEarthMap 相 对 于LoveDA的优势,以及OpenEarthMap的注释在空间上的图 10 : 切 萨 皮 克 湾 土 地 覆 盖 图 与 在 LoveDA 和OpenEarthMap上训练的U-Net模型生成的土地覆盖图的NAIP图像是源数据。随着epoch数量的增加,Map的性能越来越好。此外,当在LoveDA数据集上进行微调时,OpenEarthMap预训练模型的初始IoU分数增加了20%以上,并且当epoch数量增加时,其性能仍然较高(见图9b)。6. 关于样本外图像为了进一步研究在OpenEarthMap上训练的模型的泛化 性 能 , 我 们 从 样 本 外 图 像 ( 即 , 不 包 含 在OpenEarthMap中的图像)。更多结果请参见补充资料。在这里,我们展示了一张从0.5 m GSD重采样的NAIP[43]图像创建的地图。切萨皮克湾土地覆盖图[42]被用作评估性能的参考。切萨皮克湾土地覆盖图由13个类组成。为了公平地比较切萨皮克湾土地覆盖工具的制图结果与在OpenEarthMap和LoveDA上训练的U-Net模型产生的制图结果,我们在数据集中采用了六个常见类别(裸地,其他,道路,树木,水和建筑物)并进行了定量评估。表7显示了美国从华盛顿特区到马里兰州约15km- 28kmOpenEarthMap模型的IoU显著高于LoveDA模型,除bareland外,其他模型的得分均足以用于实际制图。由于类定义的不一致性,裸地的准确性很低。例如,在切萨皮克湾土地覆盖地图中,建筑工地被标记为裸露土地,而Open- EarthMap将同一区域标记为已开发空间。图10示出了映射结果的可视示例注意,与表7中的定量评价不同,7. 结论和社会影响现有的亚米级分辨率土地覆盖分类基准缺乏区域多样性和注释质量。为了解决这个问题,我们介绍了开放地球地图,一个基准数据集,全球高分辨率的土地覆盖制图。数据集的多样性体现在覆盖了全球44个国家的97个地区。6大洲,而其精细详细的注释反映在特征空间的泛化中。为了证明OpenEarthMap的实用性,我们使用几种最先进的模型进行了基线实验,用于语义分割和UDA任务,并为样本外图像创建了土地覆盖图,以表明在OpenEarthMap上训练的模型可以在全球范围内适应和通用。我们还证明了大陆明智的域差距和有限的数据训练的挑战。我们实验基于NAS的轻量级模型映射资源有限的设备。需要进一步的技术开发来提高OpenEarthMap上的洲际域适应、有限的训练数据和轻量级模型的性能,以供全球评估。该数据集可供其他研究人员公开使用,以便在其基础上创建新的实际任务。社会影响:OpenEarthMap模型可以自动绘制地球上任何位置的地图,这可以支持灾害响应、环境保护和城市规划方面的决策。然而,如果亚米分辨率的图像可用,这种模型将使任何人都可以轻松访问与国家安全以及隐私有关的地图信息。需要适当的数据分析道德和数据政策,以避免安全和隐私泄露。确认这 项 工 作 得 到 了 日 本 JST FOREST 资 助 委 员 会JPMJFR206S的支持。常用类切萨皮克LoveDAOpenEarthMap裸地路水低素农业牧场其他树建筑农业6262引用[1] Gerald Baier,Antonin Deschemps,Michael Schmitt,Naoto Yokoya.从土地覆盖图和辅助栅格数据合成光学和合成孔径雷达图像。IEEE Transactions on Geoscienceand Remote Sensing,60:1[2] Yoshua Bengio,Yann Lecun,and Geoffrey Hinton. AI的深度学习Commun. ACM,64(7):58 -65,2021。[3] AdrianBoguszewski , DominikBatorski , NataliaZiemba- Jankowska , Tomasz Dziedzic , and AnnaZambrzycka.土地覆盖。ai:用于从航空图像自动绘制建筑物、林地、水域和道路的在IEEE/CVF计算机视觉和模式识别会议论文集,第1102-1110页[4] Javiera Castillo-Navarro , Bertrand Le Saux ,AlexandreBoulch,NicolasAudebert和S e'bastienLe fe' vre。对地观测中的半监督语义分割:minifrance套件,数据集分析和多任务网络研究。机器学习,第1-36页[5] B Chen , B Xu , Z Zhu , C Yuan , H Ping Suen , JGuo,N Xu,W Li,Y Zhao,JJSB Yang,et al.有限样本的稳定分类:将2015年收集的30米分辨率样本集转移到2017年绘制10米分辨率的全球土地覆盖图。
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功