遥感遥感标号分辨率不匹配问题的解决方法

81 浏览量更新于2023-10-16 收藏 2.21MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1遥感图像与标号分辨率不匹配的斯科特·沃克曼DZYNE技术阿明·哈季奇DZYNE技术M.乌斯曼·拉菲克Kitware Inc.摘要虽然语义分割已经在视觉文献中进行了大量的探索，但在遥感领域仍然存在独特的挑战。其中一个挑战是，以处理由于地面采样距离的差异而导致的俯视图像和地面实况标签源为了说明这个问题，我们引入了一个新的数据集，并使用它来展示现有策略中固有的弱点，这些策略天真地对目标标签进行上采样以匹配图像分辨率。相反，我们提出了一种使用低分辨率标签（没有上采样）进行监督的方法，但利用一组高分辨率标签来指导学习过程。我们的方法结合了区域聚合，对抗学习和自我监督预训练来生成细粒度的预测，而不需要高分辨率的注释。广泛的实验证明了我们的方法在现实世界中的适用性。1. 介绍语义分割是一个基本的计算机视觉问题，其目标是将图像的每个像素几十年来，该研究领域一直在进行大量探索，并且对于许多应用至关重要，例如自动驾驶[7，32]。最近，机器学习的进步将性能水平推向了新的高度。然而，尽管这些方法在应用于地面图像时取得了成功，但成功地将语义分割应用于来自遥感领域的图像仍然存在许多挑战[11]。这个问题的核心是，俯拍图像有许多不同的格式。仅考虑天基遥感，就有数百种不同的成像传感器绕地球运行，每种传感器以不同的方式捕获信息这些传感器可以具有不同的成像模式（例如，多光谱、雷达）、以不同方式测量光线、不同的地面分辨率（也称为地面采样距离）、相对于目标的独特视角等等。除了捕捉细节之外，场景的外观可能会因许多原因而发生巨大变化，包括海...(a) 图像（b）标签图1：遥感中的语义分割有许多独特的挑战，例如在架空图像和目标标签之间的空间分辨率差异。这主要是由于以高分辨率收集细粒度注释的资源成本增加。我们提出了一种方法来处理这种分辨率不匹配，而不需要高分辨率的注释。音调变化和人工制品，例如云和云阴影。其中许多问题是遥感所特有的，需要新的解决办法。架空图像的多样性为语义分割算法带来了下游问题。例如，给定偏离最低点的图像（即，不是从正上方捕捉的），图像和地面实况标签之间经常存在不对准有大量的工作探索如何解决遥感中的相关问题例如，Christie et al.[2]提出了一种方法来回归的地心姿态的开销图像，并显示其效用的建筑物分割和纠正。Deng等人[4]提出了一个处理开销图像数据集之间尺度差异的框架。在这项工作中，我们将重点放在如何处理开销图像和目标注释之间的分辨率不匹配，这是一个相对未探索的问题（图1）。语义分割在很大程度上依赖于高质量的对齐标签。Zlateski et al.[46]发现分割性能主要取决于创建训练标签所花费的时间。对于顶置图像，高分辨率标签不存在于大尺度上37093710这主要是由于与全面的注释工作所需的巨大资源成本相关的实际限制例如，切萨皮克委员会花费10个月和130万美元制作了切萨皮克湾流域的高分辨率（1米）土地覆盖图[28]。其结果是一个土地覆盖数据集的一小部分的全球，具有固定的空间分辨率，只有一个单一的时间步长。在实践中，获取低分辨率标签通常要容易得多例如，国家土地覆盖数据库[42]（NLCD）免费向公众开放，完全覆盖美国大陆，通常每五年更新一次，但空间分辨率仅为每像素30米。在输入头顶图像具有比目标标签更高的分辨率的情况下，典型的策略是简单地对标签进行上采样以匹配图像的原生分辨率我们的实验表明，这种方法是不令人满意的，结果在低质量的输出。相反，我们的目标是开发一种能够生成细粒度预测的方法，但只能使用低分辨率的地面实况作为监督的直接来源。我们的关键见解是，即使高分辨率地面实况无法用于训练图像，高分辨率注释的示例通常也可以用于其他位置。换句话说，可以观察高分辨率输出的样子，只是不是到处都是。一种方法应该能够利用这种辅助数据，而不需要相应的图像，以帮助产生细粒度的输出。我们提出了一种只使用低分辨率标签进行监督的方法，但利用一组高分辨率标签来指导学习过程。我们的方法有几个关键组成部分：1）它结合了区域聚合的概念，以允许网络输出本地分辨率预测，而无需对低分辨率目标标签进行上采样; 2）它使用对抗性学习与一组高分辨率标签相结合，以鼓励细粒度的预测;以及3）它利用大量未标记图像的自监督预训练来提高模型泛化。其结果是一种方法，它弥补了天真地上采样可用的低分辨率标签和假设存在昂贵的高分辨率标签之间的性能差距大量的实验证明了我们的方法的能力。2. 相关工作语义分割被认为是计算机视觉中的一项基础任务，是实现智能场景理解这一更大目标的必要垫脚石[16]。语义分割的许多最新进展可以归因于：1）开发基于学习的分割算法（参见[22]的全面调查），以及2) 引入大规模基准数据集，如Cityscapes [3]，ADE20k[44]和Mapillary Vistas [24]，其中包含像素级注释，对于实现完全监督分割方法非常重要。语义分割在遥感界也引起了极大的关注[45]。它适用于传统的遥感任务，如土地覆盖和土地利用估计[35]，这些任务旨在了解地球表面的物理覆盖及其利用方式。M a'ttyus等[21]作为用于直接提取道路拓扑方法的一部分，在俯视图像中分割道路吉拉德等[8]利用语义分割来提取建筑物多边形。其他应用包括高度估计[19，37]，道路安全评估[33]，交通监控，[23][24][25][26][27][28][29][2然而，与地面图像类似，将语义分割应用于头顶图像的主要困难是获取带注释的训练数据的成本[11]。遥感图像提出了许多独特的障碍，以应付。图像可以来自许多不同的传感器，具有不同的空间分辨率，包含诸如云等的大气伪影Deng等人[4]提出了一种处理遥感图像集合之间常见的尺度变化的方法，并演示了其在域适应中的应用。Workman等人[39]显示了如何将多图像融合应用于检测图像中的伪影，例如云。这些问题，以及更多的问题，加剧了获得带注释的训练数据的难度。最终，注释通常具有不同的空间分辨率、在不同的时间被捕获、具有空间对准误差或大量其他差异。在这项工作中，我们专注于解决不匹配的问题。随着高分辨率图像变得更广泛可用，例如大约30厘米的WorldView-3相反，典型的策略是简单地对目标标签进行上采样以匹配图像分辨率。2020年IEEE GRSS数据融合大会（DFC2020）[43]是第一个考虑分辨率不匹配问题的会议，但在极端规模下（10米的高分辨率标签和低分辨率标签）500米），需要非基于学习的方法。Robinson等人 [29]使用单个解决方案的集合，包括：通过迭代聚类标记超分辨率，使用epitomic表示标记超分辨率[20]，以及受深度图像先验启发的后处理[34]。相反，我们探索了一种基于端到端学习的方法，用于通过在单个前向传递中生成高分辨率预测来解决失配问题，而无需集成或任何特设后处理步骤。已经提出了3711×××(a) 图像（b）切萨皮克[28]（c）NLCD [42]（d）切萨皮克（合并）（e）NLCD（合并）图2：使用合并标签分类法的标签示例。请注意，低分辨率标签（e）忽略了许多细粒度的细节，例如高分辨率标签（d）捕获的结构和二级道路。来利用稀疏的地面实况标签。 Lu et[18]显示了如何通过引入特征聚合网络来使用地理标记点标签识别水体。Wang等人。[36]还考虑了地理标记点以及图像级标签，并表明标准分割架构可以优于像素级算法。我们考虑一种替代的，更常见的情况下，注释是密集的，但比输入图像的空间分辨率较低3. Low2High：一个分辨率不匹配的数据集为了支持我们的实验，我们引入了Low2High数据集，它扩展了最近的切萨皮克数据集[28]。切萨皮克数据集包含美国农业部国家农业影像计划（NAIP）的高分辨率高空影像，每像素1米。总的来说，数据集由来自六个州的700多个非重叠的瓦片组成，每个瓦片对应于大约6公里7.5公里的区域。该图像与来自两个不同来源的土地覆被图像相结合。第一个来源是从Chesapeake保护区土地覆盖项目获得的高分辨率标签（每像素1米），该项目覆盖了Chesapeake湾流域周围约10万平方英里的土地第二个来源是来自国家土地覆盖数据库（NLCD）的低分辨率标签（每像素30米）。我们扩展了这个数据集来支持我们的实验与分辨率不匹配问题有关。3.1. 数据集生成我们从切萨皮克数据集中的原始瓦片开始，更新土地覆盖标签以使用合并的标签分类，并生成大小为512512的非重叠图像的对齐数据集。我们提倡标签多样性，具有少于3个唯一土地覆盖类（标签来源）的任何图像此过程产生34791个图像。我们还生成了一个自定义的评估分割，包括一组来自每个状态的图像最终拆分包括培训（75%）、验证（10%）、保留（10%）和测试（5%）。Chesapeake Conservancy提供的高分辨率土地覆盖标签包括六个土地覆盖类别：树冠/森林、低植被/田地、荒地、不透水（其他）和不透水（道路）。NLCD的低分辨率土地覆盖标签包括20个土地覆盖类，其中高级别类别包括已开发土地、贫瘠土地、森林和灌木地。出于我们的目的，我们生成一个由四个类组成的合并标签分类：水，森林，田野，不透水通过将现有标签分配给最相关的类别，重新映射每个标签源以使用合并的标签图2显示了这一过程的定性示例。虽然-10的标签倾向于同意，但可能存在明显的差异，低分辨率标签完全缺失某些细节。3.2. 辅助图像标签自监督学习，其中监督信号直接从数据本身获得，是能够利用大量未标记数据的替代为了支持这种情况并改善地理多样性，我们使用在美国大陆的休息站附近收集的辅助图像集来补充Low2High [27]。与Chesapeake图像的格式类似，我们在2013年1月1日至2014年12月31日期间从NAIP获得了俯拍图像（512512），得到了12，024张训练图像和603张验证图像。我们还补充了切萨皮克的数据与一个新的举行了测试区域，以支持域自适应experi- ments。与美国东北部相比，威斯康星州的密尔沃基因其多样化的地理位置而对于土地覆盖标签，我们使用通过EPA EnviroAtlas[26]提供的注释，并且像以前一样，土地覆盖类别被重新映射以使用我们合并的标签分类法。所得到的测试集包含3262个样品，在1米的地面样品距离。3712发生器编码器解码器鉴别器软Argmax损失示例高分辨率标签区域聚合×∈×损失图3：我们处理分辨率不匹配的架构概述。4. 一种分辨率不匹配我们提出了一个端到端的架构，语义分割，监督使用低分辨率的注释，但能够生成细粒度的预测。图3提供了我们的方法的可视化概览。4.1. 方法概述我们提出了一个框架，在解决不匹配的语义分割。我们的方法直接用低分辨率标签进行监督，但利用一组高分辨率标签（与输入图像无关）来指导学习过程。我们的架构有四个主要组成部分。首先，我们描述了一般的分割架构（第4.2节）。其次，我们引入了区域聚合的概念，允许网络输出原生分辨率预测，而无需对低分辨率目标标签进行上采样（第4.3节）。第三，我们使用对抗性学习与一组高分辨率标签相结合，以鼓励预测细粒度（第4.4节）。最后，我们在大量未标记的图像上进行自监督预训练，以提高模型的泛化能力（第4.5节）。本节的其余部分将介绍高级体系结构。有关更多详细信息，请参见补充材料。4.2. 细分架构对于我们的分段架构，我们使用带有ResNet-18主干的U-Net [30]变体。然而，我们的方法是通用的，足以与任何现代分割架构相结合。U-Net是一种编码器-解码器风格的架构，通过使用跳过连接从编码器传播对于我们的特征编码，我们使用ResNet前四个阶段解码器（U-Net风格）期望四个特征图用于跳过连接。我们的变体有四个上采样块，每个块由两个卷积（3 3）组成，后面是一个ReLU激活。然后对输出进行上采样，并通过具有特定于任务的输出通道数量的最终卷积层。在我们的例子中，分割架构将开销图像作为输入，并产生本地分辨率输出。4.3. 区域聚合在输入图像和目标标签之间的分辨率不匹配的情况下，典型的策略是简单地将标签采样到输入的分辨率。我们的实验表明，这种方法是次优的。相反，我们使用区域聚合的变体[12，38]来允许我们的网络生成本地分辨率输出，但使用低分辨率目标标签进行监督（没有任何上采样）。这允许底层分割网络生成细粒度的预测。在对俯视图像进行语义分割的情况下，输入图像和目标标签都是地理参照的。这意味着每个的地面样本距离是已知的，并且使得能够计算单个低分辨率像素（来自目标标签）和许多高分辨率预测像素（来自输入图像）之间请参见图4，以直观地说明这种地理空间关系。高分辨率像素与低分辨率像素的比率（n）可以从相应的地面样本距离直接我们构造一个区域指数矩阵MRH×W，表示跨高度H和宽度W的给定图像从高分辨率到低分辨率的像素映射。M由n中的t个组成n个像素区域，其中n是从高分辨率图像到低分辨率标签的地面采样距离比例。对于将1米NAIP图像映射到30米NLCD注释的情况，3713×Σ∈Σ1Σe× ×××图4：我们的区域聚合组件利用输入图像的已知地理空间上下文来聚合高分辨率预测，使其与低分辨率目标标签的空间分辨率相匹配。n=30。我们使用M从高分辨率预测中选择30个30像素的区域，并将它们相加以产生代表该区域的单个值。实际上，此操作直接应用于logit。这种基于区域的求和操作产生低分辨率预测图。然后，我们将低分辨率预测图转发到交叉熵损失：通常通过在通道维度上应用softmax，然后是argmax操作来寻址。然而，argmax是不可微的，这将在对抗训练期间中断从训练器到生成器的梯度流相反，我们提出了一种新的配方，使用一个可扩展的软argmax操作，表示为sargmax。首先，通过将logits乘以温度缩放参数τ=103，并在x的通道维度（cC）上应用softmax运算，从输入logitsx中提取类别概率，表示为xc。sargmax可以表示为：Csargmax：=c<$p（xc;τ），（3）c=1其中类概率p（xc;τ）=softmax（τxc）随后被传递到期望值以产生对应于最高预测类概率的每个空间位置的近似类索引这个公式允许对分割输出的每个像素进行软类分配。预测和高分辨率的样本，L（Y，Y）=−NNi=1日志eyiCyi，cc=1Σ。（一）传递给G.D.，它将尝试确定给定的输入是真正的高分辨率注释还是由G合成的预测。我们遵循铰链损失[17]，Ladv，以共同优化发电机和这允许新缩减的低分辨率预测由低分辨率注释监督（图3的右下角）。对于多类（c∈C）交叉熵损失，yi∈Y表示N个低分辨率标签用于监督y∈Y的聚集预测。4.4. 对抗性学习我们使用对抗性学习与一组高分辨率标签相结合，以鼓励细粒度的预测。换句话说，我们把分段网络（4.2节）当作生成元（G）。通过让判别器（D）预测输入是假的（预测）还是真的（随机选择的高分辨率注释），鼓励来自生成器的预测与不相关的高分辨率注释的外观相这是一个两人极大极小博弈：min maxL adv（D，G）.（二）鉴别器Kendall等人[13]提出了一种表示为softargmin的用于可区分聚集的类似操作。我们的 sargmax 和softargmin之间的关键区别在于，我们使用温度参数τ来使预测的概率分布具有更明显的峰值。与使用软目标进行回归的更常见趋势相反，希望使用不同的峰值进行预测以4.5. 自我监督预训练自我监督学习已经显示出巨大的希望，各种任务[1，15]，包括土地覆盖分割[31]。前提是利用各种借口任务，这些任务从数据本身创建监督信号，用于学习有用的特征表示，然后可以将其转移到下游任务。屏蔽自动编码器G D （MAE）[10]引入图像重建作为借口为了促进这种训练范例，来自生成器的预测需要匹配从小型数据集中随机选择的高分辨率注释的特征。在我们的例子中，递归程序将分割图（索引图像）作为输入进行操作。发生器输出logit（B CH（二）区分-- inator期望输入以类索引的形式出现（B×1×H×W）。将logits转换为类指数是任务，表明在几个下游任务上的传输性能优于监督预训练。受这些有希望的结果的启发，我们使用MAE重建任务来预训练Vision Transformer ViT [5]，其中ResNet- 18补丁嵌入（掩蔽率为75%），然后是2个上采样层。然后使用预训练的ResNet- 18嵌入网络的权重来初始化我们的分割网络的特征主干（第4.2节）。.37144.6. 实现细节我们使用Pytorch [25]和Py- torch Lightning [6]实现我们的方法。我们的网络使用Adam [14]进行优化，初始学习率设置为1e-4。该方法训练了100个epoch，并使用验证集进行模型选择。对于对抗性学习组件，传递给训练器的输入使用高斯滤波器（3×3内核，σ= 0）进行模糊处理。（六）。5. 实验我们通过各种实验定量和定性地评估我们的方法结果表明表1：基准方法的性能。ACCF1MiouOracle百分之八十点一七72.69%60.28%低84.40%76.16%64.25%高93.16%百分之九十点八七83.59%[20]第二十话69.11%50.90%37.10%表2：突出显示不同组件影响的消融研究。我们的完整方法显著缩小了与高分辨率基线的性能差距。Accc F1 mIOU我们的方法，包括区域聚合，广告，与基线相比，对抗学习和自我监督预训练显著减少了错误。基线方法为了评估我们提出的架构，我们考虑了几种基线方法，它们共享我们完整方法的组成部分：• Oracle直接使用上采样的低分辨率地面实况作为预测。这表示具有完美的低分辨率估计器。• Low在低分辨率地面实况上训练，并天真地上采样到本机图像分辨率。• 高是在高分辨率地面实况上训练的。这代表了在高分辨率地面实况始终可用的情况下的理想性能。我们的完整方法在第4节中概述，随后称为我们的方法。我们还比较了标签超分辨率方法，自表位LSR[20]。在我们的实验中，我们评估了所有使用高分辨率标签的方法。换句话说，目标是检查每种方法相对于高分辨率基线的性能如何，高分辨率基线代表最佳性能（使用高分辨率标签的直接监督我们使用以下标准评估指标：F1得分（精确度和召回率得分的调和平均值）和平均交集（mIOU），也称为Jaccard指数。对于这两个指标，我们使用宏策略，该策略分别计算每个类的指标，然后使用每个类的相等权重对类进行平均。5.1. 案例研究：标签分辨率首先，我们研究了标签分辨率对预测性能的影响对于这个实验，我们优化了上面列出的基线，这些基线与我们的方法共享相同的分段架构（带有ResNet-18主干的修改后的U-Net）。对于每个基线，我们使用Low2High数据集训练100个epoch。模型选择使用分辨率特定的验证集进行，隔离对待每个标签集。啊附录Pre.✓82.63%74.59%62.52%✓ ✓87.43%81.12%69.84%澳门博彩88.61% 82.60% 71.69%基线：高93.16% 90.87% 83.59%表1示出了该实验的结果正如预期的那样，High表现最好，因为它使用高分辨率的地面实况直接监督。低性能明显更差，突出显示了与简单上采样低分辨率地面实况相关的性能成本。最后，Oracle表现最差，这代表了一个能够完美预测低分辨率地面实况的模型。总之，这些结果表明，高分辨率地面实况对于以细粒度预测的形式实现高质量输出至关重要。为了比较，我们还显示了Malkin等人提出的标签超分辨率方法（自表位LSR）的性能。[20]，调整作者提供的实施。这种迭代方法的表现明显比所有其他方法差，尽管需要描述高分辨率注释在低分辨率注释中出现的频率的统计的先验知识。5.2. 消融研究接下来，我们评估了我们的方法的性能，以及消融研究，显示了单个组件的性能影响。表2显示了这个实验的结果.结果表明，采用区域聚集（Agg.）单独与来自低分辨率注释的直接监督并不优于来自表1的低分辨率基线。这是可以理解的，因为区域聚合步骤允许分割网络输出细粒度的预测，但不限制预测是现实的。换句话说，聚集步骤简单地鼓励聚集的预测与目标标签一致。3715我们低表3：具有和不具有自适应的域适应研究81监督预训练（使用我们的完整模型）。80797877760 5001000150020002500 3000#示例标签图5：我们提出的方法的性能与模型训练期间使用的样本标签的数量。然而，包括基于外观的对抗训练（App.）与区域聚合（Agg.）从而实现超越低分辨率和Oracle基线的性能。该组件鼓励输出预测在外观上看起来与高分辨率注释的示例集相似。最后，包括自我监督预训练（Pre.）与低分辨率基线相比，精度提高了4.21%，F1提高了6.44%，mIOU提高了7.44%。完整模型的性能接近高分辨率基线，而不需要高分辨率标签的直接监督。图6显示了我们的方法与基线的示例输出。5.3. 对示例标签的我们的方法利用了一组高分辨率标签来指导学习过程。这些标签与输入图像没有对应关系，但是鼓励我们的方法产生逼真的（即，细粒度的）预测。因此，我们评估了我们提出的方法的性能如何随着模型训练期间使用的样本标签的数量而变化。在这个实验中，我们使用了完整的方法，但省略了自我监督的预训练部分。图5显示了这项研究的结果。x轴表示模型训练期间使用的高分辨率标签的数量，y轴表示测试集上所得模型的F1得分。正如预期的那样，模型的平均值随着样本标签数量的增加而增加。即使只有很少的样本标签，我们的方法也能够显着优于低分辨率基线。5.4. 推广到新的地点我们使用Low2High数据集来研究自监督预训练对模型泛化的影响。对于这个实验，我们使用第4.5节中概述的MAE图像重建策略来预训练我们的方法，但是预训练测试接入F1 mIOU没有一Ches−86.36%80.07%68.09%Ches−Ches−88.38%80.31%68.68%美国 *Ches−88.91%82.19%71.01%没有一VA85.50%76.03%63.35%Ches−VA86.54%77.03%65.04%美国 *VA88.40%79.03%67.81%没有一MWI55.93%44.90%30.81%Ches−MWI55.41%45.21%百分之三十点九九美国 *MWI63.32%48.52%35.51%改变未标记图像的集合。第一组，Ches−，代表训练集减去弗吉尼亚州（VA）的图像。弗吉尼亚州被排除在切萨皮克湾地区之外，作为一个试验区。对于第二组，我们使用Low2High（第3.2节）的辅助图像，表示为USA*。经过100个epoch的预训练后，得到的模型在Ches−（状态：DE，MD，NY，WV和PA）的训练部分上进行了100个epoch的微调。最后，我们评估了两种预训练策略中的每一种，并在三个下游保持的测试集上评估了代表无预训练（无）的基线：Ches −的测试部分，VA的测试样本，以及我们在威斯康星州密尔沃基（MWI）的新测试集。表3总结了该实验的结果。前三行显示Ches-测试集的性能。正如预期的那样，没有预训练（无）的性能最差。值得注意的是，在USA* 上的预训练优于在Ches−上的预训练。由于两个预训练集都暴露于与测试区域相似的图像，这可能归因于从地理上更多样化的图像集中学习改进的特征表示。中间的三行显示了在保持VA测试集上的性能。与前三行不同，在模型训练期间，没有任何方法尽管如此，结果还是遵循了与以前相同的趋势。无预训练（无）表现最差，USA* 上的预训练优于Ches−上的预训练。这一结果表明，与仅在地理上与测试集更相似的一组图像（Ches-最后，底部三行显示了保持的MWI测试集的性能在这种情况下，基线（无）与Ches−竞争。这是可以理解的，因为与切萨皮克湾地区相比，MWI在地理上是多样化的。USA* 的表现优于这两种选择，表明自我监督的预训练对将模型推广到新的位置具有显著的积极影响。F1分数3716图像GT（高）Pred（高）GT（低）Pred（低）我们的图6：定性结果示例从左到右：输入图像、高分辨率地面实况标签、高分辨率基线预测、低分辨率地面实况标签、低分辨率基线预测和我们的结果。6. 结论语义分割已经达到了令人印象深刻的性能水平，但在遥感，它仍然是极具挑战性的，以获得高分辨率的注释。实际上，对于许多任务来说，获得粗糙的低分辨率标签要容易得多。我们的研究结果表明，天真地对这些标签进行上采样会导致缺乏足够细节的低质量输出相反，我们提出了一种方法，该方法使用低分辨率注释进行监督，结合了示例高分辨率标签，并生成细粒度输出。一个新的数据集上的实验证明了我们的方法如何显着减少性能差距，高分辨率基线。这种方法有可能在遥感领域具有现实世界的适用性致谢本研究基于国家情报总监办公室（ODNI），情报高级研究项目活动（IARPA）通过2021-2011000005支持的部分工作。本文中包含的观点和结论是作者的观点和结论，不应被解释为必然代表ODNI、IARPA或美国的官方政策（无论是明示还是暗示）。政府的美国政府被授权为政府目的复制和分发重印本，尽管其中有任何版权注释。3717引用[1] 陈婷，西蒙·科恩布里斯，穆罕默德·诺鲁齐，和葛offrey Hinton.视觉表征对比学习的一个简单框架2020年国际机器学习会议[2] Gordon Christie ， Kevin Foster ， Shea Hagstrom ，Gregory D Hager和Myron Z Brown。单视图地心构成在野外。在IEEE计算机视觉和模式识别会议上，2021。[3] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。2016年在IEEE计算机视觉和模式识别会议上发表。[4] Xueqing Deng ， Yi Zhu ， Yuxin Tian ， and ShawnNewsam.遥感图像土地覆盖分类的尺度感知适应。在IEEE计算机视觉应用冬季会议上，2021年。[5] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。[6] WA猎鹰。Pytorch闪电。GitHub.注：https://github.com/PyTorchLightning/pytorch-lightning，2019年3月[7] 冯迪，克里斯蒂安·哈斯-舒茨，拉尔斯·罗森鲍姆，海因茨·赫特莱因，克劳迪亚斯·格莱泽，法比安·蒂姆，维尔纳·怀斯-贝克和克劳斯·迪特梅耶。用于自动驾驶的深度多模态对象检测和语义分割：数据集、方法和挑战。IEEE Transactions on Intelligent Transportation Systems，22（3）：1341[8] Nicolas Girard，Dmitriy Smirnov，Justin Solomon，andYuliya Tarabalka.基于框架场学习的多边形建筑物提取。在IEEE计算机视觉和模式识别会议上，2021。[9] Armin Hadzic ， Hunter Blanton ， Weilian Song ， MeiChen，Scott Workman和Nathan Jacobs。Rasternet：使用激光雷达和高空图像模拟自由流速度。在IEEE计算机视觉和模式识别研讨会上，2020年。[10] Kaiming He，Xinlei Chen，Saining Xie，Yanghao Li，Piotr Doll a'r，andRossGirshick. Masked自动编码器是可扩展的视觉学习器。IEEE计算机视觉与模式识别会议，2022年。[11] Yuansheng Hua ， Diego Marcos ， Lichao Mou ， XiaoXiang Zhu，and Devis Tuia.具有稀疏标注的遥感图像语义分割 IEEE Geoscience and Remote Sensing Letters ，19：1[12] Nathan Jacobs，Adam Kraft，Muhammad Usman Rafique和Ranti Dev Sharma。弱监督方法用于从高分辨率卫星图像估计空间密度函数。ACM SIGSPATIAL国际会议在地理信息系统的进展，2018年。[13] Alex Kendall、Hayk Martirosyan、Saumitro Dasgupta、Peter Henry、Ryan Kennedy、Abraham Bachrach和AdamBry。深度立体回归的几何和上下文的端到端学习IEEEInternational Conference on Computer Vision ，2017。[14] 迪德里克·金马和吉米·巴。Adam：随机最佳化的方法。在学习代表国际会议，2014。[15] Junnan Li，Pan Zhou，Caiming Xiong，and Steven Hoi.无监督表示的亲典型对比学习。在2020年的学习代表国际会议[16] Liulei Li，Tianfei Zhou，Wenguan Wang，Jianwu Li，and Yi Yang.深度层次语义分割。IEEE计算机视觉与模式识别会议，2022年。[17] Jae Hyun Lim 和 Jong Chul Ye 。几何杆 arXiv 预印本arXiv：1705.02894，2017。[18] 卢明，方乐源，张毅。基于点的弱监督深度学习从高分辨率遥感图像中提取水。在CIKM研讨会，2021年。[19] Jisan Mahmud，True Price，Akash Bapat和Jan-MichaelFrahm。基于单幅俯视图的边界感知建筑物三维重建。在IEEE计算机视觉和模式识别会议上，2020。[20] Nikolay Malkin，Anthony Ortiz，and Nebojsa Jojic.挖掘自相似性：标签超分辨率与epitomic representations。2020年欧洲计算机视觉会议。[21] Gel le'rtM a' ttyus，WenjieLuo，andRaquelUrtasun. 深度道路测绘：从航空影像中提取道路拓扑IEEEInternationalConference on Computer Vision，2017。[22] Shervin Minaee，Yuri Y Boykov，Fatih Porikli，AntonioJ Plaza，Nasser Kehtarnavaz，and Demetri Terzopoulos.使用深度学习进行图像分割：一个调查。 IEEETransactionsonPatternAnalysisandMachineIntelligence，2021。[23] Ryan Mukherjee ， Derek Rollend ， Gordon Christie ，Armin Hadzic，Sally Matson，Anshu Saksena和MarisaHughes。间接自上而下的道路运输排放估算。在IEEE计算机视觉和模式识别研讨会上，2021年。[24] Gerhard Neuhold，Tobias Ollmann，Samuel Rota Bulo，and Peter Kontschieder.街景语义理解的mapillary vistas数据集在2017年IEEE计算机视觉国际会议[25] Adam Paszke ， Sam Gross ， Francisco Massa ， AdamLerer ， James Bradbury ， Gregory Chanan ， TrevorKilleen ， Zeming Lin ， Natalia Gimelshein ， LucaAntiga，et al. Pytorch：命令式的高性能深度学习库。在神经信息处理系统的进展，2019。[26] 安德鲁·皮兰特，基思·恩德雷斯，丹尼尔·罗森鲍姆和吉莉安·冈德森。美国环保署环境地图集米级城市土地覆盖：1米像素土地覆盖等级定义和指南。遥感，12（12）：1909，2020.[27] 环岛出版物。州际休息区。https://www.interstaterestareas.com/map-of-rest-areas.3718[28] 卡莱布·罗宾逊、勒·侯、科里亚·马尔金、雷切尔·苏比特斯基、雅各布·恰乌利特科、比斯特拉·迪尔基纳和内博伊沙·约伊奇。利用多分辨率数据进行大比例尺高分辨率土地覆盖制图。在IEEE计算机视觉和模式识别会议，2019。[29] Caleb Robinson ， Kolya Malkin ， Lucas Hu ， BistraDilkina，and Nebojsa Jojic. 2020年ieee grss数据融合竞赛中的弱监督语义分割。在IEEE国际地球科学与遥感研讨会，2020年。[30] Olaf Ronneberger，Philipp Fischer，and Thomas Brox.U-网：用于生物医学图像分割的卷积网络2015年医学图像计算和计算机辅助干预国际会议[31] LinusScheibenreif ， Jo eülleHanna ， MichaelMommert ，andDamian Borth.用于土地覆盖分割和分类的自监督视觉变换器。IEEE计算机视觉与模式识别会议，2022年。[32] Mennatullah Siam 、 Mostafa Gamal 、 Moemen Abdel-Razek 、 Senthil Yogamani 、 Martin Jagersand 和 HongZhang。自动驾驶实时语义分割的比较研究。在IEEE计算机视觉和模式识别研讨会上，2018年。[33] 宋伟廉、斯科特·沃克曼、阿明·哈季奇、张旭、埃里克·格林、陈梅、雷金纳德·苏雷雷特和内森·贾-科布斯。Farsa：全自动道路安全评估。在2018年IEEE计算机视觉应用冬季会议上[34] 德米特里·乌里扬诺夫，安德烈·维达尔迪，维克多·伦皮茨基。深度图像先验。在IEEE计算机视觉和模式识别会议上，2018。[35] 艾娃·瓦利萨拉·科迈和马特奥·马特奥奇基于高光谱和多光谱地球观测数据的土地利用和土地覆盖分类深度学习：审查. 遥感，12（15）：2495，2020.[36] 王雪丽、陈威廉、谢尚、乔治·阿兹扎里和大卫·B·罗贝尔。用于遥感图像分割的弱监督深度学习。远程传感，12（2）：207，2020.[37] 斯科特·沃克曼和亨特·布兰顿用地理空间背景增强深度在IEEE计算机视觉国际会议上，2021年。[38] 斯科特·沃克曼和内森·雅各布斯动态交通模型从开销图像。在IEEE计算机视觉和模式识别会议上，2020。[39] 斯科特沃克曼，M乌斯曼拉菲克，亨特布兰顿，康纳格林威尔，和内森雅各布斯。基于多图像融合的单图像云IEEE国际地球科学与遥感研讨会，2020年。[40] Scott Workman，M.乌斯曼·拉菲克亨特·布兰顿内森·雅各布斯重新审视近/遥感与地球空间的关注。IEEE计算机视觉与模式识别会议，2022年。[41] 作者：张晓波，张晓波.克兰德尔和内森·雅各布斯近距离和远

下载后可阅读完整内容，剩余1页未读，立即下载