没有合适的资源?快使用搜索试试~ 我知道了~
1809基于稀疏和完全潜在组织的地理空间语义分割Fengyu YangChen Yang MaCheng密歇根大学{fredyang, dannymcy}@ umich.edu摘要遥感图像的地理空间语义分割存在类内差异大的问题。首先,前景对象在遥感图像中是微小的,并且仅由几个像素表示,这导致大的前景类内方差并且破坏前景类之间的区分(在本工作中首先考虑的问题)。第二,背景类包含复杂的上下文,这会导致由于大的背景类内方差的虚警。为了缓解这两个问题,我们通过原型构建了一个稀疏而完整的潜在结构。为了提高潜在空间的稀疏性,我们设计了一种原型对比学习,使同一类别的原型聚集在一起,不同类别的原型远离对方。此外,我们通过对所有前景类别和最硬(最近)背景对象进行建模来加强潜在空间的完整性。在此基础上,设计了一种适用于复杂背景遥感图像的斑块平移增强算法。我们的增强鼓励对象的语义信息仅与特定于其类别的补丁内的有限上下文相关,这进一步减少了大的类内方差。我们对大规模遥感数据集进行了广泛的评估,显示我们的方法大大优于最先进的方法。1. 介绍遥感图像是从地球表面远距离获取的高分辨率图像,包含着丰富的地理空间信息。 地理空间语义分割的目的是为遥感图像中的每个像元分配一个语义类别。与广泛的应用,如环境评估,基础设施规划,自然资源管理,* 表示贡献相等图像地面实况掩码图1.大类内方差的说明:(1)前景类内方差,右侧的船(右侧黄色边界框)看起来比其他一些船(左侧黄色边界框)更类似于卡车(粉红色边界(2)背景类内方差(虚警)背景中的容器(红色边界框)看起来与卡车(粉红色边界框)相似,卡车是前景对象。[24,25],地理空间语义分割引起了遥感界的密切关注。与一般的语义分割数据集相比,远程感知图像具有其自身的大类内方差的挑战性问题[2,28,58]。由于遥感图像是在远离地面的地方拍摄的,因此在高分辨率图像中前景物体非常微小,并且仅由几个像素表示。缺乏足够的信息来表示前景对象会导致很大的变化,神经网络很容易对不同的前景类别进行错误分类。同时,背景类往往包含丰富的信息,复杂度高,由于背景类内方差较大,导致严重的虚警[58],如图1所示。目前通用的语义分割方法主要关注尺度变化[5,46,56],而忽略了上述问题。地理空间语义分割方面的最新工作[58] 利用地理空间1810(a) 具有结构偏差的不完全隐空间组织(b) 完整的潜在空间组织分割方法专注于图像级变换[10,41,52,54],它为像素级样本提供了不足的方差。由于地理空间语义分割是一项具有高度复杂背景信息的上下文相关任务[28,58],因此同一类别的对象与大规模的不同上下文相关(例如,城市场景中的汽车背景与乡村场景中的汽车背景相比变化很大)。通过进行补丁shuffle增强,我们鼓励像素上的语义信息仅与对象本身及其有限的相关性。背景对象锚钉原型特定于其类别的斑块内的环境全球负面原型{}局部负原型无约束潜空间(例如,汽车几乎总是在路上),从而减少类内方差。图2.左:不完整的潜在空间组织与结构的偏见,只利用图像内的信息。锚点将被推到其他不受约束的前景对象和背景对象。右:利用全球信息的完整潜在空间锚原型实现了潜空间的整体优化。场景和地理空间对象,以增强前景特征的区分度,并抑制由于大的背景方差而导致的虚警。然而,它们未能解决前景类别内的类内方差。在本文中,我们提出了一个S解析和C完全潜在组织(SCO),以解决大类内方差的问题,前景和背景类通过原型,一个类别的图像内的像素的平均值。为了增强稀疏性,我们设计了一个原型对比学习,使同一类别的原型聚集在一起,同时迫使不同类别的原型彼此远离。具体来说,给定一个特定类别的锚原型,我们将从数据增强中提取的相应类别的原型视为正样本,而将来自原始图像的其他原型视为负样本。然而,这导致了一种潜在的空间结构偏向,其中只有部分类别的原型受到约束,因为单个图像极不可能包含所有类别。由于潜在空间的大小有限(特征图的通道受到限制),锚原型将被推送到无约束潜在空间中的其他类别,这可能破坏与那些前期类别的区分并恶化虚警问题,如图2(a)所示。为了避免这个问题,我们通过使用前景和背景原型存储库对所有前景类别和最硬(最近)背景对象进行建模来加强潜在空间的完整性,如图2(b)所示。除了构造潜在空间,我们设计了一种新的数据增强方法,补丁shuffle增强,- tion,以产生积极的样本。现有数据总的来说,这项工作的主要贡献是总结-主要体现在以下三个方面:• 我们提出了一个稀疏和完整的潜在结构,以减轻大类内方差问题的前景和背景类别的地理空间分割。• 我们设计了一种新的补丁shuffle增强正样本生成,以限制补丁内的上下文信息,这进一步降低了前期类内方差,提高了对象之间的区分度。• 我们通过在大规模遥感数据集上的广泛实验来评估我们的方法,显示我们的方法在很大程度上优于最先进的方法。2. 相关工作语义分割任务的成功与使用全卷积网络(FCN)[32]进行端到端训练的逐像素分类相一致,其包含比卷积神经网络(CNN)更多的空间信息[8,13,15,16]。为了进一步提高性能,各种工作试图通过扩展感受野和提取更宽更深的空间背景来保留更多的空间信息[1,4,36,38],通过设计新颖和更鲁棒的网络来提取多尺度特征[5,7,31,39,56],并引入新的机制,如注意力[14,22,50,51]和条带池[19],以进一步利用空间场。一般的语义分割方法主要强调空间信息的保持和多尺度特征提取,而很少关注遥感图像中普遍存在的问题:大的类内方差和前景-背景不平衡。地理空间语义分割的任务在特定的应用场景中得到了广泛的研究,并采用了一些改进的技术[3,11,21,35,37,45,47,49,53];1811∈×∈∈∈◦∈Σ∈--y. ΣF.nCn(1)+然而,对于遥感图像语义分割中的一些常见问题,目前的研究还很少。Zheng等人[58]如上所述,确定了地理空间语义分割中的两个主要独特挑战,并开发了前景感知关系网络(FarSeg),以通过基于关系和基于优化的前景建模来解决前景-背景相关问题。Li等人[28]进一步指出了虚警和前景-背景不平衡的问题。我们的论文重点关注背景(在[58]中识别)和前景对象的大类内方差问题,这是我们论文中首次指出的。对比学习对比学习的目的是通过对比相似(阳性)数据样本和不相似(阴性)样本来学习表示,通常是在无监督的情况下。不同的对比学习方法开发了不同的策略来生成实例特征。内存库被引入来存储实例类表示向量[44],并被广泛用于各种任务[6,17,33]。其他人探索了批量负采样的方法[12,23,26,48]作为存储库的替代方案。这些方法将每个图像视为一个实例,其中它们使用增强图像来形成正样本,并将随机选择的图像作为负样本。最近,像素到像素水平的对比学习,第3.4节。3.1. 意象内原型对比学习给定训练集中的一组对(x,y),我们将x表示为输入图像,将y表示为相应的地面真实分割掩码,其中xR H×W×3和yRH×W。语义分割的目的是将输入图像中的每个像素分类为语义类cC,其中C是数据集中出现的所有类别的集合。现代语义分割模型通常由编码器-解码器网络E和卷积分割头G组成,以输出分割分数图S = EG(x)R H×W×|C|. 我们将特征图F = E(x)表示为具有与真实分割掩码y相同的空间维度HW。对于每个图像,我们从其特征图F中提取原型,由地面真值分割掩码y引导。为类c Cx,其中Cx是出现在图像x上的前景类别的集合,类的原型C是通过取对应于地面实况语义掩码Y中的类别C的所有像素的平均值来计算的。形式上,范畴c的原型p c可以写成:W、H通过引入基于标签的对比度损失,以完全监督的方式提出了Mantic分割[20,42p=1F|w,h|w,hw,hyw,h =c)它强制执行与同一语义相关的像素嵌入tic类比不同的嵌入更相似其中,Fw,h表示特征图F中的(w,h)的空间位置处的特征向量,并且y=c表示在潜在的空间里。Zhao等人。[57]还提出了基于标签和像素级对比度损失的三种变体以及交叉熵和对比度的两阶段训练过程c中空间位置(w,h)处的像素,以及|·−·|就是基数。w,hyn对应于类传输损耗这些作品只关注前景类别之间的区别;然而,与一般的语义分割任务不同,地理空间语义分割面临着严重的虚警问题,这是由于背景变化大。在我们的工作中,我们首先在对比学习文献中对前景和背景之间的关系进行建模。3. 方法在本节中,我们将详细描述我们的方法,如图3所示。我们首先讨论利用3.1节中的图像内信息的局部原型对比损失;我们局部原型对比丢失原型对比学习的核心思想是使同一类别的原型聚集在一起,同时迫使不同类别的原型远离其他原型。对于锚原型Pc,我们将来自数据增强的c类原型作为我们的正样本,将来自原始图像的其他原型作为我们的负样本。给定训练集中的一组对(x,y),我们对图像x执行数据增强以生成N个增强对 (x1,y1),(x2,y2)...,(xn,yn)使得计算了类c-Cx的第n个增广原型签署人:W、H然后讨论了利用全局信息的全局排斥力和前景-背景排斥损失C=.n.1Nh,w=c)。w,hyw,h =c)在数据集内进行调整,以避免潜在的空间结构偏差(如图2所示),并减轻第节3.2和第3.3节;最后,我们讨论了补丁shuffle数据增强,这是一种新提出的数据增强,用于地理空间语义分割中的对比学习。w,h其中Fn= E(xn)是x n的特征映射。为了鼓励模型对多个变换保持不变,我们提出了一个吸引力损失,使增强的原型尽可能接近对应的(p(1812我2ǁ· −· ǁMRepL=λ· L+λ ·L|Cx|¨-p¨CiCJ=Σ排斥损失L全局可以定义为:Σ=ΣRep1科隆k-均值聚类图3.概述我们的方法。潜在空间组织显示在粉红色框中,我们希望锚原型(白色圆圈中)远离所有负样本(红色圆圈中),并接近正样本(绿色圆圈中)。M前和M后表示存储全局原型和背景原型的前景和背景存储体。锚原型,从而减少遥感图像中的大前景类内方差,其定义为:n3.2. 全局斥力损失如图2所示,仅用图像内信息构建的潜在空间将导致潜在空间结构偏差。在这种情况下,锚原型将被推送1L属性=(Pc-pc+ )(3)到其他全局前景类别(存在于|Cx|c∈Cxi=1其中,pc是类c的锚原型,并表示欧几里德距离。同时,我们将锚原型与否定原型(同一幅图像中不同背景类别的原型)分开,以加强区分。为此,我们提出了图像中的局部排斥力,定义为:数据集,而不出现在图像中),这使得无法区分其他全局前景类。为了缓解这个问题,并增加我们的潜在代表的丰富性,我们保持了一个前景原型类型的内存库。 我们选择最近的邻居-BOR算法提取全局前景类别的原型,并将它们填充到潜在空间中,作为除了图像内负样本之外的补充负样本然后,类似于局部排斥力,我们施加一个本地11吕ci∈Cxcj∈CxCiCJ(四)将锚原型与额外的阴性样本 从形式上讲,全球所以图像内局部原型对比度损失当地Global1LΣ1Lpcl可以表示为:本地本地本地属性属性(五)Rep|Cx|ci∈Cxcj∈Ccj∈/CxPci-NN(Pci,cj,M前)2PCLRepRep(六)其中λ是平衡吸引力和局部排斥力之间的损失权重的超参数。其中Pc是是类c i的锚原型,并且NN(pci,cj, M)是最近邻算子,用于在存储体M中找到类c j的最接近的原型,y伊什切地面实况遮罩2 1共享权重4 3原型提取⋮补丁洗牌增强3 1K回K前4 21Pc+PCPc+…年q1FQ2Pc+n?年q3q……………QC…阴性样本阳性样本拉克雷普21813¨M··||MM∈·∈BΣΣμk原型pci,定义如下:NN(pci,cj, )=argminpcipcj∈M-pcj第二章(七)池化属于聚类k的所有像素的嵌入。为了减少地理空间语义分割中的虚警问题,前台原型内存库前台存储体由独立的队列q组成,减轻图2所示的潜在空间结构偏差,我们提出了一个前景-背景排斥损失Lfb每个前景类别的原型。 的大小将锚原型与Repk最近的后面-前台内存库为m fD其中m f是每个队列的长度的超参数,d是每个原型的维度(即,特征的通道从哪里提取原型的地图),以及|C|是将后台内存库中的原型接地,其定义为:1k1fb=零数据集中所有前景类别的数量存储体首先被随机初始化, 我们采用先进先出(FIFO)方法更新这些Rep|Cx|c∈Cxn=1CIPc-kNN(Pc,n,M回来 )2(九)在每个训练步骤结束时排队,并删除最旧的原型。3.3. 背景原型背景类是语义分割和其他像素级任务中的一个独特类别。它包含不属于任何前景类别的像素。目前的语义分割对比学习方法只对前景类中像素之间的关系进行建模,而忽略了背景像素。然而,在地理空间语义分割,具有更复杂的上下文比一般的语义分割,背景类遭受大的类内变化。由于潜在空间的大小有限,无法对锚原型和背景类之间的关系进行建模将加剧虚警问题(锚原型可能被推得更靠近背景对象)。为此,我们建议采取k-最近的背景原型作为我们的负样本,同时构造潜在空间。背景原型提取为了提取背景原型,我们在背景区域上采用平均池化.然而,背景类别包含比前景类别更多样化的信息,因此简单地将平均池作为原型是对背景信息的无效且不准确的表示。因此,我们利用k-均值聚类来获得更好的背景表示。目标函数可以表示如下:W、H、kmin <$Fw,h<$Mw,h=0)−μn<$2(8)w,hn=1其中Pc是类c Cx的锚原型,kNN(p c,n,)是k-最近邻算子,其在存储体M中找到与原型p c最接近的第k个原型。背景原型存储库背景原型存储库由使用k-均值聚类算法提取的背景原型P b组成,如上所述.背景存储器组的大小是mb d,其中mb是表示存储在该存储器组中的背景原型的数量的超参数,并且d是每个原型的维度。它在训练开始时随机初始化。我们首先采用FIFO进行更新,直到所有随机初始化的背景原型被删除。之后,我们通过在每个epoch之后替换最早使用的(最不活跃的)后台原型来更新后台内存库。3.4. 贴片Shuf e增强数据扩充是对比学习中的一项关键技术。通过进行数据增强,我们希望我们的模型可以学习更好的特征,这些特征对单个样本的多个数据变换是鲁棒的和不变的。通用数据增强侧重于图像变换,以生成用于对比学习的图像级样本,例如旋转、裁剪、混合和颜色变换[10,41]。然而,语义分割被认为是像素级的密集预测任务,我们将像素视为样本。在这种情况下,传统的数据扩充方法不能提供足够的方差,从这些数据扩充中提取正样本被认为是相对容易的。为了解决这个问题,我们为语义分割中的对比学习设计一个补丁shuffle增强,其中μ表示聚类的中心。 MR H×W是一个二元前景蒙版,其中M w,h= 0表示来自背景类的像素。第k个背景原型Pk等于μk,μ k是在目前的文献中研究。具体来说,我们首先将图像分割成固定大小的补丁,然后随机重新排列这些补丁以形成增强图像。值得注意的是,不同的增强图像包含不同的¨L1814××表1.在MeanIoU方面与iSAID数据集上最先进的结果进行比较,最好用粗体显示。这些类别被定义为:船(Ship),储罐(ST),棒球场(BC),地面跑道(GTF),桥梁(Bridge),大型车辆(LV),小型车辆(SV),直升机(HC),游泳池(SP),环形交叉路口(RA),足球场(SBF),飞机(Plane),港口(Harbor)。除此之外,所有的结果都来自[28]。方法骨干mIoU(%)运输STBDTCBCGTFBridgeLVSVHCSPRASBF平面 港DenseASPP [46]ResNet-5057.355.763.567.281.7五十四点八 52.6 34.7 55.636.333.437.5五十三点四 73.3 74.7 46.7RefineNet [31]ResNet-5060.263.858.672.385.361.1 52.8 32.6 58.242.423.043.465.6 74.4 79.9 51.1PSPNet [56]ResNet-5060.365.252.175.785.661.1 60.2 32.5 58.0 3.0 10.946.8六十八点六 71.9 79.5 54.3OCNet-(ASP-OC)[51]ResNet-5040.247.340.244.465.0二十四点一 29.9 2.71 46.313.610.334.6三十七点九 41.4 68.1 38.0EMANet [30]ResNet-5055.463.168.466.282.756.0 18.8 42.1 58.241.033.438.9四十六点九 46.4 78.5 47.5CCNet [22]ResNet-5058.361.465.768.982.957.1 56.8 34.0 57.638.331.636.557.2 75.0 75.8 45.9[55]第五十五话ResNet-5058.959.764.970.084.2五十五点二 46.3 36.8 57.238.734.842.4五十九点八 69.8 76.1 48.0[27]第二十七话ResNet-5062.168.962.072.185.454.1 48.9 44.948.637.442.8七十二 58.6 84.7 54.9UPerNet [27]ResNet-5063.868.771.073.185.555.3 57.3 43.0 61.345.630.345.7六十八点七 75.1 84.3 56.2[第29话]ResNet-5064.368.871.372.185.6五十八点八 60.9 43.1 62.947.730.447.8六十九点八 75.1 83.1 57.3GSCNN [40]ResNet-5063.465.971.272.685.556.1 58.4 40.7 63.851.133.848.8五十八点五 72.5 83.6 54.4RANet [34]ResNet-5062.167.161.372.585.1五十三点二 47.1 45.3 60.149.338.141.8七十点五 58.8 83.1 55.6法赛格[58]ResNet-5063.765.461.877.786.462.1 56.7 36.7 60.646.335.851.271.4 72.5 82.0 53.9[第28话]ResNet-5066.970.374.777.887.762.259.545.264.650.237.950.1七十一点七 75.4 85.0 59.3高级文书主任(本署)ResNet-5069.174.775.078.589.066.363.646.363.046.941.156.5七十三点三 84.0 85.3 64.3没有重复的不同的片排列,使得增强图像彼此不同并且与原始图像不同。同时,我们将相应的地面真值标签拆分为补丁,并将它们重新排列为相同的模式来匹配相应的增强图像。与图像级数据增强相比,补丁shuffle增强利用了地理空间语义分割的固有属性:1)语义分割是上下文相关的任务,其中关于像素的语义信息与其周围上下文强烈相关。2)背景在遥感图像中复杂得多,其中相同的前景对象在大尺度上具有非常不同的上下文,从而增强了前景类内方差。通过进行补丁切换增强,我们将前景对象的相关性限制在特定于其类别的补丁内的有限信息,以进一步减少前景对象内的大类内方差并增强区分度。4. 实验在本节中,我们进行了大量的实验,以验证我们的方法在iSAID [43](一个大规模遥感数据集)上的有效性。我们首先在4.1节中描述我们的实验设置和实现细节。然后,我们将实验结果与第4.2节中现有的最先进方法进行了比较。最后,我们在第4.3节中展示了我们的方法的消融研究结果。4.1. 实验设置和实施细节数据集我们评估我们的方法在一个常用的大规模遥感数据集iSAID。iSAID由多个卫星获取的2,806个遥感图像表2.iSAID阀组模块有效性的消融研究从基线开始,逐步添加建议的模块进行模块分析。LceLattrLlocalLglobalLfb重复重复重复MiouC63.7C C65.1C C64.8C c C65.4C C C67.8C C C67.4C C C69.1表3.对我们入路的不同增强方法进行消融研究数据增强方法Miou切口67.8Mixup68.1Manifold Mixup68.3CutMix68.5贴片Shuf e增强69.1Lites和传感器的原始图像大小从800 800像素到400013000像素。 作为遥感影像地理空间语义分割的最大数据集之一,iSAID包含2,806张高分辨率影像中15个类别的655,451个对象实例,这些图像经过密集注释。对于预定义的训练集、验证集和测试集,iSAID数据集分别有1411、458和937张图像。1815最大步数×−LRepRepLLRepLRepRepRepRepLL图4.对补丁shuffle数据增强中数据增强的数量和补丁大小进行了评估指标我们使用平均交集对并集(mIoU)百分比报告性能,它计算包括背景类在内的所有类的交集对并集(IoU)的平均值。我们采用mIoU作为我们的主要指标,除非特别指定,这是一种常见的做法。我们将我们的模型与遥感语义分割中最新的最先进的方法进行了基准测试:[28]第58话:此外,我们将我们的方法与遥感数据集上的一般语义分割方法进行比较。实现细节我们的方法是用PyTorch实现的。我们遵循最先进的方法FarSeg [58]的实施,并将其作为我们的基线。在FarSeg的相同设置下,我们采用在ImageNet [9]上预训练的ResNet-50[18我们使用(一)步进功率)。 模特们都是用6万迭代使用上述“聚”学习率策略,我们将基本学习率设置为0.007,幂设置为0.9。我们使用SGD训练网络,权重衰减为0.0001,动量为0.9。前台存储器组的长度,mf,被设置为10,后台存储器组的长度,mb,被设置为256。为了平衡潜在空间中的前地原型和背景原型的数量,我们取了30个背景原型。补丁shuffle增强(正样本)的数量设置为15。此外,我们将补丁大小设置为6464在补丁shuf e augmen-位置。我们在2个NVIDIA 2080 Ti GPU上训练模型,所有数据集和模型。我们将批处理大小设置为4,总共有8个图像分配在两个GPU上。我们采用同步批量归一化进行多GPU训练。我们还使用apex来加速训练和混合精度的opt水平O1。我们把图像裁剪成896×896,使用跨越512像素的滑动窗口。https://github.com/Z-Zheng/FarSeg图5.贴片大小=16×16(左),贴片大小=64×64(右)4.2. 与最新技术水平的表1显示了每个类别的总体mIoU和IoU的定量结果。结果表明,我们的方法优于其最接近的竞争者PFSegNet[28],从66.9%增加到69.1%。特别是,我们的方法在船舶、棒球场、地面跑道、游泳池、足球场和港口等类别中显示出显著的改善。在这些类别中,棒球场-地面场轨道,棒球场-地面场轨道,船港是视觉上相似的配对,并且经常出现在一起,容易被错误分类。我们可以用数值方法证明,我们的方法成功地提高了这些类别之间的区别。4.3. 消融研究在本节中,我们从几个不同的方面进行了消融研究,以分析我们提出的模块和我们方法中的一些重要超参数设置。局部(图像内)对比度损失的影响我们在表2中评估了局部(图像内)对比度损失的有效性,表2由Lattr和Llocal组成。从该表中,我们可以看到,与仅具有逐像素交叉熵损失(ce)的基线相比,分别添加attr和local导致性 能 提 高 1.4% 和 1.1% 综 合 以 上 损 失 后 , 业 绩 达 到65.4%,比基线和0.3%和0.6%,高于增加两个损失分开全局排斥损失的影响为了证明我们的全局排斥损失(全局)的有效性,我们评估了局部(图像内)对比损失与全局排斥损失(L全局)的性能。 从表2中,我们可以我看到有Lglobal的性能超过了没有L global的性能。global.特别是,通过将全局对比度损失添加到局部(图像内)对比度损失,我们获得了相对于mIoU的2.4%的显著增加(从65.4%到67.8%)。前景-背景排斥效应 损失我们用前景-背景排斥力1816RepRepL×图6.iSAID验证数据集的可视化结果(Lfb)和表2总结了iSAID验证集的实验结果。添加fb 的 mIoU 比 没 有 它 的 mIoU 高 2.0% ( 从 65.4% 到67.4%),这表明考虑背景信息可以显着提高性能。在表3中,我们比较了补丁shuf-sh[54]和剪切混合[52]基于我们的方法。与以前的工作相比,我们的补丁shufshue增强显着超过其最接近的竞争者CutMix,从68.5%增加到69.1%,显示了我们的方法在遥感图像下的有效性。图4(a)中,我们评估了数据扩充的最佳数量。我们观察到最佳数目是15,这大约是负前景原型的总和。在生成更多增强图像后,性能会下降。其原因在于,在潜在空间中,原型的运动将受到更强的牵引力的引导,从而破坏整体结构。我们在图4中进一步评估了补片移位增强中补片的最佳尺寸。(b).我们的想法是让补丁用局部上下文覆盖对象本身(图5右),但不要太小,以免将对象切割成无法识别的碎片(图5左)。我们发现最佳的补丁大小是64 64。当贴片尺寸太小时(例如,14x14,16x16),前景对象被分割成分数。 因此,模型只学习了少量的前景对象,但噪声(考虑补丁大小为1x1的极端情况),这会损害性能。另一方面,如果补丁是在更大的规模上生成的,我们没有为对比学习添加足够的方差。可视化图6展示了我们的模型与几种现有的最先进方法的可视化,包括PFNet [28],FarSeg [58]和iSAID验证数据集上的基线语义分割语义FPN [27]。总体而言,我们的方法具有更好的分割结果,可以处理容易分类错误的对象和复杂的上下文。5. 结论在本文中,我们提出了一个稀疏和完整的潜在组织的地理空间语义分割在遥感图像,以解决大类内方差问题的前景和背景类别联合。我们进一步设计了一种新的数据增强方法,用于地理空间语义分割,进一步减少类内方差,提高对象之间的歧视。最后,我们在一个大规模的遥感数据集上进行了广泛的评估,以证明我们的模型的有效性。致谢我们要感谢教授。David Fouhey的宝贵建议和富有洞察力的讨论。1817引用[1] Vijay Badrinarayanan Alex Kendall 和 Roberto CipollaSegnet:用于图像分割的深度卷积编码器-解码器IEEETransactionsonPatternAnal-ysisandMachineIntelligence,39(12):24812[2] 白浩浩、白廷珠、李炜、刘寻。建筑物基于改进空间金字塔的遥感图像分割网络应用科学,11:5069,2021。1[3]阿列克谢·博霍夫金和叶夫根尼·V。伯纳耶夫边界损耗用于 遥感图 像语 义分割 。ArXiv,abs/1905.07852 ,2019。2[4] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy和Alan L.尤尔。使用深度卷积网络和全连接crfs进行语义图像分割2[5] Liang-ChiehChen , GeorgePapandreou , IasonasKokkinos,Kevin Murphy和Alan L.尤尔。Deeplab:使用深度卷积网络,atrous卷积和全连接crfs进行语义图像分割一、二[6] Ting Chen,Simon Kornblith,Mohammad Norouzi,and Ge-奥弗里·辛顿。视觉表征对比学习的简单框架3[7] Wuyang Chen,Ziyu Jiang,Zhangyang Wang,KexinCui,还有钱小宁。协作的全球-本地网络,用于超高分辨率图像的内存有效分割。在IEEE计算机视觉和模式识别集,2019。2[8] DanCirean,AlessandroGiusti,LucaMariaGambardella,还有施密特胡贝尔深度神经网络在电子显微镜图像中分 割 神 经 元 膜 。 Proceedings of Neural InformationProcessing Systems,25,01 2012。2[9] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,还有李飞飞Imagenet:一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议,第248-255页Ieee,2009年。7[10] Terrance DeVries和Graham W Taylor。改进的常规-使用剪切的卷积神经网络的化arXiv预印本arXiv:1708.04552,2017。二、五、八[11] 马特·迪肯森和莱昂内尔·盖冈。旋转矩形,符号化建筑物覆盖区提取。2018年IEEE/CVF计算机视觉和模式识别研讨会(CVPRW),第215-2153页2[12] Carl Doersch和Andrew Zisserman。多任务自监督视觉学习,2017年。3[13] Clement Farabet,Camille Couprie,Laurent Najman,and Yann LeCun. 学 习 场 景 标 记 的 层 次 特 征 。 IEEETransactionsonPatternAnalysisandMachineIntelligence,35(8):1915-1929,2013。2[14] 傅军,刘静,田海杰,李勇,鲍勇军,志伟方和卢汉青。场景分割的双注意力网络,2019年。2[15] Saurabh Gupta、Ross Girshick、Pablo Arbela' ez和Jitendra马利克从rgb-d图像中学习丰富的特征用于对象检测和分割,2014年。2[16] BharathHariharan,PabloArbela' ez,RossGirshick和Ji-坦德拉·马利克同步检测和分割,2014年。2[17] Kaiming He,Haoqi Fan,Yuxin Wu,Saining Xie,and Ross娘娘腔。 无监督视觉再现1818学习,2020。3[18] Kaiming He,Xiangyu Zhang,Shaoying Ren,andJian Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议(CVPR)上,2016年。7[19] 侯启斌、张立、程明明、冯嘉世。Strip pooling : Rethinking spatial pooling for sceneparsing,2020。2[20] 胡汉哲,崔进士,王立伟区域感知控制用于语义分割的传统学习在IEEE/CVF国际计算机视觉会议(ICCV)会议录中,第16291-16301页3[21] 黄伯、北赵、宋依梦。 城市土地利用使用深度卷积神经网络与高空间分辨率多光谱遥感图像进行映射。环境遥感,214:732[22] 黄子龙,王兴刚,魏云超,黄立超,石汉飞,刘文宇,和托马斯·S. 煌Ccnet:Criss-cross attention forsemantic segmentation,2020。二、六[23] XuJi,J oaoF. 恩里克斯和安德里亚·韦达尔迪。 因时而异用于无监督图像分类和分割的信息聚类3[24] Michael Kampffmeyer、Arnt-Børre Salberg和Robert詹森基于深度卷积神经网络的城市遥感图像小目标语义分割和不确定性建模。在2016年IEEE计算机视觉和模式识别研讨会(CVPRW)上,第680-688页,2016年。1[25] Ronald Kemker,C. Salvaggio和Christopher Kanan。Al-使用深度学习进行多光谱遥感图像的语义分割IsprsJournal of Pho- togrammetry and Remote Sensing,145:60-77,2018。1[26] Prannay Khosla,Piotr Teterwak,Chen Wang,AaronSarna,Yonglong Tian,Phillip Isola,Aaron Maschinot,CeLiu,and Dilip Krishnan.监督对比学习,2021年。3[27] Alexander Kirillov、Ross Girshick、Kaiming He和Piotr美元.全景功能金字塔网络。在IEEE/CVF计算机视觉和模式识别会议(CVPR)上,2019年6月。六、八[28] 李祥泰,何浩,李霞,李朵,程广良,Jianping Shi , Lubin Weng , Yunhai Tong , andZhouchen Lin.点流:通过点流语义进行航空图像分割。在IEEE/CVF计算机视觉和模式识别集,第4217-4226页一二三六七八[29] Xiangtai Li , Ansheng You , Zhen Zhu , HoulongZhao,MaokeYang ,Kuiyuan Yang , Shaohua Tan ,and YunhaiTong. Se-manticslogow 用于快速准确的场景解析.An- drea Vedaldi 、Horst Bischof 、Thomas Brox 和Jan-Michael Frahm编辑,计算机视觉施普林格国际出版社. 6[30] 李霞,钟智生,吴建龙,杨一波,周晨林和刘红。期望最大化注意力网络用于语义分割。在IEEE/CVF计算机视觉国际会议(ICCV)的会议记录中,2019年10月。6[31] 林国胜 安东·米兰 沈春华, 和伊恩里德 Refinenet:用于高性能的1819分辨率语义分割2017年IEEE计算机视觉和模式识别会议(CVPR),第5168-5177页二、六[32] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔充分用于语义分割的卷积网络在2015年IEEE计算机视觉和模式识别会议,第3431-3440页2[33] Ishan Misra和Laurens van der Maaten。自监督学习的预文本不变表示,2019年。3[34] 李超牟,袁生华,朱晓翔。一种用于空中场景语义分割的关系增强全卷积网络在IEEE/CVF计算机视觉和模式识别会议(CVPR)上,2019年6月。6[35] 牟立超和朱小象。车辆实例段-使用多任务学习残差全卷积网络从航空图像和视频中提取数据IEEE Transactions on Geoscience and RemoteSensing,56(11):66992[36] Hyeonwoo Noh Seunghoon Hong和Bohyung Han。用于语义分割的学习去卷积网络2[37] 放 大 图 片 作 者 : Doruk Oner , MateuszK ozin' ski ,Leonardo Citraro,Nathan C.Dadap,Alexandra G. Konings和Pascal Fua。2020年通过加强区域分离促进网络状结构的连通性2[38] Franz Rottensteiner , Gunho Sohn , Jaewook Jung ,Markus盖尔克,卡罗琳·贝拉德,塞巴斯蒂安·贝尼泰兹,和U·布雷特科普夫。城市物体分类和三维建筑重建的ISO9001 标 准 。 ISPRS Annals of Photogrammetry ,Remote Sensing and Spatial Information Sciences,I- 3,07 2012. 2[39] 孙克,赵阳,蒋博瑞,程天恒,肖斌,Dong Liu , Yadong Mu
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功