基于前景感知的高分辨率遥感影像中的关系网络

158 浏览量更新于2023-10-25 收藏 2.08MB PDF 举报

关系网络

高分辨率遥感影像

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

4096基于前景感知的关系网络的高分辨率遥感影像Zhuo Zheng Yanfei ZhongZhengJunjue Wang Ailong Ma武汉大学，武汉，中国{zhengzhuo，zhongyanfei，kingdrone，maailong007}@ whu.edu.cn摘要地理空间目标分割作为一种特殊的空间分割任务，在高分辨率遥感图像中往往面临着背景尺度变化大、类内方差大、前景-背景不平衡等问题。然而，一般的语义分割方法主要针对自然场景中的尺度在本文中，我们认为问题在于缺乏前景建模，并提出了一个前景感知关系网络（FarSeg）从基于关系和基于优化的前景建模的角度，以缓解上述两个问题。FarSeg从关系的角度出发，通过学习前景-场景关系来关联前景相关的上下文，从而增强前景特征的同时，从优化的角度出发，提出了一种在大规模数据集上的实验结果表明，该方法优于现有的一般语义分割方法，在速度和精度之间取得了较好的平衡。图1. HSR遥感图像目标分割的主要挑战。（1）大尺度变异。（2）前景-背景不平衡。(3)背景的类内方差管理，规划和监测[39，40，25，26]。地理空间目标分割作为目标提取的重要环节，能够为感兴趣的目标提供语义和位置信息，属于特定的语义分割任务，其目标是将图像像素分为前景目标和背景两个子集1. 介绍高空间分辨率对地观测技术提供了大量的高空间分辨率遥感图像，可以精细地描述各种地理空间目标，如舰船、车辆、飞机等。从高速铁路遥感影像中自动提取感兴趣目标对城市管理有重要意义。*通讯作者。本工作得到了国家重点研究与发展计划项目项目的资助。 2017YFB0504202 ，国家自然科学基金项目批准号：41771385、41801267和中国博士后科学基金项目2017M622522。区同时，还需要为前景对象区域中的每个像素分配唯一的语义标签。与自然场景相比，高速铁路遥感图像中的地理空间目标至少有三个原因1) 在HSR遥感图像中，对象总是具有较大尺度的变化[14，42]。这就产生了多尺度问题，给目标的定位和识别带来了困难.2) 背景在HSR遥感图像中要复杂得多[36，13]，这由于较大的类内方差而导致严重的误报。3) 前景比例远小于它在自然-前景背景类似于4097如图1所示，这导致前景-背景不平衡问题。在计算机视觉领域中，自然图像的对象分割任务被直接看作是一个语义分割任务，其性能主要受到多尺度问题的限制。因此，当前最先进的一般语义分割方法集中于尺度感知[7]和多尺度[5，6，8，44]建模。然而，对于高速铁路遥感图像，这些一般的语义分割方法，虚警问题和前景-背景不平衡问题被我们认为这是因为这些方法缺乏对前景的明确建模。这严重限制了高速铁路遥感图像目标分割的进一步提高在本文中，前景感知关系网络（FarSeg）提出了解决上述两个问题，利用明确的前景建模更强大的对象分割HSR遥感图像。我们探讨了明确的前地建模的两个视角：基于关系和基于优化的前景建模，并且我们进一步在FarSeg中提出两个模块：前景-场景关系模块和前景感知优化。前景-场景关系模块学习场景和前景之间的共生关系，以关联前景相关的上下文来增强前景特征，从而减少误报警。前景感知优化通过在背景中抑制大量容易的示例来将模型集中在前景上，以减轻前景-背景不平衡问题。本研究的主要贡献总结如下：1. 提出了一种前景感知关系网络（FarSeg）用于高速铁路遥感图像中的地理空间目标分割。2. 为了继承多尺度上下文建模和学习地理空间场景表示， FarSeg 建立了基于特征金字塔网络（FPN）的前端分支和基于共享骨干网络的场景嵌入分支，即多分支编码器。3. 为了抑制虚警，F-S关系模块利用地理空间场景和地理空间对象之间的共生关系，关联前景相关上下文，增强前景特征的区分度。同时，没有任何贡献的背景被这种共生关系抑制，从而抑制虚警。4. 为了缓解前景-背景不平衡，提出了F-A优化，使网络逐渐集中在困难的例子上，从而降低梯度的权重在背景中的许多简单的例子的贡献，为前景-背景平衡训练。2. 相关工作通用语义分割传统方法首先通过手工特征描述符提取每个像素的特征。这些传统方法的进一步推广主要依赖于手工特征描述符的改进。然而，设计特征描述符是耗时的，并且由于专家的先验知识的限制，手工特征基于深度学习的方法的成功在于通过直接从数据中学习特征表示来解决这个问题[17]。卷积神经网络（CNN）作为深度学习中的结构化特征表示框架，已经通过逐块分类进行语义分割[11，17，19，18，37]。然而，逐块方式限制了空间上下文建模，并带来了对块之间重叠区域的冗余计算为了解决这个问题，提出了全卷积网络（FCN）[33]，它通过网络内上采样层直接从FCN是第一个像素到像素的语义分割方法，并且是端到端训练的。为了进一步利用空间上下文进行语义分割，deeplabv1 [4]利用atrous卷积来扩大CNN的感受野，以实现更广泛的空间上下文建模。并使用一个稠密的条件随机场（CRF）作为后处理，以平滑的预测。为了学习多尺度特征表示，提出了无空间金字塔池（ASPP）[5]和金字塔池模块（PPM）[48]。ASPP利用具有不同极化率的多重极化卷积来提取具有不同感受野的特征，而PPM通过金字塔池化生成金字塔特征图[20]。将图像级特征和批量归一化嵌入到ASPP中，以进一步提高deeplab v3的准确性[6]。DenseASPP [44]通过密集连接的ASPP进一步增强了多尺度特征表示，使多尺度特征覆盖更大更密集的尺度范围。然而，这些方法未能提取对象的精细细节，例如边缘。U-Net [38]和SegNet [1]利用了一种新的“编码器-解码器”网络架构，该架构重用具有高空间分辨率的浅层特征，以增强具有强语义的深层特征。RefineNet[29]提出了一种多路径细化网络来渐进地恢复深度特征的空间细节，以获得更好的精度和视觉性能。Deeplab v3+还采用了4098(a)多分支编码器场景嵌入分支(b)前景-场景关系场景嵌入向量(c)轻量级解码器（u（vi）我1+（u，vi）三十C5viv（u，vi）上*8寸P5双金属（）（我1/16C4P4上*4英四分之一（41/8C3P3上*2英四（3四四分之一C2P2（2四分之一输入前台分支关系热图上4分argmaxP（对象类）我(d)前景感知优化WRH W步 1硬示例估计步 2动态加权步 3反向传播输入P（目标类别i）图2. FarSeg概述。(a)用于多尺度对象分割的多分支编码器。(b)前景-场景关系模块。(c)轻量级解码器。(d)前景感知优化。黄点表示硬示例在原始图像、概率图和估计表面中的相对位置，用于简单演示。通过更强大的骨干Xception [10]和轻量级解码器来提高性能，以以较小的开销恢复特征的空间分辨率。这些通用的语义分割方法主要集中在多尺度背景建模上，而忽略了HSR遥感图像中的特殊问题，如虚警和前景背景不平衡。这就导致这些方法缺乏明确的前期建模因此，需要一种前景感知的方法来分割高速铁路遥感影像中的目标遥感领域中的语义分割在遥感领域中有很多使用语义分割技术的应用，例如土地利用和土地覆盖（LULC）分类[46，23，47]，建筑物提取[45，24，43，15]，道路提取[28，9，2，34、3]、车辆检测[35]等。主要的方法遵循一般的语义分割，但对于特殊的应用场景（例如，道路或建筑物），有许多改进的技术[2，15，3]其应用场景。然而，这些方法主要集中在特定应用场景下的改进，忽略了对高速铁路遥感影像中常见的目标分割问题的考虑，如虚警问题和前景-背景不平衡问题，特别是对于大比例尺的高速铁路遥感影像。因此，我们提出了一个前景感知的关系网络（FarSeg）来解决这些问题。3. 前景感知关系网络为了在HSR遥感图像中明确建模用于对象分割的前景，我们提出了前景感知关系网络（FarSeg），如图所示。2.提出的FarSeg包括一个变体的特征金字塔网络（FPN），前景场景（F-S）关系模块，轻量级解码器和前景感知（F-A）优化。FPN负责多尺度对象分割。在F-S关系模型中，首先将虚警问题归结为前景中缺乏判别信息的问题，然后引入潜在场景语义和F-S关系来提高前景特征的判别能力。轻量级解码器被简单地设计为恢复语义特征的空间分辨率。为了使网络在训练过程中聚焦于前景，提出了F-A优化来缓解前景-背景不平衡问题。3.1. 多分支编码器多分支编码器由前景分支和场景嵌入分支组成如图如图2（a）所示，这些分支建立在骨干网络上。在所提出的方法中，选择ResNets [21]作为主干网络进行基本特征提取。 {Ci|i=2，3，4，5}表示从ResNets提取的特征图集合，其中特征图Ci相对于输入图像具有2i个像素的输出步幅与原始FPN类似，自上而下的路径和横向连接用于生成金字塔特征图{Pi|i=2，3，4，5}，其中4099W我相同数量的通道D。我们将此程序表述如下：Pi=π（Ci）+ Γ（Pi+1），i=2，3，4，5（1）其中ζ表示由可学习的1×1卷积层实现的横向连接，Γ表示缩放因子为2的最近邻上采样。通过这种自上而下的路径和横向连接，可以从浅层增强具有高空间细节的特征图并且具有较强的深层语义，有利于恢复物体细节和多尺度上下文建模。除了金字塔特征图Vi之外，额外的分支被附加在C5上以经由全局上下文聚合来生成地理空间场景特征C6为了简单起见，我们使用全局平均池作为聚合函数。C6用于对地理空间场景和前景之间的关系进行建模，这在第3. 2节中进行了说明。3.2. 前景场景关系模块高铁遥感图像的背景要复杂得多.这意味着在背景中存在较大的类内方差，这导致虚警问题。为了解决这一问题，提出了前景-场景（F-S）关系模型，通过关联地理空间场景相关上下文来改善前景特征的主要思想如图所示。3. F-S关系模块首先显式地建立前景与地理空间场景之间的关系模型，并利用潜在的地理空间场景将前景与相关上下文关联起来。然后利用该关系对输入特征图进行增强，增加前景特征与背景特征的视差，从而提高前景特征的区分度。如图在图2（b）中，对于金字塔特征图vi，F-S关系模块将产生新的特征图zi。特征映射z i是通过对v i进行重新编码然后使用关系映射r i对其进行重新加权而获得的。关系图ri是地理空间场景表示与前景表示之间的相似性矩阵。为了将这两个特征表示对齐到共享流形R du中，需要两个投影函数来分别针对地理空间场景和地面进行学习。vi是通过尺度感知投影函数变换的特征θ（ ·）： Rd×H×W→Rdu×H×W，如等式（1）所示。二、图3. F-S关系的概念。前景特征通过其协作的潜在地理空间场景空间与相关上下文特征相关联同时，利用相关的上下文特征来增强前景特征的区分度.场景嵌入使用输入vi关系ri输出ziH武里HZHW()（我WW重新编码埃夫（vi）我（我图4.F-S关系模型中金字塔层次i的关系建模计算细节输入和输出具有相同的空间大小。在共享流形中的特征映射vi。场景嵌入向量u通过在C6上应用η（·）来计算，如等式11所示。3.第三章。u=η（C6）（3）其中η表示用于地理空间场景表示的投影函数，并且它由具有输出通道的可学习的1×1卷积层实现。场景嵌入向量u对于每个金字塔是共享的，因为潜在地理空间场景语义跨所有金字塔是尺度不变的因此，关系映射ri可以自然地由等式n获得。4.第一章vi=θi（vi）（2）其中，θi表示θi（·）的可学习参数。我们采用了一种简单的形式，它只是由1×1卷积层实现，然后依次进行批量归一化和ReLU。为了计算关系映射ri，需要1-D场景嵌入向量u∈Rdu来与前景交互ri=（u，v<$i）=u<$v<$i（4）其中，表示类似的估计函数，并且为了简单性和有效的计算复杂性，其通过逐点内积来实现。对于每个金字塔级别，关系建模的过程细节在图1中示出四是加强联系，机场前景历境潜在场景空间特征空间4100Z′地面特征图Zi计算如下：1为了从每个金字塔聚合上采样的特征图，逐点平均操作之后是1×1con-mid，zi= 1+exp（−ri）·kwi（vi）（5）计算和参数选取采用了迭代层效率并采用4×双线性上采样产生其中kwi（·）是具有可学习p个参数wi的编码器对于输入特征图Vi，编码器的设计目的是-引入额外的非线性单元以避免特征退化，因为加权操作是线性函数。因此，我们采用了这种编码器的简单形式，它由1×1卷积层实现，然后进行批量归一化和ReLU，以提高参数的效率和计算。包括Eqn.5用于对重新编码的特征图进行加权，其是使用基于简单自选通机制的S形门函数的规范化关系图[22]。3.3. 轻型译码器轻量级解码器被设计成以轻量级的方式从F-S关系模块恢复关系增强的详细的架构的轻量级解码器中示出图。五、与输入形象3.4. 前景感知优化前景-背景不平衡问题通常导致背景样本在训练过程中占主导地位然而，只有背景示例的困难部分对于训练后期的优化是有价值的，其中困难的示例比背景中的容易的示例少得多。受此启发，提出了前景感知优化，使网络专注于前景和背景中的困难示例，以实现平衡优化。前台感知优化包括三个步骤：硬例估计、动态加权和反向传播，如图2所示。第2段（d）分段。硬例子估计。该步骤用于获得反映样本的难度的权重，以调整像素级损失的分布了该实例T（）U（U）更硬意味着它的重量更大。受焦点损失[30]的启发，我们采用（1−p） γ作为权重来估计硬样本，其中p∈[0，1]是网络预测的概率，γ是聚焦因子。这个公式-对于前景-背景不平衡的像素级任务，我们只期望在不改变和的情况下调整损失分布，以避免梯度消失。因此，我们将其图5.每个轻量级解码器的抽象架构金字塔等级给定金字塔特征映射zi∈RCin×H ×W，用于HSR遥感图像中的对象分割通过引入一个归一化常数Z，l（pi，yi）=1（1−pi）γl（pi，yi），其中l（pi，yi）de-F-S关系模块，上采样后的特征映射z′∈注意到通过预处理计算的第i个像素的交叉熵损失RCout×σH×σW我通过轻量级解码器计算。所述概率pi和它的基础真值yi。因此，对于每个像素的损失，它有一个权重1（1-p）γ。轻量级解码器由许多上采样Zi单位上采样单元由通道变换T（·）和可选的2倍上采样操作U（·）组成，如果比例因子σ=1，则仅包括T（·）。因此，用于金字塔层级i的轻量解码器可以是简单地表述为：U`N>0，动态加权硬示例估计依赖于对模型的区分。然而，歧视-国家在训练的初期是不自信的，这使得硬样本估计不自信。如果使用这种不自信的硬样本权重，模型训练将不稳定，影响收敛性能。针对这一问题，提出了一种基于退火函数的动态加权策略.我们设计了三个-zi=0NT（ zi），N= 0。（六）nealing函数作为候选函数，如表1所列。给定交叉熵损失l（pi，yi），动态加权损失其中，N表示上采样单元的数量，并且N=i−2。T（·）是通过一个3× 3的卷积层，然后进行批量归一化和ReLU来实现的U（·）是胆固醇-公式为：l′（p，y）= [1（1−p）γ+n（t）（1−1（1−p）γ我iZiZi）]·l（pi，yi）（七）耳上采样，比例因子为2。总的上升-因为输出步幅是4，所以采样尺度σ等于2N其中ζ（·）表示关于当前训练步骤t的退火函数conv3 bn 3bn relu双线性上采样2C位C在HH单位- …单位-WN 上取样单位中国4101退火步骤退火步骤最大步数我们参数数（M）表1.退火函数的候选。退火函数公式超参数评价指标。按照惯例[16，31]，我们使用平均交集（mIoU）作为不退火步骤退火步骤对象分割的主要指标，以评估亲，Poly（t）=（1 −t）衰减因子退火步骤，衰减因子Cosine（t）= 0。5π（1 + cos（tπ））退火步骤递减函数这样，损失分布的焦点可以随着硬例估计置信度的增加而逐步移到硬例上。4. 实验4.1. 实验环境数据集。iSAID [41]数据集由2，806张HSR遥感图像组成。这些图像是从具有多种分辨率的多个传感器和平台收集的。原始图像大小范围从1000× 800像素到4000× 13000像素。iSAID数据集提供了655，451个实例注释超过15个类别1的ob-对象，这是最大的数据集，例如在HSR遥感图像分割预定义的训练集包含1，411个图像，而验证（val）集包含458个图像，测试集包含937个图像。在这项工作中，我们只使用语义掩码标注对象分割。我们使用预定义的训练集来训练模型并在验证集上进行评估因为测试集不可用。实施细节。FarSeg中使用的主干是ResNet-50，用于所有实验，它在ImageNet上进行了预训练[12]。如果未指定，则FPN中的通道d设置为256，并且F-S关系模块中的共享歧管du的尺寸设置为256F-A优化中的默认聚焦因子γ为2。对于通过F-A优化引入的超参数，退火步骤被设置为10 k，并且对于多退火函数，衰减因子被设置为0.9对于所有的实验，这些模型都是用“poly”学习率策略训练60k次迭代的乘以（1-step）power，power= 0。9 .第九条。我们在2个GPU上使用同步SGD，总共8个im-每个小批次的年龄（每个GPU 4个图像），权重衰减为0.0001，动量为0.9。同步批处理归一化用于批处理归一化层中统计数据的跨GPU通信对于数据扩充，水平和垂直翻转，旋转90·k（k= 1，2，3）在培训期间获得学位。对于额外的数据预-cessing，我们使用跨越512像素的滑动窗口将图像裁剪为固定大小（896，896）。1这些类别的定义如下：船（Ship）、储油罐（ST）、棒球场（BD）、网球场（TC）、篮球场（BC）、场地跑道（GTF）、桥梁（Bridge）、大型车辆（LV）、小型车辆（SV）、直升机（ HC ）、游泳池（ SP ）、环形交叉路口（ RA ）、足球场（SBF）、飞机（Plane）、港口（Harbor）。置位法4.2. 与一般方法的比较为了评估FarSeg，我们在更大规模的HSR遥感图像数据集上进行了全面的实验。我们将FarSeg与几种基于CNN的方法进行了比较，从经典到最先进的方法，包括 U-Net [38] ， FCN-8 s [33] ， DenseASPP [44] ，Deeplab v3 [6]，Se-Mantic FPN [32] ， Deeplab v3+[8] ， RefineNet [29]，PSPNet [48]。表2中列出的定量结果表明，FarSeg在HSR场景中优于其他方法。图6显示了速度和精度之间的权衡。这表明FarSeg在速度和精度之间实现了更好的权衡，这得益于轻量化和有效的模块设计。图6. iSAID值集上的速度（FPS）与精度（mIoU）。圆的半径表示参数的数量。4.3. 消融研究在本节中，我们将进行全面的实验来分析FarSeg中提出的模块和许多重要的超参数。基线由FPN和光解码器组成，优化交叉熵损失。如果未指定，则在具有相同实验设置的iSAID值4.3.1前景-场景关系模块F-S关系模块的作用。表3（b）和（c）显示了基于基线方法（表3（a））添加F-S关系的消融结果。F-S关系模块（w/o和w/scale-aware projection）分别为1.11%和1.18%Linear（t）= 1−4102表2.iSAID值集上的对象分割mIoU（%）每列中的粗体值表示最佳条目。方法骨干mIoU（%）每个类别的IoU（%）船StBDTCBCGTF桥LVSVHCSPRASBF平面港[第38话]-37.3949.006.5178.6022.895.527.4849.8935.62038.0346.499.6774.7445.64[33]第三十三话VGG-1641.6651.7422.9126.4474.8130.2427.858.1749.3537.05030.7451.9152.0762.9042.02DenseASPP [44]DenseNet-12156.8161.1550.0567.5486.0956.5652.2829.6157.1038.44043.2664.8074.1078.1251.09Deeplab v3 [6]ResNet-5059.0559.7450.4976.9884.2157.9259.5732.8854.8033.7531.2944.7466.0372.1375.8445.68语义FPN [32]ResNet-5059.3163.6859.4971.7586.6157.7851.6433.9959.1545.14046.4268.7173.5880.8351.27Deeplab v3+[8]ResNet-5059.3359.0255.1575.9484.1858.5259.2432.1154.5433.7931.1444.2467.5173.7875.7045.76[29]第二十九话ResNet-5060.2063.8058.5672.3185.2861.0952.7832.6358.2342.3622.9843.4065.6374.4279.8951.10PSPNet [48]ResNet-5060.2565.252.175.785.5761.1260.1532.4658.0342.9610.8946.7868.671.979.554.26FarSegResNet-5063.7165.3861.8077.7386.3562.0856.7036.7060.5946.3435.8251.2171.3572.5382.0353.91表3.iSAID值集上的对象分割mIoU（%）从基线开始，将建议的模块逐渐添加到建议的FarSeg中，以进行模块分析。方法F-S关系规模感知项目F-A选项mIoU（%）#params（M）(a)基线---59.31 0(b)基线与F-S关系C60.42 1.12(c)基线w/F-S关系和量表感知项目CC60.49 2.89(d)基线w/ F-A可选C61.51 0(e)基线w/F-S关系和F-A选项CC63.21 1.12(f)FarSegCCC63.71 2.89表4.前景感知优化模块分析。方法正常化退火函数mIoU（%）(a)FarSeg w/o F-AOpti.--60.49(b)损失加权（1−p）γ56.44(c)+Norm。C62.98(d)+ Norm。+线性退火C线性63.18(e)+ Norm。+多晶硅退火C聚63.52(f)+ Norm。+余弦退火C余弦63.71以mIoU为单位的性能提升。#params删除相应模块引入的额外参数。结果表明，F-S关系模是参数有效的，只有2.89 M和1.12 M，其中相对有效的F-S关系模是参数有效的参数的增量分别为±10%和±4%。这表明，性能的提高不仅这一方面来自于参数的获取，另一方面也是利用地理空间场景特征关联相关上下文特征增强前景特征的F-S关系设计的结果用于场景嵌入的尺度感知投影。在F-S关系模型中，投影函数η用于空间场景的表示。我们探索是否每个金字塔级别都需要尺度感知投影函数η。表3（b）/（c）和（e）/（f）的结果表明，尺度感知投影功能表现更好。通过F-A优化，来自尺度感知投影的mIoU中的增益这表明地理空间场景表示与比例和前景有关。F-S关系模块的可视化解释。 F-S关系模型结合地学知识，具有良好的直观解释性。图7显示了不同金字塔层次中F-S关系的可视化。每个像素表示潜在地理空间场景和像素自身之间的关系强度。有三种典型的场景：机场、港口和停车场。我们可以发现，不同的场景集中在不同的对象上，这些对象对该场景具有区分性。例如，港口主要集中在船舶和水上，而机场则集中在飞机和它们的背景。同时，这些关系图再次说明地理空间场景与比例、前景和前景相对上下文有关。因为在高空间分辨率（OS= 4）的关系图中，小目标（如小型车辆和船舶）是热点。在空间分辨率较低的关系图然而，上下文不是空间分辨率特定的关系映射。它揭示了地理空间场景与特定于尺度的前景和尺度不可知的上下文有关。4.3.2前景感知优化F-A优化的效果。表3（d）和（f）显示了基于基线方法（表3（a））和具有F-S关系和尺度感知投影的基线方法（表3（c））添加F-A优化的消融结果。F-A优化在mIoU中将性能提升2.2%和3.24%，而无需额外计算和内存占用。实验结果表明，F-A优化算法可以有效地改善HSR遥感图像目标分割中的前景-背景不平衡问题。同时也表明F-A优化与F-S关系模型具有很好的兼容性。标准化。归一化的目的是只调整损失分布而不改变和，以避免梯度消失。表4（c）显示了对初始softmax病灶丢失添加归一化的结果（表4（b））。4103(a) 图像（b）预测（c）关系（OS=4）（d）关系（OS=8）（e）关系（OS=16）（f）关系（OS=32）图7。不同金字塔层次的F-S关系热图的可视化（a）原始图像。（b）对象分割结果。（c）-（f）具有不同金字塔层级中的F-S关系热图OS表示为了方便可视化，我们将这些关系映射调整为相应的图像大小。图注：场景1（飞机、大型车辆、小型车辆）、场景2（小型车辆、港口，轮船），第三场（小车，网球场，棒球场），按顺序排列。由于对象分割的朴素softmax焦点损失的不稳定性，mIoU下降4.05%。然而，当添加归一化时，性能获得了显著的改善，在mIoU中为2.49%。与单纯softmax病灶丢失相比，在mIoU中增加了6.54%。指出在不改变和的情况下调整损耗分布是缓解前后景不平衡问题的关键。退火功能退火函数用于F-A优化的动态加权阶段。其目的是减轻训练初期由于硬样本估计错误而造成的训练不稳定性。表4（d）、（e）和（f）示出了应用三个提出的退火函数的结果。我们可以发现，基于退火的动态加权通过减少早期训练阶段错误的硬样本估计来提高性能。直观地，余弦退火函数在mIoU中获得0.63%的最显著增益。与线性退火函数和多项式退火函数相比，余弦退火函数在训练开始和结束时下降速度较慢，可以稳定地调整损失分布，使其健康收敛。聚焦因子γ的选择。引入聚焦因子γ来调整困难样本的权重更大的γ，更大的重量在困难的例子。在[30]之后，表5. iSAID值集上的mIoU（%），使用变化的γ进行F-A优化。γ00.30.5125mIoU（%）60.4261.3562.4862.9963.7162.61我们使用不同的γ来进行实验。结果如表5所示。随着γ的增加，性能得到不断的改善。在γ= 2的情况下，F-A优化在mIoU方面比基线提高了3.29%，在mIoU方面实现了63.71%的最佳结果然而，当γ= 5时，性能下降。可能的原因是，噪声标签被错误地视为硬例子，如[27]所述。5. 结论本文针对HSR遥感图像中目标分割的瓶颈问题--虚警和前景-背景不平衡问题，提出了前景感知的关系网络（FarSeg），该网络通过学习前景-场景关系来增强前景特征，从而减少虚警，并使用以前景-背景平衡方式的前景感知优化。实验结果表明，FarSeg算法在速度和精度之间取得了较好的平衡4104引用[1] V.巴德里纳拉亚南，A. Kendall和R.西波拉Segnet：用于图像分割的深度卷积编码器 - 解码器架构。 IEEETransactionsonpatternanalysisandmachineintelligence，39（12）：2481[2] F. Bastani，S.他，S.Abbar，M.阿里扎德巴拉克里希南S.舒拉河，西-地Madden和D.德威特道路追踪：自动提取道路网络从航空影像.在IEEE计算机视觉和模式识别会议上，第4720-4728页，2018年[3] A. 巴特拉、S. 辛格湾，澳-地庞氏S. 巴苏角贾瓦哈尔，以及M.帕鲁里通过方向和分割的联合学习改进道路连通性。在IEEE计算机视觉和模式识别会议论文集，第10385-10393页[4] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。基于深度卷积网和全连接crf的语义图像分割。arXiv预印本arXiv：1412.7062，2014。[5] L- C. Chen，G.帕潘德里欧岛科基诺斯角墨菲和A. L.尤尔。Deeplab：使用深度卷积网络、atrous卷积和完全连接的crfs进行语义图像分割。IEEE transactionson pattern analysis and machine intelligence，40（4）：834[6] L- C. Chen，G.帕潘德里欧F. Schroff和H. Adam.重新思考语义图像分割的无环卷积。arXiv预印本arXiv：1706.05587，2017.[7] L- C. Chen，Y.杨，J.Wang，W.Xu和A.L. 尤尔。注意比例：尺度感知语义图像分割。在IEEE计算机视觉和模式识别会议论文集，第3640-3649页[8] L- C. Chen，Y.Zhu，G.帕潘德里欧F.Schroff和H.Adam.一种用于序列图像分割的带可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801- 818页[9] G.郑，Y. Wang，S. Xu，H. Wang，S. Xiang和C.锅自动道路检测和中心线提取通过cas-caded端到端卷积神经网络。 IEEE Trans-actions on Geoscience and RemoteSensing，55（6）：3322[10] F.胆Xception：使用深度可分离卷积的深度学习。在IEEE计算机视觉和模式识别会议论文集，第1251-1258页，2017年。[11] D. Ciresan、A.朱斯蒂湖M. Gambardella和J. 施密特胡伯。深度神经网络在电子显微镜图像中分割神经元膜。神经信息处理系统的进展，第2843-2851页，2012年[12] J. Deng，W.东河，巴西-地索赫尔湖J. Li，K. Li和L.飞飞。Imagenet：一个大规模的分层图像数据库。 2009年IEEE计算机视觉和模式识别会议，第248-255页。Ieee，2009年。[13] Z. Deng， H.孙习Zhou和J.赵从头开始学习sar图像中的深度舰船检测器。IEEE Transactions on Geoscience andRemote Sensing，57（6）：4021[14] Z. Deng，H.孙习Zhou，J.赵湖，加-地Lei和H.邹。基于卷积神经网络的遥感图像多尺度目标检测ISPRS Journalof Photogrammetry and Remote Sensing，145：3[15] M. Dickenson和L. Gueguen。旋转矩形符号化建筑物足迹提取.在CVPR研讨会，第225-228页[16] M. Everingham，S. A.埃斯拉米湖凡古尔角，澳-地K. 威廉姆斯J. Winn和A.齐瑟曼。pascal visual object classes挑战：回顾展。 International Journal of Computer Vision ， 111（1）：98[17] C.法拉贝特角库普里湖Najman和Y.乐存。学习用于场景标注的分层特征。IEEE transactions on pattern analysisand machine intelligence，35（8）：1915[18] S. 古普塔河，巴西-地Girshick，P. Arbe la'ez和J. 马利克从rgb-d图像中学习丰富的特征，用于目标检测和分割。欧洲计算机视觉会议，第345-360页。Springer，2014.[19] B. 哈里哈兰山口阿尔韦阿埃斯河Girshick和J. 马利克同时检测和分割。欧洲计算机视觉会议，第297-312页。Springer，2014.[20] K. 他，X。Zhang，S.Ren和J.太阳用于视觉识别的深度卷积网络中的空间金字塔IEEE Transactions on PatternAnalysis and Machine Intelligence，37（9）：1904[21] K.他，X。Zhang，S. Ren和J. Sun.用于图像识别的深度残差学习。在 Proceedings of the IEEE conference oncomputer vision and pattern recognition，pages 770[22] 胡杰湖，澳-地Shen和G.太阳挤压-激发网络。在IEEE计算机视觉和模式识别会议论文集，第7132-7141页[23] B.黄湾，澳-地Zhao和Y.歌利用高空间分辨率多光谱遥感图像的深度卷积神经网络进行城市土地利用制图。环境遥感，214：73[24] S. Ji，S. Wei和M.陆用于从开放式航空和卫星图像数据集中提取多源建筑物的全卷积网络。 IEEETransactions on Geoscience and Remote Sensing ， 57（1）：574[25] M. Kampffmeyer，A. B. Salberg和R.詹森基于深度卷积神经网络的城市遥感图像小目标语义分割和不确定性建模在IEEE计算机视觉和模式识别会议（CVPR）研讨会上，2016年6月。[26] R.凯姆克角Salvaggio和C.卡南基于深度学习的多光谱遥感图像语义分割算法。ISPRS Journal of Photogramme-try and Remote Sensing，145：60[27] B. Li，Y.刘，和X。王.梯度协调单级探测器。在AAAI人工智能会议论文集，第33卷，第8577-8584页[28] J. Liang，N. Homayounfar，W. C.马，S. Wang和R.乌塔孙。卷积递归网络用于道路边界提取。在IEEE计算机视觉和模式识别集，第9512-9521页，2019年。4105[29] G. Lin，L.米兰角沈和我里德Refinenet：用于高分辨率语义分割的多路径细化网络在IEEE计算机视觉和模式识别会议论文集，第1925-1934页[30] T.- Y. Lin，P. 戈亚尔河格希克角He和P. 娃娃。密集目标检测的焦面损失。在IEEE计算机视觉国际会议论文集，第2980- 2988页[31] T.- Y. 林，M。迈尔，S。贝隆吉，J.Hays，P.Perona，D.Ra-manan ， P.Dolla'r 和 C.L. 齐特尼克Microsoftcoco：上下文中的通用对象欧洲计算机视觉会议，第740-755页Springer，2014.[32] H. Liu，C.彭角，澳-地Yu，J.Wang，X.Liu，G.Yu和W.蒋用于全景分割的端到端网络。在IEEE计算机视觉和模式识别会议上，2019年6月。[33] J.朗，E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议论文集，第3431-3440页[34] X. Lu，Y.钟氏Z. Zheng，Y.郑氏，中国科学院植物研究所所长。Liu，J. Zhao，A. Ma和J. Yang用于自动道路提取的多尺度和多任务深度学习框架。 IEEE Transactions on Geoscience and RemoteSensing，2019。[35] L. Mou和X. X.竹使用多任务学习残差全卷积网络从航拍图像和视频中分割车辆实例。IEEE Transactions onGeo- science and Remote Sensing，56（11）：6699[36] J. Pang，C. Li，J. Shi，Z. Xu和H. 峰R2-cnn：大规模遥感图像中微小目标的快速检

下载后可阅读完整内容，剩余1页未读，立即下载