ConvNet变化检测器

189 浏览量更新于2023-10-13 收藏 1.95MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

15193ConvNet变化检测器变化无处不在：遥感图像中的单时监督目标变化检测Zhuo Zheng Ailong Ma Liangpei Zhang Yanfei Zhong*武汉大学，武汉，中国{zhengzhuo，maailong007，zlp62，zhongyanfei} @ whu.edu.cn摘要对于高空间分辨率（HSR）遥感图像，双时相监督学习在变化检测中占主导地位。然而，它是非常昂贵和耗时的成对标记大规模的双时态HSR遥感图像。在本文中，我们提出了单时态的su-从双时监督学习(a) 常规双时态监督学习本发明涉及用于变化检测的监督学习（STAR），其从利用未配对图像中的对象变化作为监督信号的新视角。STAR使我们能够训练仅使用未成对标记图像的高精度变化检测器，并推广到真实世界的双时间图像。为了评估STAR的有效性，我们设计了单时对地观测无操作不同区域的成像未配对的单时间图像更改标签逐图像注释从单时监督学习一个简单而有效的变化检测器称为ChangeStar，它可以重用ChangeMixin模块的任何深层语义分割架构。综合实验结果表明，ChangeStar在单时监控下性能优于基线，在双时监控下性能优于基线。代码可在https：//github上获得。com/Z-Zheng/ChangeStar.1. 介绍利用多时相高空间分辨率（HSR）遥感影像进行地物变化检测是遥感和地球视觉领域一项重要而又具有挑战性的基础性工作，可以为城市扩展、城市规划、环境监测和灾害评估等提供更准确的地表地物变化信息[14，28，8，19，11]。该任务以双时态图像作为输入，并输出逐像素的对象变化。主要的变化检测方法基于深度卷积神经网络（ConvNet），以实现复杂应用场景中的高精度和可靠的地理空间对象变化检测。学习ConvNet变化检测器需要大量具有双时态监督的成对标记的双时态图像，如图所示。1*通讯作者。(b) STAR：单时态监督学习图1：传统的双时态监督学习和提出的用于对象变化检测的单时态通过利用任意图像对中的对象变化作为监督信号，STAR使得可以从未配对的单时间图像中学习变化检测器（一）. 然而，由于遥感图像的广泛覆盖，对大规模、高质量的双时态HSR遥感图像进行成对标记这显著地限制了变化检测技术的现实世界应用。我们观察到，成对标记的双时态图像的重要性在于，变化检测器需要成对的语义信息来定义用于对象变化检测的正样本和负样本。这些正样本和负样本通常由两个不同时间的像素在同一地理区域中是否具有不同语义来确定双时态像素的语义控制标签分配，而位置一致性条件1仅用于保证独立和1双时像素应该在相同的地理位置。多时相地球观测成对双颞叶图像更改标签图像配准成对注释在同一区域成像ConvNet变化检测器15194同分布训练和推理。可以想象，如果我们放松位置一致性条件来定义正样本和负样本，则变化无处不在，特别是在未配对的图像在本文中，我们提出了一种单时间监督对象变化检测方法，以绕过收集配对标记图像的问题，通过利用对象变化之间的不成对图像作为监督信号，如图所示。第1段（b）分段。这种方法使我们能够训练一个高精度的变化检测器，使用不成对的标记图像，并推广到现实世界的双时间图像在推理阶段。因为它只需要单时态语义分割标签来构建对象变化作为变化检测标签，所以我们将我们的方法称为单时态监督学习（STAR）。在同一地理区域的条件下，双时态监督学习可以避免许多分布外的正样本，而这对于STAR来说既是机遇也是挑战。这些分布外的样本使得STAR驱动的变化检测器更有可能具有更好的泛化能力。同时，它们也会引起过拟合问题，使模型学习到有偏的表示。为了缓解这个问题，我们探索了一种归纳偏差：时间对称性并利用它来约束变化检测器的表示学习。为了证明STAR算法的有效性，我们设计了一个简单而统一的变化检测器ChangeS-tar，它遵循模块化设计，由任意深度语义分割模型和由 STAR 驱动的ChangeMixin模块组成。ChangeMixin模块被设计成使得任意深度语义分割模型能够检测对象变化。这使得ChangeStar能够重用优秀的语义分割架构，以协助变化检测，而无需额外的特定架构设计，从而弥合了语义分割和变化检测之间的差距。本文的主要贡献概括如下：为了从根本上缓解收集配对标记图像的问题，我们提出了单时间监督学习（STAR），使对象变化检测器能够从未配对的标记图像中学习。为了进一步稳定学习，我们探索和杠杆年龄的归纳偏见，时间对称性，以减轻过度拟合问题所造成的不存在的位置一致性条件，在未配对的图像。为了重用现代语义分割体系结构，我们提出了一个简单而有效的多任务体系结构，称为ChangeStar，用于联合语义分割和变化检测。ChangeStar的核心组件是ChangeMixin，它使现成的分割模型能够检测对象变化。2. 相关工作对象变化检测。不同于一般的远程感测变化检测[23]，对象变化检测是以对象为中心的变化检测，其旨在回答感兴趣的对象是否已经改变的问题。根据变化的类型，对象变化检测可以分为两类：二进制对象变化检测，即建筑物变化检测[15，3]，以及语义对象变化检测，即建筑物损坏评估[11]，土地覆盖变化检测[24]。二值目标变化检测是目标变化检测的一个基本问题因此，我们专注于二进制对象变化检测在这项工作。双时态监督学习到目前为止，有监督的目标变化检测方法都是基于双时相有监督学习的，需要从同一地区的双时相遥感图像中获取变化标记。尽管有许多变化检测基准数据集[1，2，10，18，15，8，9，3，24]，但它们的规模仍然有限，无法满足深度学习模型。因为成对注释是非常扩展和耗时的。因此，一个更标签有效的学习算法的变化检测器是必要的现实世界的应用。深度ConvNet变化检测器。对于HSR遥感地理空间对象变化检测，主要变化检测器基于深度ConvNet [17]，特别是全卷积暹罗网络（FC-Siam）[7]。FC-Siam采用权值共享编码器提取时间深度特征，然后采用时间特征差分解码器从编解码器架构的角度检测对象变化进一步的改进主要集中在编码器的三个方面：使用预训练的深度网络作为编码器[3，27]，解码器，即基于RNN的解码器[20，4]、基于时空注意力的解码器[3，27]以及训练策略，即对多个输出进行深度监督[21，27]。可以发现，存在明显的冗余网络架构设计，因为这些网络架构是由现代语义分割模型驱动的。因此，它是显着重要的下一代变化检测器重用现代语义分割架构。对象分割。直观而有效的单时间监督对象变化检测方法是分类后比较（PCC），其可以在现代对象分割模型的帮助下充当强基线。然而，该方法仅简单地将变化检测任务视为语义分割任务，而忽略了时态信息建模，从而显著降低了性能。···15195LL∈∈L(a) t1图像（b）t2图像（c）t1→t2标签图2：双时态监督对象变化检测的训练样本（a）在时间tl处的图像。（b）时间t2处的图像。（c）表示从t1到t2的时间段发生的变化的变化标签。t1图像必须与t2图像共配准，以便进行准确的监督。3. 方法3.1. 反思双时态监督学习学习具有双时间监督的对象变化检测器可以被公式化为优化问题：min（Fθ（Xt1，Xt2），Yt1→t2）（1）θ其中，表示目标函数，其最小化由对象变化检测器Fθ对成对双时间图像Xt1，Xt2RN× C × H × W获得的预测之间的成本并且改变标签Yt1→ t2RNXHXW，表示从t1到t2的时间段内发生的变化。例如图2给出了一个双时间监督对象变化检测的训练样本双时监督学习的核心是用同一空间位置不同时间的标记图像训练变化检测器从等式1，我们可以发现变化标记Yt1→t2是监控信号的唯一来源。为了获得Yt1→t2，通常需要成对的语义信息来定义正样本和负样本。然而，成对语义信息仅与双时像素的语义相关，而与它们的空间位置无关相同的空间位置仅用于保证训练和推理之间的一致性。如果我们放宽这个条件，方程中的原始问题1可以简化为：min（Fθ（Xi，Xj），compare（Yi，Yj））（2）θ其中Xi、Xj可以是两个未配对的图像，并且从它们的语义标签Yi、Yj之间的语义比较更有效地收集监督信号。通过Eq.2是通过等式2学习的模型的超集1，这是允许检测对象的变化，在任何情况下，包括多时相遥感图像的同一地区。原来的问题可以大大简化。(a) Xt1（b）πXt1（c）更改标签图3：用于单时间监督学习的伪双时间图像对（三个图像的小批量的情况）Xt1，πXt1是原始序列和由随机置换π生成的新序列。变化标签是由它们的语义标签获得的。图4：ChangeStar概述。ChangeStar的网络架构由任意深度语义分割模型和ChangeMixin模块组成ChangeS-tar可以通过分割损失和对称损失来端到端训练，仅具有单时间监督。在训练期间，权重共享策略被应用于分段模型和ChangeMixin模块。3.2. 单时态监督学习单时间监督学习（STAR）的关键思想是通过等式从仅具有语义标签的任意图像对中学习可推广的对象变化检测器。2，如图所示。4.第一章提供具有单时态数据、伪双时态图像的15196θ⊕LL联系我们∈--t1π（n）⊕⊕L×1N2--二进制θ首先构建对。利用伪双时图像对，原始学习问题中的双时数据（等式2）。1）可以用单时态数据代替，因此学习问题可以重新表述为：minL（Fθ（Xt1，πXt1），Yt1πYt1）（3）其中伪双时间图像对Xt1，πXt1及其变化标签Yt1πYt1提供单时间监督。上标t1仅用于表示数据是单时态的。3.2.1伪双时图像对的为了提供具有单时态数据的变化监督信号小批量随机排列。给定一小批单时图像Xt1及其语义标签Yt1，Xt1可以看作是一个序列 Xt1，…Xt1 . 我们使用该序列的随机置换πSn生成新的序列πXt1来代替Xt2，其中Sn表示索引为1，…，n除了导致任何相同元素的排列原始序列，和πXt1 表示序列对象变化检测，如下所示：L=L分段+L变化（4）这项工作的重点是基本问题：二进制对象的变化，因此，只有一种类型的感兴趣的对象。因此，我们引入了目标函数的二进制分类，而它是直接扩展到多类的情况下。语义监督。对于二进制对象分割，我们采用二进制交叉熵损失二进制作为seg来提供语义监督，如下所示：Lbinary（p，y）= −ylog（p）+（1−y）log（1−p）（5）其中y0，1指定基础真值类，p[0，1]表示正类的预测概率。时间对称性的变更监督时间对称性是二进制对象变化的一个数学性质，它表明二进制对象变化是不确定的，即二进制对象变化是不确定的.Y t1→ t2=Y t2→ t1。直观地，双时图像对上的二进制对象变化检测器的输出应遵循该属性。这意味着二进制对象变化检测器在时间对称性的约束下不应适合时间方向。受此启发，我们进一步提出对称损失的二进制对象的变化{Xπ（1）、...、Xt1{\fn方正粗倩简体\fs12\b1\bord1\shad1\3cH2F2F2F} 图3（a）和（b）提交原件检测，其公式如下：在三个图像的小批量的情况下，新序列是三个图像的小批量序列，并且新序列是L变化=1[L（F（Xt1，πXt1），Yt1πYt1）（六）标签分配。与双时态监督学习中的人工两两密集标记不同，STAR的变化标记由单时态语义标记自动生成。在不失一般性的前提下，为了简单起见，我们对象变化的正标签被分配给感兴趣对象仅出现一次的像素位置。如果在伪双时间图像处存在重叠的两个对象实例，则重叠区域中的像素位置被分配为负样本。因为对象的改变只是语义感知的，而不是实例感知的。其余的像素位置被分配为负样本。为了实现该标签分配，逻辑异或（xor）操作是获得具有语义标签Yt1的变化标签的自然选择。以这种方式，改变等式（1）中的标签Ytl-t21可以用Yt1πYt1代替，其中表示异或运算，从而提供具有单时间数据的变化超信号。图3（c）恶魔-演示生成的更改标签。3.2.2多任务监控总体目标函数是多任务目标函数，其用于充分利用用于联合对象分割和分割的单时间语义标签。+L二进制（Fθ（πXt1，Xt1），Yt1 πYt1）]对称性损失的特点是由时间对称性提供的归纳偏差，这作为一个正则化项，以缓解二进制对象变化检测中的过拟合问题。3.3. ChangeStar的网络架构ChangeStar是一个简单而统一的网络，由深度语义分割模型和ChangeMixin模块组成这种设计的灵感来自于重用现代语义分割架构，因为语义分割和对象变化检测都是密集的预测任务。为此，我们设计了ChangeMixin模块，以使任何现成的深度语义分割模型能够检测对象变化。图5呈现了ChangeStar的整体架构。任何细分模型。深度语义分割模型用于分别为双时间输入的每个图像提取卷积特征图分割模型的顶部块总是具有C个滤波器的3 × 3卷积层，随后是上采样层，其中C是类的数量，并且上采样尺度等于特定分割模型的输出步幅。用于对象分割的特征图由15197×·××××双时输入分割模型ChangeMixinUUppsa ammppleleBBlolocckss sCCoonnvv交换Temporaple（3xet乌普萨ConvConvN图5：ChangeStar的网络架构。ChangeStar的网络架构由深度细分模型和 ChangeMixin 模块组成。ChangeMixin模块包含一个时间交换模块和许多conv层，每个层后面都有BN和ReLU。在整个分割模型中，用于对象变化检测的特征图仅由分割模型的ConvNet部分计算ChangeMixin 。 ChangeMixin 模块由时间交换模块（TSM）和小FCN组成，该小FCN由N33个卷积层组成，每个卷积层具有dc滤波器并且每个卷积层之后是BN和ReLU。此外，附加双线性上采样层以及随后的S形激活以输出每个像素的二进制预测。时间交换模块（Eq. 7）负责时间对称性，在网络架构中提供归纳偏差，其将双时间特征图作为输入，然后沿着通道轴以两个不同的时间排列将它们TSM（Tl，T2）=cat（Tl，T2），cat（T2，Tl）（7）其中T1和T2 分别表示双时间特征图。在训练期间，小FCN被附接到TSM的每个输出，并且小FCN的权重被共享。在推理过程中，小FCN只附加到TSM的第一个输出，因为我们发现在收敛模型中，两个输出是时间对称的。我们使用N=4和dc=16以在速度和精度之间进行更好的权衡。4. 实验我们目前的实验结果对两个高速铁路遥感建筑物变化检测数据集使用的模型训练两个高速铁路遥感建筑物分割4.1. 实验环境训练数据集。使用两个HSR遥感建筑物分割数据集，通过单时间监督来训练分割模型和对象变化检测器。xView2灾难前。我们使用了xView2数据集的一个子集[11]，即xView2灾前数据集，它由灾前图像及其来自列车分割和第3层分割的注释组成。xView2灾前数据集包括9，168个HSR光学重建在突发自然灾害的背景下，具有总共316，114个建筑实例注释的微粒感测图像。从 Maxar /DigitalGlobe开放数据程序2收集图像，并且每个图像具有1024 × 1024像素的空间大小。SpaceNet2. 公共SpaceNet2数据集[26]由10，590张HSR光学遥感图像组成在城市场景的背景下，这是从数字地球的世界观-3卫星收集。该数据集还提供了219，316个城市建筑实例的注释。每个图像具有650 - 650像素的空间在这项研究中，我们只使用3波段全色RGB图像及其注释。评价数据集。利用两个大规模HSR遥感建筑物变化检测数据集，对目标变化检测的性能进行了评价。WHU建筑物变化检测。该数据集[15]由2012年和2016年在20.5平方公里的同一区域获得的两张航拍图像组成，分别包含12，796和16，077个建筑实例。每个图像具有15354 × 32507像素的空间大小，空间分辨率为0.2m。由于2011年2月发生的6.3级地震，该地区有大量的重建建筑和新建筑。LEVIR-CD。LEVIR-CD数据集[3]由637个HSR双时遥感图像对组成，这些图像对是从Google Earth平台收集的。每个图像具有1024 × 1024像素的空间大小，空间分辨率为0.5 μ m。对于注释，该数据集提供了建筑实例的总共31，333个变化标签，但没有语义标签。该数据集不仅包括建筑物的出现，还包括建筑物的消失，以获得更一般的建筑物变化。LEVIR-CD数据集被正式分为train、val和test，其中三个部分分别包括445、64和128 对。如果未指定，则使用整个数据集（LEVIR-CDall）进行评价。实施细节。除非另有说明，否则所有模型均使用poly学习进行40k次迭代训练。数据集与不同的域，分别为一个比较-所提出的方法的hensive分析。2https://www.digitalglobe.com/ecosystem/open-data···15198urs）arsion焦油. CompangeSst-ClsChPoF1（%）××·最大步数−≥表1：WHU建筑物变化检测和LEVIR-CD数据集上的变化检测IoU（%）和Fl（%）所有型号的骨干网络都是ResNet-50所有方法都只使用单时间图像及其语义分割标签进行训练方法分割模型灾前在xView2上进行培训SpaceNet 2∆参数（M）∆ MAds（B）WHULEVIR-CD全部WHULEVIR-CD全部IoU（%）F1（%）IoU（%）F1（%）IoU（%）F1（%）IoU（%）F1（%）PCCPSPNet [29]37.4654.5155.8771.6921.3935.2510.1918.5000ChangeStar（我们的）+ ChangeMixin56.44（+18。98）72.15（+17。64）61.63（+5。第七十六章）76.26（+4。第五十七章）25.56（+4。十七、40.72（+5。47）15.25（+5。06）26.47（+7。97）0.160.63PCCDeepLab v3 [5]32.4649.0154.7770.7833.0849.7213.7824.2300ChangeStar（我们的）+ ChangeMixin56.85（+24。39）72.49（+23。48）60.94（+6。十七、75.73（+4。95）35.57（+2。49）52.48（+2。第七十六章）15.92（+2。14）27.46（+3。23）0.080.33PCCDeepLab v3+[6]35.7552.6855.5171.3823.9038.589.8017.8500ChangeStar（我们的）+ ChangeMixin52.01（+16。第二十六章）68.43（+15。75）57.96（+2。第四十五章）73.38（+2。00）38.42（+15。42）55.51（+16。93）22. 42）36.36（+18。51）0.080.33PCC语义FPN [16]38.6655.7656.1971.9527.6043.267.0913.2500ChangeStar（我们的）+ ChangeMixin55.37（+16。71）71.27（+15。51）65.21（+9。02）78.94（+6。99）37.63（+10。03）54.68（+11。42）25.86（+18。第七十七章）41.10（+27.（85）0.080.33PCCFarSeg [30]31.6648.0955.0971.0427.6943.377.9714.7700ChangeStar（我们的）+ ChangeMixin58.22（+26。56）73.59（+25。第五十章）65.71（+10。62）79.31（+8。27）39.02（+11。33）56.14（+12。第七十七章）30.42（+22。第四十五章）46.65（+31。第八十八章）0.080.33速率策略，其中初始学习速率设置为0.03并乘以（1步骤）γ，其中γ= 0。9 .第九条。我们使用SGD作为单Titan RTX GPU上的优化器，具有16张图像的小批量，权重衰减为0.0001，动量为0.9。对于训练数据增强，在水平和垂直翻转、90k（k=1，2，3）度旋转和尺度抖动之后，图像然后被随机裁剪为xView2灾前数据集的512512像素和SpaceNet2数据集的256256像素。指标. 二值目标变化检测属于逐像素的二值分类任务，因此我们采用交并（IoU）和F1得分来评价目标变化检测。4.2. 主要结果在仅单时间监督可用的弱监督设置中，当使用强语义分割模型时，PCC系列是合理的基线。因此，我们比较ChangeStar与PCC与许多代表性分割模型[29，5，6，16，30]。表1中列出的结果表明，ChangeStar在这种具有挑战性的跨域评估中显著优于具有不同分割模型的PCC。值得注意的是，这些改进只是以很小的开销为代价，这证实了学习对象变化表示的重要性。总体而言，在xView2灾前的训练明显优于在SpaceNet2上的训练。我们推测，xView2灾前更丰富的背景分布可以提供更多样化的正样本，这有助于更普遍的对象变化表示。此外，xView2前的图像，如果未指定，则使用ResNet-50，因为它比ChangeStar的其他变体更健壮ChangeMixin的架构。ChangeMixin模块是ChangeStar中最重要的组件，它引入了两个超参数：N（卷积层的数量）和dc（卷积滤波器的数量）。ChangeStar随N变化的性能如图所示。第6（a）段。可以发现，过深的卷积子网络是有害的对象变化检测性能。当N =6时，ChangeStar比分类后比较执行得更好，并且在N=4时实现最佳性能。ChangeStar在不同dc下的性能如图所示第6（b）段。随着dc的增加，性能不断降低，并且比dc80时的分类后比较差。为了在速度和精度之间更好地权衡，我们使用N= 4和dc= 16作为默认设置。8060402001 2 3 4 5 6 7层数(a) 层数70 8565 8060 7555 7050 6545ChangeStar（我们的）60手术后对比研究灾害具有多种空间分辨率，而SpaceNet2的图像具有0.3米的固定空间分辨率。40163248648096112数量的通道55163248648096112数量的通道4.3. 消融研究为了深入研究所提出的方法，我们使用基于FarSeg（b）频道图 6 ： LEVIR-CD 上的对象更改检测结果，均使用ChangeMixin模块的不同超参数设置706050403020C10012 3 4 5 6 7层数阿尔西翁. Compst-ClsPours）焦油挂S阿尔西翁. Compst-ClsPours）焦油angeSChIoU（%）IoU（%）F1（%）15199∼表2：LEVIR-CD上的对象变化检测结果，均用于了解每个组件的贡献。方法明星语义支持时间对称IoU（%）F1（%）(a)PCCC55.0971.04(b)基线C61.8576.43(c)基线（含语义支持）CC62.4276.86(d)基线和颞叶对称CC64.1078.12(e)ChangeStarCCC65.7179.31语义监督的重要性。语义监督不仅使ChangeStar能够分割对象，而且还可以促进对象变化表示学习。表2（b）/（c）和（d）/（e）示出了语义监督的引入对于对象变化检测是积极的。定量地，语义监督将基线提高了0.57%IoU和0.43%F1，并且将具有时间对称性的基线提高了1.61%IoU和1.19%F1。这表明语义监督所提供的语义表征有利于对象变化表征的学习，具有时间对称性的对象变化表征更强。时间对称的重要性。时间对称性作为二进制对象变化的数学性质，可以提供先验作为正则化以学习更鲁棒的对象变化表示。表2（a）/（d）和（c）/（e）显示使用时间对称性给出2.25%的IoU和1.69%的F表4：双时态监督基准。所有方法都在LEVIR-CD训练上训练，并在LEVIR-CD测试上进行评价，以进行公平比较。方法骨干IoU（%）F1（%）FCN + BAM [3]FCN + PAM [3]ResNet-18ResNet-18--85.787.3ChangeStar（PSPNet + ChangeMixin）ResNet-1878.0887.69ChangeStar（DeepLab v3 + ChangeMixin）ResNet-1877.9587.61ChangeStar（DeepLab v3+ +ChangeMixin）ResNet-1881.3289.70ChangeStar（语义FPN + ChangeMixin）ResNet-1882.5190.41ChangeStar（FarSeg + ChangeMixin）ResNet-1882.3190.29ChangeStar（FarSeg + ChangeMixin）ResNet-5083.1990.82ChangeStar（FarSeg + ChangeMixin）ResNeXt-101 32x4d83.9291.25表5：双时间监督与单时间监督。在LEVIR-CD测试上评价所有方法以进行一致性比较。1增益超过基线，并且在具有语义监督的情况下给出超过基线的3.29%的IoU和2.45%的F1这表明在STAR的二进制目标变化检测中，保证时间对称性是非常重要的我们还可以发现，时间对称性使得它更好地学习对象的变化表示从语义表示。标签分配。在这里，我们讨论了不同的标签分配策略对准确性的影响。表3呈现了使用或实现43.84% IoU，而使用异或实现65.71% IoU。这是因为这些阴性样品（即重叠区域）是必要的，以使模型学习抑制在从T1到T2的时间段内没有改变的对象上发生的假阳性，这可以通过XOR来满足。但是，或操作错误地分配了它们的标签。表3：不同标记分配策略的准确度。方法IoU（%）F1（%）或43.8460.96XOR65.7179.31ChangeStar使用Bitemporal Sup. ChangeStar是一个以STAR为故障驱动的对象变化检测体系结构，但它也可以由双时态监督驱动。我们对ChangeStar的许多变体进行了基准测试，结果如表4所示。我们可以找到那个阿鲁斯·康沃-基于解决方案的ChangeStars（PSPNet，DeepLab v3）实现了与基于时空注意力的方法（FCN + BAM和FCN+ PAM）兼容的结果。当引入编码器-解码器架构时，ChangeStars（DeepLab v3+，语义FPN，FarSeg）实现了更好的性能。当进一步引入FPN系列解码器时，ChangeStars（语义FPN，FarSeg）优于其他变体。因此，我们得出结论，编码器-解码器和FPN架构对对象变化检测更友好，这可能归因于多尺度问题[30]。此外，更深的骨干网络带来了更多的准确性增益，这与其他视觉任务达成了一致[22，13，12，25]。这些结果表明，ChangeStar是一个简单而有效的对象变化检测架构。双颞支持与单时间支持单时监控属于弱监控，用于对象变化检测.为了研究双时态监督和单时态监督之间的差距，我们进行了全面的实验，以分析它们的性能差异。结果如表5所示。我们观察到PCC和双时态监督方法之间存在16 - 19%的F1差距我们的STAR可以显着的桥梁差距在10%以内时，使用一个大的骨干。可以看出，随着骨干网的深入，性能差距不断缩小。方法骨干训练数据IoU（%）F1（%）F1 差距（%）双时监督ChangeStar（FarSeg +ChangeMixin）ResNet-18LEVIR-CD列车82.3190.29-ChangeStar（FarSeg +ChangeMixin）ResNet-50LEVIR-CD列车83.1990.82-ChangeStar（FarSeg +ChangeMixin）ResNeXt-101 32x4dLEVIR-CD列车83.9291.25-单时态监督PCC（FarSeg）ResNet-18xView2灾前56.6572.32-17.97PCC（FarSeg）ResNet-50xView2灾前55.8971.71-19.11PCC（FarSeg）ResNeXt-101 32x4dxView2灾前59.5474.64-16.61ChangeStar（FarSeg +ResNet-18xView2灾前63.2577.49-12.0815200文辞预言;预测语义比较输出变更前IoU（%）F1（%）40(a) t1图像（b）t2图像（c）地面实况（d）双时间补充。（e）PCC（f）STAR图7：带有双时态监督的ChangeStar、 PCC和带有STAR的ChangeStar的错误分析基本分割模型是带有ResNeXt-10132 x4 d的FarSeg。渲染的颜色表示真阳性（TP）、假阳性（FP）和假阴性（FN）。误差分析比较图7（e）图。 7（d）和7080(f)结果表明，PCC的误差主要集中在假50 ~60由于各种物体外观和物体geo-4050公制偏移这是因为PCC只依赖于se-20智能预测比较。为了缓解这个问题，双时态监督直接学习如何比较100 20 40 60 80 100时代20100 20 40 60 80 100时代从成对标记的数据，而STAR学习如何从未配对的标记的数据进行比较。根据图7（d）/（f），STAR部分地受到由于完全不存在实际阴性样本而导致的假阳性的影响，例如：同一个物体在不同的时间尽管如此，STAR仍然可以学习到有用的对象变化表示，成功地识别出许多不可见的负例。明星真的有用吗？ChangeStar可以同时输出双时态语义预测和变化预测。通过地震预报比较，也可以得到变化预报.因此，我们展示了它们的学习曲线，以探索它们之间的关系，如图所示。8.我们发现语义表示学习比ChangeStar中的对象变化表示学习具有更快的收敛速度。在训练的早期阶段（（0，40]epoch），语义预测比较优于变化预测。这表明学习语义表示比学习对象变化表示更容易。在中间阶段（（40，60]时期），变化预测实现与语义预测比较类似的性能模型收敛后，变化预测的性能明显优于语义预测.这一观察表明，STAR可以带来额外的对比信息，以协助对象变化表示学习，而不仅仅是受益于语义监督。图8：LEVIR-CD上的IoU（%）和Fl（%）的学习曲线，全部使用来自ChangeStar和FarSeg的多任务输出多任务输出包括ChangeMixin的变化掩码和FarSeg的语义掩码5. 结论在这项工作中，我们提出了单时间监督学习（STAR），以绕过传统的双时间监督学习中收集成对标记图像的问题。STAR提供了一个新的视角，利用对象的变化，在任意图像对的监督信号。为了证明STAR的有效性，我们设计了一个简单而有效的多任务架构，称为ChangeStar，用于联合语义分割和对象变化检测，它可以通过进一步提出的ChangeMixin模块重用任何深度语义分割架构。广泛的实验分析表明，它的竞争力的表现，在不同的领域与廉价的标签。我们希望STAR将作为一个坚实的基线，并有助于减轻未来的研究在弱监督对象变化检测。鸣谢：这项工作得到了中国国家重点研究与发展计划的部分支持，项目号：2017YFB0504202，部分由中国国家自然科学基金资助，41771385和41801267，以及部分由中国博士后科学基金在批准号41771385下资助。2017M622522。文辞预言;预测孔帕里索变更前语义输出6030703015201引用[1] 乔巴·贝内德克和塔玛的儿子。用多层条件混合马尔可夫模型检测光学航空图像中的变化IEEE Transactions onGeoscience and Remote Sens- ing ， 47 （ 10 ）： 3416-3430，2009. 2[2] Nicolas Bourdis Denis Marraud和Hichem Sahbi用于空间图像变化检测的约束光流法。2011年IEEE国际地球科学与遥感研讨会，第4176-4179页。IEEE，2011年。2[3] 陈昊和石振伟。基于时空注意力的遥感图像变化检测方法及新数据集。遥感，12（10）：1662，2020. 二、五、七[4] Hongruixuan Chen ， Chen Wu ， Bo Du ， LiangpeiZhang，and Le Wang.基于深度连体卷积多层递归神经网络的多分辨率vhr图像变化检测。IEEE Transactionson Geoscience and Remote Sensing ， 58 （ 4 ）： 2848-2864，2019。2[5] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017. 6[6] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在欧洲计算机视觉会议（ECCV）的会议记录中，第801-818页，2018年。6[7] Rodrigo Caye Daudt，Bertr Le Saux，Alexandre Boulch.用于变化检测的全卷积连体网络。2018年第25届IEEE图像处理国际会议（ICIP），第4063-4067页。IEEE，2018年。2[8] Rodrigo Caye Daudt ， Bertr Le Saux ， AlexandreBoulch，and Yann Gousseau.使用卷积神经网络进行多光谱地球观测的城市变化检测。在IGARSS 2018-2018IEEE国际地球科学和遥感研讨会上，第2115-2118页。IEEE，2018年。一、二[9] Rodrigo Caye Daudt 、 Bertrand Le Saux 、 AlexandreBoulch和Yann Gousseau。用于大规模语义变化检测的多任务学习。计算机视觉与图像理解，187：102783，2019。2[10] Aito Fujita、Ken Sakurada、Tomoyuki Imaizumi、RihoIto、Shuhei Hikosaka和Ryosuke Nakamura。基于卷积神经网络的航空图像损伤检测2017年第十五届IAPR机器视觉应用国际会议（MVA），第5-8页。IEEE，2017年。2[11] Ritwik Gupta，Richard Hosfelt，Sandra Sajeev ，NiravPatel，Bryce Goodman，Jigar Doshi，Eric Heim，HowieChoset和Matthew Gaston。xbd：用于从卫星图像评估建筑物损坏的数据集arXiv预印本arXiv：1911.09296，2019。一、二、五[12] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页7[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。进行中-IEEE计算机视觉和模式识别会议的论文集，第770-778页，2016年。7[14] Masroor Hussain，Dongmei Chen，Ang

下载后可阅读完整内容，剩余1页未读，立即下载