领域自适应语义分割中的对抗性学习方法与SIBAN网络结构的应用

126 浏览量更新于2023-10-12 收藏 1.14MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

6778源目标→→领域自适应语义分割吕亚伟1，2，刘平2，陶冠1，4，于俊卿1，5*，杨毅2，31华中科技大学计算机科学技术学院2悉尼科技大学ReLER3百度研究4Farsee2 Tech.有限5华中科技大学网络与计算中心摘要在无监督的领域自适应问题中，通过对抗性学习在潜在特征空间中对齐两个领域的策略在图像分类中取得了很大的进展在这项工作中，我们为对抗网络配备了新的网络结构，称为SIBAN，使重要性意识的功能纯化之前，基线：SIBAN：任务无关因素任务相关语义分类器对抗性特征对齐对抗性适应，这简化了特征对齐并稳定了对抗性训练过程。在两个域适应任务中，即，GTA5 Cityscapes和SYNTHIA Cityscapes，我们验证了所提出的方法可以产生领先的结果相比，其他特征空间的替代品。此外，SIBAN甚至可以匹配最先进的输出空间方法的分割精度，而后者通常被认为是更好的选择域自适应分割任务。1. 介绍语义分割的目的是为每个图像像素分配一个类别标签。最近采用的卷积神经网络（CNN）为这项任务提供了各种性能最佳的方法[26，6，31]，但这一成就是以昂贵的人力劳动获得的大量密集像素级注释为代价的。另一种选择是诉诸模拟数据，例如计算机生成的场景[37，38，29]，它可以提供无限数量的标签。然而，用模拟图像训练的模型，无论它们在模拟环境中表现得多么完美，都无法实现相同甚至相似的性能。*通讯作者（yjqing@hust.edu.cn）。这项工作是在罗亚伟（royalvane@hust.edu.cn）作为悉尼科技大学的访问生时完成的杨毅（yee.i. gmail.com）在他的专业体验计划期间访问百度研究院时完成了部分工作图1：基线方法和SIBAN的比较。基线方法直接对齐潜在特征。由于粗糙特征包含各种与任务无关的因素，这些特征容易在两个域之间被错误地对齐SIBAN通过在对抗性特征自适应之前采用信息瓶颈来解决这个问题。信息瓶颈过滤掉讨厌的因素，保持纯粹的语义信息。由于这两个域在语义层面上基本上重叠，因此这种纯化的特征可以促进以下对齐并稳定对抗训练过程。在真实图像上的表现令人满意。这种性能下降背后的原因在于两个域的不同数据分布，通常称为域移位[43]。域自适应（DA）方法[41，49，15，53，54，52]被提出来弥合源域和目标域之间的差距。这些方法倾向于将潜在特征空间中的两个域对齐，以便在源数据上训练的分类器也可以应用于目标样本。尽管在图像级任务上取得了巨大成功[27，50，34，11，23，28，33]，但将潜在空间自适应应用于语义分割并不是微不足道的。原因可归纳为两个方面。一方面，用于语义分割的潜在空间自适应可能会受到高维特征的复杂性的影响，这些特征编码��， ≤��信息瓶颈对抗性特征对齐6779→→各种视觉提示：外观、形状和背景等。一些与任务无关的干扰因素可能容易参与编码表示并误导域对齐。另一方面，在该领域流行的对抗性领域适应框架[12]中，来自与任务无关的因素的冗余信息过多的线索导致鉴别器在错误的时间产生“不必要的”高准确率，并产生无信息的梯度。不幸的是，所有这些都会使对抗训练过程变得不稳定，正如[31，19，35]中所指出的那样。由于特征空间自适应的困难，目前的趋势转向探索其他空间中的DA可能性，包括像素（输入）空间和分割（输出）空间。像素空间自适应的共同想法是迫使输入图像看起来像来自相同域，从而减少从源流的域移位。而分割空间方法是基于这样的观察，即分割结果通常在空间布局和局部背景上具有显著的相似性目前，这两条线的工作已经产生了领先的结果，语义分割任务，而特征空间适应似乎黯然失色在他们面前[37]第37话以Cityscapes [10]为例，特征空间和输出空间自适应方法之间的分割精度存在很大差异： 29. 2%对 34.8%[15]VGG-16 [26]，31. 7%对37。0%[15] DRN-26 [51]，以及39岁3%对41。4%[49]在ResNet-101 [14]上分别。性能差距如此之大，以至于它是合理的先前的方法选择输出空间自适应作为它们的第一选择。现在出现了一个问题：特征空间适应对于语义分割任务真的不可行吗？本文给出了否定的答案。如前所述，特征空间自适应的障碍在于：1）难以在两个域之间对齐复杂的潜在表示; 2）由于网络的过度准确性，难以稳定地训练对抗网络因此，我们提出了重要性感知的信息瓶颈对抗网络（SIBAN），它克服了上述两个障碍。我们的方法受到信息瓶颈（IB）理论的启发[48]，其中学习的潜在表示Z需要与地面真实标签Y进行一致的预测，同时包含给定输入X的最小互信息I（X，Z）。在我们的框架中，信息瓶颈被用来压缩复杂的潜在表示，以促进特征对齐和对抗训练。一方面，通过对互信息I（X，Z）强制约束，我们鼓励特征提取器过滤掉那些与任务无关的讨厌因素，同时只保留任务相关因素。在我们的语义分割任务中，任务相关因素对应于纯语义信息。由于在我们模拟的真实环境中，这两个域在视觉层面上变化很大，但在语义层面上重叠，因此这种纯语义信息通常是域不变的。另一方面，在基于对抗性学习的适应框架中，利用信息瓶颈可以防止D受到与任务无关的因素引入的干扰，这对于香草生成器G来说是难以抑制的。事实上，我们提出的网络有效地调节了D此外，为了处理由不同类别之间的不平衡像素数量引入的长尾数据分布问题[47]，我们提出了一个新的层，称为“重要性感知层”。通过将这一层引入IB模块，我们的框架考虑了每个语义特征的通道意义我们称这个新设计的模块为Significance-aware InformationBot，tleneck（SIB），整个框架作为重要性感知信息瓶颈对抗网络（SIBAN）。总的来说，我们的贡献概述如下。• 本文提出了一种用于特征空间域自适应语义分割的重要性感知信息瓶颈对抗网络（SIBAN），它结合了信息瓶颈理论和对抗学习框架各自的优点。据我们所知，这是第一次成功地利用信息瓶颈策略来完成这项具有挑战性的密集标签任务。• 我们提出了一个重要性感知IB（SIB）模块，并将其集成到我们的框架中。通过利用这个模块，我们的框架能够平衡不同类之间的信息约束，以保持数据集中罕见的类的最终性能• 我们从理论上和实验上证明了我们的方法的有效性，它实现了领先的适应结果在特征空间，并表现出与国家的最先进的输入/输出空间的适应。2. 相关工作2.1. 领域自适应语义分割Ben-David等人 [2]已证明适应损失由三项限制，例如，、源域上的期望损失、域发散以及理想联合假设在源域和目标域上的共享误差。因为第一项对应于充分研究的监督学习问题，而第三项被认为是6780×t s st- -◦◦···我我我我我我我不ET（KL[F（z|x）||r（z）]）≤ I.关于我们LL最近的大部分作品都强调第二个任期。本着这种精神，一些方法关注潜在特征空间中的分布偏移[46，16，25，20，50，42，17]。然而，大多数这样的方法只能实现分类任务，而不能分割。除了少数例外，Hoffman等人。 [16]采用对抗网络来对齐域之间的特征表示，并将类别统计约束附加到对抗模型中。除了特征空间DA之外，一些方法还解决了像素空间[24，4]中的问题，这与风格转移方法[56，9]有关，以使图像在域之间无法区分。在[15]中研究了像素和特征空间域自适应对于分割任务，还发现对齐分割空间是更有效的DA策略[49，7]。除了基于对抗训练的DA方法[15，49，24]之外，语义分割的其他工作线借用了自训练[39]或协同训练[55]的想法。基于自训练的DA [40，57]尝试为目标图像分配伪标签而基于协同训练的DA [41，30]旨在通过最大化多个分类器的共识来检测域不变特征。2.2. 信息瓶颈信息瓶颈[48]（IB）倾向于对编码器学习的潜在表示Z和原始输入X之间的互信息I（X，Z）强制上界。如[48]中所指出的，对于监督学习任务，IB鼓励Z预测标签Y，同时推动Z这相当于联合概率P（X，Z）和边际P（X）P（Z）与特定瓶颈值Ic的乘积之间的Kullback Leibler（KL）发散的上界。虽然信息瓶颈原理很有吸引力，但它的缺点是互信息计算在计算上具有挑战性[45]，这在CNN的上下文中特别难以实例化。受变分自编码器（VAE）[22]中类似方法的启发，最近的方法[1，35]通过利用变分边界和重新参数化技巧在实际深度模型中实现了IB。本文遵循这样的策略，实例化的IB在对抗性学习为基础的领域适应的背景下3. 方法3.1. 问题设置和总体思路我们专注于语义分割中的无监督域自适应（UDA）问题，我们可以访问到标记的源数据集{xs，ys}和未标记的目标数据集{x}。我们的目标是学习一个模型G通过以下信息正确地预测目标数据x的像素级标签x，y和x。为了便于讨论，我们将G分为特征提取器F和分类器C，其中G =CF。因此，我们将潜在表示z表示为z = F（x），并将最终分割预测表示为y=CF（x）。传统的特征级适配[16，15，49]考虑在处理上面讨论的问题的两个方面。首先，这些方法训练模型G，通过最小化源域中的任务损失来从标记数据中提取知识，这被形式化为监督问题：Lseg（F，C）=Ex，y <$p（xS，yS）[<$p（C<$F（x），y）]，（1）其中，E[ ]表示统计期望，并且是适当的损失函数，例如多类交叉熵。其次，在训练过程中，这些特征级自适应方法也使G中的子模块F，来学习领域不变特征。理想情况下，域不变特征应该混淆旨在区分源域和目标域之间提取的特征的域识别器这是通过最大限度地减少对抗性损失：Ladv（F，D）=−Exp（xS）[log（D（F（x）]-Exp（xT）[log（1 − D（F（x）]。然而，如上所述，在以前的特征空间对抗学习方法中存在明显的限制[16，15，49]：没有明确的约束来防止网络将与任务无关的干扰因素编码到潜在特征中，这使得适应困难，对抗训练不稳定。为了解决这个问题，我们建议从粗特征中提取任务相关部分3.2. 信息约束的领域自适应我们网络的管道如图所示。在图2中，我们利用一个简单的特征空间对抗网络作为骨干。为了净化编码的潜在表示，我们采用对潜在空间的信息约束，鼓励F仅将任务相关的语义特征编码到表示中。基于最近开发的用于深度学习的信息理论[1，35]，我们通过将变分信息瓶颈应用到特征提取器F中来实现这样的约束，该特征提取器F分别在源域和目标域之间共享。在这种情况下，我们得到以下目标函数：F，C，D=arg min maxseg（F，C）+λadv（F，D）F、CDS.T.Exp（xS）（KL[F（z|x）||r（z）]）≤Ic，xp（x）c（三）（二）6781共享对抗性损失目标图像SMCLCLCLIB信息约束损失分类器特征提取器鉴别器分类器N|L←LICICIC不ICLL特征向量重要性向量卷积层重要性感知模块信息瓶颈培训流失逐元素乘积源图像地面实况标签地图特征提取器分割损失图2：拟议的SIBAN的网络架构。其中r（z）表示z的先验边缘分布，本文将其建模为标准高斯（0;I）。变分IB的直观含义是清楚的：F（z x）和r（z）之间的KL-分歧越大，x和z之间的依赖性越强，表明z编码来自x的更多信息，在这种情况下，其中一些信息可能与任务无关，因此对适应有害因此，通过将KL-散度强制到阈值Ic并最小化任务损失，我们可以显式地去除当编码信息超过瓶颈时进行特征纯化，反之亦然，以对互信息实施特定约束具体地说，我们训练网络以minimax整体损失Overall（F，C，D）通过在优化F、C、D、βS和βT之间交替，直到损耗收敛。C，Farg min总体（F、C、D）C、FD←arg maxL总体（ F，C，D）来自z的任务无关因素。我们可以等效地优化Eq。3通过引入两个拉格朗日乘数：源域的β S≥0，目标域的β T≥0：F，C，D= arg min maxLseg（ F，C）+ λLadv（ F，D）+DβS←max（0，βS+αLS）βT←max（0，βT+αLT），其中α表示用于更新βS/βT的步长。3.3. 重要性感知信息瓶颈（六）F、CDβ S（ExS）（KL[F（z|x）||r（z）]）− I c）+β（Exp（xT）（KL[F（z|x）||r（z）]）−I c）.（四）为了简化公式，我们定义了等式的最后两4分别作为源域和目标域的信息约束损失S和T。因此，总训练损失可以重写为：我们的重要性感知信息瓶颈（SIB）的出发点是观察到这些不频繁类的分割本文从两个方面分析了其原因一方面，对于不频繁的类，监督不足以支持网络在瓶颈的约束下学习一个好的表示。另一方面，从信息熵的角度来看，一个不频繁的样本的实际编码将跨越更多的通道的特征向量。由于KL-散度是通过求和来计算的，L总体（F，C，D）= Lseg（F，C）+λ Ladv（F，D）+ λ L adv（F，D）βSLS（ F）+ βTLT（ F）。（五）信道方面的损失，来自那些不频繁类别的特征通常受到更强大的约束。IC IC与使用固定β的传统信息瓶颈方法[5，1，13]不同，我们遵循[35]的建议，通过双梯度下降自适应更新βS/β T。背后的动机是直观的：应该给予更多的偏见，在语义分割任务中，由于场景中的类占用高度不平衡，并且潜在特征通常是高维的，因此问题是严重的拟议的SIB旨在通过纳入重要性感知机制来解决该限制。6782我我××× ××V- VH STS⊙ΣS THS T我NΣΣΣ我我我我IB：、≤.SIB：wisesignificance vector V sig。对于每个像素级特征。然后是V sig。与z S一起被送入IB以计算p（z S）和1x1xC[-. ⨀，]≤Z我N（0;I），这被称为Fi-最后，我们将z S乘以V sig。产生z S，我签名1x1xC1x1xC表示xS的最终表示。一方面，zS我签名图3：重要性感知信息瓶颈（SIB）。被转发到C，以在监督地面实况标签yS。另一方面，在一项研究中，我们使用一个重要性感知模块来检测通道-Ssig 被输入到D以生成对抗性损失。明智的意义Vsig。对于每个像素级特征，给定一个目标域图像xT，我们也将其转发给F其中原始信息约束损失自适应地为iT加权不同大小的红色箭头表示SIB根据其重要性对每个通道进行不同的压缩，而标准IB对每个通道进行同等压缩。图3详细描述了我们提出的SIB模块。首先，我们检测通道方向的显著性向量sig。隐藏的特征由于我们在SIB中采用了11个内核大小的卷积层，因此在这里，我们使用了w内的11个C形特征向量。HC形特征图用于说明。然后通过乘以1对信息约束进行自适应加权sig. .以源域特征为例，重要性感知的IB损失可以如下获得：通过SIB并获得纯化的潜在表示zsig。与源数据不同，由于我们无法访问对于目标标注，我们只使用对抗损失和信息约束损失来训练网络。3.5.理论见解在本节中，我们展示了我们的方法与Ben-David等人[2]提出的域自适应理论之间的关系。定理让假设类，和注意到两个不同的域，我们通过如下三个项使理论对目标样本上的预期误差T（h）有Lic=Exp（x S）[（1−Vsig.）KL[F（z|x）||r（z）] −Ic）]，n∈ H，n∈T（h）≤110 -12-20002S，T）+λ，（8）其中，表示通道方向乘积。直觉是，更重要的渠道应该得到更少的一致性，哪里....紧张1这样的SIB可以自适应地减少约束dH（，），2 sup.PRh∈Hx<$Sh（x）= 1PRxTh（x）=1。、对重要渠道的影响，从而防止关键信息被淘汰。实验结果λ，min[λS（h）+T（h）]结果表明，所提出的SIB在分割任务方面比标准IB有了显着的改进，特别是对于那些不常见的类。3.4. 网络架构我们的网络架构如图所示。二、它由一个发生器G和一个鉴别器D组成。G可以是任何基于FCN的分割网络[44，26，6]，它进一步分为特征提取器F和分类器C。我们将SIB附加在F的最后一个卷积层的输出上。D是一个基于CNN的二进制分类器，具有全卷积输出[12]，它试图区分潜在特征是来自源域还是目标域。给定源域图像和注释（xS，yS），F用于提取潜在表示zS，SIB应用于zS以进行重要性感知特征纯化。具体地说，我们首先将zS转发到重要性感知模块以产生通道-这里，dfs（h）是源样本上的预期误差，其可以以完全监督的方式容易地最小化。假设集λ是共同预期损失，预计将是微不足道的。Ben-David等人[2]证明的这一定理强调了减小自适应问题的域差异的重要性，并形成了本文的理论基础。推论。信息瓶颈试图优化dH（S，T）的上界。证据作为距离度量，dH（.，. 满足以下三角不等式：dH（S，T）≤dH（S，r（z））+dH（T，r（z）），（9）其中r（Z）k（0，I），k是Z的维数。回想一下，变分IB（见等式（4）执行dis-1值得注意的是，我们没有将信息约束损失反向传播到重要性感知层。因此，Vsig。只接受训练，以尽量减少任务损失，不受IB。通过纯化对潜在特征进行分析以近似多元正态分布：S →Nk（0，I）和T →Nk（0，I），因此迫使等式的最后两项9SigmoidReLUConv.z（七）−6783S T→→表1：从GTA5 [37]到Cityscapes [10]的适应我们提出的结果在每类IoU和平均IoU。 “VGG-16”IBAN表示配备标准IB的基线网络。增益表示与仅使用源相比的mIoU改进。GTA5→城市景观表2：从辛西娅[38]到城市景观[10]的适应表设置与表1相同。SYNTHIA→城市景观源仅-6.417.729.70.07.230.366.851.11.547.33.90.10.020.2-AdaptSeg（seg.（仅限）[49]S78.929.275.50.14.872.676.743.48.871.116.03.68.437.617.4源仅--166.417.729.70.07.230.366.851.11.547.33.90.10.020.2-FCNs in the Wild（feat. [16]FG11.518.333.30.011.243.670.545.51.345.14.60.10.522.01.8Cross-city（feat.（仅限）[15]FG56.524.078.91.15.977.877.335.85.461.75.20.98.433.813.6Baseline（feat.（仅限）[49]FV63.117.976.34.78.468.379.938.78.564.79.70.66.034.414.2IBAN（我们的）F70.019.178.71.44.573.177.042.22.672.514.00.83.935.415.2SIBAN（Ours）F70.125.780.93.87.272.380.543.35.073.316.01.73.637.217.0源仅-55.623.874.66.112.174.879.055.319.139.623.313.725.038.6-基线（seg.（仅限）[49]S净79.237.278.89.910.578.280.553.519.667.029.521.631.345.97.3源仅Fes55.623.874.66.112.174.879.055.319.139.623.313.725.038.6-Baseline（feat.（仅限）[49]FR62.421.976.311.711.475.380.953.718.559.713.720.624.040.82.2IBAN（我们的）F78.219.780.59.48.977.482.056.39.676.322.817.523.343.24.6SIBAN（Ours）F82.524.079.416.512.779.282.858.318.079.325.317.625.946.37.7接近于零。因此，我们的方法试图优化dH（，）的上界，从而提供更严格的dH（h）上界。证明表明我们的方法在数学上与Ben-David等人的理论是一致的等[2]。4. 实验4.1. 数据集我们评估我们的算法与几个国家的最先进的算法在两个适应任务，例如。、SYN- THIA [38] Cityscapes[10]和GTA5 [37] Cityscapes。Cityscapes是一个包含5，000个街道场景的真实世界数据集，这些场景被分为包含2，975个图像的训练集、包含500个图像的验证集和包含1，525个图像图像.我们使用Cityscapes作为目标域。GTA5包含24，966高分辨率图像，自动标注为19类。该数据集是从现代计算机游戏《侠盗猎车手V》中渲染的，其标签与Cityscapes 完全兼容。 SYNTHIA 包含 9400 个与Cityscapes注释类兼容的合成图像。我们使用SYNTHIA或GTA5作为评估的源域。4.2. 实现细节我们使用PyTorch来实现。我们利用1）具有ResNet-101 [14]的DeepLab-v2 [6]框架和2）基于VGG-16的FCN8 [26]作为G的两个相应的主干。我们使用[49]中提出的特征空间对抗DA方法作为基线网络。重要的是-源仅CyCADA（仅像素）[15]AdaptSeg（seg.（仅限）[49]源仅-26.0 14.9 65.15.512.98.96.02.570.02.947.0二十四点五P 83.5 38.3 76.4 20.6 16.5 22.2 26.2 21.9 80.4 28.7 65.7四十九点四S 87.3 29.8 78.6 21.1 18.2 22.5 21.5 11.0 79.7 29.6 71.346.8-FCNs in the Wild（feat. [16] FFeat.（仅限）[15]Baseline（feat. [49]第49话SIBAN（Ours）FFFF26.0 14.9 65.15.512.98.96.0版本70.4 32.4 62.1 14.95.410.9十四点二85.630.7 74.7 14.4 13.0 17.6十三点七2.570.02.947.0二十四点五2.779.2 21.3 64.6四十四点一5.874.6 15.8 69.938.20.04.26.50.04.23.56.54.940.0 12.11.50.0 0.074.6 16.0 26.6 2.0 8.080.1 23.0 26.9 0.0十点六40.0 12.170.48.072.3 16.01.57.35.00.00.00.181.8 23.5 75.2 17.6 12.8 20.3 16.9 10.8 76.4 22.6 71.343.884.0 11.1 80.2 16.4 14.5 21.1 19.07.980.6 27.5 76.043.872.1 20.0 19.51.278.516.9 17.31.70.03.53.69.68.683.413.0 77.820.4 17.5 24.6 22.8 9.681.3 29.6 77.3 42.710.9 76.022.8 17.95.7 14.20.0 17.9-0.034.8十六点九0.335.017.10.0 17.9-0.027.1 9.20.029.2十一点三0.331.7十三点八0.032.1十四点二2.034.2十六点三源仅AdaptSeg（seg.（仅限）[49]源仅Baseline（feat. [49]第49话SIBAN（Ours）-75.8 16.8 77.2 12.5 21.0 25.5 30.1 20.1 81.3 24.6 70.3 53.8 26.4 49.9 17.2 25.9 6.5 25.336.0 36.6S 86.5 25.9 79.8 22.1 20.0 23.6 33.1 21.8 81.8 25.9 75.9 57.3 26.2 76.3 29.8 32.1 7.2 29.5 32.541.44.8法国75.8 16.8 77.2 12.5 21.0 25.5 30.1 20.1 81.3 24.6 70.3 53.8 26.4 49.9 17.2 25.9 6.5 25.336.036.6F 83.7 27.6 75.5 20.3 19.9 27.4 28.3 27.479.0 28.4 70.1 55.1 20.2 72.9 22.5 35.78.320.6 23.0 39.32.7F 88.2 33.7 80.1 23.4 21.8 27.7 27.9 16.3 83.2 三十八点三 76.2 57.5 20.3 81.1 25.9 33.4 1.9 22.4 20.7 40.74.1电话：021- 88888888传真：021 - 88888888空间Arch.ResNet空间VGG-16Arch.路的方面想路buil。的方面想壁buil。围栏极光光签署签署蔬菜蔬菜陆地天空天空pers.pers.骑手骑手车车卡车总线总线电机火车电机自行车自行车MiouMiou增益增益6784与IBSOTADAinFeat. 空间与SIBSOTADA在Seg. 空间鉴别器损失××联系我们最大迭代器−--init→→4541.44039.3}间隙0.60.50.40.321.81.61.41.21三十五点二0.13000.80.60.40.2图4：（a）.根据mIoU调整分割性能。（b）. D的训练损失，当损失收敛到0左右时，实现了完整的平衡对抗过程。五、（c）。A-源域和目标域之间的距离。在SIB中的感知层中，我们采用了一个卷积层，其内核为11，通道数为2048，然后是ReLU和Sigmoid，以生成通道显著性向量。我们使用[1]中提出的IB作为我们的瓶颈模型。对于网络D，我们采用与[36]类似的结构，它由5个卷积层组成，通道数为64，128，256，512，1，内核为4，步长为2。每个卷积层后面是一个由0参数化的Leaky-ReLU [32]。2除了最后一层。在训练过程中，我们使用SGD [3]作为G的优化器，动量为0。9，而使用Adam [21]优化D，β1=0。9，β2=0。九十九。我们将两个优化器的权重衰减设置为5e-4。SGD和Adam的初始学习率设置为2。5个e-4 和1个e-4。这两个学习率都通过一个多项式策略衰减，其中初始学习率乘以（1iter）power，power=0。9 .第九条。我们训练网络总共100k次迭代。我们在训练期间使用512/1，024的作物，并且为了评估，我们将预测图上采样2倍，然后评估mIoU。在我们执行IBAN。实验结果验证了SIB模块在保护不常用类不被删除方面的有效性。在表2中可以观察到类似的结果。一些定性分割的例子可以在图中查看五、对约束的敏感性。我们测试了IBAN / SIBAN在mIoU 方面的 DA 性能，其中在 100 ， 200 ， 300 ，400，500的范围内改变Ic，其中较小的Ic指示对潜在特征的更严格的信息约束。图4a给出了测试结果，其中我们可以看到SIBAN在所有约束情况下都优于IBAN对于SIBAN，合适的Ic选择在200和400之间。一个太小的IC值将消除太多的基本信息，而一个过大的IC会降低SIBAN的基线模型，因为它引入了太多的噪声。我们还可以观察到，IBAN对约束更敏感当使用Ic= 300时，IBAN和SIBAN都显著超过特征空间基线，并且SIBAN甚至可以优于最先进的分割空间DA方法[49]。从结果来看，最好的模型，我们设置超参数βS不init = 1e-5 ，我们可以得出结论，我们提出的SIBAN已经弥合了α= 1e-8 ，λ= 1e-3，Ic= 300。4.3. 比较研究与SOTA相比。我们分别在表1和表2中展示了任务GTA 5 Cityscapes和SYNTHIA Cityscapes的适应结果，并与最先进的特征空间DA方法进行了比较[16，15，49，8]。我们还在表格中呈现了当前最先进的像素空间和分段空间DA在表1中，毫不奇怪，SIBAN显著优于仅源分割方法+16。VGG-16和+6上的3%。ResNet-101上为0%，因为仅源分割方法不考虑域偏移。此外，SIBAN优于最先进的特征空间方法，其将mIOU提高了+2以上。5%与FCN [16]、AdaptSeg [49]和CyCADA [15]一致。与分割和像素空间中的DA方法[49，15]相比在一些不频繁的类中，容易受到信息瓶颈的副作用，例如，“行，行。特征空间和分割之间的性能差距-空间DA方法[49]。训练稳定性。在这里，我们利用D的损失（损失D）作为对抗训练的稳定性的代理。在一个稳定的对抗过程中，G将学会成功地欺骗D，损失D应该收敛到0.5左右。图4b报告了训练过程中的损失D。我们可以看到，当网络在没有IB的情况下训练时，损失D迅速下降，这表明D大大超过了G，并且学会了准确地区分两个域的特征。我们还观察到，在对抗网络中引入IB/SIB可以显著限制D的性能，从而稳定对抗训练。此外，我们发现标准IB的表现优于SIB，这似乎与我们的观点相矛盾。我们将其归因于标准IB消除了功能中的过多信息的原因。虽然使D的训练更稳定，但这种相对较少的信息特征也会损害语义分割任务。相反，我们提出的SIB模块可以实现良好的训练稳定性和出色的分割性能。不含IB和IB和SIB无研究者手册带IB带准确度（mIoU）A-距离=β100 200 300 400 500信息约束（Ic）024步骤681040GTA5城市SYN.城市。（一）（b）第（1）款（c）第（1）款6785→−一一一一一一一→→目标图像基线IBAN SIBAN地面实况图5：GTA5 Cityscapes的UDA细分的定性结果。对于每个目标图像，我们分别显示了基线模型，IBAN和SIBAN的自适应结果，以及地面实况。更多结果见附录。- 距离基于Ben-David等人的理论， [2]，- 距离被用作域离散度的度量-其中，较小的距离可能指示更好的DA性能。一般来说，距离计算为dA=2（12），其中是用二进制分类任务训练的分类器的泛化误差。将源头和目标定为犯罪在对抗训练框架中，我们可以将D作为这样的分类器。比较结果见图10。4c.从这个数字中，我们可以看到，IB/SIB的引入大大减少了- 与基线相比的然而，我们还可以观察到IBAN的距离比SIBAN的距离略小。与我们之前对训练稳定性的分析一致，我们得出结论，IB的差异减少是以丢弃一些必要的信息为代价的。这一发现告诉我们，仅仅减少全局分布差异对于域适应是远远不够的。优越的DA性能，以及SIBAN相对较小的距离领先，表明我们的方法可以在特征纯化和域对齐之间做出更好的权衡4.4. 消融研究为了评估模型各个方面的重要性，我们在ResNet-101主干上对GTA5 Cityscapes任务进行了实验，一次停用一个或几个模块，同时保持其他模块激活。此外，我们测试了SIBAN和其他DA方法[30，18]之间的组合性能，其中作者建议通道意义[ 18 ]或输出[ 30 ]也应该在域之间对齐。我们简单地通过分别在显著性张量和分割图上添加两个额外的鉴别器D来实现这两种表3显示了不同设置下的DA结果。我们观察到，附加SA层可以将标准IB显著提高1。百分之五自适应地更新β S/β T带来额外的0. 4%的改善。当使用两个额外的鉴别器时，表3：ResNet-101上的消融研究。GTA5 →城市景观SA模块-层Ada.β额外DSig. [18]Seg. [30个]Miou√√√√√√√√√√四十7四十二2四十二6四十三2四十五5显著性张量和分割图，目标分割精度将进一步提高0。8%和2。百分之三。消融研究验证了SIB模块以及此外，SIBAN可以方便地与其他DA方法相结合，以产生更好的分割结果的目标图像。5. 结论在本文中，我们提出了一种新的重要性感知信息瓶颈对抗网络（SIBAN），用于领域自适应语义分割。通过在对抗适应之前进行重要性感知特征纯化，SIBAN简化了以下特征对齐并稳定了对抗训练过程，从而显着提高了特征空间适应性能。在两个具有挑战性的模拟真实DA任务，SIBAN产生领先的结果相比，其他特征空间的方法，甚至可以匹配最先进的输出空间方法的分割精度。对于语义分割任务，我们提出的SIBAN将特征/输出空间UDA方法带到了同一起跑线。谢谢。本工作得到国家自然科学基金（ No.61572211）。6786引用[1] Alexander A Alemi 、 Ian Fischer 、 Joshua V Dillon 和Kevin Murphy。深层次的变信息瓶颈。在2017年国际学习表征会议三、四、七[2] Shai Ben-David 、 John Blitzer 、 Koby Crammer 、 AlexKulesza、Fernando Pereira和Jennifer Wortman Vaughan。从不同领域学习的理论。Machine learning，79（1-2）：151-175，2010. 二五六八[3] 我在博图。随机梯度下降的大规模机器学习在COMPSTAT’2010的Proceedings施普林格，2010年。7[4] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。生成对抗网络的无监督像素级域自适应在IEEE计算机视觉和模式识别会议（CVPR），第1卷，第7页，2017年。3[5] Matthew Chalk，Olivier Marre，and Gasper Tkacik.变信息瓶颈下的相关稀疏码. 神经信息处理系统进展，第1957-1965页，2016年。4[6] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834-848，2018。一、五、六[7] 陈玉华、李文、陈晓然和吕克·凡古。从合成数据中学习语义分割：几何学引导的输入-输出自适应方法。arXiv预印本arXiv：1812.05040，2018。3[8] Yi-Hsin Chen，Wei-Yu Chen，Yu-Ting Chen，Bo-ChengTsai，Yu-Chiang Frank Wang，and Min Sun.没有更多的歧视：道路场景分割器的跨城市适应在2017年IEEE国际计算机视觉会议（ICCV）上，2011-2020页IEEE，2017年。7[9] Yunjey Choi，Minje Choi，Munyoung Kim，Jung-WooHa，Sunghun Kim，and Jaegul Choo. Stargan：用于多域图像到图像翻译的统一生成对抗网络。arXiv预印本arXiv：1711.09020，2017。3[10] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在IEEE计算机视觉和模式识别会议集，第3213-3223页，2016年。二、六[11] 风千羽，康国良，樊赫赫，杨毅。吸引或分散注意力：利用开集的边缘。在IEEE国际计算机视觉会议论文集，2019。1[12] 伊恩·古德费洛

下载后可阅读完整内容，剩余1页未读，立即下载