BAPA-Net：跨领域语义分割模型的边界自适应与原型对齐

90 浏览量更新于2023-10-13 收藏 1.79MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8801→→BAPA-Net：跨领域语义分割亚豪刘锦洪邓欣晨高文莉*段立新电子科技大学数据智能课题组{lyhaolive，jhdeng1997，gxc0327，liwenbnu，lxduan} @ gmail.com摘要现有的跨域语义分割方法往往关注整体对象的整体分割结果，而忽略了对象边界的重要性。在这项工作中，我们发现，分割性能可以大大提高，如果我们正确对待对象边界。为此，我们提出了一种名为BAPA-Net的新方法，该方法基于无监督域自适应设置下通过边界自适应和原型对齐的卷积神经网络。具体地说，我们首先通过将对象从源图像粘贴到目标图像来构建附加图像，并且我们开发了一个所谓的边界自适应模块，以根据每个像素到这些粘贴的源对象的最近边界像素的距离来对每个像素进行加权。此外，我们提出了另一个原型对齐模块，以减少域的不匹配，通过最小化之间的距离源和目标域的类原型，其中边界被删除，以避免域混淆，在计算原型。通过结合边界自适应和原型对齐，我们能够训练一个有区别的和领域不变的跨领域语义分割模型。我们在城市场景的基准数据集上进行了广泛的实验（即，GTA5 Cityscapes和SYNTHIA Cityscapes）。和有前途的结果清楚地表明，我们的BAPA-Net方法的有效性超过现有的国家的最先进的跨域语义分割。我们的实施可在https://github.com/manmanjun/BAPA-Net上获得。1. 介绍由于深度卷积神经网络的强大表示能力[26]，它大大提高了计算机视觉任务的性能，包括图像识别[45，21]，对象检测[16，32]，语义分割[33，63，3]等。它们都需要大量的*通讯作者（一）GTUDA（b）第（1）款GTUDA(c)（d）其他事项图1.（a）地面实况注释与（b）样本目标图像的现有无监督域自适应方法[57]的分割结果之间的显然，边界像素的分割结果比内部像素（例如，边缘像素）差。（c）中的骑手的内部和（d）中的植被被完美地预测，而边界像素则不是）。图像和准确的注释来训练高性能模型。与图像识别相比，语义分割更加复杂，其目的是对图像中的每个像素进行分类。因此，收集用于分割的注释是极其昂贵且费力的过程（例如，，Cityscapes每张图像90分钟[7]）。一种自然的替代方案是从模拟平台收集注释良好的合成数据，在模拟平台中，它可以自动渲染各种场景（例如，、晴天、雨天、有雾的街道），成本要低得多。例如，[43]构建了一个从GTA5视频游戏中获得的大规模城市场景数据集。然而，在这样的合成数据上训练的模型将遭受显著的性能下降，因为在8802→→→→源域和目标域。提出了各种无监督域自适应方法，通过对抗性特征学习[22，6，13]，熵最小化[52，53，5]，自适应[22，6，13]，最大限度地消除域差异。培训[65，66，31，11]等。然而，我们观察到，目前的国家的最先进的方法往往集中在整个对象的整体分割结果取图。作为示例，沿着人和树的边界的一些像素被错误地分类。原因是近边界像素和内部对象像素是不同的，因为边界样本的感受野可能包含来自其他类别的像素，使得近边界像素难以分类。这在无监督域自适应（UDA）场景中变得更糟，其中源域和目标域之间存在相当大的分布失配因此，分割性能可以considerably提高，如果我们处理对象边界proper- erly。为了实现这一点，我们提出了一种新的方法，称为边界自适应和原型对齐网络（BAPA-Net）。具体来说，我们首先通过将源图像中的对象粘贴到目标图像来构造附加图像，然后开发一个所谓的边界自适应模块，根据像素的距离对每个像素进行加权到那些粘贴的源对象的最近边界像素。此外，我们提出了另一个原型对齐模块，以减少域的不匹配，最大限度地减少源和目标域的类原型之间的距离，其中边界被删除，以避免在原型计算过程中的主要混乱。通过整合边界自适应和原型对齐，我们能够训练一个有区别的和域不变的模型，用于跨域语义分割。在GTA5 Cityscapes和SYNTHIA Cityscapes的测试中，本文提出的方法的性能明显优于现有的方法，验证了BAPA网络的有效性。我们工作的主要贡献可归纳如下：• 我们揭示了一个关键的发现，现有的跨域语义分割方法忽略了对象边界的重要性。因此，我们提出了一种新的方法，称为边界自适应和原型类型对齐（BAPA-Net），以最大限度地利用边界• 我们开发了一个所谓的边界自适应模块来衡量边界周围的每个像素和一个新的原型对齐模块，以建立更可靠的原型，通过删除域混淆的边界，使域之间的不匹配源和目标域可以有效地减少。• 我们对城市场景的基准设置进行了广泛的实验（即GTA5 Cityscapes和SYNTHIA Cityscapes），实验结果表明了该方法的有效性2. 相关工作无监督域自适应。传统的机器学习算法依赖于训练和测试数据来自相同分布的假设。然而，这种假设通常在实践中并不成立无监督域自适应方法[1，23]通过消除源域和目标域之间的域差异来解决这个问题。许多复杂的工作试图最小化最大平均离散度[20，36，34]、KL-离散度[47]、最佳传输距离[8，9]等。最近的方法旨在通过对抗训练来提高深度神经网络的局部适应性[35，62]。其他方法包括子空间对齐[17]、测地线流核[18]、转移多核学习[14]等。语义分割作为一种像素级的预测任务，语义分割为医疗诊断、自动驾驶、安全等许多视觉应用注入了活力。在 2014 年， Long [33] 提出了全卷积网络（FCN），它用全卷积层取代全连接层随着扩张卷积[12]的发展，Deeplab [3，4]和PSPNet [63]提出通过多尺度特征融合来捕获图像的更多上下文信息。近年来，研究界对基于上下文的注意机制的构建和计算效率的研究比较关注，如RANet [56]、EMANet [29]。此外，类别边界的细粒度分割[2，28]已经成为当前语义分割任务中最具挑战性的困难之一。在这项工作中，我们利用DeepLab V2 [3]和ResNet101 [21]作为语义分割的基线跨领域语义分割。由于用于语义分割的注释是昂贵的并且不容易通过人工获得，如何使用在模拟图像上训练的模型在真实场景中获得良好的性能逐渐成为研究热点。解决域移位问题，风格转移[15，19，42]已被用于对齐输入层上的域分布（即，像素空间）。此外，GAN [50，38，37，13，6，54，25]相关工作已分别用于对齐特征空间和输出空间上的域分布。[19]提出了一种渐进式自适应方法，通过控制源域到目标域的风格转换程度来缓解域转移。[50]利用鉴别器来区分来自具有不同域输入的分段网络的输出，使得8803ti=1X{|}D {X}C{\displaystyle C}掩模⊙si=1掩模si=1X{|}Y{|}D {X Y}+=XsXtX$图2. CutMix操作的图示。橙色部分是源图像中粘贴的像素。在这项工作中，我们从标记的源图像X s中剪切半类的所有像素，并将它们粘贴到未标记的目标图像Xt，以构建混合图像Xm。模型可以最小化域差异。[39，40]利用目标图像的图像级类别信息构建领域适应问题的课程。此外，一些源于半监督学习的方法也被用来解决这个问题，如熵最小化[52，53]，自监督训练[65，66，31，64，54，58，24，41，27]。最近，[49]利用CutMix数据增强方法来解决跨域语义分割。与以往的研究不同，本文从边界自适应和原型对齐两个方面提出了一个新的视角来解决跨领域的语义切分问题。3. 方法在本节中，我们将详细解释我们提出的BAPA-Net方法。给定一个标记的源域和一个未标记的目标域，我们的目标是学习一个强大的语义分割模型，不仅适用于源域，而且适用于目标域。形式上，让我们将S=s，s表示为源域训练样本，其中s=XiNs，并且s=YiNs ，每Xs是源图像，Ys=1，…C是对应的像素级注释，其中C是类的数量。因此，我们将T=t表示为目标区域，并且t=X iNt，其中每个X t是注释不可用的目标图像。一个好的跨领域语义分割模型应该是区分性和领域不变的。良好的区分性意味着该模型能够区分不同类别的样本，特别是边界样本。模型的域不变能力保证了模型在这两个域上都有很好的表现。为此，我们提出了一个边界自适应和原型对齐网络（BAPA-Net），以增强分割模型的这两种能力。一方面，我们提出了一种边界自适应方法，在该方法中，我们生成额外的边界样本，提高模型的可分辨性。另一方面，我们设计了一种原型适应方法，使类原型cen-特征空间中的两个域的三角形，以便学习域不变特征。在一个模型中同时提高这两种能力并不容易，因为它们往往相互依赖。例如，所生成的边界样本也应当是域不变的。否则，分割模型可能是有偏的。此外，当对齐原型时，由于目标域图像是未标记的，并且只能使用伪标记我们将在下文中介绍BAPA-Net解决这些问题的详细信息整体结构如图1所示。3.第三章。3.1. 边界适应如上所述，正确预测边界样本对于跨域语义分割任务是具有挑战性的。因此，我们建议加强模型然而，在跨域语义分割任务中，只有源域中的图像被注释，而目标域中的图像是完全未标记的。虽然我们能够根据它们的标签在源图像中找到边界样本，但不希望强制模型关注这些样本，因为这将不可避免地使模型偏向源域。为此，我们建议采用最近提出的CutMix方法[60]来生成域混合边界样本。域混合边界样本生成。剪切-混合采用剪切-粘贴数据增强策略用于语义分割。特别是，他们通过随机混合标记图像和未标记图像来扩展每次从标记图像中剪切出一些随机类别的所有像素，粘贴到未标记图像中，并将混合图像添加到训练集中训练分割模型。形式上，给定标记的源图像Xs和未标记的目标图像Xt，让我们将M掩码表示为Xs中随机选择的半类的像素的选择指示符，其中如果位于第h行和第w列的像素属于所选择的类，则M（h，w）= 1，否则M（h，w）= 0。混合图像可以表示为：Xm=M掩码<$Xs+（1 −M掩码）<$Xt，（1）其中是图像的每个颜色通道上的逐点乘法。关于CutMix操作的图示，参见图2。为了将标签分配给混合图像Xm，[49]采用均值教师（MT）[48]模型将伪标签分配给目标图像。特别地，他们将目标图像X t馈送到教师分割模型以获得其伪标签8804LLLXM··.Σ−⊙·HWBMMS1类2类伊什维姆普卢德...C-1级C类普卢德伊什M1类2类...C-1级C类维姆边界适应（BA）原型对准（PA）PA图3.概述我们提出的边界适应和原型对齐网络（BAPA-Net）。源图像和混合图像的数据流分别用绿线和红线表示源图像和混合图像用于在源地面实况和混合伪标签（即，混合伪标签）的监督下优化语义分割损失。，s和m在Eq.（9））。我们的边界自适应模块利用距离图M_d来重新加权混合图像的交叉熵损失（即，，b）。原型对齐模块通过最小化源图像X s和具有边界去除的混合图像X m之间的类原型的距离（即，最小化源图像X s和混合图像Xm之间的类原型的距离）来减少域失配。，Lp）。我们以端到端的方式训练我们的BAPA网络。Yt，则可以使用相同的剪切-粘贴运算符来获得混合图像Xm的标签Ym=Mmask⊙Ys+（1−Mmask）⊙Yt，（2）在获得（Xm，Ym）之后，[49]使用原始源图像和混合图像来训练具有交叉熵损失的语义分割模型。详情请参阅[49]我们采用CutMix的边界适应产生所谓的域混合边界样本。过程如下：我们首先随机粘贴一些源对象到目标图像，并将do-分割损失。具体来说，我们首先计算一个距离图来描述每个像素到其最近的剪切-粘贴边界的距离。让我们将b表示为精确地位于剪切-粘贴边界处的所有像素。给定位于Xm的坐标（h，w）处的像素，表示为X（h，w），其距离图值可以计算为：M（h，w）= mind（X（h，w），x），（3）x∈Xbm其中d（i）是两个像素的坐标的欧几里德距离。然后，边界权重图Mb可以被获得为：粘贴对象的主边界来自不同的域，并且通常来自不同的类。当使用卷积神经网络来提取特征时，接收神经网络可以被称为卷积M= 1Md1[Mbmax（Md）d <λd]，（4）这些像素的场可以覆盖相邻的源和目标对象的部分我们相信这些领域混合特征对于跨领域语义分割是重要的。因此，我们特别注意通过赋予更高的权重来优化那些边界相同的边界。ples在模型训练过程中，逐步将领域混合其中，max（Md）表示Md的最大值，并且1[ ]是指示函数。换句话说，我们只考虑距离小于λd的像素，距离较小的样本将获得更高的权重。因此，我们可以将边界增强损耗Lb计算为：H，WLb=1 ΣM⊙L （X（h，w），Y（h，w）），（5）边界增强损失。利用生成的域混合边界样本，我们准备通过强制分割以聚焦于这些样本来增强模型的可辨别性由于我们将混合图像Xm作为一个整体来馈送以训练模型，因此我们计算权重图Mb以将较高权重分配给图中的边界样本。其中Lce是标准交叉熵损失。3.2. 原型对齐我们采用了域不变的样本，以提高区分度的分割模型。然而，源图像和混合图像仍然可能存在不匹配。边界样本将成为域不变的，并有助于减轻跨域问题。ceD8805D◦DSL←L←←−F{|}M年代我CMS|FC|fs∈FcS我M年代我←1←F ← F←←←D|F|C特征空间。因此，我们建议使用原型比对来减少分布不匹配。我们在最近的原型对准工作中遵循该策略[46，55，57]。特别地，它们使用源和目标域图像计算类原型，然后减少源和目标域的相应类之间的距离。对于未标记的目标域图像，使用由分割模型预测的伪标记来计算目标原型。在我们的场景中，我们使用混合图像作为原型对齐的目标图像的替代品。原因有两个方面。首先，对齐源图像和混合图像的原型能够减少源域和目标域的分布失配。我们意识到，从混合图像计算的原型将不同于从目标图像计算的原型。事实上，它们更像是一种中间域原型。然而，当源图像和混合图像的原型很好地对齐时，它立即意味着源图像和目标图像的原型也对齐了。其次，由于我们已经使用混合图像来增强我们的模型，因此期望在混合图像上做出比目标图像更有信心的预测使用混合图像作为目标图像的替代物也将产生用于对准的高质量原型。然而，混合图像中的边界像素难以被正确地预测。因此，使用所有像素的特征可能将噪声引入原型，这可能损害原型对准。因此，我们建议通过排除边界示例来改进原型对齐。为了获得目标域原型，我们遵循与[57]中相同的策略，除了我们排除可能向目标类原型引入噪声的绑定示例。We由fm，y~m表示为来自混合图像的像素的特征向量和预测标签确保算法1 BAPA-Net框架。输入：源域数据集S，目标域数据集T，CutMix掩码M掩码，学生网络G std=其中Cstd是分割分类器并且E_std是特征提取器、教师网络G_std，其权重通过使用G_std的EMA（指数移动平均）和最大迭代次数N来更新。输出：最终学生模型Gstd1：用MSC0C0预训练的权重初始化G_std的网络参数，并使G_tea的参数与G_std第二章：当N= 0do第三章：Xs，Ys DS4：Xt T5：YtGtea（Xt）第六章：X m，Y m使用等式(1)（二）7：Mb，使用等式(3)（4）计算边界图8：sEstd（Xs），mE标准品（Xm）9：Pc，Pc使用等式（6）（7）计算原型用于目标域和源域10：使用Eq. （九）11：通过反向传播计算并更新G标准的参数12：GteaEMA（Gtea，Gstd）13：N N 1十四： end while十五：返回G标准在训练批次中，让我们分别用fs，y~s，ys表示其特征然后，我们可以将第c个类的正确预测特征的集合定义为c=fsy~s=c且ys=c，则第c个类的原型可以计算为：原型的鲁棒性，我们还需要排除边界示例对象的验证功能集pc=1S ΣfSc-第一类为Fc ={fm|y~m=c且Md>λd}，其中Md是其到边界的距离，用等式（1）计算。(3)，并且λd是用于过滤等式2中的边界示例的阈值。（四）、然后，混合图像的第c类的原型可以计算为：为了对齐两个域的原型，我们遵循[57]来维护源图像的原型库，然后将混合图像的原型与库中的原型对齐。原型库由每个类的固定数量的原型组成，这些原型在每个mini-time更新。pc =1MΣfm.（六）M以先进先出的方式分批。让我们把pc表示为Cmfm∈Fc第i个原型是银行里第c个班级的我们尽量减少每个原型与混合IM之间的1源域的原型可以类似地计算了由于源域的地面真值标签可用，因此我们不排除边界。具体地，我们平均属于正确的一个类的预测区域作为其在训练批中的原型。给定来自源图像类中最接近的原型库，其可以被公式化为：Lp=Σmin¨pc−p ¨。（八）c=1S（七）8806×LLTP+FP+FN××→→∼∼××∼×→→3.3. 整体模型在[49]之后，源图像和混合图像都用于训练基于MT模型的分割网络此外，我们还优化了方程中的边界增强损失。(5)以及方程中的原型对准损失。(8)以提高分割模型的区分能力和域不变能力。我们的BAPA网络的总体目标可以写为：L=Ls+Lm+λbLb+λpLp（9）其中s和m分别是源图像和混合图像的交叉熵损失，并且λb和λp是两个折衷参数。BAPA-Net的实现在算法1中给出。4. 实验4.1. 实验装置按照跨域语义分割的常见实验设置[50，37，38，51，52，61，62，63，64，65，66，67，68，69，66，64]，我们评估我们的方法在两个合成到真实的场景，即GTA5到城市景观和SYNTHIA到城市景观。在两个实验中，Cityscapes被视为目标域，而GTA5和SYNTHIA分别被视为源域• Cityscapes[7]是一个流行的自动驾驶语义分割基准数据集。该数据集标记有19个类。它由训练集中的2，975个图像和验证集中的500个图像组成。我们使用不带标签的训练集作为未标记的目标域，并使用验证集中的500张图像进行评估。• GTA5[43]是一个大规模的合成数据集，由24，966张从名为Grand Theft Auto V（GTA5）的计算机游戏中渲染的图像组成。每个图像的大小为1，912 1，052，在Cityscapes中使用相同的19个类进行注释。• SYNTHIA[44]也是用于语义分割任务的合成数据集它的子集名为SYNTHIA-RAND-CITYSCAPES，包括9,400张照片级逼真的图像，其中有16个与Cityscapes相同的类。评价指标。我们使用Intersection over Union（IoU）作为评估指标。对于每个类，我们通过公式 IoU=TP，其中TP、FP和FN在混淆矩阵中分别被定义为真阳性、假阳性和假阴性像素的数量。此外，我们计算IoUs的平均值（即，mIoU）。实作详细数据。在我们的实验中，我们遵循先前广泛使用的实现协议。作品[52，19，30，31，66，64，59，57，58，54，49，41]，我们-DeepLab-v2 [3]作为我们的基础分割模型，ResNet 101[21] 作为我们的骨干。主干在 ImageNet [10] 和MSCOCO [32]上进行了预训练。具有Nesterov加速的随机梯度下降（SGD）被用作优化器，并且初始学习速率被设置为二、5 10−4，然后使用指数为0.9的多项式衰减来减少[3]。权重衰减和动量设置为510- 4和0.9。我们调整源图像为760 1，280，目标图像为512 1，024，然后我们在源图像和目标图像中提取大小为512 512的随机作物。在计算原型时，我们使用ResNet101中最后一层的输出。批量大小被设置为2，即在迷你批量中有2个源图像和2个目标图像，并且我们在250k次迭代之后获得最终模型。我们根据经验设定λ d= 4，λ b= 4和λ p=0。005我们的实验我们使用PyTorch在Nvidia GeForceRTX 2080Ti上实现了我们的方法。4.2. 与最先进技术的以往的跨领域语义切分方法主要分为三类：1）基于对抗训练的方法，包括AdvEnt [52]，BDL [30]和FADA [54]，2）基于自我训练的方法，包括PyCDA[31]，CRST [66]，R-MRNet [64]，UDADT [57]和IAST[41]，以及3）基于数据增强的方法，包括DLOW[19]，FDA [59]和DACS [49]。表1和表2分别显示了在GTA5 Cityscapes和SYNTHIA Cityscapes设置上，三种方法的语义分割与最新领域自适应方法的比较。所有模型都基于DeepLab V2和ResNet 101作为其主干，除了基于PSPNet [63]的Py-CDA [31]。对于GTA5Cityscapes，我们提出的方法实现了57。4%，其优于现有的最先进的方法，具有5的显著裕度。百分之三十五。1%mIoU。对于来自SYNTHIACityscapes的任务，我们报告了16个类和13个类（不包括“墙”、“栅栏”、“杆”）的mIoU我们的方法提高了性能约3。5% 12. 1%和4。2%13.16个班和13个班分别占2%。我们达到了53。3%，61。2%，均优于基线法的相应结果，且边际较大。这清楚地验证了我们方法的有效性。我们还在图4中呈现了我们的方法的分割结果的定性示例。包括来自“仅源”和原始CutMix（DACS）的结果以用于比较。我们的BAPA-Net和DACS表现出优越的分割结果相比，“源只”基线和我们的BAPA-Net实现了更好的性能比DACS。我们将此归因于BA和PA模块的使用，以改善区分度。8807→→表1. GTA5→ Cityscapes的mIoU（%）ResNet-101被用作骨干网络。方法Miou源63.3 15.7 59.48.615.2 18.3 26.9 15.0 80.5 15.3 73.0 51.0 17.8 59.7 28.2 33.13.523.2 16.732.9高级工程师[52] 89.4 33.1 81.0 26.6 26.8 27.2 33.5 24.7 83.9 36.7 78.8 58.7 30.5 84.8 38.5 44.51.731.6 32.445.5DLOW [19]87.1 33.5 80.5 24.5 13.2 29.8 29.5 26.6 82.6 26.7 81.8 55.9 25.3 78.0 33.5 38.70.022.9 34.542.3BDL [30]91.0 44.7 84.2 34.6 27.6 30.2 36.0 36.0 85.0 43.6 83.0 58.6 31.6 83.3 35.3 49.73.328.8 35.648.5PyCDA [31]90.5 36.3 84.4 32.4 28.7 34.6 36.4 31.5 86.8 37.9 78.5 62.3 21.5 85.6 27.9 34.8 18.0 22.9 49.347.4CRST [66]91.0 55.4 80.0 33.7 21.4 37.3 32.9 24.5 85.0 34.1 80.8 57.7 24.6 84.1 27.8 30.1 26.9 26.0 42.347.1R-MRNet [64]90.4 31.2 85.1 36.9 25.6 37.5 48.8 48.5 85.3 34.8 81.1 64.4 36.8 86.3 34.9 52.21.729.0 44.650.3FDA [59]92.5 53.3 82.4 26.5 27.6 36.4 40.6 38.9 82.3 39.8 78.0 62.6 34.4 84.9 34.1 53.1 16.9 27.7 46.450.5UDADT [57]90.6 44.7 84.8 34.3 28.7 31.6 35.0 37.6 84.7 43.3 85.3 57.0 31.5 83.8 42.6 48.51.930.4 39.049.2LDRDA [58]90.8 41.4 84.7 35.1 27.5 31.2 38.0 32.8 85.6 42.1 84.9 59.6 34.4 85.0 42.8 52.73.430.9 38.149.5FADA [54]92.5 47.5 85.1 37.6 32.8 33.4 33.8 18.4 85.3 37.7 83.5 63.2 39.7 87.5 32.9 47.81.634.9 39.549.2DACS [49]89.9 39.7 87.9 30.7 39.5 38.5 46.4 52.8 88.0 44.0 88.8 67.2 35.8 84.5 45.7 50.20.027.3 34.052.1IAST [41]93.8 57.8 85.1 39.5 26.7 26.2 43.1 34.7 84.9 32.9 88.0 62.6 29.0 87.3 39.2 49.6 23.2 34.7 39.651.5我们94.4 61.0 88.0 26.8 39.9 38.3 46.1 55.3 87.8 46.1 89.4 68.8 40.0 90.2 60.4 59.0 0.00 45.1 54.257.4表2. SYNTHIA Cityscapes的mIoU（%）mIoU* 表示13个类别的平均IoU，不包括标记有 * 的类别。未评估的C类被替换为。ResNet-101被用作骨干网络。方法mIoU* Miou源36.314.668.89.20.224.45.69.169.079.452.511.349.89.511.0 20.733.7 29.5高级工程师[52]85.642.279.78.70.425.95.48.180.484.157.923.873.336.414.2 33.048.0 41.2BDL [30]86.046.780.3---14.1 11.679.281.354.127.973.742.225.7 45.351.4-PyCDA [31]75.530.983.320.80.732.727.3 33.584.785.064.125.485.045.221.2 32.053.3 46.7CRST [66]67.732.273.910.71.637.422.2 31.280.880.560.829.182.825.019.4 45.350.1 43.8R-MRNet [64]87.641.983.114.71.736.231.3 19.981.680.663.021.886.240.723.6 53.154.9 47.9FDA [59]79.335.073.2---19.9 24.061.782.661.431.183.940.838.4 51.152.5-UDADT [57]83.044.080.3---17.1 15.880.581.859.933.170.237.328.5 45.852.1-LDRDA [58]85.144.581.0---16.4 15.280.184.859.431.973.241.032.6 44.753.1-FADA [54]84.540.183.14.80.034.320.1 27.284.884.053.522.685.443.726.8 27.852.5 45.2DACS [49]80.625.181.921.52.937.222.7 24.083.790.867.638.382.938.928.5 47.654.8 48.3IAST [41]81.941.583.317.74.632.330.9 28.883.485.065.530.886.538.233.1 52.757.0 49.8我们91.753.883.922.40.834.930.5 42.886.688.266.034.186.651.329.4 50.561.253.3分割模型的本机和域不变能力。例如，通过使用边界增强损失，我们的BAPA-Net通常比DACS更精确地预测边界（参见第1行和第2行的自行车和汽车预测）。此外，我们的BAPA-Net在区分道路和人行道方面也比DACS做得更好（参见第4行、第5行和第6行），这可能是因为原型类型比对有助于减少域分布失配。4.3. 消融研究在本节中，我们在GTA5 Cityscapes的设置中进行消融实验。不同成分的影响。我们验证了我们的边界适应（BA）和原型对齐（PA）模块的个人效果结果总结于表3中。我们包括原始的CutMix模型作为基础-线进行比较。我们通过移动不同的部件进行消融研究。如表3所示，尽管基线CutMix已经实现了相当有竞争力的性能，我们提出的边界适应和原型对准模块仍然获得了很大的改进，达到56。4%（w/o PA）和55.8%（w/o BA）mIoU。通过集成这两个模块，我们最终的BAPA-Net实现了5的改进。超过基线3%这些大的改进清楚地验证了我们的两个模块在跨域语义分割中起着重要的作用。在PA边界去除的影响。在第3.2节中，我们建议通过排除边界样本的特征来计算更好地反映混合图像的类信息的原型。在这里，我们通过不移除这些边界样本来进行额外的实验以进行比较，即，所有像素特征都用于产生混合图像的原型。一个清晰的对比8808→→→(a) 目标图像（b）地面实况（c）仅源（d）DACS（e）我们的图4. GTA5 Cityscapes领域适应任务的定性分割结果我们提出（a）目标图像，（b）地面实况，（c）仅源，（d）DACS [49]，（e）我们的。表3.不同组分作用的消融研究型号mIoU ∆基线[49] 52.1BAPA-Net w/o BA 55.73.6↑BAPA-Net w/o PA 56.44.3↑BAPA-Net 57.4 5.3↑因此，我们只考虑原型对齐模块，而不使用边界自适应（BA）模块。从表4中，我们观察到，使用边界去除的PA模块不带- out导致性能下降3。比建议的PA模块高1%。这清楚地验证了我们的动机，即边界样本可能会误导混合图像中的原型计算。5. 结论在本文中，我们解决的问题，跨域的语义分割。我们揭示了一个关键的发现，以前的作品往往忽略了对象边界的重要性，而注重整体分割结果的整个对象。我们的经验发现，如果我们正确地对待对象边界，分割性能可以大大提高。在此基础上，我们提出了一种新的方法，称为Bound-表4.原型对准中去除边界样本的影响mIoU∆无边界移除52.6带边界移除55.7 3.1↑元自适应和原型对齐网络（BAPA-Net），其中我们从两个方面解决跨域语义分割问题。一方面，我们employ新开发的边界适应策略，更专注于域混合的边界样本，这是基于CutMix构建，并包含来自源和目标域的信息。另一方面，我们设计了一个原型比对模块，通过最小化两个域的类原型之间的距离来减少域不匹配，其中边界样本在这里被忽略，以避免在原型类型计算期间的域混淆。在 GTA5 Cityscapes 和SYNTHIA Cityscapes上的实验清楚地验证了我们的BAPA-Net的有效性。鸣谢：本研究部分得到新一代人工智能重大专项（批准号：）的支持。2018AAA0100400和中国博士后科学基金（NO. 2019TQ0051）。8809引用[1] KarstenM Borgwardt，Arthur Gretton，Malte J Rasch，Hans-PeterKri e gel ， BernhardScho¨ l k opf ， andAl exJSmola. 利用核最大平均差异对结构化生物数据进行整合。Bioinformatics，22（14）：e49[2] Francesco Caliva 、 Claudia Iriondo 、 Alejandro MoralesMar- tinez、Sharmila Majumdar和Valentina Pedoia。用于语义分割的距离图损失惩罚项在2019年的深度学习医学成像国际会议[3] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。Deeplab：使用深度卷积网络、无纹理卷积和全连接crf进行语义图像分割。IEEE Transactions on Pattern Analysis andMachine Intelligence，40（4）：834-848，2018。[4] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。重新思考语义图像分割的atrous卷积。arXiv预印本arXiv：1706.05587，2017.[5] 陈明昊，薛宏阳，蔡登。最大平方损失的语义分割的主适应。在IEEE/CVF计算机视觉国际会议（ICCV）的会议记录中，2019年10月。[6] 陈玉华、李文、陈晓然和吕克·凡古。从合成数据中学习语义分割：一种几何引导的输入输出自适应方法。在IEEE/CVF计算机视觉和模式识别会议（CVPR）上，2019年6月。[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在IEEE计算机视觉和模式识别会议（CVPR）的会议记录中，2016年6月。[8] NicolasCourty ，Re'miFlamary ，DevisTuia ，andAlainRako-tomamonjy. 最佳传输域适应。 IEEETransactionsonPatternAnalysisandMachineIntelligence，39（9）：1853[9] Bharath Bhushan Damodaran 、Benjamin Kellenberger、RemiFlamary 、 DevisTuia 和 NicolasCourty 。DeepJDOT：用于无监督域自适应的深度联合分布优化传输。在欧洲计算机视觉会议（ECCV）的会议记录中，2018年9月。[10] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。2009年IEEE计算机视觉和模式识别会议，第248-255页[11] Jinhong Deng，Wen Li，Yuhua Chen，and Lixin Duan.用于跨域对象检测的无偏均值教师在IEEE/CVF计算机视觉和模式识别会议（CVPR）的Proceedings中，第4091-4101页[12] Carl Doersch、Abhinav Gupta和Alexei A.埃夫罗斯通过上下文预测的无监督视觉表征学习。IEEE InternationalConference on Computer Vision （ ICCV ）， 2015 年 12月。[13] 杜亮，谭金刚，杨红叶，冯剑锋，薛向阳，郑七宝，叶晓青，张晓琳. SSF-DAN：用于语义分割的基于分离语义特征的在IEEE/CVF计算机视觉国际会议（ICCV）上，2019年10月。[14] 段立新，Ivor W.曾，董旭。域转移多核学习。IEEETransactionsonPatternAnalysisandMachineIntelligence，34（3）：465[15] Aysegul Dundar，Ming-Yu Liu，Ting-Chun Wang，JohnZedlewski，and Jan Kautz.域风格化：一个强大的，简单的基线合成到真实的图像域适应。arXiv预印本arXiv：1807.09384，

下载后可阅读完整内容，剩余1页未读，立即下载