基于GAN的自组装数据增强在语义分割领域自适应中的应用

81 浏览量更新于2023-10-12 收藏 2.66MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

6830基于GAN的自组装数据增强在语义分割领域自适应中的应用崔在TaekyungKimKAISTChangick KimKAIST{whdns44，tkkim93，changick}@kaist.ac.kr摘要基于深度学习的语义分割方法有一个内在的局限性，即训练模型需要大量带有像素级注释的数据。为了解决这个具有挑战性的问题，许多研究人员将注意力集中在无监督的领域自适应语义分割上。无监督域自适应试图使在源域上训练的模型适应目标域。本文介绍了一种自集成技术，这是一种成功的领域自适应分类方法然而，将自集成应用于语义分割是非常困难的，因为在自集成中使用的大量调整的手动数据增强对于减少语义分割中的大的域间隙是无用的。为了克服这一局限性，我们提出了一个新的框架，由两个组件，这是互补的。首先，我们提出了一种基于生成对抗网络（GANs）的数据增强方法，该方法计算效率高，有效地促进了域对齐。给定这些增强的图像，我们应用自集成来增强分割网络在目标域上的性能。所提出的方法优于国家的最先进的语义分割方法的无监督域自适应基准。1. 介绍语义分割是计算机视觉领域的一个重要研究方向。它的目标是为图像中的每个像素各种各样的算法-步骤2}老师重量转移更新知识学生时期1第N图1.我们方法的整体框架。给定标记的合成数据和未标记的真实数据，我们提出了一种目标引导和无周期数据增强（TGCF-DA）方法来生成标记的增强数据（绿色）。我们引入两个分段网络作为教师和学生，以实现自集成算法（橙色）。这两个分割网络都是由增强数据以及合成和真实数据训练的。在学习过程中，教师网络将其知识传输到学生网络。用合成数据训练的模型在实际域上表现不好，因为存在称为域偏移的分布差异。无监督域自适应通过将知识从源域中的标记数据集转移到目标域中的未标记数据集来处理域转移[3]。最近的领域适应方法集中在对齐，基于深度神经网络的RITHM已经利用足够量的注释数据集实现了高性能。然而，创建用于语义分割的大型标记数据集是成本昂贵且耗时的[7]。为了克服注释负担，研究人员利用现代计算机图形学轻松生成具有地面真实标签的合成图像[36]。不幸的是，在实践中，提取从源数据和目标数据中提取的特征。特别是，语义分割中的大多数域自适应方法依赖于对抗性训练，旨在通过域混淆来最小化域差异[15，14，44，41，16，52]。然而，对抗性方法有一个明显的缺点。由于这些方法寻求对齐两个不同的全局分布步骤1标记合成数据标记扩充数据TGCF-DA未标记的真实数据6831在不同的领域中，对抗性损失可能触发负迁移，这将目标特征与不正确语义类别中的源特征对齐负转移可能对已经良好对准的特征具有不利影响因此，这种自适应通常比仅在源域上训练的网络表现更差。代替对抗训练，我们采取另一种方法来执行特征级域对齐。我们采用了自集成[9]，这是分类领域自适应的有效方法之一。自组装是由一个教师和一个学生网络，其中学生被迫产生一致的预测由教师提供的目标数据。由于教师是一个对学生权重求平均的集成模型虽然最近的自集成证明了其在分类中的有效性，但这些方法需要大量调整的手动数据增强[9]才能成功进行域对齐。此外，虽然这种由各种几何变换组成的数据增强在分类中是有效的，但它不适合于最小化语义分割中的域偏移。每个输入上的两个不同的几何变换可能会导致学生和教师预测之间的空间不一致。因此，我们提出了一种新的数据增强方法来处理这个问题。我们的增强图像合成方法基于生成对抗网络（GAN）[12]。我们的目标是生成增强图像，其中语义内容被保留，因为这些图像与不一致的语义内容损害分割性能，由于增强图像和源标签之间的像素级错位因此，我们为生成器添加了一个语义约束，以保持全局和局部结构，即。语义的一致性。此外，我们提出了一个目标引导的生成器，它产生的图像的风格信息提取的目标域的条件。换句话说，我们的生成器合成增强图像，保留语义信息，而只从目标图像传输大多数基于GAN的图像到图像转换方法的先前研究[53，49，27，25，21，19，31]依赖于各种形式的周期一致性。然而，将周期一致性转换为无监督域自适应有两个限制。首先，它需要冗余模块，例如目标到源生成器和相应的计算负担。其次，当目标数据与源数据相比稀缺时，循环一致性可能太我们提出的模型没有考虑所有类型的周期一致性。我们将我们的方法称为目标引导和无周期数据增强（TGCF-DA）。我们的通用框架如图所示。1.我们-利用TGCF-DA产生增强图像。然后，分割网络通过自集成从源数据、目标数据和增强数据中学习。本文的主要贡献总结如下：• 我们提出了一种新的数据增强方法，具有目标引导生成器和无周期损失，更有效，适用于无监督域自适应中的语义分割。• 我们建立了一个统一的框架，与TGCF-DA协作的自组装。• 我们的方法在具有挑战性的基准数据集上实现了最先进的性能。另外我们进行了大量的实验，并对所提出的方法进行了综合分析。2. 相关工作用于语义分割的无监督域自适应：最近，无监督的领域自适应语义分割受到了广泛关注。第一次尝试这个任务是在野外的FCN [15]，它与对抗训练类似地执行全局和局部对齐。对抗性训练是主要的方法，专注于特征级适应，以通过域混淆生成域不变特征，例如，[6、5、44、41、16、39、18]。这个想法被扩展到通过各种技术（如循环一致性损失[14，34]或风格转移[8，47]）在像素和特征级别联合调整表示。除了对抗性训练方法，还有一种基于自我训练的不同方法。CBST [57]引入了自训练来产生伪标签，并使用这些标签重新训练网络。自我组装：Self-Ensembling [56，38]是在半监督学习领域提出的。一种流行的方法对于半监督学习，一致性正则化是一种方法，它使用未标记的数据来产生扰动下的一致性预测[40，2]。Laine和Aila [24]提出了使用一致输出的预测的每个样本移动平均值的时间集成。Tarvainen和Valpola [43]建议模型权重的指数移动平均值，自集成方法[9]将MeanTeacher框架应用在[35]中，Peroneet al.通过应用类似于先前方法的自集成方法来解决医学成像分割任务Yonghao等[48]利用自组装注意力网络来提取注意力感知特征以用于域适应。图像到图像转换：最近的图像到图像（I2I）翻译方法基于生成对抗网络（GAN）[12]。在不成对的训练图像的情况下，一个流行的约束是循环一致性6832Source ImagesXS增强图像XA学生TGCFDAEMA老师目标图像XTAug监督损失一致性损失TGCF-DA均方误差S~F −µ（F）SS加权和交叉熵全损Source Labels是图2.拟议框架概述。1)源图像和目标图像被馈送到目标引导生成器中以产生增强图像。2）监督损失是与源图像和增强图像的多类交叉熵损失3）一致性损失是从学生和教师网络提取的两个预测图之间的均方误差。4)总训练损失是监督损失和一致性损失的加权和5）我们只对目标样本进行数据增强，以弥补一致性损失。6）教师网络将给定图像映射到目标域并重建原始图像[23，53，49]。UNIT [27]介绍了学习共享潜在空间的约束。然而，所有这些方法都存在翻译形象缺乏多样性的问题.为了产生多模态输出，一种可能的方法是注入噪声向量作为附加值，交叉熵损失此外，我们只使用目标样本来计算一致性损失，它被定义为从学生和教师网络生成的预测图之间的均方误差。更正式地说，让XS和XT表示源域和目标域。我们可以访问N个标记源输入到发生器[54，1，11]，但它可能导致采样{（xi，yi）}Ns，xi∈XS和相应的-SSi =1s模式崩溃问题。由于周期一致性是太严格，变量的周期一致性[54，21，25]ing label mapsyi.目标结构域具有Nt个未标记的tar。得到样本{xi}Nt，其中xi∈XT。PS和PT表示ti=1t是为多模式I2I翻译而开发的。不同的方法是应用神经风格转移[10，45，22，20]。特别是，并发作品[21，31]采用自适应实例规范化[20]将样式从样本转移到原始图像。此外，AugGAN [19]的作者利用分段信息来改进I2I翻译网络。我们的任务与AugGAN完全不同，因为域自适应不能使用目标数据的分割标签。3. 该方法在这项工作中，我们介绍了统一的框架，这是建立在自集成的语义分割。提高自集成语义分割能力的关键是基于GAN的数据增强，以对齐源和目标的表示，而不是现有自集成分类中主要使用的几何变换为了实现这一目标，我们提出了一种新的目标引导和无周期的数据Aug- mentation（TGCF-DA）与目标引导的生成器和语义约束。目标引导生成器将源图像转换为目标域中的不同样式。我们的学生网络从TGCF-DA中学习源图像和增强图像，并通过计算进行监督损失。源和目标数据分布。的源数据和目标数据共享C类别。设fS和fT分别是学生分段网络和教师分段网络。3.1. 目标制导发生器基于图像可以被分解为两个分离的表示[27，21]，内容和风格的假设，我们采用源编码器来生成内容表示，目标编码器用于提取风格表示。为了正确地结合这两种表示如在[21]中，具有多个完全连接层的目标编码器提供可学习的仿射变换参数（γt，βt）以归一化每个通道的源图像的特征图AdaIN操作定义为：我我Fi=γi（s s）+βi，（1）s tσ（Fi）t其中Fi表示第i个通道的源特征图。μ（·）和σ（·）分别表示空间维度上的平均值和方差我们的发电机是由通过AdaIN获取目标样本的样式信息，6833不S不S不LSGAN [32]并应用频谱归一化[33]来稳定GAN训练。GAN损失定义为：LGAN（G，D）=E（x，x）<$（P，P）[D（G（xs，xt））2]+ExtPT [（D（x）-1）2].（三）图3.基于GAN的TGCF-DA概述[12]。的这种丢失确保G产生视觉上类似于目标图像的新图像，由于分割模型fseg是固定的，我们联合训练目标引导生成器和鉴别器以优化整体损失：蓝框描述了目标制导发生器G。红色框是具有固定权重的预训练分割模型fseg。紫色的盒子是红色的。在保留源图像的空间结构，即，保持了源图像的语义一致性3.2. 语义约束我们利用一个语义约束，以保持语义内容在像素级。给定标记的源数据，我们可以预训练分割模型，如FCN-8 s [29]，以约束生成器。具有固定权重的预训练分割模型fseg鼓励翻译前后图像之间的语义一致性。由于这种语义约束，我们的网络可以保留图像中的对象而不会失真。此外，这种约束对于在没有循环一致性的情况下稳定对抗训练至关重要。由于循环一致性对匹配两个分布施加了严格的约束，因此可以有效地防止模式崩溃并稳定对抗训练[26]。如果没有周期一致性，我们的对抗训练很容易受到GAN训练的不稳定性的影响。然而，这种语义约束通过强有力地执行LTGCF−DA=LGAN+λsemLsem，（4）其中λsem是平衡GAN损失和语义约束的贡献的权重。利用预先训练好的目标引导生成器合成增强图像，实现自合成中的数据增强。3.4.自集成我们构造了教师网络fT和学生网络fS.在训练步骤i处的教师ti=αti−1+（1−α）si，（5）其中α是指数移动平均衰减。在训练期间，每个小批次由源样本、增强样本和目标样本组成。我们使用源样本和增强样本来计算监督损失Lsup，这是用于语义分割的交叉熵函数该损失函数使学生网络能够为源样本和增强样本生成语义上准确的预测。一致性损失Lcon表示为从学生和教师网络生成的预测图之间的均方误差：语义一致性我们将语义约束损失定义为交叉熵损失：Lcon （fS），fT）=ExtT T[σ（fS（xt））−σ（fT（xt））n2]，（六）Lsem（fseg，G）=−1H×WCy（k，c）log（fseg（G（xs，xt））（k，c）），其中σ是用于计算以下概率的softmax函数：预测地图总损失Ltotal是加权和HWk=1Sc=1（二）监督损失Lsup 稠度损失L缺点：其中G（xs，xt）是由目标制导发生器G产生的大小为H×W3.3.目标制导和无周期数据扩充我们介绍了一种为目标引导和无周期数据增强（TGCF-DA）而设计的GAN。如图3所示，G是目标引导发生器，D是[46]中提出的判别器。我们使用的对抗性目标，Source ImagesXs发电机GTar get ImagesXTγ、βγ、βγ、βD鉴别器f分段固定式FCN-8sResBlocks AdaIN AdaIN参数γ，β编码器编码器解码器6834Ltotal=Lsup+δconLcon，（7）其中δcon是受到斜升影响的稠度损失的权重。与[9]相反，我们根据经验观察到，重量斜升对于提高一致性损失的有效性是必要的3.5. 目标样本的数据扩充在此，目标样品的数据扩增与TGCF-DA无关。此数据扩充仅适用于6835为了计算第3.4节中自集成的一致性损失，在分类[9]中，目标样本的随机数据增强的目标是迫使学生网络对同一目标样本产生不同如上所述，图像级变换（如几何变换）对像素级预测任务（如语义分割）没有帮助[28]。因此，我们将高斯噪声注入到目标样本中，这些样本分别被馈送到学生网络和目标网络。此外，我们将Dropout [42]应用于权重扰动。因此，我们的学生网络被迫在每个网络的目标样本和参数的不同扰动下产生与教师网络一致的预测4. 实验本节描述了实验设置和合成到真实域自适应的细节。并将实验结果与前人的研究结果进行了比较.此外，我们将提供消融研究，以验证我们的方法的有效性。4.1. 数据集对于合成源域，我们使用SYNTHIA [37]和GTA 5[36]数据集。然后，我们在Cityscapes数据集[7]上评估了我们的方法，作为遵循[15，51，44，41]中类似设置的真实目标域我们简要介绍数据集的详细信息如下：GTA 5 GTA5 [36]包含24966个带有像素级注释的城市场景图像。这些高分辨率图像是由游戏引擎GrandTheft Auto V 渲染的。接下来 [15]，我们使用了与Cityscapes兼容的注释的19个类别。我们从GTA5中随机挑选了1000张图像用于验证目的。合成体。SYNTHIA [37]是从虚拟城市渲染的视频序列的大规模数据集。我们使用 SYNTHIA-RAND-CITYSCAPES，由9400张带有像素级注释的图像组成。继承之前的工作[51]，我们选择了SYNTHIA和Cityscapes中常见的16个类别。我们随机选择了100幅图像进行评价。城市景观。Cityscapes [7]包含从德国和邻国的50个城市收集的城市街景。它有一个2975张图像的训练集和一个500张图像的验证集。我们可以利用来自SYNTHIA或GTA5的源图像和标签，以及来自Cityscapes训练集的没有标签的目标图像。Cityscapes中的验证集被视为我们的域适应实验的评估集我们报告每个类的 IoU （ Intersection-over-Union）和mIoU（mean IoU）来衡量分割性能。在补充材料中，我们在BDD 100K数据集上提供额外的实验结果[50]。4.2. 实验设置和实施细节TGCF-DA的增强网络由生成器模型、子模型和分段模型组成。该发生器建立在MUNIT [21]使用的自动编码器架构之上，但经过修改以充当无周期发生器。它由信源编码器、目标编码器和解码器组成.源编码器包括用于对源图像进行下采样的步幅卷积层和用于计算内容表示的残差块[13]。解码器由残差块和转置卷积层组成，以对组合表示进行上采样目标编码器由步幅卷积层和全连接层组成，以提供样式表示。采用[46]中描述的多尺度判别器作为我们的判别器。在所有实验中，我们将权重λsem自我组装。在我们所有的实验中，我们为我们的语义分割网络使用了VGG-16主干继Deeplab [4]之后，我们将ASPP（Atrous Spa-第一金字塔池）作为解码器，然后使用上采样层来获得最终的分割输出。在上采样层之前，最终分类器的输出用于计算第3.4节中的一致性损失。受[43]的启发，我们利用S形斜升来计算一致性损失权重δcon。第5.3节分析了稠度损失重量的详细信息。在培训过程中，年龄被调整大小并裁剪到480×960分辨率，为了评估，我们将预测图上采样到1024×2048分辨率。我们的建筑和实验的细节将在补充材料中提供。4.3. 实验结果我们在表1中报告了所提出的方法在两个自适应实验上我们将我们提出的方法与Curriculum DA [51]，CyCADA[14] ， MCD[39] ， LSD-seg[41] ，AdaptSegNet [44]，ROAD [5]进行比较，[55][57][58][59][在表1中，Self-Ensembling（SE）表示通过自集成由源和目标训练的网络的分割性能，没有我们的数据增强方法。TGCF-DA表示由源数据和从TGCF-DA生成的具有相应标签的增强数据训练的分割网络。我们的（TGCF-DA + SE）表示我们提出的框架包括TGCF-DA和自集成方法。拟议方法在GTA5→Cityscapes 上显著优于基线14.2%，在SYNTHIA→Cityscapes上显著优于基线13.1%。与仅源基线相比，我们的方法进行了进一步改进，并且在两个实验中也实现了最先进的mIoU分数。6836(a) GTA5→城市景观方法机甲道路人行道建筑墙栅栏杆灯标志植被地形天空人乘用车卡车公共汽车火车摩托车自行车Miou基线（仅源）-61.018.566.218.019.619.122.415.579.628.558.044.51.766.614.11.10.03.20.728.3[51]第五十一话St72.930.074.912.113.215.316.814.179.314.575.535.710.062.120.619.00.019.312.031.4CyCADA [14]在85.237.276.521.815.023.822.921.580.531.360.750.59.076.917.128.24.59.80.035.4丹麦[39]在86.48.576.118.69.714.97.80.682.832.771.425.21.176.316.117.11.40.20.028.8LSD-seg [41]在88.030.578.625.223.516.723.511.678.727.271.951.319.580.419.818.30.920.818.437.1[44]第四十四话在87.329.878.621.118.222.521.511.079.729.671.346.86.580.123.026.90.010.60.335.0道路[5]在85.431.278.627.922.221.923.711.480.729.368.948.514.178.019.123.89.48.30.035.9保守损失[55]在85.638.378.627.218.425.325.017.181.531.370.650.522.381.325.521.00.118.94.338.1DCAN [47]Sr82.326.777.423.720.520.430.315.980.925.469.552.611.179.624.921.21.317.06.736.2CBST [57]St66.726.873.714.89.528.325.910.175.515.751.647.26.271.93.72.25.418.932.430.9自组装（SE）St76.416.771.513.013.117.517.38.376.516.367.442.510.478.127.937.20.022.27.432.6TGCF-DA在73.919.874.819.721.820.726.712.478.022.372.053.412.973.324.528.50.024.314.135.4我们的（TGCF-DA +SE）AT+ST90.251.581.115.010.737.535.228.984.132.775.962.719.982.622.928.30.023.025.442.5只针对-94.377.786.652.950.450.152.957.081.464.894.157.855.587.679.056.119.645.320.962.3(b) SYNTHIA →城市景观方法机甲道路人行道建筑墙栅栏杆灯标志植被天空人乘用车摩托车自行车MioumIoU*基线（仅源）-6.815.456.80.80.114.64.76.872.578.641.07.846.94.71.82.122.624.1[51]第五十一话St65.226.174.90.10.510.73.73.076.170.647.18.243.220.70.713.129.034.8LSD-seg [41]在80.129.177.52.80.426.811.118.078.176.748.215.270.517.48.716.736.1-[44]第四十四话在78.929.275.5---0.14.872.676.743.48.871.116.03.68.4-37.6道路[5]在77.730.077.59.60.325.810.315.677.679.844.516.667.814.57.023.836.2-保守损失[55]在80.031.472.90.40.022.48.116.774.872.250.912.753.915.61.733.534.240.3DCAN [47]Sr79.930.470.81.60.622.36.723.076.973.941.916.761.711.510.338.635.4-CBST [57]St69.628.769.512.10.125.411.913.682.081.949.114.566.06.63.732.435.436.1自组装（SE）St40.119.675.22.60.223.24.09.860.338.349.114.067.017.46.411.927.529.2TGCF-DA在63.925.675.95.40.122.62.66.878.477.248.716.562.224.25.022.133.639.8我们的（TGCF-DA +SE）AT+ST90.148.680.72.20.227.23.214.382.178.454.416.482.512.31.721.838.546.6只针对-89.285.390.765.560.721.52.17.274.293.261.840.178.481.436.724.857.164.1表1.当评估在（a）GTA 5和（b）SYNTHIA上训练的模型时，Cityscapes验证集上的语义分割结果表中的所有分割模型都使用基于VGG-16的模型。mIoU* 表示13个常见类别的分割结果。“仅源”表示仅在源数据上训练的模型的评估结果。“Target Only”denotes the segmentation results in supervised “AT”、“ST”和“SR”机制4.4. 消融研究自组装消融（SE）：比较基线和SE，表1-（a）和表1-（b）中的SE显示mIoU小幅改善4.3%和4.9%。然而，在细节上，我们观察到SE在整个训练过程中表现不佳，如图所示。4（蓝色和橙色线）。与我们提出的方法（TCFD- DA + SE）相比，教师和学生网络不保持互补的相关性。TGCF-DA消融：TGCF-DA是生成合成数据的必要条件，合成数据可以帮助网络减少域偏移。与基线相比，表1-（a）中TGCF-DA使mIoU改善7.1%，表1-（b）中改善11.0%这些改进验证了TGCF-DA作为减少结构域移位的有用方法。除TGCF-DA外，SE在两个实验中均显示出较差的结果.相反，我们在图中提出的方法。图4（灰线和黄线）清楚地表明，由学生更新的教师继续提高分割能力，并成功地将其知识传递给学生。作为一个重新-40363228240 2 4 6 8 10 12 14 16时代图4. SE（蓝色和橙色）和我们的方法（灰色和黄色）的测试mIoU在GTA 5→ Cityscapes实验上进行了训练。结果表明，该方法能使教师和学生的学习成绩同时得到提高。这些结果证实了我们的直觉，即TGCF-DA增强了自集成算法用于语义分割的能力5. 分析在本节中，我们提供了可视化结果，并对我们提出的框架的各种组件进行了分析。FeF阿彻乌登特-DA+SE）-T-DA+SE）-St我们的（TGC我们的师生我们的（东南）-我们的Miou6837Image /Ground Truth学生网络教师网络一致性损失图5. GTA5→ Cityscapes（第一和第二行）和SYNTHIA→ Cityscapes（第三和第四行）的可视化结果。在10K训练步骤（第一和第三行）和56K训练步骤（第二和第四行）处的分割结果。第四列和第五列说明了学生和教师网络之间的一致性损失和不一致性图的热图。5.1. 可视化图5显示了自组装的有效性我们验证了教师网络产生更好的预测，然后教师和学生网络之间的不同预测导致一致性损失，以加强其预测的一致性。在图5中，第一行和第三行显示教师的预测可以在训练早期训练学生网络。此外，我们指出，一致性损失集中在每个对象的边界在后期训练阶段。因此，一致性损失可以在细化语义对象的边界中发挥作用，其中分割模型可能输出错误的预测。在图7中，我们显示了TGCF-DA与其他图像到图像（I2 I）转换方法相比的示例结果：[53]，[54]，[55]，[56]，[57]，[58]，[59]，CycleGAN和UNIT都经常生成包含损坏对象和伪影的扭曲MUNIT能够保留图像中的对象，但我们观察到目标图像中大多数类的样式与源图像中不同类的元素匹配，这类似于[30]中的“溢出”问题。例如，来自MUNIT的翻译图像在目标域的天空中显示出类似道路纹理的伪像与上述方法相比，我们的方法不仅由于无循环损失而具有计算成本低和内存效率高的优点，而且还在保持语义一致性的情况下展示了引人注目的视觉GTA2City SYN2City3525155-5-15图 6. 每个类的 IoU 通过自组装获得。蓝色条代表GTA5→Cityscapes 实验中的每类 IoU 收益。橙色条表示SYNTHIA→Cityscapes实验中每个类别的IoU增益。5.2. 基于单类IoU为了更好地理解自组装，我们比较了我们的方法的每个类的IoU，有和没有自组装。在图6中，我们显示了TGCF-DA和我们的（TGCF-DA + SE）之间的每类IoU增益。尽管大多数类别的IoU得分普遍提高，但不同类别之间的绩效提升存在差异。图6表明，多数类（如“道路”）的IoU收益通常优于少数类（如“公共汽车”）。这些实验结果归因于自我组装和班级不平衡问题。由于类别不平衡，分割网络经常对少数群体产生不正确的预测路人行道BDG壁围栏极光签署蔬菜天空人骑手车总线姆比凯自行68380源目标CycleGANUNIT MUNITOurs（TGCF-DA）图7.SYNTHIA的示例图像以Cityscapes的风格与CycleGAN [53]，UNIT [27]和MUNIT [21]合成斜升系数δ0EMA衰变α1330500.90.990.999GTA541.342.342.533.637.638.942.5SYN35.436.138.532.536.238.537.8表2.超参数敏感性。GTA5表示GTA5→ Cityscapes实验，SYN表示SYNTHIA→ Citysc-paes实验。类[57]。在自集成方法中，这种效果可以得到加强，因为学生是从教师的预测中迭代学习的，这往往会对少数类而不是多数类做出不正确的预测。因此，与少数类相比，自组装引起多数类的每类IoU的大的改进。值得注意的是，这个结果符合我们的直觉，即教师网络的预测是学生网络的伪标签。5.3. 自集成在自集成中，一致性损失权 δ和指数移动平均（EMA）衰减α是重要的超参数.我们进行实验，以探讨这些超参数的敏感性。表2表明，为EMA衰减设置适当的值是重要的。在我们所有的实验中，EMA衰减在前37K次迭代期间为0.99，之后为0.999。教师受益于新的和准确的学生的体重在训练早期，因为学生提高其分割能力迅速。另一方面，由于学生在后期的训练中进步缓慢，教师可以从旧的集成模型中获得知识。一致性损失权重δ遵循公式δ= 1 +δ e−5（1−x）2，其中x∈[0，1]表示当前时期与整个时期之间的比率，δ0是斜坡。上系数与通常的S形斜升不同[43]，我们在公式中添加了1，因为它对于保证训练开始时一致性损失的贡献我们决定在所有实验中使用δ0图8.增强图像的变化与权值λseg有关。从左到右：源输入，λseg输出= 1，λseg= 10时输出。5.4. TGCF DA上的超参数敏感性语义约束的权重 λsem 图 8 显示了 SYNTHIA→Cityscapes的一些示例结果。当我们使用一个较低的值（λsem= 1）进行语义对比时，在这种情况下，生成器容易混淆增强图像中的对象和场景。另一方面，适当的语义约束值（λsem= 10）有助于网络保持图像的局部和全局结构这些结果证实了语义约束强制我们的增强网络保持语义一致性。6. 结论我们提出了一个新的框架，包括两个互补的方法，无监督域自适应的语义分割。提出了一种基于GAN的目标样本引导数据增强方法.在不使用循环一致性的情况下，我们的增强网络产生用于域对齐的增强图像此外，与这些增强图像的自集成实验结果证明，我们提出的模型是优于现有的国家的最先进的方法。致谢这项工作得到了支持通过韩国国家研究基金会（NRF）由韩国政府（MSIT）资助（NRF-2018R1 A5 A7025409）。6839引用[1] Amjad Almahairi、Sai Rajeshwar、Alessandro Sordoni、Philip Bachman和Aaron Courville。增强的Cy-cleGAN：从非配对数据学习多对多映射。第35届机器学习国际会议论文集，第195-204页，2018年[2] 本·阿西沃拉特昆，马克·芬齐，帕维尔·伊兹梅洛夫，还有安德鲁·戈登·威尔逊.对未标记数据有许多一致的解释：为什么要平均。2018年。[3] Shai Ben-David 、 John Blitzer 、 Koby Crammer 、 AlexKulesza 、 FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论Machine learning，79（1-2）：151[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Transactions on Pattern Analysis and MachineIntelligence，40（4）：834[5] Yuhua Chen，Wen Li，and Luc Van Gool.道路：面向现实的适应城市场景的语义分割。在IEEE计算机视觉和模式识别会议论文集，第7892-7901页[6] Yi-Hsin Chen ， Wei-Yu Chen ， Yu-Ting Chen ， Bo-Cheng Tsai，Yu-Chiang Frank Wang，and Min Sun.没有更多的歧视：道路场景分割器的跨城市适应在IEEE计算机视觉国际会议的Proceedings，第1992-2001页[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 3213[8] Aysegul Dundar，Ming-Yu Liu，Ting-Chun Wang，JohnZedlewski，and Jan Kautz.域风格化：一个强大的，简单的基线合成到真实的图像域适应。arXiv预印本arXiv：1807.09384，2018。[9] 杰夫·弗伦奇，迈克尔·麦凯维奇，马克·费舍尔。用于视觉域适应的自集成。在2018年国际学习代表会议上[10] Leon A Gatys，Alexander S Ecker，and Matthias Bethge.使用卷积神经网络的图像风格转换。在IEEE计算机视觉和模式识别会议论文集，第2414-2423页[11] Abel Gonzalez-Garcia 、 Joost van de Weijer 和 YoshuaBen- gio。用于跨域分离的图像到图像转换。神经信息处理系统的进展，第1294-1305页[12] 伊恩·古德费洛、让·普盖特-阿巴迪、迈赫迪·米尔扎、许冰、大卫·沃德-法利、谢尔吉尔·奥扎尔、阿伦·库维尔和约舒亚·本吉奥。生成性对抗网。在神经信息处理系统的进展，第2672[13] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[14] Judy Hoffman 、 Eric Tzeng 、 Taesung Park 、 Jun-YanZhu、Phillip Isola、Kate Saenko、Alexei Efros和TrevorDarrell。CyCADA：Cycle-consistent adversarial domainadaptation。在第35届机器学习集，第1989-1998页[15] Judy Hoffman，Dequan Wang，Fisher Yu，and TrevorDarrell.野生FCNS：像素级对抗和基于约束的适应。arXiv预印本arXiv：1612.02649，2016。[16] Weixiang Hong ， Zhenzhen Wang ， Ming Yang ， andJunsong Yuan.用于结构化域自适应的条件生成对抗网络。在IEEE计算机视觉和模式识别会议论文集，第1335-1344页[17] Ehsan Hosseini-Asl，Yingbo Zhou，Caiming Xiong，andRichard Socher.用于低资源域适应的增强循环对抗学习。在2019年国际学习代表大会上[18] Haoshuo Huang，Qixing Huang，and Philipp Krahenbuhl.通过深度激活匹配进行域转移。在欧洲计算机视觉会议（ECCV）的论文集，第590-605页[19] 黄胜伟、林哲宗、陈淑萍、吴燕怡、许柏豪、赖尚红。Auggan：基于gan的数据增强的跨域自适应。在欧洲计算机视觉会议（ECCV）的Proceedings中，第718-731页[20] Xun Huang和Serge Belongie。实时任意样式传输，具有自适应实例规范化。在IEEE计算机视觉国际会议论文集，第1501-1510页，2

下载后可阅读完整内容，剩余1页未读，立即下载