没有合适的资源?快使用搜索试试~ 我知道了~
2507仔细看看Domain Shift:语义一致领域自适应罗亚伟1、2、郑良5、关涛1、6、于俊卿1、4、杨毅2、31华中科技大学计算机科学技术学院2CAI,悉尼科技大学3百度研究4华中科技大学网络与计算中心5澳大利亚国立大学计算机科学研究院6Farsee2 Tech. 有限摘要源样品,A类目标样品,A类源样品,B类目标样品,B类对抗损失我们考虑了语义分割中的无监督域自适应问题。这场运动的关键在于减少领域转移,即,强制两个域的数据分布相似。常见的策略之一是通过对抗学习来对齐特征空间中的边缘分布。然而,这种全局对齐策略没有考虑类别级联合分布。这种全局移动的可能后果是,在源和目标之间最初良好对准的一些类别可能被不正确地映射,从而导致目标域中的更差的分割结果为了解决这个问题,我们引入了一个类别级对抗网络,旨在在全局对齐的趋势中加强我们的想法是仔细研究类别级别的联合分布,并将每个类别与自适应的对抗性损失对齐。具体来说,我们降低了类别级对齐特征的对抗性损失的权重,同时增加了那些对齐不良特征的对抗性力量。在这个过程中,我们决定一个功能在类别级别上的对齐程度,在源和目标之间通过共同训练的方法。在两个域适应任 务 中 , 即 , GTA5→ Cityscapes 和 SYN-THIA→Cityscapes的分割结果表明,该方法在分割精度上与现有方法相匹配。1. 介绍语义分割的目的是将照片的每个像素分配给语义类别标签。目前,该技术的实现是以大量密集的像素级为代价的通讯作者(yjqing@hust.edu.cn)。这项工作是在罗亚伟(royalvane@hust.edu.cn)作为悉尼科技大学的访问生时完成的杨毅(yee.i. gmail.com)在他的专业体验计划期 间 访 问 百 度 研 究 院 时 完 成 了 部 分 工 作 代 码 可 在https://github.com/RoyalVane/CLAN公开获得。C C源目标源目标1.1.经典对抗性损失C1C2源目标1.2.自适应对抗损失图1. (Best以颜色查看)。传统和拟议的对抗性学习的说明。实心灰色箭头的大小表示对抗性损失的权重(a)传统的对抗性学习在追求边缘分布对齐时忽略了语义一致性因此,全局移动可能会导致对齐良好的特征(A类)被映射到不同的联合分布(负转移)。(b)所提出的自适应对抗性学习通过局部对齐得分来重新加权每个特征的对抗性损失我们的方法减少了对手的影响,当发现一个高的语义对齐分数的功能,反之亦然。如图所示,所提出的策略鼓励A类和B类的类别级联合分布对齐。通过昂贵的人力劳动获得注释[4,23,27]。另一种方法是采用模拟数据,例如计算机生成的场景[31,32],以便提供无限量的标签。然而,用模拟图像训练的模型不能很好地推广到现实领域。原因在于两个域的不同数据分布,通常称为do-C1C2源目标2508主移位[37]。为了解决这个问题,提出了域适应方法[35,41,14,46,17,16,13,48]来弥合源域和目标域之间的差距。大多数最近的方法[26,24,40,43,42]旨在对齐不同域的特征分布。沿着这条线的工作是基于[1]中的理论见解,即最小化域之间的分歧降低了目标域上的误差上限。在这一组域自适应方法中,一个常见的关键步骤是最小化源和目标特征分布之间的距离度量[24,40]。另一个流行的选择,借用了对抗学习的思想[10],是最小化域预测的准确性通过两个对抗性网络之间的最小-最大博弈,生成器被训练成产生混淆网络的特征,而后者被要求正确地分类特征是从哪个尽管对抗性学习的研究取得了令人印象深刻的成果[39,15,22,19,43,36],但它们有一个主要的局限性:当生成器网络可以完美地欺骗网络时,它只是将两个网络中的特征的全局边缘分布对齐。域(即,,P(Fs)<$P(Ft),其中Fs和Ft表示潜在空间中的源域和目标域的特征),而忽略了局部联合分布偏移,这与每个类别的语义一致性密切相关(即,,P(Fs,Ys)P(Ft,Yt),其中Ys和Yt表示特征的类别)。 因此,对抗性损失的事实上的使用可能会导致那些已经与源域中的语义对应物很好地对齐的目标域特征这种副作用变得更加严重时,利用更大的权重对抗损失。为了解决全局对抗学习的局限性,我们提出了一个类别级对抗网络(CLAN),优先考虑类别级对齐,这将自然导致全局分布对齐。传统的对抗式学习和提出的对抗式学习的卡通比较如图所示。1.一、CLAN的核心思想是双重的。首先,我们识别那些特征已经在源域和目标域之间很好地对齐的类,并保护这种类别级对齐不受对抗学习的副作用的影响。其次,我们识别出特征在两个域之间分布不同的类,并在训练过程中增加对抗性损失的权重。在这个过程中,我们利用协同训练[47],它可以使用两个不同的分类器进行高置信度预测,以预测每个特征在源域和目标域之间的语义对齐程度。具体来说,如果两个分类器给出一致的预测,则表明该特征具有预测性,并且实现了良好的语义对齐。在这种情况下,我们减少了对抗损失的影响,以鼓励网络生成-创建能够保持域之间语义一致性的不变特征。相反,如果预测彼此不一致,这表明目标特征远未被正确映射,则我们增加该特征上的对抗性损失的权重,以加速对齐。注意:1)我们的对抗学习方案直接作用于输出空间。通过将输出预测作为特征,该方法共同促进了分类器和提取器的优化; 2)该方法不能保证域间严格的联合分布对齐。然而,与边缘分布对齐相比,我们的方法可以将目标特征更接近(或在最坏的情况下没有负转移)相同类别的源特征主要贡献概述如下。• 通过提出对不同特征的对抗性损失进行自适应加权,我们强调了类别级特征对齐,以减少域偏移。• 我们的结果与两个迁移学习任务的最先进的UDA方法,即。GTA5 [31][28][29]2. 相关作品本节将重点介绍用于无监督领域自适应的对抗学习和联合训练技术,这是我们方法的两个主要动机。对抗性学习。Ben-David等人[1]证明了适应损失受三项限制,例如:、源域上的期望损失、域发散以及理想联合假设在源域和目标域上的共享误差。由于第一项对应于研究充分的监督学习问题,第三项被认为是足够低,以实现准确的适应,大多数最近的作品放在第二项的重点。对抗性适应方法是这类方法的很好例子,可以在不同层面上进行研究。一些方法专注于潜在特征空间中的分布偏移[26,39,15,22,19,43,36]。在一个实例中,Hoffman et al. [15]在对抗模型中增加了类别统计约束,旨在提高目标域中的语义一致性。其他方法解决了像素级的自适应问题[21,3],这与风格转移方法[49,7]有关,以使图像在域间可识别。在[14]中研究了像素和特征级域自适应的联合考虑。底部特征层中的边对齐,Tsai等人。 [41]发现直接对齐输出空间在语义分割中更有效。输出空间中的域自适应使预测和表示的联合优化成为可能,因此我们的方法利用了这一优势。2509i,ji,j共同训练。Co-training [47]属于多视图学习,其中学习者在两个不同的视图上交替训练,这些视图具有来自未标记数据的置信标签在UDA中,这一系列方法[44,5,33,25]能够为目标域中的未标记样本分配伪标签一般来说,联合训练强制两个分类器在学习的参数中是不同的,这可以通过dropout [34],共识正则化[35]或参数多样性[44]等来实现。与联合训练类似,tri-training保持两个分类器产生伪标签,并使用这些伪标签来训练额外的分类器[33,44]。除了将伪标签分配给未标记的数据之外,Saiko等人。 [34,35]最大化了两个分类器的一致性以进行域适应。我们的工作不遵循全局特征对齐[41,15,39]或分类器共识最大化[34,35]的策略。相反,类别级别的特征对齐是通过共同训练来实施的。据我们所知,我们正在进行早期尝试,根据局部对齐情况自适应地加权分割任务中特征的3. 方法3.1. 问题设置我们专注于语义分割中的无监督域自适应(UDA)问题,其中我们可以访问具有像素级标签Y S的源数据X S和没有标签的目标数据X T。目标是学习一个模型G,它可以正确地预测目标数据XT的像素级标签。传统的基于对手的网络(TAN)考虑两个方面的域适应。首先,这些方法训练模型G,该模型从标记数据中提取知识,以便最小化源域中的分割损失,形式化为完全监督问题:Lseg(G)=E[E(G(XS),YS)],(1)其中,E[·]表示统计期望,并且ε(·,·)是适当的损失函数,例如多类交叉熵。其次,基于对手的UDA方法还通过混淆能够区分源域和目标域的样本的域判别器D来训练G学习域不变特征。该属性是通过负迁移导致来自不同域但具有相同类别标签的样本在特征空间中映射得更远。在某些情况下,某些类已经在域之间对齐,但在追求全局边缘分布对齐时,对抗性损失可能会破坏现有的局部对齐。在本文中,我们称这种现象为3.2. 网络架构我们的网络架构如图所示。二、它由一个发生器G和一个鉴别器D组成。G可以是任何基于FCN的分割网络[38,23,4],D是具有全卷积输出的基于CNN的二元分类器[10]。如标准协同训练算法[47]中所建议的,生成器G被划分为特征提取器E和两个分类器C1和C2。E从输入图像中提取特征;C1和C2将E生成的特征分类到预定义的语义类之一中,例如汽车、树和道路。在联合训练实践之后,我们通过余弦距离损失来强制C1和C2这将为我们提供不同的观点,/ classifiers对每个特征进行语义预测。最终的预测图p是通过对两个不同的预测张量p(1)和p(2)求和而获得的,我们称p为系综预测。给定源域图像xs∈XS,特征提取器E输出特征图,该特征图被输入到分类器C1和C2以产生像素级集合预测p。上一方面,p用于计算在地面实况标签ys∈YS的监督下的分割损失。另一方面,p被输入到D以生成对抗性损失。给定一个目标域图像xt∈XT,我们也将其转发到G,并获得一个集成预测p。与源数据流不同,我们另外从p(1)和p(2)中生成差异图,表示为M(p(1),p(2)),其中M(·,·)表示用于测量p(1)和p(2)之间的元素差异。以余弦距离为例,M(p(1 ),p(2 ))构成一个1×H×W形张量,其第i 个∈H,第j个∈W元素等于(1−cos(p(1),p(2).一旦D产生对抗损失图Ladv,则在Ladv和M(p(1),p(2))之间执行逐元素乘法。因此,目标样本上的最终自适应对抗损失ΣH(2)第一次 见 面 。形式为( 1-cos( p得双 曲余 切值.))×L、通过最大化对抗性损失i=1j=1i、ji、jadvi,jLadv(G,D)= −E[log(D(G(XS)]- E[log(1 − D(G(XT)]。(二)其中{i,j}遍历地图上的所有像素。在这以这种方式,分割图上的每个像素都是不同的。加权了对抗损失。3.3. 培养目标然而,如上所述,传统的对抗学习方法有一个主要的限制:即使在边缘分布的完美对齐下,也可能存在所提出的网络的特点是由三个损失函数,即。分割损失、权值差异损失和自适应对抗损失。 给定一个图像x ∈ XS2510目标图像M重量差异损失局部比对得分图鉴别器特征提取器分类器M源流目标流量重量差异张量和距离度量源图像分割结果分割损失类别层级对抗性损失图2.概述了拟议的类别级对抗网络。 它由一个特征提取器E、两个分类器C1和C2以及一个特征提取器D组成。C1和C2被馈送有从E提取的深度特征图,并预测来自不同视图的每个像素的语义标签。在源流中,两个预测图的和用于计算分割损失以及来自D的对抗损失。在目标流中,两个预测图的和被转发到D以产生原始对抗性损失图。另外,我们采用两个预测图的差异来产生局部比对得分图。该图评估每个特征的类别级对齐度,并用于自适应地对原始对抗性损失图进行加权。形状为3×H×W的标签映射y∈YS,其中C是语义类的数量,分割损失(多类交叉熵损失)可以是传统的对抗性损失(Eq. 2)作为Ladv(G,D)= −E[log(D(G(XS)]−从Eq. 1作为E[(λ当地 M(p(1),p(2))+n)log(1−D(G(XT(五)))],Lseg(G)=HΣ×WΣC−yiclogpic,(3)其中,p(1)和p(2)是由C1和C2做出的预测,相对于V,M(·,·)表示余弦距离,并且i=1c =1其中Pic表示像素i上类别C的预测概率。yic表示像素i上的类C的基本真值概率。如果像素i属于类别c,则yic=1,否则yic=0。对于第二次损失,正如标准共同建议的那样控制对抗性损失的自适应权重。 注意由方程式5、为了稳定训练过程,我们在自适应权值中加入少量的自有了上述损失项,我们的方法的总损失函数可以写为LCLAN(G,D)= Lseg(G)+λweight Lweight(G)+训练算法[47],两个分类器C1和C2应该具有可能不同的参数,以便提供两个λadvLadv(六)(G,D),对一个特征的不同看法否则,训练就会退化为自我训练。具体来说,我们通过最小化它们的余弦相似性来执行两个分类器的卷积层的权重因此,我们有以下重量差异损失:其中λweight和λadv表示控制三种损失的相对重要性的超参数。CLAN的培训目标是G,D= arg min maxLCLAN( G,D).(七)G DL重量w→1·w→2(G)=,(4)w→我们求解Eq。7通过在优化G和D直到LCLAN(G,D)收敛。1 2其中w→1和w→2是通过平坦化和连接C1和C2的卷积滤波器的权重获得的。第三,我们采用两个预测p(1)和p(2)之间的差异作为衡量对抗损失的指标。自适应对抗损失可以从25113.4. 分析所提出的框架与传统对抗式学习之间的主要区别在于两个方面:差异损失和类别级对抗损失。因此,分析将侧重于这两个差异。2512(a) 目标图像(b)非适应(c)适应(TAN)(d)适应(CLAN)(e)非适应性特征(f)适应性特征(TAN)(g)适应性特征(CLAN)图3. CLAN与传统对抗网络(TAN)的对比分析。(a):一个目标图像,我们把注意力集中在橙色框中的电线杆和交通标志(b):非适配的分割结果。虽然全局分割效果不佳,但可以正确地分割出电线杆和交通标志它表明,一些类最初在域之间对齐,即使没有任何域适配。(c):TAN的适应结果,其中产生了不错的分割图,但是杆和交通标志分割得很差原因是全局对齐策略倾向于为特征分配保守预测,并将导致一些特征被预测到其他流行类别[11,18],从而导致这些不常见的特征被负面转移。(d):改编自CLAN的结果。CLAN降低了那些对齐特征的对抗性损失的权重因此,原始的分割好的类被很好地保留。然后,我们将(b),(c)和(d)的高维特征映射到具有t-SNE的2-D空间[29],如(e),(f)和(g)所示。特征分布的比较进一步证明了CLAN可以在全局对齐的趋势下实施类别级对齐(为了清楚地说明,我们只显示4个相关类,即,建筑物为蓝色,交通标志为橙色,电线杆为红色,植被为绿色。)首先,差异(共同训练)损失鼓励E学习域不变语义,而不是域特定元素,如照明。在我们的网络中,分类器C1和C21)被鼓励捕获特征的可能不同的特征,这是由差异损失确保的,2)被强制对任何E输出(无论是源还是目标)进行相同的预测,这是分割损失和对抗损失所要求的。这两种力实际上要求E应该捕获像素在源域和目标域上的基本方面,如我们所知,这是像素的纯语义,即,像素的域不变方面。如果没有差异损失(协同训练),则缺少力1),并且对E学习域不变信息的要求较弱。在另一边,在我们的模拟中-ulated→real任务中,两个域在视觉层面上差异很大,但在语义层面上重叠。 如果C1和C2输入为视觉级特征,它们的预测在目标域中应该是不准确的,并且往往是不同的,这将受到大的对抗性损失的惩罚。因此,一旦我们的算法收敛,C1和C2将被输入语义级特征而不是视觉级特征。也就是说,鼓励E学习域不变语义。因此,差异损失作为一个隐式的贡献因素的改进的适应能力。其次,在我们的主要贡献中,我们用自适应权重[λlocalM(p(1),p(2))+λ]扩展了传统的对抗损失。对 的 一 一方面当M(p(1),p(2))是大的,同一类的特征图在两个域之间没有相似的联合分布:它们遭受语义不一致。因此,权重被分配为鼓励G主要在遭受域偏移的特征上欺骗D。 上另一方面,当M(p(1),p(2))很小时,联合分布在域之间会有很大的重叠,表明语义不一致的问题并不严重。在这种情况下,G倾向于忽略D的对抗性惩罚。从D的角度来看,自适应权重的引入鼓励D从语义不一致的例子中提取更多的知识,而不是那些对齐良好的类。因此,CLAN能够提高对抗训练中的类别级对齐度这可以被认为是一个显着的影响因素的适应能力。我们还对传统对抗网络(TAN)和CLAN的自适应结果进行了对比分析3 .第三章。4. 实验4.1. 数据集我们评估CLAN与几个国家的最先进的算法在两个适 应 任 务 ,例 如 。 [32] 第 五 章 : 城 市 之 路 ( 上 )Cityscapes是一个包含5,000个街道场景的真实世界数据集我们使用城 市 景 观 作 为 目 标 域 。GTA5 包 含 了 24 , 966 张 与Cityscapes注释类兼容的高分辨率图像SYNTHIA包含9400个合成图像。我们使用SYNTHIA或GTA5作为源域。2513最大迭代器表1.从GTA5改编[31]到城市景观[8]。我们提出每个类的IoU和平均IoU。 “ST”和“AT”代表两种方法,即,基于自我训练和对抗学习的DA。我们以粗体突出显示每列中的最佳结果。为了清楚地展示CLAN对不常见类的影响,我们用蓝色突出显示这些类。增益表示与仅使用源相比的mIoU改进。GTA5→城市景观表2.从SYNTHIA [32]到Cityscapes [8]的改编我们提出了每个类的IoU和平均IoU进行评估。CLAN和国家的最先进的域自适应方法进行了比较。对于每个主干,最佳准确性以粗体突出显示。为了清楚地展示CLAN对不常见类的影响,我们用蓝色突出显示这些类。增益表示与仅使用源相比的mIoU改进SYNTHIA→城市景观源仅V-17.219.747.33.09.171.878.337.64.742.29.00.10.926.2-CBST [50]VSt69.628.769.511.913.682.081.949.114.566.06.63.732.436.19.9源仅V-6.417.729.70.07.230.366.851.11.547.33.90.10.020.2-野生的FCNs [15]V在11.519.630.80.111.742.368.751.23.854.03.20.20.622.92.7城市[6]V在62.725.678.31.25.481.381.037.46.463.516.11.24.635.715.2基线(TAN)[41]V在78.929.275.50.14.872.676.743.48.871.116.03.68.437.617.4族V在80.430.774.71.48.077.179.046.58.973.818.22.29.939.319.1源仅R-55.623.874.66.112.174.879.055.319.139.623.313.725.038.6-基线(TAN)[41]R在79.237.278.89.910.578.280.553.519.667.029.521.631.345.97.3族R在81.337.080.116.113.778.281.553.421.273.032.922.630.747.89.24.2. 实现细节我们使用PyTorch实现。我们利用DeepLab-v2 [4]框架和在ImageNet [9]上预训练的ResNet-101 [12]作为网络G的源骨干。我们使用[41]中提出的单层对抗DA方法作为TAN基线。对于联合训练,我们复制最后一个分类模块的两个副本,并将它们并行排列在特征提取器之后,如图所示。二、为了与具有VGG主干的那些方法进行公平比较,我们还将CLAN应用于基于VGG-16的FCN 8 [23]。对于网络D,我们采用类似的结构,[30]的真实性,它由5个卷积层组成,内核为4×4,通道号为{64,128,256,512,1},步长为2。 每个卷积层后面都有一个Leaky-ReLU[28]参数化为0。2除了最后一层。最后,我们在最后一层上添加一个上采样层,将输出重新缩放到输入地图的大小,以匹配局部比对分数图的大小。在训练过程中,我们使用SGD [2]作为G的优化器,动量为0。9,而使用Adam [20]优化D,β1=0。9,β2=0。九十九。 我们给两个优化器都设置一个权重衰变为5e−4。对于SGD,初始学习率设置为2。5e-4,并通过多学习率策略衰减,其中初始学习率乘以(1-iter)幂,幂=0。9 .第九条。对于Adam,我们将学习率初始化为5e-5,并在训练过程中固定它我们训练网络总共100k次迭代。我们在训练过程中使用512×1024的作物,为了评估,我们对预测值进行了上采样通过2的因子映射,然后评估mIoU。符合我们的最佳源仅CBST [50]V-64.022.168.613.38.719.915.55.974.913.437.037.710.3 48.26.11.21.810.82.924.3- -一种V ST 90.4 50.8 72.0 18.3 九 点五27.2 28.6 14.1 82.4 25.1 70.8 42.6 14.5 五 点九12.5 1.2 14.0 28.6 36.1 11.8源仅丹麦[35][45]第四十五话源仅野生的FCNs [15]V-25.910.950.5第3.3节V在86.48.576.1 18.612.225.428.613.078.37.363.952.17.966.35.27.80.9 13.7V-18.16.864.1V在74.922.0七十一点七V-26.014.9六十7.36.05.59.78.711.912.95.414.97.80.682.832.771.425.21.176.316.117.11.40.221.014.916.845.92.464.441.617.555.38.45.06.94.30.7二十四点九0.0二十八点八分8.416.311.175.713.366.5三十八点零9.30.04.23.56.57.955.218.818.90.016.814.6二十八点九分V在70.432.462.1十四点九8.9 6.010.9十四点二2.52.75.870.02.947.0 二十四点五79.221.364.6四十四点一74.615.869.938.240.0十二点一70.48.072.316.01.57.35.00.00.00.10.03.53.60.00.00.00.30.017.927.1-3.9-6.6-9.2CyCADA(feature)[14] V AT 85.6 30.7 74.7 14.4 13.0 17.6 13.7基线(TAN)[41]族V AT 87.3 29.8 78.6 21.1 18.2 22.5 21.5 11.0 79.7 29.6 71.3 46.8V在88.030.679.223.420.526.123.014.881.634.572.0四十五点八80.123.026.90.0十点六80.526.629.9 0.010.729.2十一点三35.017.136.6十八点七来源R- -一种75.8 16.8 77.2 12.5 21.0 25.5 30.1 20.1 81.3 24.6 70.3 53.8 26.4 49.9 17.2 25.9 6.5 25.3 36.0 36.6- -一种基线(TAN)[41] R在86.525.979.8 22.120.023.633.121.881.825.975.9 57.326.276.329.832.17.2 29.532.5 41.4 4.8CLANR AT 87.0 27.1 79.6 27.3 23.3 28.3 35.5 24.2 83.6 27.4 74.2 58.6 28.0 76.2 33.1 36.7 6.7 31.9 31.4 43.26.6Arch.Arch.Meth.Meth.路路的方面想buil。的方面想壁buil。围栏光极光签署签署蔬菜蔬菜天空陆地天空pers.pers.骑手骑手车车卡车总线总线电机火车电机自行车自行车MiouMiou增益增益2514谈家我我我模型中,超参数λ weight、λ adv、λ local和λ max被设置为0。010 001、40和0.4。4.3. 比较研究我们在表1中展示了任务GTA5→Cityscapes的自适应结果,并与最先进的领域自适应方法进行了比较[35,45,15,14,41,50]。我们...1440.8420.60.4400.2380 5 10历元10.80.60.40.20本地/CLAN显著优于仅源分段方法+18。7%的VGG-16和+6。ResNet-101上的6%。此外,CLAN还优于最先进的方法,与MCD [35]、CDA [45]和CyCADA [14]相比,其将mIOU提高了+7%以上与传统的对抗网络(TAN)在输出空间[41]相比,CLAN带来了+1。改善6%图4. 左:随着训练的进行,聚类中心距离发生变化。右:平均IoU(见&y轴左侧的条形图)和收敛性能(见&y轴右侧的线条)变化,不同的λlocal和λ。两个域之间的同一类,其中n=#classe是训练时期。 de由de/d0归一化(在此我我我在VGG-16和ResNet-101两种架构中的mIOU中。在一些不常见的类中,这些类容易受到全局对齐的副作用的影响,例如,栅栏、交通灯和电线杆,CLAN可以显著优于TAN。此外,我们还将CLAN与基于自训练的方法进行了比较,其中CBST [50]是当前最先进的方法。这一系列显式方法通常比隐式特征对齐实现更高的而在我们的实验中,我们发现CLAN与CBST是相当的。一些定性分割的例子可以在图中查看。五、表2提供了SYN- THIA→ Cityscapes任务的比较结果在VGG-16上,我们的最终模型产生39。3%,这显著地将非自适应分割结果提高了19. 百分之一。此外,CLAN优于当前最先进的方法[15] 16。4%和[6] 3。百分之六。在ResNet-101上,CLAN带来了9. 对仅源分割模型改进2%。比TAN [41],使用自适应对抗损失也带来1。9%的mIOU收益。同样,CLAN对那些容易产生负迁移的不频繁类(如交通灯和标志)更有效,带来3。分别提高2%。而在一些流行的类,CLAN也可以与基线方法。 注意,在“火车”类上,提高并不稳定。这是由于包含“train”的训练样本非常少。最后,与基于自训练的方法相比,CLAN的性能优于CBST的3。2%,以MIOU计这些观察结果与我们的t-SNE分析一致。3,进一步验证了CLAN在基于分段的DA任务中确实可以提高类别级对齐。4.4. 特征分布为了进一步验证CLAN能够降低那些对齐良好的特征的负迁移效应,我们设计了一个实验来仔细观察每个类的类别水平对齐度。具体来说,我们随机选择1K源图像和1K目标图像,并计算聚类中心距离(CCD){d e. d e}的特征这样,来自没有任何微调的预训练模型的CCD将总是归一化为1)。我们在图中报告de。4(左子图,以类首先,我们观察到随着训练的进行,在CLAN中de单调递减,而在TAN中不是单调的,这表明CLAN防止了对齐良好的特征被错误地映射。第二,de收敛到一个更小的值在CLAN比TAN,表明CLAN实现更好的功能对齐在语义层面上。我们进一步报告了每个类别的最终CCD图。六、我们可以观察到,在大多数情况下,CLAN可以实现较小的CCD,特别是在那些不频繁的类,容易被负迁移。这些定量结果,连同图29中的定性t-SNE [29]分析。3、表明CLAN能较好地在语义层次上对齐两个域。这种与类别对齐的特征分布通常使后续分类更容易。4.5. 参数研究在这个实验中,我们要研究两个问题:1)自适应对抗性损失是否会在对抗性训练期间引起不稳定性(消失梯度),以及2)自适应对抗性损失会对性能产生多大影响。对于问题1),我们利用D的损失来指示收敛性能,并且如果D损失收敛于0.5左右,则实现稳定的对抗训练。首先,我们使用λ local= 40来测试我们的模型,其中在a范围{0.1,0.2,0.4,0.8}。我们不使用任何大于0.8,因为在这种情况下,CLAN会降级为TAN在实验结果表明,当使用一个非常小的参数时,我们的模型收敛性很差,例如。、0.1或0.2。它表明,适当的选择的Δ R是在0.2和0.8之间。 出于这个观察,然后我们使用k = 0来测试我们的模型。4,其中在范围{10,20,40,80}上改变λlocal。我们观察到收敛性能对λlocal不是很敏感因为D的损失在所有情况下都收敛到适当的值当使用λ local=40和λ max = 0时,可实现最佳性能。4.第一章此外,我们观察到,当使用时,CLAN的适应性能可以稳定地优于TAN。1N毫欧D损耗中心距MiouD的损失2515目标图像非适应性适应性(CLAN)地面实况图5.GTA5→ Cityscapes的UDA分割的定性结果对于每个目标图像,我们分别显示了非适应(仅源)结果、CLAN适应结果和地面真实标签图10.80.60.40.20图6.特征联合分布的定量分析对于每个类,我们显示了源域和目标域之间的特征聚类中心的距离这些结果分别来自1)在ImageNet [9]上预训练的模型,没有任何微调,2)仅使用源图像微调的模型,3)使用TAN的自适应模型和4)使用CLAN的自适应模型。参数接近最佳值。我们在图1中给出了详细的每秒钟变化4(右子图)。通过比较这些不同参数设置下的收敛和分割结果,我们可以得出结论,我们提出的自适应对抗权重可以显着影响和提高自适应性能。5. 结论针对无监督域自适应(UDA)过程中全局特征对齐所导致的语义不一致问题,提出了类别级对抗网络(CLAN).通过仔细研究类别级数据分布,CLAN根据每个特征的类别级对齐程度自适应地对每个特征的对抗性损失进行加权。在这种精神下,每个类都与适应性对抗性损失相一致我们的方法有效地防止了对齐良好的功能被不正确的映射的副作用,纯全球分布对齐。实验结果验证了CLAN的有效性,与最先进的UDA方法相比,它产生了非常有竞争力的分割精度谢 谢 。 本 工 作 得 到 国 家 自 然 科 学 基 金 ( No.61572211)。仅预训练源TAN族中心距2516引用[1] S. 本-戴维布利泽,K。克拉默,A。库莱萨河Pereira和J.W.沃恩从不同领域学习的理论。Machine learning,79(1-2):151[2] L. 博 图 随 机 梯 度 下 降 的 大 规 模 机 器 学 习 。 在COMPSTAT’2010的Proceedings施普林格,2010年。[3] K. Bousmalis,N.Silberman,D.Dohan,D.Erhan和D.克-伊什南。无监督像素级域适应与生成对抗网络。在IEEE计算机视觉和模式识别会议(CVPR),第1卷,第7页,2017年。[4] L- C. Chen,G.帕潘德里欧岛科基诺斯角Murphy和A.L.尤尔。Deeplab:使用深度卷积网、无环卷积和全连接的crfs进行语义图像分割。IEEE Transactions on PatternAnalysis and Machine Intelligence,40(4):834[5] M. Chen,K. Q. Weinberger和J.布利泽领域适应的联合训练。神经信息处理系统的进展,第2456-2464页,2011年[6] Y.-- H.陈文Y.陈玉- T.陈伯,英-地C. Tsai,Y.- C. F.Wang和M.太阳没有更多的歧视:道路场景分割器的跨城市在2017年IEEE国际计算机视觉会议(ICCV)上,2011-2020页。IEEE,2017年。[7] Y. 崔 M. 崔 M. 金姆, J. - W. 哈 S. Kim和周杰Stargan:用于多域图像到图像翻译的统一生成对抗网络。arXiv预印本arXiv:1711.09020,2017。[8] M.科德茨,M。奥姆兰,S。拉莫斯,T.雷费尔德,M。恩茨韦勒R.贝南森,美国弗兰克,S。罗斯和B。席勒用于语义城市场景理解的cityscapes数据集在IEEE计算机视觉和模式识别会议论文集,第3213-3223页[9] J. Deng,W.东河,巴西-地索赫尔湖J. Li,K. Li和L.飞飞。Imagenet:一个大规模的分层图像数据库。在计算机视觉和模式识别,2009年。CVPR 2009。IEEE会议,第248-255页。IEEE,2009年。[10] I. Goodfellow,J.普热-阿巴迪米尔扎湾,澳-地Xu,L.Warde-Farley,S.奥扎尔A. Courville和Y.本吉奥。生成性对抗网。神经信息处理系统的进展,第2672-2680页,2014年[11] I. Gulrajani, F. 艾 哈 迈 德 , M 。 阿 尔 约 夫 斯 基 河 谷Dumoulin和A.C.考维尔改进的瓦瑟斯坦甘斯训练。神经信息处理系统进展,第5767-5777页,2017年[12] K.他,X。Zhang,S. Ren和J. Sun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议论文集,第770[13] Y. He,P. Liu,Z. Wang, Z. Hu和Y.杨通过几何中值进行滤波器修剪,用于深度卷积神经网络加速。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,2019年。[14]J. Hoffman,E.Tzeng,T.帕克,J. -Y. Zhu、P.Isola,K.萨延科,A. A. Efros和T.达雷尔。苏铁:周期一致的副词-sarial域自适应arXiv预印本arXiv:1711.03213,2017。[15] J. 霍夫曼D.Wang,F.Yu和T.达雷尔。野生FCNS:像素级 对 抗 和 基 于 约 束 的 适 应 。 arXiv 预 印 本 arXiv :1612.02649,2016。[16] G.康湖,澳-地Jiang,Y. Yang和A. G.豪普特曼用于无监督域自适应的对比自适应网络。在IEEE计算机视觉和模式识别会议(CVPR),2019年。[17] G.康湖,澳-地Zheng,Y.郑氏,中国科学院植物研究所所长。Yan和Y.杨无监督领域自适应的深度对抗性注意对齐:目标期望最大化的好处在欧洲计算机视觉会议(ECCV)的会议记录中,第401-416页[18] T. Karras,T. Aila,S. Laine和J.莱赫蒂宁为提高质量、稳定性和变异性而进行的干细胞在国际会议上学习表示(ICLR),2018年。[19] T.金,M。Cha,H. Kim、J. Lee和J. Kim.学习发现跨域关 系 与 生 成 对 抗 网 络 。 arXiv 预 印 本 arXiv :1703.05192,2017。[20] D. P. Kingma和J. BA. Adam:随机最佳化的方法。arXiv预印本arXiv:1412.6980,2014。[21] P. Li,X.Liang,L.Jia和E.P. 邢用于虚拟到真实城市场景适应的语义感知arXiv预印本arXiv:1801.01726,2018。[22] M.- Y. Liu和O.图泽尔耦合生成对抗网络。神经信息处理系统的进展,第469-477页,2016年[23] J.朗,E. Shelhamer和T.达雷尔。用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议集,第3431-3440页[24] M. 隆岛,澳-地Cao,J.Wang和M.I. 约旦. 使
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功