无监督领域自适应的新方法：STochasticclassifieRs

164 浏览量更新于2023-10-23 收藏 1.13MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

9111用于无监督领域自适应的卢志和1，2杨永新1，2朱夏天1刘聪2宋毅哲1，2陶翔1，21萨里大学CVSSP 2科大-萨里人工智能联合研究中心{zhihe.lu，yongxin.yang，xiatian.zhu，y.song，t.xiang}@ surrey.ac.uk，congliu2@iflytek.com摘要现有的最先进的无监督域自适应（UDA）方法所采用的一种常见策略是采用两个分类器来识别源域和目标域之间的未对齐的局部区域。根据“群众的智慧”原则，人们不得不问：为什么停在两个？事实上，我们发现使用更多的分类器会带来更好的性能，但也会引入更多的模型参数，因此存在过拟合的风险。在本文中，我们介绍了一种新的方法称为 STochasticclassifieRs（STAR）来解决这个问题。STAR不是将一个分类器表示为权重向量，而是将其建模为高斯分布，其方差表示内部97.096.596.095.595.094.594.02 3 4 5 6 7 8 9 10#分类器图1：测试精度与使用最大分类器离散度（MCD）模型的分类器编号 [45]分类器差异有了STAR，我们现在可以对从分布中选择任意数量的分类器，同时保持模型大小与具有两个分类器相同。大量的实验表明，各种现有的UDA方法可以极大地受益于STAR，并实现了国家的最先进的性能上的图像分类和语义分割任务。1. 介绍在监督学习范式中已经实现了图像分类准确性的显着进步[14，20，48，52]。这一成功基于两个假设：对于模型训练，每个类别有成百上千个标记的训练图像，并且训练和测试数据从相同的域中提取，并且具有相似的分布。然而，在大规模的实际应用中，为每个目标领域收集如此大的训练集是非常昂贵和耗时的。一种直观的解决方案是从可用的标记丰富的域（即，源域）到没有标记的训练数据但包含相同的类集合的目标域。通常，源域和目标域的数据分布显著不同，这使得在源域上训练/专门化的模型不直接适用于目标域。无监督域自适应（UDA）提供了解决这个问题的有效方法[10，29]。两位数分类UDA任务。实线是5次试验的平均准确度，而标准偏差由阴影表示。最好的结果显然不是用两个分类器获得的。文献[36，56]中描述了大量UDA方法从分布对齐的角度来看，现有的UDA方法通常可以分为两组：（i）全局对齐（GA）方法[10，28，15]和（ii）局部对齐（LA）方法[45，22，31]。从整体上考虑每个域的数据分布作为一个整体，遗传算法的方法往往忽略了本地类决策边界信息，在adapta- tion，从而导致在目标域的次优性能。这种限制可以通过考虑类级跨域分布对齐的最近LA方法具体而言，LA方法首先利用少量（通常为两个）分类器的不一致性随后，以使得可以在嵌入空间中最小化所发现的未对准的方式训练特征提取模型。这两个操作交替重复，直到收敛。虽然LA方法[45，22，31]在具有两个分类器的各种基准上产生了最先进的UDA性能，但一个基本但在很大程度上被忽视的问题是：MCD：MNIST到USPSMCD：USPS到MNIST标准品的准确度（%）Dev.在阴影中9112表1：任务USPS‡MNISTSVHN↓MNISTSYNTH↓GTRSB#G0.04 M25.5百万1.1米#C0.18 M12.6百万6.6百万#总段落数0.22 M38.1百万7.7百万特征提取的参数数量然而，将分类器建模为权重分布的深度CNN的推理和训练是不平凡的。这是因为在每次迭代时分类器的随机采样阻止了常规的端到端训练。为了解决这个问题，引入了一个重新参数化的技巧，使STAR模型能够用任何非常规的torG和MCD中的两个分类器C[45]在不同的任务显然，在大多数情况下，分类器参数占据了这意味着添加更多的分类器将显著增加模型的大小。LA模型设计的最佳分类器数量是多少？特别是，为什么停止在两个时，为了回答这个问题，我们首先在MCD（最大分类器差异）[45]中对两个数字分类任务进行不同数量的分类器如图1所示，最佳分类器数量在很大程度上是特定于任务的，并且使用更多的分类器通常会导致更好的模型性能。因此，该分析表明，LA方法应该使用两个以上的分类器。一个合理的理由是，使用更多的分类器可以更全面地识别和探索Dempster-Shafer证据理论中的错位局部区域[41]。然而，它是不平凡的设计一个原则性的方法来估计最佳的分类器数量。此外，简单地将许多分类器添加到现有方法将不仅导致更高的计算复杂度（用于计算成对分类器差异的分类器数量的二次成本），而且还显著地增加模型参数数量（参见图1）。表1），并遭受过拟合的风险更高。为了克服上述问题，在这项工作中，我们引入STostochastic clAssifieRs（STAR）集成到现有的LA方法，而不添加更多的参数，也没有额外的计算开销的一个approanimously无限数量的分类器。使用STAR，分类器由权重分布表示，而不是像传统LA方法那样由特定权重点表示。具体地，分类器用需要在训练中优化的高斯分布来建模。也就是说，我们将分类器权重向量视为随机变量。分布的平均值用作最终的分类器权重，而方差表示差异（即，不一致）不同分类器的程度。在每次训练迭代中，少量的（例如，2）从当前分布估计中随机采样不同的新分类器，最终导致在具有多次迭代的整个训练过程中采样大量的分类器。因此，UDA模型可以使用比以前更多的不同分类器进行训练重要的是，这是在不需要额外调整分类器数量的情况下实现的，同时避免了使用许多特定分类器和增加模型大小的负面影响。货架优化器。这使得直接使用现有的LA模型我们做了以下贡献：（1）我们确定了在最先进的局部对齐UDA方法中使用多个分类器对模型性能的重要性据我们所知，这是UDA第一次尝试研究这个问题。（2）我们通过引入STochastic classifieR（STAR）来制定一种新的解决方案，用于解决UDA的分类器可扩展性问题，该STochastic classifieR（STAR）使现有的LA方法能够利用近似无限数量的分类器来改进局部域未对准识别。STAR是一个通用的随机UDA框架，它可以使任何使用多分类器的方法受益.这也是第一个将随机深度学习概念引入UDA问题的工作，据我们所知，扩展了随机深度学习的应用范围。（3）通过对图像分类和语义分割任务的广泛评估，我们表明各种现有的LA方法都受益于所提出的STAR，通常会带来很大的改进和最先进的性能。2. 相关工作分布对齐不同领域之间的分布对齐是减轻无监督领域自适应（UDA）任务中主任务偏移的常见方法。在此基础上，以往的方法可以分为全局对齐（GA）和局部对齐（LA）。对于GA，已经提出或使用了许多度量，包括最大平均离散度（MMD）[28，29]、中心矩离散度（CMD）[60]和Wasserstein距离[47]。由于这些方法忽略了局部类级对齐，它们可能会达到次优解。为了解决这个问题，大多数最近的UDA方法是基于某些形式的LA。特别是，[15]引入了周期一致性损失，匹配像素级分布。类似地，MCD [45]通过对齐不同分类器的输出来调整目标特征，CLAN [31]设计了一种用于语义分割的类别级对抗性损失基于MCD [45]，[22]设计了一种新的差异损失以使分类器多样化。在这项工作中，我们专注于改进的LA方法，依赖于多个分类器，以确定局部错位区域的特征嵌入空间。9113无论分布对齐是全局还是局部完成的，对齐源和目标域数据分布的一种常见方法是通过对抗训练[12]。这些方法可以大致分为三组，具体取决于引入对抗训练的级别：特征级[11，45]、像素级[2，27]和输出级[54]。为了使特征对源域上的分类任务具有区分性，并且不加区分地涉及域移位，[11]提出了一种新的梯度反转层用于域对抗训练。在像素级方法中，[2]设计了一种基于GAN的风格转换方法[12]，并将转换结果用于UDA场景的目标域[54]考虑到语义分割已经将输出结构化，因此他们在输出水平上进行对抗训练。相比之下，[45]提出了一种新的网络内对抗训练策略，其中一个特征生成器与两个特定于任务的分类器竞争。在对抗性训练的基础上，提出了一些其他策略，dropout [44]和特定领域的批量标准化（DSBN）[3]已经被提出来强加于以前的方法。在本文中，我们遵循对抗训练管道，但值得注意的是，我们的方法也可以应用于非对抗方法，如[43，61]，只要它们需要多个分类器。随机神经网络通常，神经网络模型是确定性的，即，它们的参数/权重是点估计的。因此，他们无法对不确定性进行建模，并且通常以过于自信的方式进行预测[1]。相反，随机神经网络，例如，贝叶斯神经网络（BNN）[33，9]可以以分布的形式提供中间产品和/或最终预测近年来，随机神经网络已被应用于计算机视觉问题。比如说，[50]提出了一种用于活动识别的不确定性感知多模态BNN，[59]使用人员重新识别中的分布对特征不确定性进行建模。[19]利用高斯分布对输入图像的潜在变量进行不同的是，在这项工作中，随机模型用于UDA的第一次。3. 方法3.1. 问题设置我们研究了无监督域自适应（UDA）的分类和分割问题。我们可以访问源域数据XS以及它们的标签YS。同时，我们有目标域数据XT，它是未标记的，但与XS共享相同的标签空间。的目标是使用{XS，YS}和XT训练分类器，该分类器推广到目标域。图2：STochastic clAssifieR（STAR）的架构。在每次训练迭代中，分类器权重从分布中随机采样，同时优化分布的参数。3.2. 多样的分类器最近，一些研究在集成学习中利用了两个不同分类器的概念[53]，用于无监督的域适应。例如，MCD[45]提出使用两个分类器进行类级局部对齐，重点是分类任务。相反，CLAN [31]关注的是语义分割问题。它训练两个分类器，测量它们的输出差异，并根据该差异加权像素级对抗损失。注意，两个分类器的多样性通过不同的机制实现MCD使分类器在目标域上的离散度最大化，而CLAN使分类器参数的余弦相似度最小3.3. 随机分类器从经验上讲，我们发现增加分类器的数量图1）。然而，如前所述，这带来了许多限制我们的方法的核心思想是模拟分类器的分布然后，用于局部差异发现的分类器只是分布的随机样本对分类器分布进行建模可以访问无限数量的分类器，因为我们可以对任意数量的分类器进行采样。重要的是，这增加了分类器和模型参数的数量，使我们能够获得许多分类器，同时保持整体模型大小不变，从而避免过拟合风险。由于分类器在每次迭代时都是从训练分布中独立采样的，因此我们最终获得了足够多的分类器。这进一步消除了调整分类器的数量作为额外超参数的需要。由于随机性的性质，允许分类行为进行统计分析，我们将所提出的方法命名为STochastic clAssifieR（STAR），如图2所示。9114ǁpǁǁpǁ121更具体地说，我们构建了一个多变量高斯分布-N（μ，μ），由均值向量u和对角协方差矩阵μ来参数化。当我们需要多个分类器时，我们可以从N（μ，μ）中采样，相关的损失将反向传播到可学习的参数u和μ。多元高斯的选择，为类-fier分布是双重的：（i）它是可重新参数化的[19]，这对反向传播至关重要;（ii）在对角矩阵的情况下，可训练参数的数量与3.4.2语义分割CLAN [31]基于对抗域适应[10]。它由四个模块组成：（i）特征提取网络gθ （ ·），（ii）第一分类器fφ1（·），（iii）第二分类器f φ 2（·），分类器fφ2（·），（i v）域分类器h φ2（·）。核心是源域实例为正而目标域实例为负的二元分类损失，即，两个分类器的情况。3.4. 实例化由于我们可以对任意数量的分类器进行采样并将误差反向传播回分布参数，即，μ和μ，所提出的方法可以被带入任何（一）θ、φ1、φ2、φ 3（xS，xT）=−log（h<$（fφ1（gθ（xS）-log（h（fφ2（gθ（xS）−ρlog（1−h（fφ1（gθ（xT）−ρlog（1−h<$（fφ2（gθ（xT））））（1）多分类器集成的特定问题解决方案并且最小-最大优化被构建为，在这里，我们实例化了两种类型的应用程序-minψMaxθ，φ1，φ 2（一）θ、φ1、φ2、φ 3（xS），xT）（2）3.4.1图像分类MCD [45]由三个模块组成：（i）特征提取网络工作gθ（·），（ii）第一分类器fφ1（·），（iii）第二分类器fφ2（·）。特征提取网络的目标是与任何一个类合作用于识别源域的筛选器，并最小化两个分类器对目标do-CLAN对最后两个术语有一个加权因子，当量1，并且该因子由以下的余弦距离计算：不两个分类器ρ=1−p1p2哪里p1=fφ1（gθ（xT））和p2=fφ2（gθ（xT））。直观地说，这低估了已经良好对齐的实例的重要性。为了加强两个分类器的发散，CLAN使用基于它们参数的余弦相似性的损失，即，main.同时，具有两个分类器的目的是准确地识别源域的对象，同时最大化目标域的差异。（W）φ1、φ 2φTφ2ǁφ1 ǁǁφ2ǁ（三）更具体地，MCD优化通过交替，CLAN的全部目标通过交替两个步骤来优化步骤Amin< $（fφ（gθ（xS）），yS）+<$（fφ（gθ（xS）），yS）步骤1min<$（y<$（1），yS）+<$（y<$（2），yS）+<$（W）−<$（A）（xT）1 2θ，φ1，φ 2θ，φ1，φ2 S S步骤B max<$fφ（gθ（xT））−fφ（gθ（xT））<$1步骤2 min<$（A）（xS，xT）1 2φ1，φ2步骤C min<$fφ1（gθ（xT））−fφ2（gθ（xT））<$1其中，f（·，·）是分段损失（多类别交叉-θentrop ylossatpix ellev el），y（1）=fφ（gθ（xS）），y（2）=S1S其中，{xS，yS}是来自源域的小批量，xT是来自目标域的小批量，并且X（·，·）是交叉熵损失。注意，两个分类器的源域交叉熵损失可以被进一步添加到步骤B，稳定优化过程。为了给MCD配备我们的随机分类器，我们可以简单地将{φ1，φ2}与{φ1，φ2}进行比较，其中φ1和φ2是从N（μ，μ）中提取的两个独立样本。采样过程通常是不可微的，因此，我们采用了reparametrisationtrick，即， φ1=μ+σ1，φ2=μ+σ2。在这里，R1和R2是从标准高斯中提取的两个独立样本。 ⊙表示逐元素乘积，σ是Σ的对角线。f φ2（g θ（x S））和f φ（A）（x T）是方程的最后两项。1.一、同样，我们可以为CLAN配备我们的随机类-通过设置φ1<$µ+σσεε1和φ2<$µ+σε2，其中ε1和ε2是来自标准高斯分布的两个独立样本。以与上述示例相同的方式，具有两个或更多个分类器的其他示例方法，例如共同训练[43]和三训练[61]，可以通过我们的STAR方法重新制定。3.5. 进一步分析玩具问题我们在著名的双月数据集上运行一个玩具实验。对于源域数据，我们生成一个ℓℓℓ=911512010080601401201008060图3：在两个月亮的2D数据集上进行的玩具实验。蓝色和红色的点（源域）分别属于类0和1，而绿色的点是目标域。4020012685 0.12690 0.12695 0.12700西格马值(a) 0年代40200.116 0.118 0.120 0.122 0.124 0.126西格马值(b) 300年代主要数据决策边界划分不同的类分别为黑色和肉色（a）接受仅使用来源模式的培训(b)MCD [45]. (c)我们的明星。上月和下月，代表两个不同的类。通过旋转源域数据，我们得到目标域数据，如图3所示。源域和目标域的每个类都有300个样本。在所有的实验中，我们使用一个三层MLP的特征生成器和两个独立的三层MLP的分类器。对于我们的方法，我们将分类器中的最后一层替换为随机层。我们对所有方法进行了10000次迭代的训练，以保证收敛。我们显示了仅源模型（图3（a）），MCD（图3（b））（最终决策边界是两个分类器的两个决策边界的平均值）和我们的方法（图3（c））的决策边界。我们可以看出，我们的方法具有最佳的决策边界，正确分类所有的目标样本，而MCD未能定位和对齐一些错位的数据点在较低的月球的右端只有两个分类器访问。图4：（a）初始化（b）在MNIST上的STAR收敛到USPS任务后，平坦化的Risk方法SVHN↓MNISTSYNSIG↓GTSRBMNIST↓USPSUSPS↓MNIST源仅67.185.179.463.4DANN [11]84.2-90.494.7ADDA [55]76.0±1.8--90.1±0.8CoGAN [27]---89.1 ±0.8PixDA [2]--95.9-ASSC [13]95.7±1.5 82.8±1.3--单位[26]90.5-96.093.6CyCADA [15] 90.4±0.4-95.6 ±0.296.5±0.1GTA [46]92.4±0.9-95.3±0.790.8±1.3DeepJDOT [7]96.7-95.796.4SimNet [38]--96.495.6GICT [39]98.7-96.296.6丹麦[45]96.2±0.4 94.4±0.3 96.5±0.394.1±0.3明星98.8±0.05 95.8±0.2 97.8±0.197.7±0.05表2：数字和交通标志分类性能。我们报告了在5次试验中获得的准确度的平均值和标准差。STAR的工作原理改进的性能归功于分布方差。从图4中可以看出，Σ的初始值是均匀分布的，但在训练后它们变得更加模式化。这解释了我们的方法是如何工作的：（i）分类器分布倾向于对于未对准的特征（数据点）具有较大的方差;（ii）特征提取器将通过减轻由那些较大变化识别的未对准来对抗（i）;（iii）对于任何现有的未对准特征，分类器将使方差更大。最后，这一过程将达到一个平衡点：尽可能多地对准特征，并且由于没有进一步的动机来减小它们，所以大的差异仍然存在。这导致我们在图4中观察到的结果：大方差的比例从epoch 0到epoch300增加。那么，为什么香草MCD效果较差呢？事实上，两个分类器可以闭合识别-对齐特征的循环，但是更多的分类器会导致更好的效果。这是直观的，因为它是相当容易的，使两个分类同意每一个，它变得更难当更多的分类加入，因为他们可能会集中在不同的功能和不同意，因为这些功能。测试阶段预测以前的多分类器方法通常采用特征/分数融合或多数投票[17，51]进行最终决策。随着分类器在不同视图中的预测，一个更鲁棒的决策-可以制作。由于我们使用随机分类器，理论上，我们可以融合任意数量的预测。然而，一个简单而有效的方法是使用平均值μ进行最终预测，我们发现这在实验上效果很好。4. 实验4.1. 图像分类4.1.1数字和符号分类数据集在这个实验中，我们使用了三个数字数据集（MNIST [21]，街景门牌号（SVHN）[34]和USPS[16] ）和两个标志数据集（合成交通标志（ SYNSIGNS ） [32] 和德国交通标志识别基准（GTSRB）[49]）。在灰度特征上，MNIST包含灰度数字图像，背景清晰; SVHN [34]由来自真实场景的裁剪彩色数字组成，具有非常模糊的外观;美国邮政提供灰度手写-频率频率9116方法平面bcycl总线车马刀麦克伊克勒人植物斯克特布尔德火车卡车是说源仅55.153.361.959.180.617.979.731.281.026.573.58.552.4MMD [28]87.163.076.542.090.342.985.953.149.736.385.820.761.1DANN [10]81.977.782.844.381.229.565.128.651.954.682.87.857.4JAN [30]75.718.782.386.370.256.980.553.892.532.284.554.565.7ADR [44]87.879.583.765.392.361.888.973.287.860.085.532.374.8开发[58]81.8353.4882.9571.6289.1672.0389.3675.7397.0255.4871.1929.1772.42GICT [39]87.660.681.672.187.862.989.768.588.876.183.220.073.1LPJT [24]93.080.366.556.395.870.374.283.891.740.078.757.674.0BSP（CDAN）[5]92.461.081.057.589.080.690.177.084.277.982.138.475.9DSBN（墨西哥）[3]94.786.776.072.095.275.187.981.391.168.988.345.580.2SAFN [57]93.661.384.170.694.179.091.879.689.955.689.024.476.1TPN [35]93.785.169.281.693.561.989.381.493.581.684.549.980.4DTA [23]93.782.285.683.893.081.090.782.195.178.186.432.181.5丹麦[45]87.060.983.764.088.979.684.776.988.640.383.025.871.9明星95.084.084.673.091.691.885.978.494.484.787.042.282.7表3：VisDA 2017基准的对象分类性能[37]。所有方法都使用在ImageNet上预训练的ResNet101模型[14]作为骨干模型。十位数的图像与不受约束的写作风格。虽然共享相同的10（0 - 9）位数类，三个数据集呈现显着不同的数据分布，因此适合UDA评估。对于符号数据集，SYNSIGNS给出了合成的交通标志，这些标志看起来与GTSRB的真实图像有因此，这两个组成了一个很好的UDA任务，有43个对象类。对于UDA测试，我们采用了四种常用的跨数据集转换，使用标准数据拆分的fer设置：[45]第四十五条国家安全法实施细则模型实例化我们采用MCD [45]作为本实验1中的UDA框架。为了公平比较，我们使用与[45]相同的特征提取器和分类器网络设计请注意，我们只将分类器的最后一个FC层替换为STAR层，同时共享其他层。我们使用Adam [18]作为优化器，学习率为2×10−4，批量大小为128。我们训练了200 epoch用于SVHNMSNIST和SYNSIGN MSNGTSRB，300 epoch用于USPS MSNIST和MNISTUSPS（由于训练数据较少）。我们遵循着同样的超参数设置为MCD [45]，无需额外调整。结果我们在表2中的四个测试设置上评估了STAR在与广泛的现有最先进方法的兼容性中的性能。我们提出了以下意见：（1）由于源域和目标域之间的数据分布差距，直接应用在源域数据上训练的模型产生较弱的性能。（2）与主干方法MCD [45]相比，我们的这表明STAR的不可知功效，验证了我们利用随机分类器增强基于LA的UDA方法识别局部未对准的能力（3）在这种改进下，STAR优于所有比较1我们没有使用SWD [22]进行实验，因为即使在作者的帮助下，我们也无法重现方法，往往是一个大的利润率与低精度的变化。这种低方差还表明，建模类化因子分布使得STAR对不同试验中的随机初始化不太敏感4.1.2对象分类数据集我们评估了更具挑战性的对象分类任务，该任务将VisDA [37]中的合成图像知识转移到COCO [25]中的真实图像分类。VisDA包含来自12个类别的152，397个合成图像。目标测试数据是来自相同类的55，388个COCO验证图像的集合。模型实例化为了与前向方法进行公平比较，我们使用了与ImageNet [8]预训练相同的骨干ResNet101 [14]，如[45，23]。我们选择MCD [45]作为UDA管道。也就是说，我们丢弃了ResNet101中的最后一个FC层，并将其余部分用作特征生成器。然后，我们将随机分类器部署在3个FC层。培训详情我们使用的输入图像大小为224×224我们采用了SGD优化器，批量大小为32，学习率为1。对于特征提取器和分类器都是0×10−3我们比较了VISDA上STAR的对象分类准确性与表3中各种最先进的UDA方法。我们有类似的观察数字/符号分类上述，例如，我们的STAR再次实现了最佳的整体性能。一个值得注意的区别是，STAR在该任务上产生了比基线MCD显著10.8%的改善，这显著大于在更简单的数字/符号识别任务上实现的改善（平均2.3%）。这是令人鼓舞的，因为它表明我们的方法更好地解决更具挑战性的识别任务。9117方法路边。buil。墙栅栏杆灯标志蔬菜。陆地天空报乘用车卡车客车列车Miou源仅75.816.877.212.521.025.530.120.181.324.670.353.826.449.917.225.96.525.336.036.6[54]第54话83.727.675.520.319.927.428.327.479.028.470.155.120.272.922.535.78.320.623.039.3[54]第54话86.525.979.822.120.023.633.121.881.825.975.957.326.276.329.832.17.229.532.541.4[54]第54话86.536.079.923.423.323.935.214.883.433.375.658.527.673.732.535.43.930.128.142.4GICT [39]88.641.376.423.326.124.332.823.182.337.473.362.224.873.329.633.94.633.424.342.8CLAN [31]87.027.179.627.323.328.335.524.283.627.474.258.628.076.233.136.76.731.931.443.2CLAN†87.928.679.924.024.024.933.319.483.431.976.158.327.582.835.442.60.727.127.242.9明星88.427.980.827.325.626.931.620.883.534.176.660.527.284.232.938.21.030.231.243.6表4：GTA 5的语义分割性能和Cityscapes（19个常见类别）。我们报告了每个类别和平均IoU。所有方法都使用ResNet101作为主干。“0”：我们使用作者公开发布的代码获得的结果，没有任何更改（这是我们STAR的基线）。方法路边。buil。光标志蔬菜天空报乘用车电机自行Miou源仅55.623.874.66.112.174.879.055.319.139.623.313.725.038.6[54]第54话62.421.976.311.711.475.380.953.718.559.713.720.624.040.8[54]第54话79.237.278.89.910.578.280.553.519.667.029.521.631.345.9[54]第54话84.342.777.54.77.077.982.554.321.072.332.218.932.346.7CLAN [31]81.337.080.116.113.778.281.553.421.273.032.922.630.747.8CLAN†77.030.882.18.610.881.580.256.921.671.629.211.636.346.0明星82.636.281.112.28.778.482.259.022.576.333.611.940.848.1表5：Synthia Cityscapes的语义分割性能（13个常见类）。我们报告了每个类别和平均IoU。所有方法都使用ResNet101作为主干。“0”：我们使用作者公开发布的代码获得的结果，没有任何更改（这是我们STAR的基线）。4.2. 语义分割除图像分类外，我们进一步评估了STAR的语义分割任务，该任务需要对图像的每个像素进行分类，以理解图像内容的细粒度细节。我们在这个实验中使用了三个流行的语义分割基准，即GTA 5 [40]，Syn- thia [42]和Cityscapes [6]。GTA 5和Synthia都是合成图像数据集，旨在避免收集密集像素级语义注释的高成本。GTA 5包含24，966张从开放世界计算机游戏中合成的图像，而Synthia则有9，400张虚拟世界随机扰动生成的图像。Cityscapes是一个真实的街道场景数据集（见图5），包括2，975张图像的训练集，500张图像的验证集和1，525张图像的测试集。为了公平比较，我们使用验证集作为测试集，如[31，54]所示。我们使用一个合成图像数据集（GTA 5或Synthia）作为源域数据，并使用真实图像数据集（Cityscapes）作为目标域。模型实例化我们使用基于ResNet 101的DeepLab-v2 [4]作为主干。我们选择了最先进的CLAN [31]作为UDA框架。我们在构建STAR时删除了CLAN实现细节对于特征提取器，我们使用SGD优化器的动量为0.9，初始学习率为2。5×10−4的多项式衰减，幂为0.9，权重衰减为5×10−4。对于分类器，我们使用Adam [18]优化器，β1= 0.9，β2= 0.99，固定学习率为5×10−5，权重衰减为5×10−4。我们将最大训练迭代次数设置为100k。在训练中，输入图像被裁剪为512×1，024，在测试中被上采样为2倍。结果我们在两种UDA环境中，GTA 5和 Cityscapes（表4）和Synthia和 Cityscapes（表5），与最先进的方法相比，评估了STAR的语义分割性能。所有的通信方法都使用相同的ResNet101主干。我们有从这两个表格中得出以下结论：（1）如在图像分类中，由于域移位问题，如果直接应用于目标域，则源训练模型是较差的。（2）STAR相对于[ 31 ]中报告的CLAN结果的mIoU边界似乎很小（GTA 5和SynthesCityscapes分别为0.4%和0.3%）。然而，当使用作者发布的代码时，我们永远无法达到报告的性能。与我们使用CLAN（CLAN †）的结果进行更公平的比较，相同的超参数设置显示出更实质性的改善（GTA 5上的0.7%和Synthia上的2.1%）。（3）STAR在两种UDA设置下都达到了最佳精度，表明总体性能提出的方法的优点。为了定性检验我们模型的有效性，在图5中，我们提供了四个9118图5：来自GTA5 [40]的UDA设置的定性语义分割示例。第1列：输入图像，第2列：源训练模型的输出，第3列：STAR的输出，第4列：地面实况。随机选择的分割示例，以可视化STAR与源训练模型相比的性能提升。收敛后的方差函数如第2节所述。3.5，分类器权重分布（高斯）方差在收敛时仍有一定的值。一些的方差较大，决定了它们的特殊功能。由于更宽的采样空间，较大的样本往往会使采样分类器多样化，而较小的样本则通过减少对μ的影响来保证分类器在源域上的区分。在这两个方面的共同努力下，STAR在目标领域变得更加普遍。4.3. 消融研究到目前为止报告的结果清楚地表明，将STAR添加到基于局部对齐的UDA方法中会带来明显的好处。在这里，我们在STAR的每次训练迭代中检查了STAR对采样分类器数量（默认情况下采样两个分类器我们在两个数字分类任务（MNIST）上做了这个测试UDA框架使用MCD [45]。对于每个特定的分类器编号，我们重复五次，并报告平均准确度和标准偏差。图6显示，每次迭代采样更多的分类器无助于提高性能，同时引入额外的计算成本。这是有意义的，因为在每次迭代中，我们的STAR样本随机独立分类器，导致在训练结束时使用大量分类器。因此，在一次迭代中对更多的分类器进行采样的动机很小。10099989796952 3 4 5 6 7 8 9 10每次迭代图6：我们的STAR对每个训练迭代的分类器数量的性能敏感度。我们将每个实验重复五次，并报告平均准确度（实线）和标准偏差（阴影）。5. 结论在本文中，我们提出了 STochastic clAssifieRs（STAR）的基础上，更多的分类器在UDA任务中表现更好与以前使用多个类的模型相比，对于逐点估计的sifiers，我们在分类器的权重上构建了一个多变量高斯分布N（μ，μ）。有了它，自然地，可以对任意数量的不同这使我们能够利用无限分类器，而无需增加模型大小和过度拟合的风险为了展示我们的方法的普遍适用性，我们将其分别应用于分类任务和分割任务的两个不同管道从结果来看，STAR带来了明显的好处，并优于许多最先进的方法。STAR ：MNIST到USPSSTAR：USPS到MNIST标准品的准确度（%）Dev.在阴影中9119引用[1] CharlesBlundell，JulienCornebise，KorayKavukcuoglu，and Daan Wierstra.神经网络中的权重不确定性。ICML，2015。3[2] Konstantinos Bousmalis 、 Nathan Silberman 、 DavidDohan、Dumitru Erhan和Dilip Krishnan。无监督像素级域自适应生成对抗网络。在CVPR，2017年。三、五[3] Woong-Gi Chang、Tackgeun You、Seonguk Seo、SuhaKwak和Bohyung Han。用于无监督域自适应的特定于域的批量归一化在CVPR，2019年。三、六[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI，2017。7[5] Xinyang Chen ， Sinan Wang ， Mingsheng Long ， andJianmin Wang.可转让性与可辨别性：对抗域适应的批量频谱惩罚。在ICML，2019。6[6] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。七、八[7] BharathBhushanDamodaran ， BenjaminKellenber ger ，Re'miFlamary，Devis Tuia和Nicolas Courty。Deepjdot：用于无监督域自适应的深度联合分布优化传输。在ECCV，2018。5[8] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Li Fei-Fei. Imagenet：一个大规模的分层图像数据库。CVPR，2009。6[9] 卡尔·道施变分自动编码器教程。arXiv预印本arXiv：1606.05908，2016. 3[10] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督ICML，2015。一、四、六[11] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempit

下载后可阅读完整内容，剩余1页未读，立即下载