无监督半监督语义分割的最大平方损失方法

79 浏览量更新于2023-10-12 收藏 1.08MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2090基于最大平方损失的陈明浩，薛洪阳，蔡登浙江大学计算机学院CAD CG国家重点实验室，杭州法布公司，中国杭州阿里巴巴-浙江大学前沿技术联合研究院，中国杭州网址：minghaochen01@gmail.com，hyxue@outlook.com，网址：www.example.com，dengcai@cad.zju.edu.cn摘要用于语义分割的深度神经网络通常需要大量带有像素级标签的样本，这成为其实际应用中的主要困难。为了降低标注成本，提出了无监督局部自适应（UDA）方法，将标注的合成数据集的知识转移到未标注的真实世界数据集。近年来，一些半监督学习方法被应用于UDA，并取得了很好的效果。半监督学习中最流行的方法之一是熵最小化方法。然而，当将熵最小化应用于UDA用于语义分割时，熵的梯度偏向于易于转移的样本为了平衡良好分类的目标样本的梯度，我们提出了最大平方损失。我们的最大平方损失防止训练过程被目标域中易于转移的样本所主导此外，我们引入图像加权比，以减轻类不平衡的未标记的目标域。合成到真实和跨城市的适应实验证明了我们所提出的方法的有效性。代码发布在 https：//github。com/ZJULEarning/MaxSquareLoss.1. 介绍在过去的几十年里，深度学习在语义分割任务中取得了研究人员在提升深度模型在当前数据集上的性能方面取得了显着进展，例如PASCAL VOC-2012 [8]和Cityscapes [6]。然而，这些具有逐像素语义标签的真实数据集需要大量的手动注释工作。为Cityscapes添加注释需要90分钟，*通讯作者图1：在UDA中，熵最小化方法（H）的梯度集中在目标域中分类良好的样本上。因此，我们提出了最大平方损失（MS），这是平方概率的负和。最大平方损失的梯度是线性增加的，这降低了易于转移的样本的梯度幅度，并且使得困难样本更有效地被训练。准确的图像[25]。由于这种“数据集注释的诅咒”，用于语义分割的真实世界数据集通常仅包含少量样本，这阻碍了模型对各种真实世界情况的推广。克服这一限制的一种可能方法是利用合成数据集，如侠盗猎车手V（GTA5）[25]和SYNTHIA [26]，它们标记和拥有更多包含各种位置的样本所然而，在合成数据集上训练的模型不能通过直接传输很好地推广到现实世界的例子，因为两个数据集之间存在很大的外观差距。用于语义分割的无监督域自适应（UDA）[13，28，36]是旨在解决上述转移问题的任务。在UDA中，标记的合成物2091数据集被称为源域，而未标记的真实世界数据集被称为目标域。UDA的一般思想是利用来自目标域的未标记数据来帮助最小化这两个域之间的性能差距。最近，受半监督学习[11，17]的启发，它也利用了未标记的数据，引入了基于半监督学习的UDA [9，31，36]方法来对齐域间的特征分布。这些基于半监督学习的方法在分类[9]和语义分割[36]方面都取得了最先进的结果熵最小化[11]鼓励明确的聚类分配，是半监督学习中最流行的方法之一。ADVENT [31]直接采用熵最小化方法来UDA进行语义分割，但其结果不如最先进的方法。通过分析熵最小化方法的梯度，我们发现预测概率越高，目标样本的梯度1越大（图1）。①的人。如果我们在自训练中采用假设[36]，即具有较高预测概率的目标样本因此，熵最小化方法将允许容易转移的样本的充分训练，这阻碍了难以转移的样本的训练过程。这个问题在en-熵最小化可以被称为概率不平衡：容易转移的类具有更高的概率，这导致比难以转移的类大得多的梯度。一个简单的解决方案是更换熵公式中的预测概率P，其中P缩放=（1−2γ）P+γ，其中γ是缩放比（那么最大梯度可以由因子γ限定，而不是无穷大。但是，此方法引入了一个额外的超参数γ，这很难选择。在本文中，我们引入了一个新的损失，最大平方损失，以解决概率不平衡问题。由于最大平方损失具有线性增加的梯度（图1）。1），它可以防止高置信度区域产生过多的梯度。同时，我们证明了优化我们的损失等价于最大化均匀分布的Pearsonχ2最大化这种分歧可以实现源域和目标域之间的类分布对齐。此外，我们注意到在未标记的目标域的类不平衡由于目标区域中的标签不可用，我们提出了基于图像中不同类别的百分比最后但并非最不重要的是，我们利用多级输出来提高性能。我们将弱监督学习的思想应用于[34]1在本文中，梯度是指梯度的大小。UDA并生成自制的指导来训练低层特征。本文的主要贡献如下：• 通过对熵梯度的分析，发现了UDA熵最小化方法中存在的概率不平衡问题。我们建议最高平方损失与线性增长梯度，以平衡高置信度类的梯度。• 为了解决未标记目标域的类不平衡问题，我们引入了图像加权因子，它比传统的类更适合UDA加权因子• 我们的方法可以在多个UDA设置下使用最先进的方法实现具有竞争力的结果。应该强调的是，我们的做法并不需要额外的结构或布局。此外，与自训练[36]不同，我们的方法不需要冗余计算来获得伪标签。2. 相关工作语义分割。经过多年的研究，基于深度神经网络的语义分割模型（例如，Deeplab [2，3，4]，PSPNet[35]）可以在真实世界的数据集上实现惊人的性能，例如，PAS- CAL VOC-2012 [8]和Cityscapes [6]。然而，性能严重依赖于高质量的标记数据集，这需要大量的手动工作。减少人工标记成本的一种可能的方法是采用从虚拟世界构造的合成数据集，[25]第26话：然而，由于渲染和真实图像之间的外观差异，在从合成数据集到真实数据集的传输过程中存在性能无监督域自适应。传统上，研究无监督域自适应（UDA）[10，20，21，29，30，33]以解决域之间的域转移问题。用于分类任务的标记源域和未标记目标域。UDA背后的核心思想是最小化源域和目标域的特征分布之间的差异，这意味着学习主不变特征。分布发散可以通过基于最大平均离散度（MMD）的方法[20，21，30]或基于对抗学习的方法[10，29]来测量。除了全局分布对齐，类和条件分布对齐[21，33]也被广泛研究。语义分割的UDA。对于语义分割任务，由于高维特征空间，不适合直接采用为分类任务提出的方法。[14]第十四话首先介绍了UDA的语义分割任务，并采用全局特征对齐和标记的方法来2092S统计匹配输出自适应方法[28]调整结构化输出空间以传递结构化空间知识。条件生成器可以用来对齐条件分布[15]。除了对抗性的方法，另一个想法是将真实图像的风格转移到合成样本中，同时保留语义标签。CyCADA [13]采用CycleGAN [16]构建了一个标记的类真实数据集，该数据集与目标数据集更相似。基于半监督学习方法.最近，受半监督学习[11，17]的启发，也利用了未标记的数据，有几个半监督学习[11，17]。基于监督学习的方法[9，24，36，31]提出了UDA任务。假设具有较高预测概率的区域更准确，类平衡自训练[36]基于类阈值生成伪标签。在半监督学习研究中，可以得出结论，未标记样本的信息量随着类重叠而减少[1，22]。因此，使未标记的样本不那么模糊可以帮助类更可分离，例如，最小化条件熵[11]。ADVENT [31]在UDA领域采用了这一思想，并使目标样本的预测熵最小化。图2：从GTA5到Cityscapes，预测概率的平均值与每个目标类的交集（Intersection over它们几乎是线性相关的。因此，分类良好的类（高IoU）具有更大的预测概率。是图片中的像素总数。pn，c是样本xs在点n处类别c的模型预测概率。LT（xt）是目标样本的损失部分。熵最小化在[31]中，他们试图最小化目标样本预测的香农熵因此，目标样本的目标函数为：3. 方法1ΣN ΣCn、cn、c在本节中，我们提出我们的主要贡献，LT（xt）=−Nn=1c=1ptlog（pt）的情况。（三）即，最大平方损失和图像类平衡加权因子。在3.1节中，我们回顾了UDA的语义分割。在3.2节中，我们说明了UDA的熵最小化方法中的概率不平衡问题，并介绍了我们的最大平方损失。然后通过梯度分析揭示了最大平方损失的好处，并从f-散度的角度解释了最大平方损失的含义。此外，在第3.3节中，我们注意到了类别不平衡，并使用图像加权因子解决了它。最后但并非最不重要的是，我们在第3.4节中将自制指南应用于UDA。3.1. UDA概述在无监督域自适应（UDA）中，标记的源域被表示为DS={（x s，y s）|x s∈RH×W×3，ys ∈ RH×W}，未标记目标域记为DT={xt|xt∈RH×W×3}。用于语义分割的UDA的一般目标函数可以是公式如下：为了简单起见，我们考虑二元分类的情况。然后熵公式和熵的梯度函数可以写为：H（p|x t）= −p log p −（1 − p）log（1 −p），（4）DH||.|log p − log(1 − p)|.（五）DP将梯度函数图像绘制在图1上之后1，我们可以看到高概率点的梯度比中间点大得多。因此，熵最小化方法背后的关键原则是目标样本的训练由高概率区域引导，该高概率区域被假设为更准确。3.2. 最大平方损失概率不平衡问题不同类别的概率差别很大。高精度L（x，x）= L（p，y）+λ L（x）、（1）总是有更高的预测概率（图）。2）的情况。怎么-s t CESS不Tt梯度增长（Eq.（5）高概率1ΣNLCE（ps，ys）= − ΣC yn，clog（pn，c），（2）点近似为|log P|（p → 0），它将增长到无穷大. 那么这个简单的类将产生一个大得多的Nss n=1c =1其中LCE是源样本的交叉熵损失，表示H×W空间中的像素点，并且N=HW梯度对每个像素的分类比困难，导致第1节中提到的概率不平衡问题。为了解决这个问题，我们定义了最大平方2093不C不损失为：1ΣNLT（xt）=−2NΣC（p n，c）2.（六）n=1c =13.2.1最大平方损失对于二进制分类的情况，我们有最大平方损失及其梯度函数如下：MS（p|x t）= −p2−（1 − p）2，（7）DMS||.|4p − 2|.（八）DP正如上面的等式所示，最大平方损失的梯度线性增加（图11）。①的人。在目标域中，与熵最小化方法相比，该方法具有更均衡的梯度。具有较高置信度的区域仍然具有较大的梯度，但其主导效应已经降低，从而允许其他困难的类获得训练梯度。因此，我们配备了最大平方损失，缓解了熵最小化中的概率不平衡。在实验中（第4.4节），我们表明最大平方损失确实平衡了不同样本的训练过程，并且大大超过了熵最小化方法3.2.2从f-divergence视图解释目标部件损失LT（x t）可以被视为模型预测分布pn，c与均匀分布U =1之间的距离。最小化该距离将减少目标样本的模糊性，并有助于分类。[11]更是一种解脱在概率论中，通常使用f-散度图3：最大平方损失的效果的说明。通过优化最大平方损失函数，将目标样本特征从决策边界推到对应的源特征分布，实现了类分布对齐。3.3. 图像类平衡加权因子如图4所示，具有更高准确度的类在标签图上总是具有更多的像素，这导致数量上的不平衡。平衡类别数量的常规方法是引入加权因子αc，通常将其设置为逆类别频率[18]。然而，在UDA任务中，没有类标签来计算类频率。用源数据集上的类统计信息替换目标类统计信息也是不合适的，因为不能保证目标域与源域具有相同的类频率。我们不使用整个目标数据集的类别频率，而是在每个目标图像上计算它们：函数来测量分布之间的差异：∗mn，c如果c= arg maxpn，c，则为1=c（十一）Df（p<$q）=Σq（c）fC.Σp（c）q（c）.（九）Nc=否则，Σmn，c.（十二）我们考虑皮尔逊χ2散度：f（t）=t2−1(orf（t）=（t−1）2相等）。那么方程9变成：ΣD χ2（pn，c<$U）= C（pn，c）2− 1。（十）Cn由方程式6，我们将总和除以N以平均目标图像上的损失。相反，我们根据类的数量Nc来平均损失。由于预测不准确，这两个数字之间的插值更稳定：类似于熵，上述等式是目标样本的模糊性的另一个度量。最大化梨-公司简介LT（xt）= −12（Nc）α×N（1−α）（pn，c）2，（13）sonχ2 发散等价于最小化目标函数（等式 2 ）。（六）。使用U最大化Pearsonχ2散度将目标特征从决策边界推到相应的源特征分布(Fig.（3）第三章。通过这种方式，优化最大平方损失可以实现两个域之间的类分布对齐。n=1c=1其中α被视为要通过交叉验证选择的超参数。3.4. UDA多层次自制制导如[28]所述，调整低级功能可以提高最终性能。我们提取特征图2094不（1+αp）β图4：从GTA5到Cityscapes，对数频率与每个目标类的交集（Intersection over Union它们几乎是线性相关的。因此，分类良好的类（高IoU）具有更多的像素（高频率）。从ResNet [12]的conv4层中提取，并向其添加ASPP然后，我们将目标样本的目标函数扩展为：4.1. 数据集分类. Office-31是最常用的无监督域自适应数据集，其中包含从三个域收集的4，652张图像和13个类别：亚马逊（A），网络摄像头（W）和数码单反相机（ D ）。我们评估了六个领域适应任务 A→W ，D→W，W→D，A→D，D→A和W →A的所有方法。语义分割。至于从合成数据集到真实世界的数据集，我们认为Cityscapes [6]作为目标域，并将GTA5 [25]或SYNTHIA[26]数据集设置为源域，这与之前作品中的设置相同[28，36]。Cityscapes数据集包含5，000张带注释的图像，分辨率为2048×1024，取自真实的城市街道场景。GTA5 数据集 [25]包含24 ， 966 张来自 GTA5 游戏的1914×1052分辨率的注释图像对于SYNTHIA数据集，我们使用由 9 ， 400 张 1280×760 合成图像组成的SYNTHIA-RAND-CITYSCAPES 子集。在训练过程中，我们使用GTA5或SYNTHIA的标记训练集L（x）= Lfinal（x）+λL低（x），（14）和Cityscapes的2,975张图片T TTt低Tt训练集没有注释作为目标域。我们其中Lfinal（xt）表示目标样本的模型最终预测的损失函数，例如，最大平方损失（等式（六）。因为高电平输出更准确与低层输出相比，用高层输出指导低层特征的训练因此，我们在弱监督学习中采用了自生成指导学习的思想[34]我们首先通过平均不同级别的输出图来获得系综输出Pens，即，P最后和P低。然后我们生成n，c自制指南yt签署人：如果c=arg maxpn，c，在Cityscapes验证集的500张图像上评估所有方法。在评估中，我们采用每个类的交集（IoU）和平均交集（ mIoU ）作为性能指标。我们考虑 GTA5 到Cityscapes 案例中所有 19 个类的 IoU 和 mIoU 。虽然SYNTHIA 仅与 Cityscapes 共享 16 个类，但我们在SYNTHIA到Cityscapes的案例中考虑了16个类和13个类的IoU和mIoU。至于跨城市适应，我们选择训练集Cityscapes作为源域，NTHU数据集[5]作为目标域。NTHU数据集由图像组成∗yn，c=n，censcn，cn（十五）分辨率为2048 ×1024，来自四个不同的城市：里奥tp最终> δ或p低 > δ否则，其中δ的选择不影响实验结果，我们设δ=0。九十五我们使用这种高质量的指导来指导低水平的培训：罗马、东京、台北。对于每个城市，我们使用3200个没有注释的图像作为训练的目标域，并使用100个标记有13个类别的图像进行评估。我们考虑共享的13类IoU和mIoU进行评估。4.2. 实现细节低n，c分类.我们应用熵最小化，λ lowLT（x t）= λ lowLCE（p low，yt）。（十六）在实验中，我们固定λ low= 0。1，与[28]相同4. 实验在本节中，我们首先介绍了熵最小化和最大平方损失在分类任务上的比较。然后，我们在合成到真实和跨城市设置中进行了几个实验，以证明我们的方法在无监督域自适应语义分割中的有效性。该代码将在https://github.com/ZJULearning/MaxSquareLoss上提供。ResNet-50 的最大平方损失 [12] 。我们采用在ImageNet [7]上预训练的模型，除了最后的分类器层。我们使用动量为0.9的随机梯度下降（SGD）来遵循[10]中的学习率退火策略，学习率通过η p=η0调整，其中p是从0到1线性变化的训练进度，η0=0。01，α=10，β=0。75. 我们将批大小设置为128，其中一半是源样本一半是目标样本。我们设λ T=0。最大平方损失为3，λ T= 0。熵最小化。语义分割。如[28]所述，重要的是采用更强的基线模型来理解2095最大迭代器方法A →WD →WW →DA →DD →AW →AAvgResNet-50 [12]68.4±0.296.7±0.199.3±0.168.9±0.262.5±0.360.7±0.376.1DANN [10]82.0±0.496.9±0.299.1±0.179.7±0.468.2±0.467.4±0.582.2EntMin89.0±0.199.0±0.1100.0±.086.3±0.367.5±0.263.0±0.184.1MaxSquare92.4±0.599.1±0.1100.0±.090.0±0.268.1±0.464.2±0.285.6表1：Office-31上熵最小化和最大平方损失的比较GTA5→城市景观方法骨干道路人行道建筑墙栅栏杆灯标志蔬菜。地形天空人乘用车卡车公共汽车火车电机自行车mIoU（%）来源[36]更广泛2019 - 10 - 15 10：00 10：0035.4CBST [36]ResNet-3886.8 46.7 76.9 26.3 24.8 42.0 46.0 38.6 80.7 15.7 48.0 57.3 27.9 78.2 24.5 49.6 17.7 25.5 45.145.2CBST-SP [36][32个]88.056.2 77.0 27.4 22.440.7 40.9 82.4 21.6 60.3 50.2 20.4 83.8 35.051.0 15.2 20.6 37.046.2[28]第二十八话86.5 36.0 79.9 23.4 23.3 23.9 35.2 14.8 83.4 33.3 75.6 58.5 27.6 73.7 32.5 35.4 3.9 30.1 28.142.4MinEnt [31]ResNet10186.2 18.6 80.3 27.2 24.0 23.4 33.5 24.7 83.3 31.0 75.6 54.6 25.685.2 30.0 10.9 0.1 21.937.142.3[31]第三十一话87.6 21.4 82.034.8 26.2 28.5 35.6 23.0 84.5 35.1 76.2 58.630.7 84.8 34.2 43.4 0.4 28.4 35.344.8源仅71.4 15.3 74.0 21.1 14.4 22.8 33.9 18.6 80.7 20.9 68.5 56.6 27.1 67.4 32.8 5.6 7.7 28.4 33.836.9MinEnt†84.2 34.4 80.7 27.0 15.7 25.8 32.6 18.0 83.4 29.4 76.9 58.7 24.0 78.7 35.9 29.9 6.5 28.3 31.442.2MaxSquareResNet10188.1 27.7 80.8 28.7 19.8 24.9 34.0 17.8 83.6 34.7 76.0 58.6 28.6 84.1 37.8 43.1 7.2 32.2 34.244.3MaxSquare+IW89.3 40.5 81.2 29.0 20.4 25.6 34.4 19.0 83.6 34.4 76.5 59.2 27.4 83.838.4 43.6 7.1 32.2 32.545.2MaxSquare+IW+Multi89.443.082.1 30.5 21.3 30.3 34.7 24.085.3 39.4 78.2 63.9 84.6 36.4 43.0 5.534.7 33.546.4表2：GTA5-to-Cityscapes实验的结果。“最大平方”表示我们的最大平方损失方法，“最大平方+IW”是与我们的图像加权因子相结合的最大平方损失（等式2）。第13段）。“多”去注释结合了3.4节中的多层次自我引导方法。为了比较，我们再现熵最小化方法的结果[31]，其表示为CBST [36]采用了更广泛的ResNet模型[32]，它比我们采用的原始ResNet [12]更强大。不同的自适应方法的效果，并提高实际应用的性能。因此，在所有实验中，我们使用Deeplabv 2 [2]和在ImageNet [7]上预训练的ResNet-101 [12]骨干作为我们的基础模型，这与其他作品相同[28，31]。在自适应之前，我们在源域上对网络进行了70k步的预训练，以获得高质量的源训练网络。我们使用Py-Torch [23]在单个NVIDIA1080 Ti GPU上实现算法。由于算法的限制，我们使用批量大小为2的数据来训练模型（一个来自源域，一个来自目标域）。在[28]之后，我们使用学习率为2的随机梯度下降（SGD）优化器训练模型。5×10- 4，动量0。9和重量衰减5×10−4。我们使用“poly”策略来安排学习率：学习率乘以（1-iter）0。9[2]。我们采用随机镜像和高斯模糊来增强数据，同样如[35]。对于超参数的选择，我们设置λT=0的情况。1在所有实验中。在与逐图像加权因子（Eq.13），我们固定α= 0。二、4.3. 分类实验结果选项卡。4显示了Office-31上的比较结果。虽然结果与最先进的图5：A→W上不同难度样本的准确度。例如，“EntMinbottom”是“底部集合”（最困难的样本）上的熵最小化的准确度。方法，最大平方损失（MaxSquare）超过熵最小化（EntMin）和DANN [10]。因为语义分割任务比分类难得多，所以这种差异在下面的语义分割实验中将更加明显。验证最大平方损失。如第3.2节所示，最大平方损失可以使困难的样本比熵最小更有效地训练。mization我们用A→W任务对这一结论进行了实验验证。我们首先在源域上训练模型2096SYNTHIA→城市景观方法骨干道路人行道建筑墙 *栅栏* 杆 *光标志蔬菜天空人乘用车汇流排电动机自行车mIoU（%）mIoU*（%）来源[36]更广泛32.6 21.5 46.5 4.8 0.1 26.5 14.8 13.1 70.8 60.3 56.6 3.5 74.1 20.4 8.9 13.129.233.6CBST [36]ResNet-3853.6 23.7 75.012.5 0.336.4 23.5 26.3 84.8 74.767.2 17.584.5 28.4 15.255.842.548.4[28]第二十八话84.342.777.5 -4.7 7.0 77.9 82.5 54.3 21.0 72.3 32.218.9 32.3-46.7MinEnt [31]ResNet10173.5 29.2 77.1 7.7 0.2 27.0 7.1 11.4 76.7 82.1 57.2 21.3 69.4 29.2 12.9 27.938.144.2[31]第三十一话85.642.2 79.7 8.7 0.4二十五点九 5.4 8.1 80.4 84.1 57.923.8 73.336.4 14.241.248.0源仅17.7 15.0 74.3 10.1 0.1 25.5 6.3 10.2 75.5 77.9 57.1 19.2 31.2 31.2 10.0 20.130.134.3MinEnt†67.8 28.3 79.0 4.8 0.1 7.3 81.7 84.1 58.9 19.4 75.9 36.2 10.4 26.138.044.5MaxSquareResNet10177.4 34.0 78.7 5.6 0.2 27.7 5.8 9.8 80.7 83.2 58.5 20.5 74.1 32.1 11.0 29.939.345.8MaxSquare+IW78.5 34.7 76.3 6.5 0.1 30.4 12.4 12.2 82.284.3 59.9 17.9 80.6 24.1 15.2 31.240.446.9MaxSquare+IW+Multi82.9 40.780.3 10.20.8 25.8 12.8 18.2 82.5 82.2 53.1 18.0 79.0 31.4 10.4 35.641.448.2表3：SYNTHIA至Cityscapes实验的结果。并将测试集中30%置信度最高的样本标记为“顶集”，将30%置信度最低的样本标记为“底集”。然后，我们用EntMin或MaxSquare微调模型，并记录测试集上的准确度，“顶部集”和“底部集”。如图5所示，两种方法在“顶集”上的准确度然而，MaxSquare在“底部集合”上的精度远高于EntMin。这些结果表明，最大平方到EntMin的主要改进来自于困难样本的改进。4.4. GTA5城市景观4.4.1总体结果表2总结了与现有技术方法相比，GTA 5到Cityscapes适配的实验结果[28，31，36]。如表2所示，配备ResNet-101主干，我们的“MaxSquare+IW+Multi”方法实现了最先进的性能。与“MaxSquare”相比栅栏、人、卡车、火车和摩托车。此外，对于那些难以转移的课程，例如，地形，公共汽车和自行车，然而，我们还发现，我们解释了这种现象，即最大平方损失不仅降低了易于转移的类的梯度，而且降低了简单样本的梯度，这使得来自道路类的困难样本能够更有效地训练。这种机制类似于焦点丢失[18]。我们注意到“CBST-SP”[36]实现了与我们的方法相似的结果。他们的方法假设空间先验在源域和目标域之间共享。然而，不同的数据集可能具有不同的空间分布，其假设并不总是成立，这将在跨城市适应实验中得到揭示。GTA5→城市景观熵MaxSquareIW多MiouC42.2C44.3CC43.5CC45.2CC45.2CCC46.4表4：消融研究。GTA5→城市景观参数λT=0.50.20.10.050.02MaxSquare43.244.144.343.743.0参数α=00.10.150.20.25 0.3MaxSquare+IW44.344.845.245.244.8 四十四点四参数δ=0.980.950.90.8MaxSquare+IW+Multi46.446.446.246.1表5：参数敏感性分析。4.4.2最大平方损失我们在GTA5到Cityscapes上进行了以下调查实验。消融研究。我们研究了3.3节中介绍的图像加权因子的效果。当与图像加权因子（IW）结合时，熵最小化和最大平方的性能提高了近1个点（表1）。4）. 因此，图像加权因子是对未标记目标域中的类别不平衡的鲁棒解决方案。我们还在3.4节中研究了多层次自制指导的效果如表4所示，利用多级输出可以显著提高最终性能。参数敏感性分析。表5给出了参数λT、α和δ的灵敏度分析。太大或太小的λT都不能利用最大值，2097跨城市适应市方法道路，人行道，建筑物，灯光标志，植物。天空人乘用车汇流排电动机自行车mIoU（%）城市[5]79.5 29.3 84.50.022.2电话：+86-10 - 8888888传真：+86-10 -8888888842.9CBST [36]87.1 43.9 89.714.847.7 85.4 90.3 45.426.6 85.4 20.5 49.810.353.6罗马[28]第二十八话源仅83.9 34.2 88.3 18.8 40.286.2 93.1 47.8 21.7 80.9 47.8 48.3 8.685.0 34.7 86.4 17.5 39.0 84.9 85.4 43.8 15.5 81.8 46.3 38.4 4.853.851.0MaxSquare80.0 27.6 87.020.8 42.5 92.4 46.7 22.9 82.1 53.550.8 8.853.9MaxSquare+IW82.9 32.6 86.7 41.6 85.0 93.0 47.2 22.5 82.253.8 50.5 9.954.5城市[5]74.2 43.9 79.0 2.47.577.8 69.5 39.3 10.3 67.941.2 27.9 10.942.5CBST [36]84.3 55.285.419.6 30.1 80.5 77.9 55.2 28.679.7 33.2 37.6 11.552.2里约[28]第二十八话源仅76.2 44.7 84.69.3 25.5 81.8 87.355.3 32.7 74.3 28.943.0 27.674.2 42.2 84.0 12.1 20.4 78.3 87.9 50.1 25.6 76.6 40.0 27.6 17.051.648.9MaxSquare70.9 39.285.6 14.5 19.781.8 88.1 55.2 31.5 77.2 39.3 43.130.152.0MaxSquare+IW76.9 48.8 85.2 13.8 18.9 81.788.1 54.934.0 76.8 39.8 44.1 29.753.3城市[5]83.4 35.4 72.8 12.3 12.7 77.4 64.3 42.7 21.5 64.1 20.88.9 40.342.8CBST [36]85.2 33.68.331.1 83.9 78.2 53.24.427.0 47.048.8东京[28]第二十八话源仅81.5 26.0 77.817.8 26.8 82.790.9 55.838.0 72.1 4.224.550.881.4 28.4 78.1 14.5 19.6 81.4 86.5 51.9 22.0 70.4 18.2 22.3 46.449.947.8MaxSquare79.3 28.5 78.3 14.5 27.9 82.8 89.6 57.3 31.9 71.9 6.0 29.1 49.249.7MaxSquare+IW81.2 30.1 77.0 12.3 27.3 82.8 89.558.2 32.7 71.5 5.537.448.950.5城市[5]78.6 28.6 80.0 13.17.6 68.2 82.1 16.89.4 60.4 34.0 26.5 9.939.6CBST [36]86.1 35.284.2 15.022.2 75.6 74.9 22.733.1 78.0 37.658.0 30.950.3台北[28]第二十八话源仅81.7 29.5 85.2 26.4 15.6 76.7 91.7 31.0 12.5 71.5 41.1 47.3 27.782.6 33.086.3 16.0 16.5 78.3 83.3 26.5 8.4 70.7 36.1 47.9 15.749.146.3MaxSquare81.2 32.8 85.431.9 14.778.3 92.78.668.2 42.2 51.3 32.449.8MaxSquare+IW80.7 32.5 85.5 32.7 78.1 91.3 32.97.669.544.852.434.950.6表6：跨城市实验的结果。平方损耗我们根据经验选择λ T=0。1.一、如表所示，同时，δ的选择对结果没有显著影响，如3.4所述。4.5. 从SYNTHIA到Cityscapes遵循其他作品的评估协议[31，36]，我们评估了两个数据集之间共享的16个类的IoU和mIoU，以及不包括具有重复性的类的13个类。如表3所示，我们的方法实现了与其他方法竞争的结果。“MaxSquare+IW” surpasses“MaxSquare” method on the several small交通信号灯、交通标志、摩托车。4.6. 跨城市适应为了证明我们的方法对于较小的域偏移的效率，我们在具有ResNet-101主干的NTHU数据集上进行了实验我们考虑了13个共享类的IoU和表6显示了从Cityscapes转移到四个城市的结果在NTHU数据集中。在所有四个适应实验中，我们的这些优秀的成绩恶魔-说明我们的最大平方损失和图像加权因子的有效性。此外，与自我训练不同[36]，我们的方法不假设源域和目标域共享相同的空间先验。因此，我们的方法是强大的各种传输设置。5. 结论在本文中，我们证明了概率不平衡的问题时，应用熵最小化方法UDA的语义分割。我们提出了最大平方损失，以防止易于转移的类主导目标域上的训练我们证明了优化最大平方损失等价于最大化正态分布下的Pearsonχ2针对目标域中的类别不平衡问题，提出了基于各类别预测量计算各图像的类别权重因子的方法。仿真实验和跨城市自适应实验表明，该方法可以达到最先进的性能，而不需要对抗性学习方法的限制。致谢本工作得到了国家自然科学基金（批准号：61751307）和国家青年拔尖人才支持计划。2098引用[1] 作者声明：Thomas M.掩护混合参数未知的模式识别中标记样本和未标记样本的相对值 IEEE Trans.InformationThe-ory，42（6），1996.[2] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L.尤尔。Deeplab：使用深度卷积网络、无纹理卷积和全连接crf进行语义图像分割。CoRR，abs/1606.00915，2016。[3] 陈良杰、乔治·帕潘德里欧、弗洛里安·施洛夫和哈特维格·亚当。再思考无卷积在语义图像分割中的应用。CoRR，abs/1706.05587，2017。[4] Liang-Chieh Chen，Yukun Zhu，George Papandreou，Florian Schroff，and Hartwig Adam.用于语义图像分割的具有粗糙可分离卷积的编码器-解码器。在ECCV，2018。[5] Yi-Hsin Chen ， Wei-Yu Chen ， Yu-Ting Chen ， Bo-Cheng Tsai，Yu-Chiang Frank Wang，and Min Sun.不再歧视：道路场景分段器的跨城市适应。InICCV，2017.[6] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。[7] Jia Deng，Wei Dong，Richard Socher，Li-Jia Li，KaiLi，and Fei-Fei Li. Imagenet：一个大规模的分层图像数据库。CVPR，2009。[8] Mark Everingham，S. M. Ali Eslami，Luc J.放大图片作者：Christopher K. I. 约翰·

下载后可阅读完整内容，剩余1页未读，立即下载