多源域自适应和标签统一方法

192 浏览量更新于2023-10-14 收藏 2.59MB PDF 举报

目标识别

实验结果

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

8876mDALU：利用部分数据集的多源域自适应和标签统一龚瑞1、戴登新1、4、陈玉华1、李文3、吕克·范古尔1、21苏黎世联邦理工学院计算机视觉实验室，2鲁汶大学VISICS，3电子科技大学，4MPI forInformatics{gongr，dai，yuhua.chen，vangool} @ vision.ee.ethz.ch，liwenbnu@gmail.com摘要对象识别的一个挑战是推广到新的领域，更多的类和/或新的模态。这需要组合和重用可能属于不同域、具有部分注释和/或具有不同数据模态的现有数据集的方法。本文将其归结为一个多源域自适应和标签统一问题，并提出了一种新的方法。我们的方法包括一个部分监督的适应阶段和一个完全监督的适应阶段。前者是将多个源域的部分知识转移到目标域并融合。不匹配标签空间之间的负迁移是通过三个新的模块来实现的：域注意，不确定性最大化和注意引导的对抗对齐。在后者中，知识转移后，在统一的标签空间的标签完成过程与伪标签。在三个不同的任务-图像分类，2D语义图像分割，联合2D- 3D语义分割-广泛的实验表明，我们的方法优于所有竞争的方法显着。1. 介绍物体识别的发展由两大支柱支撑：大规模数据注释和深度神经网络。随着新的应用程序不断涌现，研究人员需要不断开发新的方法和创建新的数据集。虽然我们能够为新任务开发新的神经网络，但由于其巨大的成本，新数据集的创建很难跟上。升- 自然，已经开发了一组不同的学习范式，例如自学习[13]，半监督学习[17]和迁移学习[6]来拯救。我们通过开发一种方法来结合多个现有的数据集，这些数据集已经在不同的领域进行了注释方法的重要性源2汽车，人，自行车，卡车源1道路、人行道、植被、建筑、标志目标道路，人行道，植被，建筑物，标志，汽车，人，自行车，卡车图1：mDALU通过使用具有部分类别符号和部分数据模态的多个数据集作为源域，学习用于新的未标记目标域的完全类别和完全模态对象识别模型随着时间的推移，研究目标将变得越来越雄心勃勃，因此需要用于更多类、新域和/或更多数据模态的对象识别模型。为了解决这个问题，我们提出了一个多源域自适应和标签统一（mDALU）的问题。在该设置中，存在多个源域和未标记的目标域。在每个源域中，仅标记属于类的子集的样本（图像、像素或LiDAR点）;其余的都是未标记的。具有标签的类的子集在不同的源域上可以不同，并且可以具有不一致的分类法，卡车在一个源域中被标记为“卡车”，但在另一个源域中与其它类型的车辆一起被标记为“车辆”。此外，不同源域中的数据模态也可以不同，一个包含图像，另一个包含LiDAR点云。目标是获得目标域中所有类的对象识别模型。图1示出了mDALU的示例性设置。在表1中，与其他域适配设置的比较示出mDALU非常灵活。这一目标具有挑战性。第一，负迁移是一个著名的问题负迁移是8877S ss域自适应设置可以处理多个源域？可以处理多个数据模式？可以处理不同的标签源域空间更改标签空间大小从源域到目标域可处理部分注解？可以处理不一致分类学？无监督域适应[10]部分域适应[3]没有没有没有没有- -N−o相同尺寸减少没有没有- -N−o多源域自适应[26，43]是的没有相同尺寸没有分类转移多源域适应[39]是的没有是的增加没有没有多模态域适应[18]是的是的没有相同尺寸没有没有多源开集域自适应[27，25]是的没有没有相同尺寸+1*是的没有多源域自适应和标签统一（mDALU）是的是的是的增加是的是的表1：我们的mDALU与其他域自适应设置之间的比较（参见第2为细节）。很明显，mDALU提供了非常灵活和通用的设置。*这也是标准迁移和多任务学习的问题，由于未标记类的影响，在我们的mDALU任务中尤其严重。为了解决这个问题，我们提出了三个新的模块，称为域注意，不确定性最大化和注意力引导的对抗对齐，以避免在源域中对未标记的样本进行自信的预测，并使源域和目标域之间的鲁棒分布对齐。采用上述模块和注意力引导的预测融合的方法能够在统一的标签空间和目标域上产生良好的结果。为了进一步改善结果，需要融合所有部分数据集的监督，在统一的标签空间中转移监督。为此，我们提出了一个基于伪标签的监督融合模块。特别地，我们为源域中的未标记样本和目标域中的所有样本生成伪标签。然后在统一的标签空间中执行标准的监督学习以用于最终模型。为了展示我们的方法的有效性，我们在三个不同的任务中对其进行了评估：图像分类、2D语义图像分割和联合2D-3D语义分割。涉及合成数据和真实数据，以及图像和LiDAR点云此外，非重叠，部分重叠和完全重叠的标签空间，以及跨源域的一致性和不一致的分类法也被涵盖。实验表明，我们的方法优于所有竞争的方法显着。2. 相关工作多源域自适应。迁移学习和领域适应在过去的几年中得到了广泛的研究已经开发了几种有效的策略，例如最小化最大平均差异[36，23]，矩匹配[40]，对抗域混淆[10，35]，熵正则化[37]和课程域适应[9]。虽然已经取得了很大的进展，但大多数算法都集中在单源适应设置上。这限制了从多个源域收集数据时使用的方法。这就是为什么提出了多源域自适应方法[8，42，26，15，43]。然而，这些方法对于所有域都假设相同的标签空间。Xu等[39]探讨了不同源域之间的类别转换问题，并采用了k路域鉴别器，以减少类别移位的影响但该方法主要是针对图像分类任务而提出的，无法解决部分标注、分类不一致以及不同源域之间的模态差异等问题。开集/部分域自适应。最近的研究探讨了源域和目标域之间的“开放性”范畴，将其分为开放集域适应和部分域适应。开集域自适应[25，33，27]假设目标域包括在源域中不可见的新类，并且旨在将不可见的类样本分类为部分领域自适应[2，41，3，19]旨在从现有的大规模领域（例如：1K类）到未知的小规模域（例如20类），用于定制应用程序。不同于开集和部分域适应，我们的目标域的标签空间是所有源域的标签空间的并集。从多个数据集学习。已经提出了几种成功的方法[28，29，38，20]来学习单个通用网络，该网络可以用最少的特定于域的参数来表示不同的域。但这些方法没有考虑域自适应和标签空间统一。最近，Lambert等人。[21]提出了一个复合数据集，它通过协调分类法、合并和手动拆分类来统一不同的语义分割数据集。但是它们没有解决领域自适应、部分标注和跨模态数据的问题，并且它们依赖于手动重新标注以实现统一。Zhao等提出的目标检测方法。[44]执行来自具有部分注释的多个数据集的标签空间统一，但是它没有考虑我们的方法所考虑的其他问题，例如跨数据集的域差异、不一致的分类法和不匹配的数据模态。3. 方法3.1. 问题陈述对于 mDALU的问题，我们给出 K 个源域 1 ，2，…，K. K个源域包含来自K个不同分布P S1、PS2、…P SK，其用C1、C2、…C K类，分别所有8878不C cC--C \CS我∈{}Li=1uC∪uuf=i= l，⑵uΣuj=1i=1源域可以包含部分标记的和未标记的样品。未标记的样本可以属于其他域的标记类。标签空间1，2，...，K可以彼此不重叠、部分重叠或完全重叠。此外，一致和不一致-C1，C2，... K是允许的。则标签空间Ci，i=1，…K构成统一完备的标号空间C∪=C1∪C2···CK，其中包含C∪类. 此外，未标记的目标结构域是给定，包含来自分布 PT 的样本。注意，源样本Xsi∈Si，i=l，…K和目标样本xt∈ T，我们有xsiS，xtbel预测器B1，即， G i= E i，B i. 虽然我们可以直接在目标域中对这些模型的结果进行平均，以在统一标签空间中进行预测，但这会产生较差的结果。这是因为每个模型Gi对其∪ i中未标记类的预测可以是支配平均值的任意数。因此，我们提出了域注意力（DAT）模块，它学习Gi的注意力图，以在哪个区域上发出其预测是可靠的信号，以进行更有效的融合。域S1中的注意力图aS1被定义为：.=1，如果ysi（h，w）∈CiP S1=P S2 =...我P SK= P T。mDALU问题-asi（h，w）=0，如果ysi（h，w）=空，（一）lem旨在在K个源域Si上训练模型，i=1，…K，在每个中标记有C i个类，以及未标记的目标域T，以提高模型在统一标记空间中的目标域T上的性能C∪。我们使用ysi表示的地面实况标签图其中（h，w）是像素索引，并且void表示没有标签。我们为每个源域i训练注意力网络Mi。注意力地图被预测为a~si =Mi（xsi）和a~t=Mi（xt）。注意网络工作Mi是由我克斯岛请注意，我们提出的大多数方法都是使用no-M2D语义图像分割。转换为图像分类和3D点云分割是简单的3.2. 我们解决mDALU问题的如图2、在我们的方法中有两个阶段在部分监督自适应阶段，部分监督分别从不同的源域转移到目标域。然后在全监督适应阶段，监督和新的标签预测器Bi：Mi=Ei，Bm。在MSE损失att下训练Mi，连同多任务设置中的Gi。3.2.2基于注意引导的融合推理我们将图像x输入语义分割网络Gi生成相应的概率图pi[0，1]H×W×C∪，并将其映射到不同的注意力网络Mi中，生成注意力图ai。然后，我们通过加权ai的平均pi来融合预测：ΣKaipi在完全标签空间中，子空间是融合和自完成的在未标记的样品上，并且联合转移在ΣC∪（ΣKaipi（j）源域和目标域。为了实现部分监控下的自适应，我们提出了三个模块：DAT、UM和A3作为第一阶段。然后在第二阶段，我们使用PSF和进一步学习。下面我们提供了所有这些组件的详细信息。从Sec。3.2.1至第3.2.5，我们首先介绍我们的方法mDALU下一致的分类。在这一部分中，我们首先描述了我们的方法的基本版本组成的DAT和推断，通过注意力引导的融合，这将是其次是UM和A3，以提高适应能力。最后，我们介绍了PSF。然后在Sec。3.2.6，我们将我们提出的方法扩展到不一致分类下的mDALU。3.2.1部分监督学习不同的分段网络Gi，i=l，…K被采用用于不同的源域Si。虽然它们的注释覆盖部分标签空间Ci，但我们在统一标签空间C∪中训练每个网络Gi-的其中（Kip（i）（j）产生第j个的概率课然后通过argmax获得预测类。3.2.3不确定度最大化（UM）由于缺乏地面实况类监督，虽然我们具有注意力引导的融合，但源域中未标记样本的错误预测仍然会对我们的跨域预测融合产生负面影响为了进一步减少源域中未标记样本xsi的负面影响，我们提出了一个模块，专门用于最大化这些域中未标记样本的预测不确定性。特别地，期望Gi（xsi）将概率质量均等地散布到所有类别，即，服从均匀分类分布U（C∪）。U（C ∪）的概率密度函数q（j）表示为q（j）=1，其中j=1，2，…，C∪表示不同的类。的概率分布对未标记样本Gi（xsi）的网络预测被定义为p（j）=Gi（xsi）（j），其中Gi（xsi）（j）表示网络Gi由特征提取器Ei和第j类的概率a la组成为了最大限度地8879ST不（i）t tt⊗一个ΣΣL =（G（x））。（5）嗯我∪C一个我我我（i）sisisiDi用于每个源域，以对齐源域i和目标域之间的分布。在一般的无监督域自适应中，针对非监督域自适应的鉴别器训练损失Ld和对抗性损失Ladv[34]可以是：源域Si和目标域T被定义为(i)t tLadv（x）= −log（Di（Gi（x）（ 6）L（i）（xsi，xt）= −log（Di（Gi（xsi）(a) 部分监督自适应伪标签(b) 全监督适应图2：我们的mDALU方法的图示有两个阶段，（a）部分监督适应和（b）完全-Di- log（1 − D i（G i（x）。（七）然而，在我们的mDALU问题中，没有可用于未标记类的地面实况标签指导。源结构域和靶结构域之间的直接对齐将导致负转移，即，不正确的知识从源域中未标记的部分转移到目标域。在这里，我们再次使用我们的注意力图来通过提出注意力引导的对抗性损失来解决这个问题L（x）=−log（D（G（x）M（x），（8）L（x，x）=−log（Di（Gi（x）Mi（x）监督适应Dit t由于未标记样本上的预测的不确定性，期望p（j）和q（j）之间的分布距离被最小化。根据[5]中的分布距离度量，我们采用Pearsonχ2散度来测量-log（1−Di（Gi（x）Mi（x），（9）其中表示逐元素乘法。那么我们的方法在第一阶段的总损失是：K分布距离，其被公式化为，L全部=Lpsu +Latt +Lum +λΣL（i），（10）D χ 2（p||q）=p（j）（（）jq（j）-I）q（j），⑶i=1其中λ是用于平衡注意力引导的对抗性损失与其他损失的超参数整个opti-C∪D χ2（p||q）= C∪ p（j）2− 1。（四）j=1在方程（1）的基础（4）提出了平方损失L_um用于我们的第一部分监督域自适应阶段的量化目标可以被公式化为：最小最大L所有。（十一）用于最小化Pearson X2散度，即，最大化对未标记样本的预测的不确定性。Lum可以写成C∪SI （j）2uj=1通过UM模块，我们鼓励模型对未标记的类上的未标记的样本进行统一的分类概率预测，以最好地保留不确定性，以让来自其他源域的那些类的地面实况监督在进一步的注意力引导的融合和PSF过程中做出决定3.2.4注意力引导的对抗对齐（A3）在文献中已经证明，对抗对齐对于域适应是有效的我们将这个想法扩展到mDALU。对于对抗对齐，一个鉴别器∫28880CCCSKGiDi3.2.5基于伪标记的监督融合（PSF）在第一部分监督自适应阶段中，不同标签空间i中的知识从不同源域转移到目标域。在第二个全监督适应阶段，我们的目标是在完整统一的标签空间在所有域之间联合∪。为了实现这一点，我们完成了所有相关域S1，S2，…S，K，T与伪标签，即，融合监督从不同的标签空间Ci中得到完全的和统一监管∪. 这里我们给出我们的伪标签的监督融合（PSF）方法。为了完成源域i中的标签空间，我们将每个源图像样本x，i馈送到每个语义模型G，k，k = 1，…K，以生成“部分”se-概率映射p∈[0，1]H×W×C∪和p ∈[0，1]8881pCMK我我C{}CpMpCpCpMKpMpMppy¯si(h,w)ifysi(h,w)=voidf=i= l，（16）pM我∪ppFSApMcecepMpMM∩M∩SSSS∈C∅S S∈ C∈ C∩yi（h，w）=（十二）（2）扩展到Eq。（16），j=1i=1注意力网络M k，k = 1，…，K代表注意力地图车辆在另一个数据集Sm中。在统一的标签空间asi ∈[0，1]H×W. 融合预测fsi通过以下公式获得：在目标域中，冲突部分cq∩cn被分配当量（二）、We表示预测标签映射为y¯si，生成排他地连接到cq或cn 不失一般性p m通过使用在f上的argmax运算。源域Si的并且为了清楚起见，假设CqCn被分配给cq。那么为了解决cq而在注意力引导的融合中，我们引入了ad。ys（h，w），ifys（h，w）我我RH×W×C 和Eq。附加类加权映射wi∈∪且fsi（h，w，y¯si（h，w））>δvoid,otherwise=v,ifargmaxpˆi(h,w)=q′,andi=p,其中δ是确定是否选择预测的伪标签的阈值wi（h，w，j）=且argmaxp（m（h，w）=n′，且j=q′= 1，否则（十五）在目标域T上，由于没有地面真值标签ΣKaipiwidicted label mapy¯t（通过argmax从ft获得）：ΣC∪（ΣKaipiwi）（j）如果f t（h，w，y¯t（h，w））> δ，则yt（h，w）=y¯t（h，w）。（13）通过使用所生成的融合伪标签y（si，y（t，i=1、… K，我们完成了从C到C的标签空间其中，在等式中v >1。（15）是超参数，设置为5.0。v用于增加等式中相应预测pp的类c q的权重。（16），toconnvertcqcn到cq。q′，n′是Cqn源域Si，以及从到C∪的目标do-主T然后，我们针对所有相关域S1、S2、…S，K，T与统一标签空间中的所有数据集。总的来说，损失L我们的第二个在统一标签空间中∪. 相应地，不-der不一致的分类法，除了源域中的未标记的样本被完成与预测的伪标签，如在方程。（12），冲突部分cq∩cn，其中有监督Lfsa=ΣLsi+Lt，（14）i=1最初被标记为cnm，用预-dictedpseudo-label y¯si（h，w），i. 例如，ysm（h，w）=q′，如果fsm（h，w，q）>δy¯sm（h，w）=q′和y¯ sm（h，w）=n′。其中Lce是标准交叉熵损失。3.2.6不一致的分类4. 实验（十七）上述方法能够处理一致分类下的mDALU问题，即，所有源域中的不同类彼此互斥。然而，不同的源域之间可能存在不一致的分类法，从而导致不一致的分类法类的性能下降。在这里，我们介绍了我们的上述方法的扩展，以处理不一致的分类问题。将标签空间i中的类表示为co，我们有i=co，o=1，2，…，C岛则不同源域之间的不一致分类法可以定义为，CQp，cnm，p，m=l，…K，pm，q=1、… Cp，n = 1，… 我们有cq= cn，和cqcn=. 不同分类法之间的不一致源域p和m表示为cqp和nM.例如，卡车在一个数据集p中被标记为另一个典型的示例是摩托车与一个数据集p中的其他循环一起被标记为我们评估我们的方法mDALU在不同的设置下的有效性。我们建立了图像分类，2D语义图像分割，2D-3D跨模态语义分割的基准。4.1. 图像分类Setup. 在分类基准中，我们采用了来自三个不同数据集的数字分类图像，MNIST [22]，Synthetic Digits[10]和SVHN [24]，分别创造了每一次，其中一个作为目标域，其他两个作为源域。目标域中有10个类，从“0”到“9”。在我们的主要设置中，我们采用最困难的设置来评估不同的方法，其中不同源域的标签空间是不重叠的。在每个源域中，只有部分重叠的情况也进行了探讨。为了公平比较，我们对所有方法采用[26]可用，我们直接从预获得伪标签8882中使用的相同网络架构。在目标域中的所有10个类上评估分类性能。8883方法MtSYNSVHNAvg源76.76 ±0.6377.30 ±2.5771.29 ±0.4868.10±0.272.01 ±1.2276.56±0.7172.50 ±2.6473.24±1.7681.23± 0.9261.77 ±1.0560.31 ±0.9955.94 ±0.5162.72±0.3063.33 ±0.2061.25±2.3355.92 ±1.0468.66±1.3278.97± 0.4543.42±1.8941.65±2.3435.60 ±1.6348.11±0.5749.34 ±1.2843.13±3.5536.24 ±1.7052.80 ±0.9265.20± 0.5860.65±1.1959.75±1.9754.28 ±0.8759.64±0.3661.59 ±0.9060.31±2.2054.89 ±1.7964.90 ±1.3375.13± 0.65DANN[10]丹*DCTN [39]DCTN*M3SDA [26]M3SDA*[44]我们的无PSFDCTN w/ PL [39]73.40±0.8578.56±1.2386.18± 0.4565.63±0.4370.25 ±0.3981.91± 0.3352.12±0.0759.24 ±1.0168.92± 0.8163.72 ±0.4569.35 ±0.8879.00± 0.53AENT[44] w/PL我们表2：图像分类的定量比较。“MT”、“SYN”和“SVHN”表示靶结构域。“PL” represents to add the pseudo-labeltraining module, which959085807570650123456789十个重叠类的数量图3：目标域中的准确度作为源域之间的重叠类的数量的函数。设计*表示去除训练数据中未标记的样本。我们通过利用[44]中提出的模糊交叉熵损失来实现用于分类的AENT。与SOTA比较表2将我们的方法与其他SOTA方法进行了比较，其他SOTA方法包括1）无监督域自适应方法DANN [10]，2）类别转移无监督域自适应方法DCTN [39]，3)多源无监督域自适应方法M3SDA[26]，以及4）标签统一方法AENT [44]。可以看出，在没有伪标签（PL）生成部分的情况下，其他基于域自适应的方法，DANN、DCTN和M3SDA显示出负转移效应，或者与仅用源数据训练的基线类似地执行。这是因为每个源域只能为部分标签空间提供指导，并且当用来自不同源域的数据进行训练时，部分标签空间中的自适应将目标域上的预测引导到偏置标签空间。这使得对目标域的预测自相矛盾，并且模型难以适应完整的标签空间。相比之下，基于标记统一的方法AENT获得了4的性能增益。25%，从60。65%到64。90%，相比之下仅源基线。这是因为它使用了ambigu-域交叉熵损失，以避免源域数据的预测被限制在部分标签空间中。在我们的第一部分监督适应阶段，性能进一步提高到75。13%，证明了我们的DAT，UM和A3模块对防止负迁移效应的有效性。在第二个完全监督适应阶段之后，通过添加PSF模块，我们的模型比DCTN [39]和AENT [44]（两者都具有伪标签训练）强15。28%和9。分别为65%这证明了我们的整个方法的有效性域自适应，标签空间完成和监督融合。表3中的消融结果表明，我们的模型的每个部分都有助于其性能。部分重叠。在图3中，示出了目标域上的测试准确度增加，因为源域中越来越多的公共类是可用的。表3：图像分类设置下的消融研究。MBR：多分支网络，即对不同的源域采用不同的网络Gi。*表示A3模块中没有对抗部分，即，只有DAT模块。最佳结果以粗体表示。方法MtSYNSVHNAvg源82.10±1.5080.13±1.6078.56±0.4781.52 ±1.5579.12 ±1.0785.39± 1.3273.37±0.6772.97±0.4972.33 ±0.0472.91 ±0.6881.99 ±0.8785.33± 1.2157.50±1.9355.00±0.7360.86±0.2154.26±0.6669.07 ±1.9376.48± 1.3170.99 ±1.3769.37 ±0.9470.58 ±0.2469.56 ±0.9676.73 ±1.2982.40± 1.28DANN[10]DCTN[39]M3SDA[26][44]我们的无PSF表4：在具有4个常见类别的部分重叠设置下的图像分类的定量比较。有能力在表4中，我们比较了我们的方法与其他SOTA方法的模型性能，当源域部分重叠时，有4个常见的类。结果表明，我们的方法仍然强烈优于基于自适应的方法，DANN，DCTN，M3 SDA，和标签统一的方法，AENT，82。40%与69岁。37%，70。58%，69.56%，76. 百分之七十三进一步验证了该模型在部分重叠情况下的有效性。4.2. 二维语义图像分割Setup. 在单模式语义分割中，我们采用了合成到真实图像的语义分割方法。合成图像数据集GTA5 [30]和SYNTHIA [32] 被用作源域，而真实图像数据集Cityscapes [7]被用作目标域。需要将19个类的信息传输到 Cityscapes 数据集。在我们的主要设置中，SYNTHIA 和 GTA5 的标签空间是不重叠的。在SYNTHIA数据集中，有7个类别的标签可用，包括：道路、人行道、建筑物、植被、天空、人和车。在GTA5中，12个类别的标签是可用的，墙，围栏，杆，光，标志，地形，骑手，卡车，公共汽车，火车，摩托车和自行车。此外，我们还探讨了当两个源域的图像被完全标记时，我们的模型的性能此外，我们还-SVHN+ 合成数字 MNISTMNIST+ 合成数字 SVHNSVHN+MNIST合成数字检测准确度（%）MBR嗯一个3PSFMtSYNSVHNAvg✓76.76 ±0.6372.21±1.8984.74±0.5481.38±0.7981.23±0.9286.18± 0.4561.77 ±1.0562.41±0.5876.12±0.8578.20±1.378.97±0.4581.91± 0.3343.42±1.8950.24±1.2358.39±0.5765.12±0.6465.20±0.5868.92± 0.8160.65±1.1961.62±1.2373.08±0.6574.90 ±0.9175.13 ±0.6579.00± 0.53✓✓✓✓✓†✓✓✓✓✓✓✓8884转方法NT不源17.724.0[34]第三十四话7.730.8最小输入[37]27.130.1[第37话]11.830.3我们的无PSF36.338.1我们的（ADV）40.141.5我们的（PSF）37.342.4我们的（ADV+PSF）40.642.8MBR嗯一个3PSFAdvNT不17.724.0✓20.921.4✓✓27.636.8✓✓✓†29.137.0✓✓✓36.338.1✓✓✓35.440.9✓✓✓31.441.5✓✓✓✓40.141.5✓✓✓✓37.342.4✓✓✓✓✓40.642.8方法基地mIoU*Miou源ResNet-10142.839.1[34]第三十四话45.240.8最小熵[37]46.442.2[第37话]46.742.9我们的无PSF46.843.1来源[43]VGG-1637.3-MADAN[43]41.4-我们的无PSF41.938.0(a)（b）第（1）款表5：（a）单模式语义分割、SYNTHIA+GTA5城市景观的定量比较报告了19个类别的mIoU结果（b）用于单模式分割的消融*表示A3模块中没有对抗部分，即，只有DAT模块。“ADV+PSF”验证了当不同源域的分类不一致时模型的有效性。在那些不一致性实验中，对于GTA5，标签墙、围栏、杆、灯、标志、地形、卡车、公共汽车、火车、人（包括人）、车辆人和骑手）、自行车（包括自行车和摩托车）。在SYNTHIA中，道路、人行道、建筑物、植被、天空、人、骑手、汽车、公共设施（包括墙，栅栏，杆），摩托车和自行车是可用的。为了进一步评估与像素级域自适应方法[45，16]结合时所有方法的性能，我们在两种设置中进行实验;1) 源域图像不使用CycleGAN [45]翻译，命名为“NT”;2）用CycleGAN对源域图像进行翻译，命名为“T”。此外，为了验证与输出级自适应方法[34]相结合的模型性能，我们进行了额外的实验，其中包括“ADV”generates the complete source domain label as in PSF, andthentrainsthesemanticsegmentationmodelviaadversarial为了公平比较，所有方法都使用DeepLabv 2-ResNet 101 [4，14]语义分割网络。与SOTA比较在表5a中，我们示出了我们的方法与其他SOTA方法之间的语义分割的定量比较结果表明，我们的方法在不添加PSF的情况下大大优于基于自适应的AdaptSegNet[34]，基于自监督的MinEnt[37]以及结合自适应和自监督的方法Advent [37]。我们的方法达到36。3%，38。在“NT”和“T”设置中分别为1%与图像分类结果类似，在不使用翻译的源图像的情况下，基于自适应的方法遭受负迁移并且性能低于仅源基线。通过使用“T”中的经翻译的源图像表6：在完全标记设置和“T”下的单模式分割结果。mIoU*是SYNTHIA中16个类的平均IoU，而mIoU是所有19个类的平均IoU。(a) 图片（b）地面实况(c)仅源（d）MinEnt（e）我们的图4：2D语义分割的定性结果。都是类似于“城邦”的图像不同的源域可以看作是一个更大的统一源域，这在一定程度上可以为完整的标签空间提供指导。因此，与非自适应基线相比，所有基于自适应或基于自我监督的方法在“T”情况下表现得更好然而，即使在“T”的情况下这证明了我们的方法在防止负迁移和完善标签空间方面的有效性。通过进一步添加第二参见表5b的消融研究证实了我们的方法的所有部分都增加了其性能，并且输出空间对齐图4显示了Cityscapes的定性结果。完全贴上标签。在完全标记的设置中，即，源域图像用所有考虑的类来标记-SYNTHIA中的16个类和GTA5中的19个类。表6示出了我们的模型仍然优于其他无监督域自适应语义分割方法43。百分之一对比40。8%，42. 2%，42。9%。我们的模型也优于多源域自适应语义分割SOTA方法MADAN [43]，41.9%vs. 41岁百分之四分类不一致。表7显示我们的方法在分类法不一致时是有利的，40. 0% vs. 28. 1%，31. 9%，32. 百分之二。在部分监督的适应阶段，如在Sec. 3.2.6，通过为SYNTHIA的“人”、“骑手”、“摩托车”和“自行车”以及为GTA5的“墙”、“栅栏”和“杆”添加更高的权重，我们的方法可以实现比没有加权的推断更高的性能，37。2% vs. 35. 百分之三。在完全监督适应阶段之后，性能可以进一步提高到40。0%。具体表现为：8885转城市景观+ Nuscenes →A2D22D3D保险丝源37.52.042.5xMUDA[18]16.31.79.1ES + MinEnt[37]22.31.520.8ES + KL[18]21.71.519.7xMUDA + AKL27.52.321.1xMUDA + AKL + COMP32.12.937.7我们的无PSF38.12.449.9我们54.937.155.7表7：在“T”设置中具有不一致分类的单模式分割的定量比较*在推理过程中，采用了额外的权重映射在不一致的分类法的情况下，如第3.2.6.还显示了不一致分类法类的详细性能。报告了19个类的mIoU。表7中的帐篷分类法类强调了我们的方法对于不一致分类法的有效性。4.3. 跨模态语义分割Setup. 在跨模态语义分割设置中，来自Cityscapes [7]的2D RGB图像和来自Nuscenes [1]的3D LiDAR点云被视为两个不同的源域，而来自A2D2 [11]的配对但未标记的2D RGB图像和3D点云被用作目标域。总共有10个类需要转移到目标域。在城市景观中，给出了6个类别的标签，包括道路、人行道、建筑物、杆、标志和自然。在Nuscenes的标签为4类给出，包括。人、汽车、卡车和自行车。目标域中的2D RGB图像和3D点云经由2D像素和3D点之间的投影矩阵配准。在[18]之后，我们采用U-Net-ResNet 34 [31，14]作为2D语义分割网络，SparseConvNet [12]用于3D语义分割。由于对齐3D点云的特征的挑战，A3模块不包括在交叉模态设置中。与SOTA比较如表8所示，sim-与图像分类和单模式语义分割结果不同，SOTA跨模式无监督自适应方法xMUDA [18]显示出明显的负传递效应，导致2D模型、3D模型和融合模型的性能下降。此外，我们设计了合理的基线方法进行比较：第一章表8：跨模态分段的定量比较“融合”表示来自2D模型和3D模型的预测概率的平均融合;最终类别预测是融合概率的最大值。 “KL”意指KL-发散比对。“AKL”意指适应性KL发散比对。“COMP”表示该点的互补条件约束。mIoU在A2D2上的10个类上报告。(a) A2D2（b）地面实况（c）2D（我们的）（d）3D（我们的）图5：交叉模态设置的定性结果。xMUDA + AKL + COMP：在基线3）之后，添加与2D和3D相关的权重需要互补的另一约束。结果表明，我们的方法防止负转移没有PSF组件，跑赢非适应基线。然后通过添加PSF模块，2D和3D的单模型性能得到了大幅提高，达到54。9%，37。1%。图5，我们在目标域中显示定性结果良好的性能证明了我们的方法的有效性mDALU与部分模态。这开辟了组合利用不同传感器收集的数据集的途径，并且提供了廉价地评估传感器的新组合而不注释它们的数据的可能性5. 结论ES + MinEnt：通过训练期间的2D和3D点对应，在目标域中对来自2D和3D网络的预测进行平均，并且使用最小熵损失优化融合预测概率[37]。2）ES + KL：KL散度[18]用于在2D/3D预测与目标域中的对应点的融合预测之间进行对齐，分别为：3) xMUDA + AKL：对目标域中二维和三维的KL散度对准进行自适应加权，以减少未标记部分的错误引导。四、在本文中，我们提出了多源域适应和标签统一与部分数据集的问题，称为mDALU。然后，我们提出了一种新的多阶段mDALU方法，包括部分和完全监督的适应阶段.我们的方法是通过广泛的实验证明在不同的基准。鸣谢。该研究已根据第2020号赠款协议获得欧盟地平线2020研究和创新计划的资助。820434.戴登新为通讯作者。方法壁围栏极人骑手摩托车自行车Miou源2.612.012.340.60.50.128.619.8[34]第三十四话7.12.64.033.26.91.837.628.1最小熵[37]6.718.123.028.86.61.042.331.9[第37话]6.211.511.432.812.20.941.232.2我们的无PSF12.315.221.248.43.31.342.435.3我们的无PSF*14.115.330.648.117.913.042.137.2我们的（PSF）13.317.930.653.718.219.843.240.08886引用[1] 放大图片作者：Holger Caesar，Varun Bankiti，AlexH.Lang，Sourabh Vora，Venice Erin Liong，Qiang Xu，Anush Krishnan，Yu Pan，Giancarlo Baldan，and OscarBeijbom.nuscenes：用于自动驾驶的多模态数据集。arXiv预印本arXiv：1903.11027，2019。八个[2] Zhangjie Cao ， Mingsheng Long ， Jianmin Wang ， andMichael I.约旦.选择性对抗网络的部分迁移学习。在CVPR，2018年。二个[3] Zhangjie Cao，Lijia Ma，Mingsheng Long，and JianminWang.部分对抗域自适应。在ECCV，2018。二个[4] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义TPAMI，40（4）：8347[5] 陈明昊，薛宏阳，蔡登。最大平方损失的语义分割的主适应。在CVPR，2019年。四个[6] Yuhua Chen ， Wen Li ， Christos Sakaridis ， DengxinDai，and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。在CVPR，2018年。一个[7] Marius Cordts ， Mohamed Omran ， Sebastian Ramos ，Timo Rehfeld，Markus Enzweiler，Rodrigo Benenson，Uwe Franke，Stefan Roth，and Bernt Schiele.用于语义城市场景理解的cityscapes数据集。在CVPR，2016年。六、八[8] Koby Cra

下载后可阅读完整内容，剩余1页未读，立即下载