没有合适的资源?快使用搜索试试~ 我知道了~
73, 77, 78] addresses a related problem, i.e., unsupervisednetwork pre-training which aims to learn discriminative em-beddings from unlabelled data. In recent years, instancecontrastive learning [5, 19, 42, 58, 68, 73] has led to ma-jor advances in unsupervised representation learning. De-spite different motivations, instance contrast methods canbe thought of as a dictionary look-up task [19] that trainsa visual encoder by matching an encoded query q with adictionary of encoded keys k: the encoded query shouldbe similar to the encoded positive keys and dissimilar to en-coded negative keys. With no labels available for unlabelleddata, the positive keys are often randomly augmented ver-sions of query samples, and all other samples are consideredas negative keys.12030视觉任务中的无监督领域自适应的类别对比0Jiaxing Huang 1,Dayan Guan 1,Aoran Xiao 1,Shijian Lu * 1,Ling Shao 201 新加坡南洋理工大学,中国Terminus集团0{Jiaxing.Huang,Dayan.Guan,Aoran.Xiao,Shijian.Lu}@ntu.edu.sg,ling.shao@ieee.org0摘要0无监督表示学习中的实例对比在近年来取得了巨大的成功。在这项工作中,我们探索了在无监督领域自适应(UDA)中实例对比学习的想法,并提出了一种新颖的类别对比技术(CaCo),它在实例区分的基础上引入了语义先验,用于视觉UDA任务。通过将实例对比学习视为字典查找操作,我们构建了一个具有语义意识的字典,其中包含来自源域和目标域的样本,每个目标样本根据源样本的类别先验被分配一个(伪)类别标签。这允许进行类别对比学习(目标查询和类别级别字典之间的对比),以获得具有类别区分性但域不变的特征表示:相同类别的样本(来自源域或目标域)被拉近,而不同类别的样本被同时推开。在多个视觉任务(例如分割、分类和检测)上进行了大量的UDA实验,结果显示CaCo相比于最先进的方法具有更好的性能。实验还表明,CaCo与现有的UDA方法互补,并且适用于其他学习设置,如无监督模型自适应、开放/部分集自适应等。01. 引言0尽管深度神经网络(DNNs)[20, 57]在各种计算机视觉任务[4, 20, 47,57]上取得了革命性的进展,但由于跨域不匹配,它们通常在新领域上表现不佳。无监督领域自适应(UDA)旨在通过利用无标签的目标域样本来减轻跨域不匹配。为了实现这个目的,研究人员设计了不同的无监督训练目标,用于在目标域样本上训练一个性能良好的模型[7, 30, 40, 59,62, 63,69]。现有的无监督损失可以广泛分为三类:1)对抗性损失,用于强制使目标表示类似于源表示[38, 40, 53, 59, 60, 62,63];2)图像转换损失,用于将源图像转换为具有目标样式和外观的图像[8, 27, 36, 72,74];3)自训练损失,用于使用自信伪标记的目标样本迭代重新训练网络[15, 36, 80, 81]。0*通讯作者。073, 77,78]解决了一个相关问题,即无监督网络预训练,旨在从无标签数据中学习具有区分性的嵌入。近年来,实例对比学习[5, 19, 42, 58, 68,73]在无监督表示学习方面取得了重大进展。尽管动机不同,但实例对比方法可以被视为一种字典查找任务[19],通过将编码查询q与编码键k的字典进行匹配来训练视觉编码器:编码查询应与编码的正键相似,与编码的负键不相似。由于无标签数据没有标签可用,正键通常是查询样本的随机增强版本,而其他所0无监督表示学习[5, 19, 41, 44, 58, 68,0在这项工作中,我们探索了在无监督领域自适应(UDA)中实例对比的想法。考虑到对比学习是一种字典查找任务,我们假设UDA字典应该是类别感知的,并且包含来自源域和目标域的键。直观地说,具有类别感知的字典和类别平衡的键将鼓励学习具有类别区分性但类别无偏的表示,而来自源域和目标域的键将允许在两个域内和跨两个域之间学习不变表示,这两个域都与UDA的目标对齐。0基于上述动机,本文提出了CategoryContrast(CaCo)作为一种建立具有类别感知和域混合的字典的方法,该方法使用相应的对比损失进行UDA。如图1所示,该字典包括在类别和域中均匀采样的键,其中每个目标键都带有一个预测的伪类别。以示例字典K = {kc m} 1 ≤c ≤ C, 1 ≤ m ≤M为例。每个类别c将有M个键,而每个域将有(C × M) /2个键。Figure 1. The proposed Category Contrast trains an unsupervised domain adaptive encoder by matching a query q (from an unlabelledtarget sample xq ∈ Xt) to a dictionary of keys via a category contrastive loss LCatNCE. The dictionary keys are domain-mixed from bothsource domain Xs (in red with labels) and target domain Xt (in blue with pseudo labels), which allows to learn invariant representationswithin and across the two domains. They are also category-ware and category-balanced allowing to learn category-discriminative yetcategory-unbiased representations. Note the category-balanced means that each query q is compared with all the dictionary keys (in losscomputation) that are evenly distributed over all data categories which mitigates data imbalance issue.12040分类域混合字典0当前数据入队0编码器0编器0编码器0编码器0编码器0最旧数据出队0最新数据入队0编码器0相似度0编码器0最旧数据出队0动量编码器0编码器0因此,网络学习将努力最小化目标查询和字典键之间的类别对比损失LCatNCE:相同类别的样本被拉近,而不同类别的样本被推开。这自然地导致了既具有类别判别性又具有域不变性的表示,完全符合UDA的目标。0通过具有类别感知和域混合的字典以及类别对比损失,提出的CategoryContrast具有三个理想特征来解决UDA挑战:1)通过类别感知的字典设计同时最小化类内变异和最大化类间距离;2)通过包含源样本和目标样本的域混合字典设计实现跨域和域内对齐;3)通过类别平衡的字典设计大大减轻了数据平衡问题,允许在学习过程中均匀计算所有类别的对比损失。0我们总结了本文的贡献如下:(1)我们探索了UDA中的实例对比,旨在学习未标记目标域样本的判别表示。(2)我们提出了类别对比,通过使用类别对比损失构建一个具有类别感知和域混合的字典。它鼓励学习既具有类别判别性又具有域不变性的表示,完全符合UDA的目标。(3)大量实验证明,与现有技术相比,我们的CaCo始终实现了卓越的UDA性能。此外,CaCo补充了以前的UDA方法,并推广到涉及未标记数据的其他学习设置。02. 相关工作0这项工作涉及两个主要研究领域,即无监督域适应中的无监督学习和无监督表示学习中的实例对比。无监督域适应旨在利用未标记的目标数据提高目标域中的网络性能。为了从未标记的目标数据中学习,大多数现有的工作提出了各种无监督损失。我们将它们大致分为三个子类别。第一个子类别是对抗损失,它通过编码特征[7, 16, 38, 52, 62,75]、生成预测[28, 40, 51, 53, 59]或转换潜在表示[29, 60,63]来强制要求目标表示类似于源域。第二个子类别是图像转换损失,它通过GANs[8, 10, 36]和频谱匹配[25,72]生成具有类似于目标样式和外观的源数据。第三个子类别是自训练损失,它使用伪标记的目标样本迭代重新训练网络[14, 24, 26, 36, 64, 72,80,81]。我们从实例对比学习的新视角来解决无监督域适应问题,并提出了一种新颖的类别对比(CaCo),引入了一种通用的类别对比损失,适用于各种无监督域适应任务。据我们所知,CaCo是第一个研究无监督域适应中实例对比学习的努力。实例对比学习旨在学习一个嵌入空间,其中正样本靠近锚点,负样本被推开。尽管动机不同,实例对比学习可以被视为一个字典查找任务,通过将编码查询q与编码键k的字典进行匹配:q应该与正k相似,与负k不相似。已经提出了三种典型的字典创建策略。第一种建立了一个存储每个训练时期所有样本键的记忆库[68]。第二种建立了一个动量编码队列[19],在线收集编码样本作为键。第三种创建了一个端到端字典[5, 58,73],将当前训练批次的编码样本作为键。使用不同字典的实例对比有助于学习更好的无监督表示。另一方面,现有的实例对比学习方法[5, 19,42, 58, 68,73]是为无监督表示设计的,在无监督域适应中存在两个主要限制:1)缺乏类别先验知识,现有的实例对比技术学习到了丰富的低级特征,但没有捕捉到很多高级语义信息。这对于许多视觉识别任务(例如分割、检测和分类)需要具有区分性语义特征是次优的。最近的研究[56,61]验证了这个问题;2)大多数现有的实例对比学习方法[5, 19, 42, 58,68,73]使用超大/类别不可知的字典,可能会引入类别冲突[56],即负样本共享相同的语义类别,但在特征空间中被不希望地推开。这影响了大多数需要语义级别区分的学习设置,包括各种视觉无监督域适应任务。所提出的CaCo引入了一个混合分类域的字典,引入了类别先验,并有效解决了这两个问题。其他最近相关的对比学习工作。[35]探索了具有语义分布的对比学习,并提出了估计的类别中心对每个样本进行对比的语义分布感知对比适应。[1,65]探索了基于像素级对比的对比学习,使用记忆库进行监督和半监督语义分割。120503.1. 任务形式03. 方法03.1. 任务形式0这项工作解决了无监督域适应的任务,其中标记的源域样本{Xs,Ys}可访问,而目标域仅有未标记的数据Xt可用。学习目标是训练一个性能良好的网络G用于Xt。基准性能是通过仅使用标注的源域样本训练网络G获得的:0Lsup = l(G(Xs), Ys), (1)0其中l(∙)表示与准确率相关的损失。03.2. 实例对比学习的预备知识0实例对比学习[18]的思想可以被认为是为字典查找任务训练一个编码器(特征提取器)的过程。通过给定一个查询q和一个由若干个键{k0, k1, ...,kN}组成的字典,使用实例对比损失[18](例如,InfoNCE[42])来学习实例区分表示,最小化该损失将使查询q接近其正键并远离所有其他键(对于查询q来说被认为是负的):0字典查找任务。给定一个查询q和一个由若干个键{k0, k1, ...,kN}组成的字典,使用实例对比损失[18](例如,InfoNCE[42])来学习实例区分表示,最小化该损失将使查询q接近其正键并远离所有其他键(对于查询q来说被认为是负的):0L InfoNCE 0xq ∈ X − log � Ni=0 1 (ki ∈ q) exp(q ∙ki/τ)0� Ni=0 exp(q ∙ ki/τ) (2)0其中1(ki ∈ q) = 1,如果ki是q的正键,否则1(ki ∈ q) =0。参数τ是一个温度参数[68]。通常,查询表示是q =fq(xq),其中fq是一个编码器网络,xq是一个查询样本(类似地,k = fk(xk))。03.3. 无监督域自适应的类别对比0我们从实例对比学习的角度来解决无监督域自适应问题。具体而言,我们设计了类别对比方法,构建了一个具有类别感知和域混合的字典,通过类别对比损失的指导来学习具有类别区分性且域不变的表示。概述。对于有标签源域的监督训练,我们将源样本{Xs,Ys}输入模型G,并使用公式1优化G。在本工作中,G由一个编码器fq和一个分类器h组成,将编码嵌入分类到预定义的类别中,即G(∙) =h(fq(∙))。对于无标签目标域的无监督训练,训练涉及一个查询编码器fq和一个键动量编码器fk(fq的动量更新,即θfk =bθfk + (1 −b)θfq,其中b是动量系数),如图1所示。在训练过程中,我们均匀地从源域和目标域(即Xs和Xt)中抽样键xk,并将它们输入到键编码器fk中构建一个具有类别感知的字典K。我们只从目标域(即Xt)中抽样查询xq,并将它们输入到查询编码器fq中,与具有类别感知的字典K一起进行类别对比学习。类别域混合字典。所提出的CaCo中的一个关键组成部分是一个具有类别感知和域混合的字典,其中包含来自源域和目标域的键。该字典允许进行类别对比学习:相同类别的嵌入被拉近,而不同类别的嵌入被推开。类别感知性鼓励网络学习具有类别区分性的嵌入。这个特性对于各种视觉任务(例如分割、分类和检测)非常重要,这些任务需要学习具有区分性的特征并将其分类到预定义的类别中。此外,该字典是域混合的,这鼓励在源域和目标域之间和内部学习不变的表示,因为类别对比是在目标查询和来自源域和目标域的键之间计算的。arg maxˆyk(5)12060如概述中所述,给定一个编码的键k = fk(xk) (xk ∈ Xs ∪Xt),分类器h预测一个类别标签ˆyk,并将k转换为一个分类键kc,进一步排入分类字典K。这些过程并行地针对一个小批量的输入进行,分类字典K的形式定义在定义1中给出。0定义1:具有C个类别的分类字典K定义如下:0K = { k1, k2, ..., kC }, (3)0其中分类键kc∈K被定义为属于第c个语义类别的键k =fk(xk)的键,预测的类别标签ˆyk由以下公式得出:0c=1ˆy(c)klogp(c;k,θh),s.t.ˆyk∈ΔC,�k,(4)0其中h是预测每个嵌入(例如k)的C类别概率的类别分类器,ˆy =(ˆy(1),ˆy(2),...,ˆy(C))是预测的类别标签。键xk从训练数据集X中采样,并由动量编码器fk编码以获得编码键k =fk(xk)。ΔC表示一个概率单纯形,一个点可以由C个非负数表示,它们相加为1。0请注意,方程3只显示了一组分类键,以简化说明和理论证明。在实践中,我们采取与[19]相同的策略,使用大小为M的队列维护一个动态的分类字典(即{kcm}1≤c≤C,1≤m≤M),其中分类键以类别为单位逐渐更新。具体而言,对于每个类别的队列,我们有{kc1,kc2,...,kcM},其中最旧的键被出队,当前采样的键(属于第c个语义类别)被入队。0类别对比损失。给定在定义1中定义的类别字典K ={kcm}1≤c≤C,1≤m≤M,提出的CaCo通过类别对比损失CatNCE对无标签目标数据Xt进行对比学习,该损失定义如下:0LCatNCE = 0xq∈Xt−�10M0m=1lo0�Cc=1exp(q∙kcm/τcm)(ˆyq׈ykcm)0�Cc=1exp(q∙kcm/τcm)0�0其中q = fq(xq),(ˆyq ׈ykcm)等于1,如果两者属于同一类别,否则为0,τcm是一个温度参数0超参数和∙表示内积。对于每组分类键{k1m,k2m,...,kCm},当前查询q只有一个键是正样本(即(ˆyq × ˆykcm) =1),因为每个样本属于一个类别。因此,这个损失是一个C-waysoftmax分类器的对数损失,该分类器努力将q分类为正样本(同一类别的键)。0请注意,方程5中的CatNCE损失与方程2中的InfoNCE损失具有相似的形式。因此,InfoNCE可以被解释为CatNCE的特殊情况,其中每个实例(及其增强)本身就是一个类别,温度固定(即τcm =τ,�c,m)。对于CaCo,我们为不同的键分配不同的温度,因为它们的预测标签具有不同的不确定性,即由预测熵H(∙)缩放。可调节的温度参数也在[5, 17, 31]中进行了探索。0请注意,我们的类别对比损失作为训练表示查询和键的编码器网络的无监督目标函数[18]。一般来说,查询表示为q =fq(xq),其中fq是一个编码器网络,xq是一个查询样本(同样,k =fk(xk))。它们的实例化取决于具体的预训练任务。输入xq和xk可以是图像[18, 68,73]、补丁[42]或由一组补丁组成的上下文[42]等。网络fq和fk可以是相同的[18, 66, 73]、部分共享的[2,42]或不同的[19, 58]。0与现有的实例对比方法的关系。除了实例对比[5, 19, 42, 58,68,73]学到的实例区分表示外,CaCo学习了类别区分但域不变的表示。03.4. 理论洞察0类别对比(CaCo)与一些概率模型有内在联系。具体而言,CaCo可以被建模为期望最大化(EM)的一个例子:0命题1类别对比学习可以被建模为通过期望最大化(EM)优化的最大似然(ML)问题。0命题2 在一定条件下,分类对比学习是收敛的。0命题1和2的证明见附录。04. 实验0本节介绍实验结果。第4.1节04.2节描述了数据集和实现细节。第4.3节、4.4节和4.5节分别介绍了分割、检测和分类的UDA实验。第4.6节讨论了所提出方法的不同特点。CaCo-S91.154.479.627.022.936.940.233.483.736.365.259.722.483.537.549.310.123.331.846.8CaCo-T92.053.581.628.926.336.542.736.381.837.275.559.826.584.940.044.911.627.029.948.3CaCo91.954.382.731.725.038.146.739.282.639.776.263.523.685.138.647.810.323.435.149.2AdaptSeg [59]86.536.079.923.423.323.935.214.883.433.375.658.527.673.732.535.43.930.128.142.4CBST [81]91.853.580.532.721.034.028.920.483.934.280.953.124.082.730.335.916.025.942.845.9CLAN [40]87.027.179.627.323.328.335.524.283.627.474.258.628.076.233.136.76.731.931.443.2AdvEnt [63]89.433.181.026.626.827.233.524.783.936.778.858.730.584.838.544.51.731.632.445.5IDA [43]90.637.182.630.119.129.532.420.685.740.579.758.731.186.331.548.30.030.235.846.3BDL [36]91.044.784.234.627.630.236.036.085.043.683.058.631.683.335.349.73.328.835.648.5CrCDA [29]92.455.382.331.229.132.533.235.683.534.884.258.932.284.740.646.12.131.132.748.6SIM [67]90.644.784.834.328.731.635.037.684.743.385.357.031.583.842.648.51.930.439.049.2TIR [32]92.955.085.334.231.134.940.734.085.240.187.161.031.182.532.342.90.336.446.150.2CRST [80]91.055.480.033.721.437.332.924.585.034.180.857.724.684.127.830.126.926.042.347.1+CaCo93.058.483.134.029.337.047.142.984.641.582.861.832.286.939.248.022.431.145.752.7FDA [72]92.553.382.426.527.636.440.638.982.339.878.062.634.484.934.153.116.927.746.450.5+CaCo93.254.584.632.929.339.746.942.784.440.183.761.132.285.641.751.219.235.645.952.9ProDA [76]87.856.079.746.344.845.653.553.588.645.282.170.739.288.845.559.41.048.956.457.5+CaCo93.864.185.743.742.246.150.154.088.747.086.568.12.988.043.460.131.546.160.958.0MethodRoadSWBuildWall*Fence*Pole*TLTSVeg.SkyPRRiderCarBusMotorBikemIoUmIoU*PatAlign [60]82.438.078.68.70.626.03.911.175.584.653.521.671.432.619.331.740.046.5AdaptSeg [59]84.342.777.5---4.77.077.982.554.321.072.332.218.932.3-46.7CLAN [40]81.337.080.1---16.113.778.281.553.421.273.032.922.630.7-47.8AdvEnt [63]85.642.279.78.70.425.95.48.180.484.157.923.873.336.414.233.041.248.0IDA [43]84.337.779.55.30.424.99.28.480.084.157.223.078.038.120.336.541.748.9CrCDA [29]86.244.979.58.30.727.89.411.878.686.557.226.176.839.921.532.142.950.0TIR [32]92.653.279.2---1.67.578.684.452.620.082.134.814.639.4-49.3SIM [67]83.044.080.3---17.115.880.581.859.933.170.237.328.545.8-52.1BDL [36]86.046.780.3---14.111.679.281.354.127.973.742.225.745.3-51.412070基准线 [ 4 ] 75.8 16.8 77.2 12.5 21.0 25.5 30.1 20.1 81.3 24.6 70.3 53.8 26.4 49.9 17.2 25.9 6.5 25.3 36.0 36.60基准线 [ 4 ] 75.8 16.8 77.2 12.5 21.0 25.5 30.1 20.1 81.3 24.6 70.3 53.8 26.4 49.9 17.2 25.9 6.5 25.3 36.0 36.60表1.GTA5到Cityscapes的无监督领域自适应语义分割任务结果:CaCo-S,CaCo-T和CaCo分别通过从源数据集Xs,目标数据集Xt和两个数据集中采样关键样本xk来构建类别感知字典。0基准线 [ 4 ] 55.6 23.8 74.6 9.2 0.2 24.4 6.1 12.1 74.8 79.0 55.3 19.1 39.6 23.3 13.7 25.0 33.5 38.60CRST [80] 67.7 32.2 73.9 10.7 1.6 37.4 22.2 31.2 80.8 80.5 60.8 29.1 82.8 25.0 19.4 45.3 43.8 50.1 +CaCo 88.8 48.0 79.5 6.9 0.3 36.9 28.0 22.1 83.5 84.1 63.9 31.085.8 38.1 29.4 49.1 48.5 56.20FDA [72] 79.3 35.0 73.2 - - - 19.9 24.0 61.7 82.6 61.4 31.W1 83.9 40.8 38.4 51.1 - 52.5 +CaCo 86.4 43.3 78.7 9.0 0.1 28.5 26.7 29.7 81.7 82.9 59.3 28.1 82.9 38.635.7 50.0 47.6 55.70CaCo 87.4 48.9 79.6 8.8 0.2 30.1 17.4 28.3 79.9 81.2 56.3 24.2 78.6 39.2 28.1 48.3 46.0 53.60表2. 基于无监督领域自适应语义分割任务SYNTHIA-to-Cityscapes的结果。04.1. 数据集0语义分割的自适应:涉及两个具有挑战性的UDA任务中的三个公共数据集,即GTA5 [48]-to-Cityscapes[9]和SYNTHIA[49]-to-Cityscapes。具体来说,GTA5是一个合成数据集,包含24,966个图像和与Cityscapes共有的19个类别。SYNTHIA是一个合成数据集,包含9,400个图像和与Cityscapes共有的16个类别。Cityscapes是一个包含2975个训练样本和500个验证样本的真实图像数据集。目标检测的自适应:涉及两个适应任务中的三个公共数据集,即Cityscapes-to-Foggy Cityscapes [54]和Cityscapes-to-BDD [?]。具体来说,FoggyCityscapes是一个在Cityscapes图像上应用模拟雾的合成数据集。BDD是一个真实的0数据集中的训练集有70k个样本,验证集有10k个样本,并且与Cityscapes数据集有7个共同类别。与[7, 52,71]中一样,只使用BDD“白天集”的子集进行实验。0分类任务的自适应:涉及两个领域自适应分类数据集VisDA17 [45]和Of�ce-31[50]。前者包含一个具有12个类别的源域,其中包含152,409个合成样本,以及一个具有55,400个真实样本的目标域。后者包含来自Amazon(2817个图像)、Webcam(795个图像)和DSLR(498个图像)的31个类别的图像。评估与[50, 55, 80]中的每一对数据集进行。12080方法 人 骑车 车辆 卡车 公交车 摩托车 自行车 mAP0基准线[47] 24.4 30.5 32.6 10.8 25.4 9.1 15.2 28.3 22.00MAF [21] 28.4 39.5 43.9 23.8 39.9 33.3 29.2 33.9 34.0 SCDA [79] 33.5 38.0 48.5 26.539.0 23.3 28.0 33.6 33.8 DA [7] 25.0 31.0 40.5 22.1 35.3 20.2 20.0 27.1 27.6 MLDA [70]33.2 44.2 44.8 28.2 41.8 28.7 30.5 36.5 36.0 DMA [33] 30.8 40.5 44.3 27.2 38.4 34.528.4 32.2 34.6 CAFA [23] 41.9 38.7 56.7 22.6 41.5 26.8 24.6 35.5 36.00SWDA [52] 36.2 35.3 43.5 30.0 29.9 42.3 32.6 24.5 34.3 +CaCo 39.3 46.1 48.0 32.445.7 38.7 31.3 35.3 39.60CRDA [71] 32.9 43.8 49.2 27.2 45.1 36.4 30.3 34.6 37.4 +CaCo 39.4 47.4 47.9 32.5 46.439.9 32.7 35.4 40.20CaCo 38.3 46.7 48.1 33.2 45.9 37.6 31.0 33.0 39.20表3. 基于无监督领域自适应目标检测任务Cityscapes-to-Foggy-Cityscapes的结果。0方法 人 骑车 车辆 卡车 摩托车 自行车 mAP0基准线[47] 26.9 22.1 44.7 17.4 16.7 17.1 18.8 23.4 DA [7] 29.4 26.5 44.6 14.316.8 15.8 20.6 24.00SWDA [52] 30.2 29.5 45.7 15.2 18.4 17.1 21.2 25.3 +CaCo 32.1 32.9 51.6 20.523.7 20.1 25.6 29.50CRDA [71] 31.4 31.3 46.3 19.5 18.9 17.3 23.8 26.9 +CaCo 32.5 34.1 51.1 21.625.1 20.5 26.5 30.20CaCo 32.7 32.2 50.6 20.2 23.5 19.4 25.0 29.10表4. 基于无监督领域自适应目标检测任务Cityscapes-to-BDD的结果。04.2. 实验细节0分割任务:与[59, 81]中一样,我们采用DeepLabV2[4]作为分割架构,ResNet-101[20]作为主干。我们采用带有动量0.9、权重衰减0.0001和学习率0.00025的SGD[3]作为优化器。我们遵循之前的工作[59,81]来调整学习率[4]。检测任务:我们遵循之前的工作[7,34, 52, 71]进行实验,其中使用基于VGG16的[57]FasterR-CNN[47]作为检测主干。对于网络优化,采用带有动量0.9和权重衰减0.0005的随机梯度下降优化器[3]。输入图像的较短边设置为600,并使用RoIAlign进行特征提取。学习率设置为0.001,进行50,000次训练迭代,并在接下来的20,000次训练迭代中调整为0.0001 [7, 52, 71]。分类任务:根据[50, 55,80],我们采用ResNet101(用于VisDA17数据集)和ResNet50[20](用于Of�ce-31数据集)作为基础主干。优化方面,采用带有动量0.9、权重衰减0.0005、学习率0.001和批量大小32的随机梯度下降优化器[3]。我们在所有实验中将字典队列的长度M设置为100,除了参数分析中。此外,我们将动量更新系数b设置为0.999,基本0温度τ设置为0.07,与[19]中相同。04.3. 语义分割的UDA0表1报告了在GTA5-to-Cityscapes任务上的语义分割结果。可以看出,提出的CaCo方法在性能上与现有的方法相当。此外,CaCo对于利用对抗损失、图像转换损失和自训练损失的现有UDA方法具有补充作用。如表1所示,将CaCo纳入其中(用“+CaCo”表示)明显且一致地提升了现有方法的性能。图2展示了定性比较结果。消融研究。我们对广泛采用的Baseline[20]进行了消融研究,如表1顶部所示,其中CaCo-S、CaCo-T和CaCo分别表示基于源域、目标域和两个域构建的类别感知字典。可以观察到,CaCo-S和CaCo-T明显优于Baseline。CaCo-S和CaCo-T提供了正交的自监督信号,其中CaCo-S侧重于目标样本与源键之间的跨域类别对比学习,CaCo-T侧重于目标样本与目标键之间的域内类别对比学习。此外,CaCo表现出最好的性能,表明源域和目标域的键是互补的。表2报告了在CaCo90.480.778.857.088.987.081.379.488.788.186.863.980.9CaCo89.798.4100.091.773.172.887.612090方法 飞机 自行车 公共汽车 汽车 马 刀具 摩托车 人 植物 滑板车 火车 卡车 平均0Baseline [20] 55.1 53.3 61.9 59.1 80.6 17.9 79.7 31.2 81.0 26.5 73.5 8.5 52.40MMD [37] 87.1 63.0 76.5 42.0 90.3 42.9 85.9 53.1 49.7 36.3 85.8 20.7 61.1 DANN [11] 81.9 77.7 82.8 44.3 81.2 29.5 65.1 28.6 51.954.6 82.8 7.8 57.4 ENT [13] 80.3 75.5 75.8 48.3 77.9 27.3 69.7 40.2 46.5 46.6 79.3 16.0 57.0 MCD [53] 87.0 60.9 83.7 64.0 88.9 79.684.7 76.9 88.6 40.3 83.0 25.8 71.9 ADR [51] 87.8 79.5 83.7 65.3 92.3 61.8 88.9 73.2 87.8 60.0 85.5 32.3 74.8 SimNet-Res152 [46]94.3 82.3 73.5 47.2 87.9 49.2 75.1 79.7 85.3 68.5 81.1 50.3 72.9 GTA-Res152 [55] - - - - - - - - - - - - 77.10CBST [81] 87.2 78.8 56.5 55.4 85.1 79.2 83.8 77.7 82.8 88.8 69.0 72.0 76.4 +CaCo 90.7 80.8 79.4 57.0 89.2 88.6 82.4 79.0 87.987.9 87.0 65.9 81.30CRST [80] 88.0 79.2 61.0 60.0 87.5 81.4 86.3 78.8 85.6 86.6 73.9 68.8 78.1 +CaCo 91.4 80.6 80.0 56.5 89.5 89.4 82.8 79.9 88.886.8 87.3 66.0 81.60表5. 基于UDA的分类基准VisDA17的结果。0方法 A → W D → W W → D A → D D → A W → A 平均0Baseline [20] 68.4 96.7 99.3 68.9 62.5 60.7 76.10DAN [37] 80.5 97.1 99.6 78.6 63.6 62.8 80.4 RTN [38] 84.5 96.8 99.4
下载后可阅读完整内容,剩余1页未读,立即下载
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功