基于谱的无监督域自适应视觉识别

29 浏览量更新于2023-10-25 收藏 1.97MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

9829基于谱的无监督域自适应视觉识别张静怡1，2，* 嘉兴黄2，紫宸天1号 Shijian Lu1，2，†1S-lab2南洋理工大学计算机科学与工程学院{静宜.张佳星.黄梓晨.田世坚.陆}@ ntu.edu.sg摘要尽管无监督领域自适应（UDA）近年来取得了令人瞩目的进展，但由于目标标注的缺失以及源和目标分布之间的差异，它仍然是一个巨大的挑战。我们提出了光谱UDA（SUDA），一个有效的和高效的UDA技术，工作在光谱空间，可以概括不同的视觉识别任务。SUDA从两个角度解决了UDA的挑战首先，它引入了一个频谱Transformer（ST），减轻域间的差异，通过增强域不变的频谱，同时抑制源和目标样本的域变化的频谱其次，它引入了多视图光谱学习，通过最大化每个目标样本的多个ST生成的光谱视图之间的互信息来学习有用的大量的实验表明，SUDA在对象检测，语义分割和图像分类的不同视觉任务中始终此外，须田还与变压器为基础的网络，并实现国家的最先进的性能对象检测。1. 介绍深度学习技术[29，44，71]在各种视觉识别任务中取得了巨大成功，如图像分类[29，44，71]，图像分割[3，10，51，63]和目标检测[8，20，21，50，60，61]。巨大的成功是以大量注释的训练数据为代价的，这些数据收集起来通常非常费力和耗时[14，15，18，49]。一种可以缓解这种约束的替代方案是利用来自一个或多个相关源域的现成的标记数据。然而，使用源域数据训练的模型在应用于目标域时通常会出现明显的性能下降，其中与源域数据相比，数据通常具有不一致的分布[13，68，72]。*同等贡献†通讯作者图像分解图像重组来源真实世界图像低频中古高地频率Frequency转换后的源图像大型域间离散性频谱Transformer抑制域变内容增强域不变内容小型域间离散性目标剪辑样式图像域变量颜色和样式区域不变轮廓和纹理转换后的目标图像(a)(b)（c）第（1）款图1.所提出的频谱Transformer（ST）的说明：对于（a）中所示的具有明显分布差异的不同域的图像，ST将其转换到频率空间中，并将转换后的频率信号分解为（b）中所示的低、中、高频带中的多个它学习识别和增强域不变的FC并抑制域变化的FC，这有效地减轻了域间差异，如（c）所示。请注意，我们增加了图像对比度，以获得更好的可视化效果（c）。无监督域自适应（UDA）是一种用于消除源域和目标域之间差异的方法.一种典型的方法是使用生成对抗网络（GAN）的图像到图像翻译，该网络通过修改源数据以具有与目标数据相似的风格来对齐输入空间中的源数据和目标数据[40，43，48]。然而，图像到图像的翻译需要学习大量的参数，这通常是计算密集型的。此外，它削弱了UDA的端到端功能，因为它需要在将GAN应用于图像翻译之前首先训练GAN [40，43，48]。此外，它可能通过不期望地修改与空间空间中的域变图像样式紧密纠缠的域不变图像结构来降低UDA [23，89]。我们提出了光谱UDA（SUDA），通过有效地学习域不变的光谱特征来应对UDA的挑战。须田工程从两个每-9830观点。首先，它介绍了一种频谱Transformer（ST），它通过增强域不变频率分量（FC）和抑制域可变FC来学习减少域间差异，如图11所示1.一、为此，我们设计了一种新的对抗性频谱注意力（ASA），可以准确地识别域变和域不变的FC。其次，我们设计了多视图光谱学习（MSL），通过最大化每个目标样本的多个ST生成的光谱视图之间的互信息来学习不同的目标表示。MSL引入了一定的自我监督，有效地缓解了目标注释的缺乏。拟议的SUDA有三个可取的特点。首先，它是可推广的，并在不同的视觉任务，如图像分类，图像分割和目标检测表现良好其次，它是一种在线和可学习的技术，而基于GANs的图像翻译是离线的，传统的图像预处理大多是不可学习的。第三，它与现有的UDA方法是互补的，可以与一致和明确的性能提升，但很少额外的计算。这项工作的贡献有三个方面。首先，我们设计了SUDA，通过学习域不变的光谱特征有效地解决了UDA的挑战其次，我们设计了一个在线学习的频谱Transformer，通过同时增强域不变的FC和抑制域变的FC来减轻域间的差异。为此，我们设计了ASA，利用上下文信息准确地识别域变量和域不变的FC。第三，我们设计了MSL，它可以通过最大化每个目标样本的多个光谱视图之间的相互信息来学习不同的目标表示MSL有效地缓解了目标注释的缺乏。2. 相关作品无监督域自适应。UDA近年来得到了广泛的研究，主要是为了减轻各种视觉识别任务中深度网络训练中的数据注释约束[13，19，2653、75、92]。除了对抗性学习[13，30，46，67，72，74，88]和自训练[42，84，92，93]，已经研究了图像到图像转换[40，43，48]以减少输入空间中的域间差异。为此，已经设计了一些GAN [22，89]用于翻译图像风格，但对图像结构的修改最小。然而，GAN训练通常是耗时的，这通常使得UDA框架不可端到端训练，因为它们需要在将其应用于UDA之前首先训练GAN。此外，基于GAN的翻译工作在图像风格和图像结构紧密纠缠的空间中，这不可避免地修改了图像结构。一些工作[83]试图通过交换某些预定义的频率来转换频率空间中的源图像和目标图像的FC，但它是不可学习的，并且不能适应通常具有不同光谱特征的单个图像。最近，一些研究通过对比学习[36，86]和对抗攻击[37]来处理UDA我们设计了一个频谱Transformer，它可以学习识别每个图像的域变量和域不变的FC它通过自适应地增强源图像和目标图像中的域不变FC和抑制域变FC来减轻域间差异。在频率空间学习。在传统的图像处理研究中，光谱空间的图像预处理已经被广泛研究，使用各种光谱滤波器。ies [4，9].然而，大多数传统的光谱预处理技术是确定性的，以相同的方式处理每个单独的图像。随着深度学习的发展，频谱学习最近引起了越来越多的关注，并且已经针对不同的视觉任务进行了研究，例如图像平移[5，17，80]，图像压缩[80]，网络泛化[34，81]和域自适应[37，82]。我们探索了UDA任务的频谱学习。具体来说，我们设计了多视图光谱学习，为每个目标图像生成不同的光谱视图，并最大化它们的互信息，以学习不同的目标表示，而无需任何图像标签或注释。视觉注意。视觉注意在各种视觉识别任务中得到了广泛的研究。它可以大致分为通道注意力[32，59]和空间注意力[76]，旨在分别识别每个单个通道内的信息通道和空间依赖性。结合通道和空间注意力的某些混合注意力[7，47，77最近，自我注意[73]由于其在学习输入图像内的空间依赖性方面的强大能力而引起了越来越多的兴趣。此外，在不同的视觉识别任务中，已经探索了自我注意力，它在不同的图像位置聚合多个自我注意力的信息[8，16，78，87，91]。我们设计了ASA，它引入了对抗学习来帮助识别域变量和域不变的FC。ASA与多个解开的FC一起工作，这允许有效地对注意力进行建模。其他相关作品。我们提出的多视图光谱学习也与一致性训练有关[1，12，45，55，56]，其强制执行输入图像的不同视图之间的预测一致性例如，PixMatch [55]直接执行来自不同数据增强（例如，CutMix，Fourier增强）的预测的像素级一致性SAC [1]通过融合来自不同尺度的多个预测来获得鲁棒的伪标签，并通过数据增强来重新训练网络。98311印度尼西亚$&1不&&$&&不$LL∈ D ∈ DL不·不SSSStt源数据流目标数据流源映像��1可视化任务模型鉴别器（$）*��1&联系我们目标图像缩放域间自适应频谱Transformer（ST）输入图像分解1998年，分解的FCs普卢德对抗频谱注意力ConcatH自我监督学习RecomposedImage&重新构图图2.所提出的SUDA的概述：对于源图像xs和目标图像xt，SUDA首先使用ST1和ST2（通过差异损失dis具有不同的参数）为它们中的每一个创建两个光谱视图，然后将光谱视图馈送到一个光谱分析器。用于内域适应的自适应学习将ST输出x1和x2馈送到视觉任务模型G用于监督学习，S s而x∈1和x∈2被馈送到G，用于在无监督相似性损失Lsim下的自监督学习。底部的图表显示了更多ST设计细节对于输入图像x，ST首先将其变换为谱表示，然后将其分解为N个FC×N。ASA然后学习识别和增强域不变的FC和自适应地抑制域变量的FC最后，重新加权的FC被重新组合回空间-空间图像x，用于随后的监督和自监督学习。3. 方法3.1. 任务定义这项工作的重点是UDA在不同的视觉识别任务，如图像分类，图像分割，目标检测。它涉及一个标记的源域D=.. xi，yi=Ns，其中yi是样品的标签S不不 i=1概况. 图2示出了所提出的SUDA的框架和ST的设计。给定源域图像xss和目标域图像xtt，两个互补STSTST1和ST2（通过差异损失dis具有不同的参数）首先将两个图像变换到频谱空间中，并将它们分解为多个频率分量（FC）。拟议的ASA在ST然后学习识别和增强域不变x1，和未标记的靶结构域D =. t. 的目标是训练在Dt中表现良好的模型G。的基线模型仅使用Ds中的数据进行训练：Lsup=l（G（xs），ys），（1）其中，l（）表示与任务相关的损失，例如，图像分类的标准交叉熵损失。3.2. 谱无监督域自适应我们提出了SUDA，一种创新的频谱空间UDA技术，通过学习域不变的频谱特征来处理UDA。 SUDA有两个关键设计，包括用于域间自适应的频谱Transformer和用于自监督学习的多视图频谱学习。对抗性的损失advwith the adj.ASA从而减轻域间差异并有效地导致域间自适应在此，作为ST1和ST2的输出的x1和x2捕获目标样本xt的不同光谱视图。它们被馈送到用于自监督学习的视觉任务模型G，其中所提出的MSL努力最大化xt的两个增强之间的互信息。注意，我们采用两个ST来产生xt的不同光谱视图，这允许学习更多样化的目标表示。SUDA也可以在没有MSL的情况下与单个ST一起工作，更多细节将在实验部分讨论。频谱Transformer：我们设计的频谱转换器-i=1同时抑制结构域变异的FC，9832∈DLLLL∈n=1不不L=，disL·A（x）=（QK/d）V，hh∗∗W·LN联系我们x∈RxAh（·）算法1提出的SUDA。要求：源域%D% s;目标域%D% t;可视最后，ASA的输出被重新整形回3×N×H×W的大小，并进一步重组为全-任务模型G;频谱变换器ST1和ST2光谱空间图像x∈R3×H×W。确保：学习网络ST1、ST2和G1：对于iter=1到Max Iterdo2：对源数据{xs，ys} ∈ Ds和目标数据进行采样xt t3：域间适配：然后，将来自ST的输出xx和其对应的域标签（0或1）转发到NICd，以减少输入空间中的域间差异。Cd执行具有对抗损失Ladv的对抗学习：4：计算ST1（xs）、ST2（xs）、ST1（xt）和ST2（xt），等式2Ladv=E[logCd（ST（xs））]+E[log（1−Cd（ST（xt）]（五）5：计算Adv的Eq。56、自我监督学习：7：计算用Eq.6第八章：计算通过Eq.79.监督学习：第10章：计算由Eq.1图11：通过等式11优化ST1、ST2和视觉任务模型G812：结束13：返回ST1、ST2和G前域间适应。给定一幅图像xR3×H×W，ST首先用快速傅里叶变换将其变换为谱然后，它将频谱表示分解为N个FC（即，，xN= xn，xnR3×1×H×W）均匀分布。分解的XN被馈送到ST内的ASA以自适应地增强域不变的FC并抑制域变化的FC。ASA的设计在图的底部示出2，其定义如下。定义1拟议的ASA定义如下：注1：ST通过采用本质上是简单矩阵乘法运算的注意机制来执行域间自适应。与执行图像翻译的GAN相比，ST更有效，因为它可以以端到端的方式使用视觉任务模型G进行训练。具体来说，ST仅涉及1个具有约37，000个参数的注意力层，而典型的图像翻译GAN涉及9个具有约11，000，000个参数的卷积层[89]。由于GAN的高计算成本，大多数基于GAN的UDA方法[2，40，43]首先单独训练图像平移GAN，这破坏了UDA的端到端属性。多视图光谱学习：我们开发了多视图光谱学习，利用自我监督来学习无监督的目标表示。对于每个目标图像x1，SUDA通过使用两个频谱变换器ST1和ST2来创建两个互补频谱视图x1和x2。我们通过差异权重损失dis强制ST1和ST2具有不同的参数，使得ST1和ST2可以学习xt的互补域不变FC：WConcatN Nθ⃗1·θ⃗2（六）ASA（x）=CS（∗（A1（x），A2（x），.，∗（二）¨⃗¨ ¨⃗¨θθAh（ xN），.，AH（ xN））PH） xN¨1¨ ¨2¨哪里N3N×1是N的合并向量，是单点头，C_（onca t）（·）表示A_h（·）输出的级联. PH∈RHdh×dpr其中θ1和θ2表示ST1和ST2 的参数。然后，x t的两个互补光谱视图被转发到视觉任务模型G，该模型G产生预测 p1=G（x≠1 ）和 p2=G（x≠2）。以最大化级联，其中d=3N并且dh=d/H。陈-t tnel和空间方面的注意力cs（）将投影的级联作为输入，并进一步对分解的xN进行加权。每个单个注意力头Ah（）被定义为标准缩放的点积注意力，其将查询（Q）和一组键值对（K，V）映射到输出中：（K，V，Q）=xNPkvq，（3）NSoftmaxT（4）∗其中，每个头部的K、V和Q的值通过Pkvq∈Rd×3dh从输入xN投影。互信息[11，25]的两个光谱视图，我们最小化p1和p2之间的相似性损失Lsim，通过：Lsim=||p1− p2||.（七）备注2注意，我们在SUDA中实现了两个互补的ST，用于学习更多样化的域不变光谱信息。我们还引入了一个差异损失DIS方程。6，通过强制两个ST学习不同的参数来增强该特征。因此，单个ST学习最小化域间差异，而两个ST从每个训练样本的不同光谱视图学习更多样化的信息。N9833LLLLL→→→ → →→→→Cityscapes→有雾的城市景观物体检测方法骨干人骑手车卡车总线火车mcycle自行车地图更快的R-CNN [61]（基线）ResNet-5026.938.235.618.332.49.625.828.626.9[13]ResNet-5029.240.443.419.738.328.523.732.732.0+须田ResNet-5039.546.854.629.350.744.631.639.542.1SCDA [90]ResNet-5033.842.152.126.842.526.529.234.535.9+须田ResNet-5039.747.754.327.651.846.531.239.642.3SWDA [67]ResNet-5031.844.348.921.043.828.028.935.835.3+须田ResNet-5039.548.257.829.552.937.534.541.342.7须田ResNet-5040.247.954.628.549.539.233.841.541.9DETR [91]（基线）ResNet-5043.738.057.215.234.714.426.142.434.0[13]ResNet-5049.449.762.123.643.821.631.343.140.6+须田ResNet-5050.551.764.126.748.514.238.149.542.9SWDA [67]ResNet-5049.049.061.423.943.122.931.045.240.7+须田ResNet-5050.750.367.322.345.227.434.048.943.3[第79话]ResNet-5049.848.461.922.340.730.029.945.441.1+须田ResNet-5052.351.666.730.447.111.936.848.743.2[第88话]ResNet-5049.649.762.623.343.427.430.244.841.4+须田ResNet-5051.251.468.525.348.026.533.849.944.3SAP [46]ResNet-5049.349.962.523.044.129.431.345.841.9+须田ResNet-5051.452.267.528.749.628.739.250.446.0须田ResNet-5050.551.764.126.748.513.138.149.542.8表1.基于UDA的目标检测任务Cityscapes→ Foggy Cityscapes。PASCAL VOC→ Clipart1k对象检测方法Aerobcyc。鸟船bott.总线车猫椅子牛表狗马自行车pers. 植物羊沙发火车电视地图基线[61]35.652.524.323.020.043.932.810.730.611.713.86.036.845.948.741.916.57.322.932.027.8[13]15.034.612.411.919.821.123.23.122.126.310.610.019.639.434.629.31.017.119.724.819.8+须田28.253.837.115.437.666.635.321.738.748.718.328.424.482.461.044.511.934.449.559.739.9SWDA [67]26.248.532.633.738.554.337.118.634.858.317.012.533.865.561.652.09.324.954.149.138.1+须田33.761.836.923.139.256.233.923.438.745.915.423.425.875.858.641.815.733.261.760.140.2须田33.856.132.324.130.954.638.518.434.041.018.724.329.584.057.649.114.336.355.651.639.2表2.基于UDA的目标检测任务PASCAL VOC→ Clipart1k的实验城市景观→雾中的城市景观方法我补充LadvLdisL sim地图基线[91]✓34.0+单ST✓ ✓40.6+两名ST✓ ✓✓41.8+两名ST +MSL（SUDA）✓ ✓✓ ✓四十二点八表3.消融研究提出的频谱Transformer和多视图频谱学习的目标检测任务城市景观→雾城市景观。总体培训目标。SUDA的目标由算法1中所述的三个损失组成，即等式1中的监督任务损失sup1，方程中的域间自适应损失adv。5中的差异损失dis和相似损失sim组成的自监督学习损失self6和图7因此，总体培训目标可以通过以下方式制定：4. 实验本节分别介绍了实验，包括数据集更多细节将在随后的小节中描述。4.1. 数据集我们在多个数据集上评估了SUDA，这些数据集涉及对象检测、图像分类和语义分割方面的不同视觉UDA任务，如下所示：UDA用于对象检测：我们研究了两个对象检测任务Cityscapes [14] Foggy Cityscapes [69]和PAS- CAL VOC[18] Clipart 1 k [40]。图像分类的UDA我们研究了两个基于UDA的图像分类任务VisDA 17 [57]和Office-31 [65]。对于VisDA 17，我们评估任务合成→真实。为Max minCd G，STsup -λcLadv+λsLself 、（8）Office-31中，我们研究了六个适应任务：W、DW，WD、AD，DA，W A。UDA 语义分割：我们研究二其中λc和λs表示平衡重。合成到真实语义分割任务GTA5 [62]→L9834→→→→→→→→VisDA 17分类方法航空自行车总线车马刀电机人植物滑冰。火车卡车是说[29]第29话55.153.361.959.180.617.979.731.281.026.573.58.552.4丹麦[68]87.060.983.764.088.979.684.776.988.640.383.025.871.9ADR [66]87.879.583.765.392.361.888.973.287.860.085.532.374.8SimNet-Res152 [58]94.382.373.547.287.949.275.179.785.368.581.150.372.9GTA-Res152 [70]------------77.1CBST [92]87.278.856.555.485.179.283.877.782.888.869.072.076.4+须田89.679.069.066.188.579.986.779.685.487.781.073.880.5CRST [93]88.079.261.060.087.581.486.378.885.686.673.968.878.1+须田91.579.771.966.588.581.185.679.586.286.579.974.380.9须田88.379.366.264.787.480.185.978.386.387.578.874.579.8表4.基于UDA的图像分类任务VisDA17的实验Office-31分类方法A→W D→W W→D A→D D→A W→A平均值[29]第二十九话68.496.799.368.962.560.776.1JAN [52]85.497.499.884.768.670.084.3GTA [70]89.597.999.887.772.871.486.5CBST [92]87.898.5100.0 86.571.270.985.8+须田90.598.6100.0 91.472.772.187.6CRST [93]89.498.9100.0 88.772.670.986.8+须田91.098.8100.0 91.972.972.387.8须田90.898.7100.0 91.272.271.487.4表5.基于UDA的图像分类实验任务Office-31。[14]第64话：一个人的世界由于篇幅限制，我们在补充材料中提供了关于第A.1节数据集的更多详细信息。4.2. 实现细节目标检测：对于Cityscapes Foggy Cityscapes，我们采用Faster R-CNN [61]和deformable-DETR [91]作为检测网络， ResNet-50 [29] 作为骨干 [6 ， 91] 。对于PASCAL VOC Clipart 1 k，我们采用更快的R-CNN和ResNet-101 [29]，如[40，67]所示。图像分类：在[65，93]之后，我们分别使用ResNet-101和ResNet-50 [29]作为任务VisDA 17和Office-31的主干。语义分割：我们使用DeepLab-V2 [10]和ResNet-101[29]作为分割网络，如[72，92]所示。对于所有视觉识别任务，我们将FC的数量N设置为32。由于篇幅所限，我们在补充材料中的第A.2节提供了更多4.3. 域自适应目标检测我们首先基准建议的SUDA与国家的最先进的领域自适应对象检测方法在两个UDA任务Cityscapes雾Cityscapes和PASCAL VOC Clipart1k。表1和2显示了实验结果。可以看出，与所有高性能的目标检测相比，SUDA实现了具有竞争力的目标检测性能在两个非常不同的网络架构（更快的R-CNN和可变形的- DETR）上优化了最先进的方法。此外，SUDA是补充，以最ex-technology方法，产生明确和一致的perfor-曼斯提升，而纳入作为一个插件。我们还研究了建议的SUDA通过执行几个消融研究领域自适应对象检测任务Cityscapes雾Cityscapes。表3显示了实验结果。可以看出，在+单个ST和+两个ST中包括一个或两个ST比基线（可变形-DETR）的性能好很多。此外，在+两个ST中包括两个互补ST显然比在+单个ST中包括单个ST更好，因为两个ST学习更多样化和互补的域不变光谱信息。此外，在+Two ST +MSL（SUDA）中包括两个ST之外的MSL显然表现最好，证明了所提出的多视图光谱学习的有效性。4.4. 域自适应图像分类我们在两个域自适应图像分类任务VisDA 17和Office-31上对SUDA进行了评估和基准测试。表4和5显示了实验结果，其中SUDA明显优于所有最先进的方法。此外，SUDA是对现有方法的补充，这些方法在作为插件集成时可以产生一致和明确的性能提升。由于篇幅所限，本文仅对几种具有代表性的领域自适应图像分类方法进行了补充研究。4.5. 领域自适应语义分割我们评估和基准SUDA超过两个领域自适应语义分割任务GTA5 Cityscapes和SYNTHIA Cityscapes。表6和表7显示了实验结果。我们可以看到，与高度优化的最先进的方法相比，SUDA实现了竞争性的分割性能。此外，它是补充与现有的方法，产生一致的性能提升，同时作为一个插件。9835→SLLGTA5→ Cityscapes语义分割方法路的方面想buil。壁围栏极光签署蔬菜之三.天空pers. 骑手车卡车总线火车 mot. 自行车Miou基线[29]75.816.877.212.521.025.530.120.181.324.670.353.826.449.917.225.96.525.336.036.6AdaptSeg [72]86.536.079.923.423.323.935.214.883.433.375.658.527.673.732.535.43.930.128.142.4CBST [92]91.853.580.532.721.034.028.920.483.934.280.953.124.082.730.335.916.025.942.845.9高级工程师[75]89.433.181.026.626.827.233.524.783.936.778.858.730.584.838.544.51.731.632.445.5CRST [93]91.055.480.033.721.437.332.924.585.034.180.857.724.684.127.830.126.926.042.347.1BDL [48]91.044.784.234.627.630.236.036.085.043.683.058.631.683.335.349.73.328.835.648.5CrCDA [39]92.455.382.331.229.132.533.235.683.534.884.258.932.284.740.646.12.131.132.748.6RDA [37]89.839.181.727.619.934.235.923.382.129.576.658.326.082.132.545.215.326.933.545.2+须田91.552.182.232.324.236.244.336.384.139.478.359.626.283.737.545.812.427.739.049.1[第41话]92.955.085.334.231.134.940.734.085.240.187.161.031.182.532.342.90.336.446.150.2+须田92.654.985.93130.637.643.641.384.539.38760.432.684.638.346.711.234.943.751.6美国食品药品监督管理局[83]92.553.382.426.527.636.440.638.982.339.878.062.634.484.934.153.116.927.746.450.5+须田93.455.184.931.528.938.345.641.984.640.083.161.431.384.841.150.515.430.843.951.9ProDA [85]87.856.079.746.344.845.653.553.588.645.282.170.739.288.845.559.41.048.956.457.5+须田94.567.586.445.141.447.150.555.689.648.187.467.31.188.939.160.233.344.561.158.3须田91.152.382.930.125.738.044.938.283.939.179.258.426.484.537.745.610.123.136.048.8表6.基于UDA的语义分割任务GTA5→ Cityscapes的实验SYNTHIA→ Cityscapes语义分割方法路的方面想buil。壁围栏极光签署蔬菜天空 pers. 骑手车总线mot. 自行车MioumIoU*基线[29]55.623.874.69.20.224.46.112.174.879.055.319.139.623.313.725.033.538.6AdaptSeg [72]84.342.777.5---4.77.077.982.554.321.072.332.218.932.3-46.7高级工程师[75]85.642.279.78.70.425.95.48.180.484.157.923.873.336.414.233.041.248.0CrCDA [39]86.244.979.58.30.727.89.411.878.686.557.226.176.839.921.532.142.950.0CRST [93]67.732.273.910.71.637.422.231.280.880.560.829.182.825.019.445.343.850.1[第41话]92.653.279.2---1.67.578.684.452.620.082.134.814.639.4-49.3+须田83.940.176.94.50.126.122.926.479.680.758.128.381.037.435.146.845.553.6美国食品药品监督管理局[83]79.335.073.2---19.924.061.782.661.431.183.940.838.451.1-52.5+须田85.638.876.79.20.228.425.427.078.481.760.428.682.838.836.248.146.754.5须田83.436.071.38.70.126.018.226.772.480.258.430.880.638.736.146.144.652.2表7.基于UDA的语义分割任务SYNTHIA Cityscapes的实验。mIoU在16个类上评估，mIoU* 在13个类上评估。5. 讨论跨视觉任务的泛化：所提出的SUDA通常适用于第4.3、4.4和4.5节中描述的各种视觉识别任务。如第4.2节所述，通过简单的实施和最小的微调，它可以在不同的任务中产生有竞争力的性能，如表1-7所示。该算法的泛化能力很大程度上归功于光谱Transformer和多视角光谱学习，它们通过学习领域不变的光谱而与任务无关。互补性研究：所提出的SUDA是对大多数现有视觉识别方法的城市风景我们首先研究图2中ST1和ST2产生的源样本和目标样本的视觉特征。如图图3显示，与原始图像相比，ST生成的源和目标特征更好地对齐（具有较小的域间距离），这表明ST有助于有效地学习更多的域不变特征由于篇幅限制，我们在补充材料的第C.1节中提供了ST生成图像的可视化此外，我们通过测量源图像和目标图像ST变换前后的域间距离[31]来定量分析ST。如表8所示，通过实现ST1（在（X1，X1）下）或ST2（在（X 1，X 1）下），跨域距离显著减小。S t与跨域相比，一致地（同时作为插件合并），如der（X2，X2S t表1-7.这种协同效应主要归功于所提出的谱Transformer和多视图谱学习，它们在谱域中工作，而大多数前原始源样本和目标样本的距离。虽然ST1和ST2都被实现，但是跨域距离被进一步减小，如列（X1，2，在空间域中工作的方法。ST分析：我们研究了所提出的ST如何学习在主自适应对象检测任务Cityscapes→ Foggy中X1，2）。离散损失dis的分析：我们还研究了dis如何引导ST1和ST2学习源样本和目标样本的更多样化的特征。本研究基于不9836LL→LLSLS不不SS不s s tt不（Xs，Xt）58.57（X1，X1）（X2，X2）S不St（X1， 2，X1， 2）SCDID18.7820.56不16.23表8. ST在CDID（跨域图像距离）上的定量分析：CDID（在FID中测量 [31]）非常重要。由（X1，X1）中的ST1或(a) 原始特征（b）ST1-变换特征s t（X2，X2）。 ST1和ST2的转型进一步重新S t在（X1， 2，X1， 2）中清楚地引入CDIDSt（X 1，X2）（X1，X2）（X1′，X 2′）（X 1′，IDIDS s30.59t t29.82S s7.13t t9.42(c)ST2-变换特征（d）（ST1+ST2）-变换特征图3.通过t-SNE实现特征表示的可视化[54]：红点表示源特征，蓝点表示目标特征。表9. IDID（域内图像距离）上差异损失dis的定量分析：对于dis，（X1，X2）和（X1，X2）中的IDID（在FID中测量[31]）明显大于com。用（X1′，X2′）和（X1′，X2′）表示，而不使用Ldis。获取功能。d表示源和目标特征表示之间的距离，由最大平均离散度[24]测量。如（b）和（c）所示，单个ST有助于显著地减小域间距离。如（d）所示，两个互补ST可以进一步清楚地减小域间距离。域内距离[31]在域自适应对象检测任务Cityscapes雾的城市景观，即。距离越大，学习到的特征越多样化。具体来说，我们研究ST生成的源图像和目标图像的域内距离，同时存在dis（如在（X1，X2）和（X1，X2）中）和不存在dis（如在（ X1′， X2′）和（X1，X2）中）。（X1′，X2′））。如表9所示，当存在dis时，域内距离明显更大，表明dis有效地引导两个ST学习更多样化的信息。表示源和目标样本。ST的数量：SUDA中ST的数量确实影响域自适应性能。我们的研究表明，一个ST可以显着提高域适应和两个互补的ST可以进一步引入明显的改善。然而，域自适应饱和与更多的ST，而不是复杂的网络结构，并引入额外的参数。由于篇幅限制，我们在补充材料中提供了第B.1节中的详细实验结果和分析。与现有的基于频谱的技术的比较：我们将SUDA与两种现有的基于频谱的UDA技术进行了比较[37，83]，其中[83]交换了源和目标样本的某些预定义FC以减轻域间差异，而[37]采用对抗性攻击来减轻UDA中的过拟合。作为一个比较，建议的SUDA最大限度地减少域间的差异，通过识别和增强域不变的FC在一个可学习的方式。此外，它还引入了多视图光谱学习，用于捕获更多样化的目标表示。因此，SUDA从非常不同的角度解决了UDA的挑战，这显然是互补的s s t t两个基于光谱的作品如表6所示。我们在补充材料的第B.2节中提供了详细的比较和分析。参数分析：我们研究了公式中定义的FC数量N和平衡重量λc和λs8.由于篇幅所限，我们在补充资料中提供了第B.4节的详细分析。6. 结论本文介绍了SUDA，一种谱UDA技术，解决了UDA的挑战，通过学习域不变的光谱特征。SUDA包括两个关键的设计.第一个是一个频谱Transformer，它通过突出显示输入空间中的域不变频谱和抑制域变化频谱来减轻域间差异。第二种是多视图光谱学习，其利用

下载后可阅读完整内容，剩余1页未读，立即下载