在线MemXformer：连续适应的目标检测模型

185 浏览量更新于2023-10-16 收藏 905KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

478在线域自适应目标检测Vibashan VS、Poojan Oza和Vishal M. PatelJohns Hopkins University巴尔的摩，MD，美国{vvishnu2，poza2，vpatel36}@ jhu.edu摘要现有的目标检测模型假设训练数据和测试数据都是从同一个源区域采样的。当这些检测器部署在现实世界的应用程序中时，这种假设不成立，在现实世界中，它们遇到了新的视觉领域。无监督域自适应(a) 无监督域自适应(b) 离线无源域自适应(c) 在线-无源域名适配通常采用UDA方法来减轻由域偏移引起的不利影响。现有的UDA方法以离线方式操作，其中模型首先适应目标域，然后部署在现实世界的应用程序中。然而，这种离线自适应策略并不适用于现实世界的应用，因为该模型经常遇到新的域转移。因此，开发一种可行的UDA方法，以连续在线的方式对失业期间遇到的新领域转移进行通用化是至关重要的。为此，我们提出了一种新的统一的适应框架，适应和提高泛化的目标域在离线和在线设置。具体来说，我们介绍MemXformer -一个交叉注意变换器为基础的记忆模块，其中在内存中的项目利用域转移和记录的目标分布的原型模式。此外，MemXformer产生强的正和负对来引导新的对比损失，这增强了目标特定的表征学习。在不同检测基准上的实验表明，该策略在离线和在线环境下都据我们所原始程式码：https://github.com/Vibashan/memXformer-online-da1. 介绍在大规模注释数据集上训练深度网络模型的能力[35，14，41，29]加速了多个计算机视觉任务的进展，例如分类[35，19，13]，分割[45，72，54]和去中心化。保护[48，47，42]。尽管取得了成功，但这些模型具有有限的泛化能力[56，23，17]。具体而言，当测试数据（目标域）从不同的分布中采样时，模型性能会下降，图1. 左：无监督域自适应-标记源数据和未标记的目标数据在适配期间是可用的。中间：无源域自适应-源训练的模型适应目标域。右图：在线源代码免费Do- main自适应-源代码训练模型通过在线更新适应现实世界部署期间的目标分布变化。训练数据（源域）[1]。例如，当模型部署在诸如自主导航的现实世界应用中时，它可能遇到具有基于天气的退化、相机伪影等的图像，在训练中不为人知。无监督域自适应（UDA）方法[15，58，51，9，25，24，8，28，50]通常用于改进域移位条件下的模型泛化。现有的UDA方法假设在自适应过程中标记的源数据和未标记的目标数据都是可用的。这种情况在当前的现实世界应用中通常是不可行的为了克服这个缺点，最近，一些工作已经探索了无源域自适应（SFDA）[37，34，68，40，39]设置，其中源训练的模型在不需要访问源数据的情况下适应目标域。然而，在UDA和SFDA设置中，适配以离线方式执行，其中模型首先适应目标域，然后部署在现实世界的应用程序中。此外，在大多数现实世界的应用程序中，通常不可能事先换句话说，部署的模型可能会遇到一组不同的目标域，并且离线适应每个分布变化将是不可行的。因此，我们提出了一个统一的适应框架，它利用一个源训练的检测器，并适应目标域在离线和在线的方式。Oggy标记的源数据标记源数据Faster-RCNN共享权重Faster-RCNNFaster-RCNN未标记的目标测试数据在线适应在线更新未标记的目标训练数据未标记的目标训练数据Faster-RCNNdy阴雨San雪域F探测器实时部署479近年来，很少有研究探讨了各种测试时自适应设置，其中在测试时进行自适应Wang [66]提出了一种完全的测试时自适应策略，该策略在测试时执行熵然而，将TENT扩展到检测框架[66]有两个关键缺点：1）TENT在测试时间适配期间使用非常大的批量大小，这在实时部署期间是不可行的，因为图像一个接一个地顺序到达。2)仅更新批量大小为1的网络的批量范数参数本质上会降低模型性能[70]。尽管现有的测试时间自适应设置更接近在线SFDA设置，但它们不适合在现实世界部署期间自适应检测模型。为了克服这些问题，我们探索了在线无源域自适应（Online-SFDA）设置，其中模型适应于以批量大小为1的在线方式部署期间遇到的任何分布变化图1示出了用于检测的在线无源域自适应设置及其与其他自适应设置的差异。无源域自适应对象检测是一个相对较新的，比UDA更具挑战性的设置。用于检测的Ex-SFDA方法[39，27]通过对由源训练模型生成的伪标签进行训练来适应目标域。由于域移位，这些生成的伪标签是有噪声的，并且在它们之上训练模型将导致噪声过拟合[44，12]。为了缓解这些问题，我们采用了平均教师框架，其中使用教师网络生成的伪标签来监督学生模型，并且通过学生权重的指数移动平均（EMA）来缓慢更新教师网络因此，学生网络是在一致的伪标签上训练的，从而减少过拟合，而教师网络是目标自适应学生权重的渐进集合然而，这种策略在学习最佳在线自适应所需的两个关键方面是低效的：1）它们未能学习鲁棒的目标特征表示，2）它们未能充分利用在线目标样本。因此，我们提出了一种新的内存模块和对比度损失，充分利用在线目标样本和学习强大的目标特征表示。对比学习（CL）[5，6，18，10，31]旨在通过强迫相似的对象实例保持接近并以无监督的方式将不同的对象实例分开来从未标记的数据中学习高质量的特征这对于在线SFDA特别有用，因为在适应过程中无法获得源标记数据现有的CL方法被设计用于分类任务，其中它们对图像级特征进行操作，并且需要多个图像视图（或增强）[5]来学习鲁棒的特征表示。因此，通过输入增强获得这些大型视图集对于适配检测器模型来说在计算上是昂贵的。然而，在检测器模型中，可以在没有大量输入增强的情况下获得更确切地说，检测器提供由区域提议网络（RPN）生成的多个对象提议，区域提议网络继而在不同位置和不同尺度处提供围绕对象实例的多个裁剪因此，在RPN裁剪视图上应用CL损失可引导模型学习目标域上的对象级特征表示。请注意，此CL损失用于监督学生网络，其中对象级特征从学生RoI特征获得。如何进行对比学习，这些学生的ROI特征需要积极和消极的对。为此，我们提出了MemXfromer，一个基于交叉注意变换器的记忆模块，其中记忆中的项目记录连续目标分布的原型模式。MemXfromer解决了在线自适应的两个重要问题：1）在线自适应过程中存储目标分布2)所存储的目标表示的时间集合提供正和负对以指导对比学习过程。此外，我们还引入了一种基于交叉注意的读写技术，该技术可以更好地模拟目标分布，并为对比学习提供强有力的正负对。注意，所提出的方法不仅适用于在线自适应，而且适用于离线自适应。简而言之，本文做出了以下贡献：• 据我们所知，这是第一次考虑检测器模型的在线和离线自适应设置• 我们提出了一种新的统一的自适应框架，使检测器模型对在线目标分布的变化具有鲁棒性。• 我们引入了MemXformer模块，它存储了目标分布的原型模式，并提供了对比对来增强目标域上的对比学习• 我们考虑了多个检测基准的实验分析，并表明所提出的方法优于现有的UDA，SFDA的方法，在线和离线设置。2. 相关作品无监督域自适应。现有的无监督域自适应方法可以分为三种基于对抗训练的团体[7，50，53，63]，自我-训练[30，67]和图像到图像转换[33，49]。在[7]中研究了第一个域自适应对象检测，其中他们遵循基于对抗的策略来在图像级和实例级执行特征对齐，以减轻域偏移。后来，齐藤[50]亲-480srcn−1提出了一种基于对抗的策略，其中局部特征的强Kim[33]介绍了一种基于图像到图像转换的方法，其中通过对标记的源图像进行风格化来创建多个目标域图像。多个鉴别器被用来执行对抗对齐，以减少域的差异，通过利用这些目标风格的源图像。在[30]中，制定了基于伪标签的训练策略来对抗伪标签中的噪声，以在目标域上执行对象检测器的鲁棒训练。然而，所有这些作品都假设在适应期间可以访问标记的源数据和未标记的目标数据，并且它们在离线设置中操作。无源域适配。在无源域自适应设置中，我们有一个源训练的模型，它适应目标域而无需访问源数据。多项工作已经解决了用于分类[40，38]，分割[43，36，64]和对象检测的[39，27，61，21，22]任务。具体来说，对于分类任务，[39]提出了一种基于信息最大化的目标域表示自监督学习方法。此外，对于分割[43，36]和对象检测[39，27]，所提出的方法基于伪标签自训练来学习特定于目标的表示。但类似监督特征学习为锚点制定对比学习的标准方法是将锚点的正对的特征嵌入拉在一起这些正对和负对是通过增强锚图像并从输入批次的图像中采样来形成的因此，对于给定的锚点，正对是增强的锚点图像，负对是来自该批次的其他图像除此之外，通过利用任务特定的标签信息，[31]以监督的方式执行对比然而，所有这些任务需要大批量的大小来有效地执行对比学习，并且在在线适应期间具有多于一个图像是不可行的。因此，我们提出了一个基于记忆的对比学习框架，适合在部署过程中以在线方式调整对象检测器。3. 该方法在线SFDA设置考虑源培训具有参数Θsrc的模型，并适应于真实世界部署期间的任何目标分布偏移，如图所示。1.一、让我们考虑表示为T={x1，x2，...，x n}，其中x n是第n个联机sample. 由于这些样本是按顺序到达的，得到适合于每个样本，并且适应的权重用于将来的在线样本。具体来说，模型-现有的UDA工程，这些SFDA方法的运作-在第n个样本上适配期间的参数xn，即Θ（n），Fline设置。因此，我们探索在线自适应，这是初始化的模型参数更新，通过一种更实用的方法来解决现实世界在线调整前x个sample. 总结一下应用.在线改编。Sun [55]提出了一种测试时训练（TTT）策略，其中模型在源数据上进行训练，同时进行辅助任务（例如：旋转预测），其在测试时间期间被利用以针对目标测试分布微调模型。这种自适应策略的主要缺点是训练辅助任务以及源训练只是为了在测试时间期间执行自适应，这对于现实世界的应用来说不是可行的解决方案和有效的解决方案后来，Wang [66]提出了一种完全测试时自适应设置，其中给定的源训练模型通过熵最小化以在线方式在测试时通过熵最小化来适应目标域。以这种方式，Tent [66]适应目标域，具有测试时间损失。这里，[66]的主要限制是在测试时自适应期间需要大批量，这是online-SFDA执行连续在线适配，即，只要有数据流和必要性，将继续进行调整。师生培训。在在线SFDA中，模型参数需要以在线非监督的方式持续更新。因此，模型有可能忘记通过监督源训练学习的原始假设[44，12]。为了克服这一点，以前的作品[57，44]采用了学生-教师框架。具体地，通过最小化通过教师生成的伪标签监督的检测损失来使学生参数（Θ std）适应于目标域。然后，经调整的学生参数经由指数移动平均（EMA）被转移到教师参数（Θtch）。这可以正式地写为：Lpl（xn）=Lrpn（xn，y<$n）+Lrcnn（xn，y<$n）（1）在图像到达时的实时部署期间不可行（n+1）（个）n（Lpl（xn））一个接一个的顺序。尽管现有的测试时间自适应设置与在线SFDA非常相似，Θstd←Θstd+γ（个）STD（二）设置，这些测试时间设置不适合自适应Θ（n+1）←αΘ（n）+（1−α）Θ（n+1），（3）tchtchSTD在实际部署过程中的检测模型。因此在这项工作中，我们探讨了对象检测任务的在线和离线自适应设置。对比表征学习。对比表征学习已经显示出巨大的进步，其中，xn和yn是由教师网络生成的第n个测试样本和对应的伪标签，Lpl是伪标签监督损失，γ是学生学习率，α是教师EMA率。然而，学生-教师框架仍然不足以学习鲁棒的特征以∂Θ481i=1j=1不ti=1不图2.拟议的在线-SFDA培训管道概述检测网络通过对比训练改进目标表示，以适应在线目标分布变化具体而言，建议MemXformer记录的目标分布的转变的原型模式，并提供强大的积极和消极的对，以指导对比学习过程。分布减轻目标分布偏移。因此，我们进一步探索基于对比学习的策略，以提高在线环境中特征表示的鲁棒性。对比学习（CL）。Simplified [5]是一种常用的CL框架，它通过最大化同一样本的不同增强视图之间的一致性来学习图像的表示。因为有了锚-年龄xi，Simpleslos.s可以写成：exp（sim（zi，zj））MemXformer 基于交叉注意变换器的神经网络模块，用于存储目标分布偏移，并在在线自适应过程中指导目标域表征的对比学习。具体地说，我们采用了一个全局存储体M={mi∈R1×C}Nl，其中Nl是存储项的数目，C是存储项的特征维数.这些存储器项用于存储目标表示，并记录适应过程中目标分布的原型模式此外，这些记忆项目LSimplified（xi）=−log2002年，l=1，l=i、exp（sim（zi，zl））（四）用于检索强阳性和阴性对，以指导对比学习。MemXformer模块有两个操作：写和读，这是基于交叉-其中N是批量大小，zi和zj是两个相同样本的不同增广，而zl表示第l批样本的特征，其中l=i。此外，sim（·，·）指示相似性函数，例如，余弦相似度请注意，一般来说，CRL框架假设每个图像包含一个类别/对象[5]。此外，它需要大批量，可以为训练提供多个正/负对[6]。相比之下，对于对象检测，每个图像将具有多个对象，并且大批量大小或多个视图在计算上是因此，现有的CRL方法更适合分类任务。3.1. 基于记忆的对比学习虽然现有的对比学习方法，如模拟学习，在学习高质量的代表是例外关注在MemXformer写操作中，教师ROI功能用于适当地更新存储器元素。在MemXformer读取操作中，学生RoI特征被查询到存储器，并且检索相似存储器元素的加权和，这基本上提供强正对。MemXformer的读写3.第三章。写. 为了更新记忆单元，我们只考虑教师网络的RoI特征Ft={fi∈R1×C}Nf，其中Nf是RoI特征的个数，C是RoI特征的维数. 教师ROI功能被认为是因为在学生-教师框架中，与学生管道相比，教师管道具有弱增强的输入，从而产生准确的RPN建议。如图3（a），首先将教师RoI特征投影为关键它们更适合于分类任务。为Kt={ki}Nf 和值Vt={vi}Nf使用两个FC层ti=1ti =1检测，这些CL方法需要大批量，大量输入增加，这是计算费用昂贵，以申请在线参数更新（讨论在第2节。①的人。因此，我们利用一种计算效率高的基于内存的方法，使对比学习可行和有效的在线模型更新。拟议的在线-SFDA策略如图所示。二、分别具有权重Wk和Wv现在，每个存储器项被认为是查询Q m={m j}Nl，并且我们计算教师ROI特征和存储器项之间的交叉注意力图S t，如下所示：ki=Wk·fi，（5）vi=Wv·fi，教师网络MemXformer写入RoI提取器分类弱8月Bbox回归EMA教师提案分类强劲的8月Bbox回归教师流动学生流学生网络RoI提取器全球存储体MemXformer读取学生网络教师网络全局内存库击退吸引MemXformer482K不Sj=1、SS不j=1不不si=1Sspl（i，j）.. ΣΣexpmj ist=0l∈M..经验mlitt Σ，（6）其中，交叉注意力图St是大小为Nm×Nf和si，j表示第j个存储器项如何与第i个教师ROI特征相关我们利用这个交叉注意力图St和Vt来更新第j个记忆项，(a)MemXformer写（b）MemXformer读下式：mj←F.Σmj+s（i，j）vi.（七）图3. MemXformer写和读操作。也包含不同的内存项，但与t ti∈V其中F（. ）是L2范数。因此，对每个在线样本使用基于注意力的加权平均和全局记忆库更新使得MemXformer有效地存储和建模目标分布。Read. 为了读取存储器元件，我们只更少的注意力。这限制了对比学习能力，以有效地模拟目标域表示。为了减轻不相似项对CL的影响，我们提出了具体来说，在负对挖掘中，给定学生ROI特征作为查询和交叉注意图Ss，我们挖掘最不相似的10%的记忆项并将它们标记为负对Ns={mn}Ns。作为一个重新-学生网络RoI特征为Fs={fi∈R1×C}f，i i=1si=1其中，Nf是RoI要素的数量，C是RoI要素维度此外，MemXformer读取操作被执行以获得强正对，给定学生RoI特征作为查询。如图在图3（b）中，首先将学生RoI特征投影为查询Q s={q i}Nf一个FC层，权重为Wq。现在每个记忆项目被认为是密钥K m={m j}Nl 我们计算结果，通过负对挖掘，我们得到了Ns个负对，一个阳性样本的阳性样本，其中Ns是最不相似的记忆项的前10%记忆对比丧失。以学生RoI 特征 fi 为锚点，利用MemXformerRead操作和负对挖掘，从MemXformer中得到强正Ps和负对Ns. 因此，给定具有学生RoI特征Fs的图像xn，记忆损失计算为：学生ROI特征之间的交叉注意力图Ss和内存项如下：L存储器（xn）=1Σe×p（fi ·pi），- 日志i∈F我我伊希斯在图中，qi=W·fi，（8）|Fs|sexp（fs ·ps）+n∈Nsexp（fs ·m）S.K经验qiS. mjT因此，最大限度地减少记忆损失，积极和消极对增强了学生模型，s（i，j）=Σl∈MS.exp qi（ml）T（9）在在线SFDA环境中学习更好的目标表示整体损失。我们展示了我们的整体架构，其中，交叉注意力图S s是大小为Nm× Nf的2D矩阵，并且给定第i个学生RoI特征作为查询，第s i行呈现Nl个记忆项目注意力分数。在那里-因此，给定第i个学生RoI特征作为查询，我们通过注意引导的最相似记忆项目的加权和来生成因此，利用交叉注意力图Ss并将记忆项视为值Vm={mj}Nl，我们计算强正对对于第i个学生RoI特征，使用以下等式：Σp i=s（i，j）m j.（十）j∈M其中Ps={pi}Nf对应于强正集线源无域适应图。2. 拟议该方法利用一个全局存储体来执行基于存储器的对比学习，以在变化的目标分布偏移下对表示进行鲁棒化。因此，任何在线样本的总体在线-SFDA损失xn可计算为：LFTTA（xn）=Lst（xn）+LMembrane（xn）。4. 实验和结果为了验证所提出的方法，我们考虑四个做-主要转移场景，其中源序列模型适用于未标记的目标域，通常用于UDA和SFDA文献中的比较。具体来说，我们评估-si=1对学生的ROI功能Fs。详细地说，正对是原型的时间集合目标分布，其给出关于在线目标分布变化的更多信息这基本上指导对比学习来对目标分布进行建模。负对挖掘。正如前面从MemX-前读操作中所解释的，我们获得了一组针对给定学生RoI特征的强正对。这些强阳性对基本上是最相似的记忆项目的集合。然而，这些集合起来的相似记忆项目在四个领域的转变下，将所提出的方法与现有的UDA，SFDA和测试时间工作进行了比较，1）晴朗天气到大雾天气，2）真实到艺术，3）合成到真实，4) 跨相机适配。请注意，为了显示我们提出的方法的有效性，我们评估了在线和离线设置。具体而言，离线设置遵循SFDA标准设置。源训练的模型使用未标记的目标训练集进行多次迭代并在目标测试集上进行评GMB学生ROI特性K tCQmFsQsFtCPsXVtKMVM教师RoI功能W强阳性配对GMB线性线性线性KΣ483估，以适应目标域。而在网络环境中，484表1.Cityscapes→ FoggyCityscapes的定量结果（mAP）S：仅源，O：Oracle，UDA：无监督域适配，SFDA：无源域适配，O-SFDA：在线无源域名适配。类型方法线下在线PRSN骑手车卡车总线火车mcycle自行车地图S只有源✓✕29.334.135.815.426.09.0922.429.725.2DA更快[7]（CVPR 2018）✓✕25.031.040.522.135.320.220.027.127.6选择性DA [73]（CVPR 2019）✓✕33.538.048.526.539.023.328.033.633.8D匹配[33]（CVPR 2019）✓✕30.840.544.327.238.434.528.432.234.6UDAMAF [20]（ICCV 2019）✓✕28.239.543.923.839.933.329.233.934.0鲁棒DA [30]（ICCV 2019）✓✕35.142.149.130.045.226.926.836.036.4MTOR [2]（CVPR 2019）✓✕30.641.444.021.938.640.628.335.635.1强-弱[50]（CVPR 2019）✓✕29.942.343.524.536.232.630.035.334.3分类DA [69]（CVPR 2020）✓✕32.943.849.227.245.136.430.334.637.4[26]第26话✓✕37.749.052.425.449.246.934.539.041.8无偏DA [12]（CVPR 2021）✓✕33.847.349.830.048.242.133.037.340.4SFOD [39]（AAAI 2021）✓✕25.544.540.733.222.228.434.139.033.5SFDAHCL [27]（NeurIPS 2021）✓✕26.946.041.333.025.028.135.940.734.6[57]第五十七话✓✕33.943.045.029.237.225.125.638.234.3记忆（我们的）✓✕37.742.852.424.540.631.729.442.237.7O-SFDA帐篷[65]（ICLR 2021）✕✓31.238.637.120.223.410.121.733.426.8记忆（我们的）✕✓32.141.443.521.433.111.525.532.929.8OOracle✓✕38.746.956.735.549.444.735.938.843.1表2.模拟10K→城市景观和KITTI →城市景观的定量结果类型方法在线奥夫利内Sim10k →城市汽车AP基蒂→城市汽车APS只有源✓✕32.033.9DA更快[7]（CVPR 2018）✓✕38.938.5MAF [20]（ICCV 2019）✓✕41.141.0UDA鲁棒DA [30]（ICCV 2019）✓✕42.542.9强-弱[50]（CVPR 2019）✓✕40.137.9协调[3]（CVPR 2020）✓✕42.5-循环DA [71]（ECCV 2020）✓✕41.541.7[62]第62话我的世界✓✕44.843.0无偏DA [12]（CVPR 2021）✓✕43.1-SFOD [39]（AAAI 2021）✓✕42.343.6SFDA教师[57]✓✕42.343.6记忆（我们的）✓✕44.246.8O-SFDA帐篷[65]（ICLR 2021）✕✓32.834.5记忆（我们的）✕✓37.238.5以在线方式适应目标域，其中目标测试样本仅被看到一次，并且最终在目标测试集上被评估。这基本上模拟了现实世界的场景，在这种场景中，您只能看到一次目标样本，并且自适应需要连续进行。4.1. 实现细节对于在线自适应设置，我们采用 Faster- RCNN[48]，ResNet 50 [19]作为ImageNet [35]上预训练的骨干在我们所有的实验中，输入图像的大小调整为短边为600像素，同时保持纵横比。我们将所有实验的批量大小设置为1。对于学生-教师框架，教师模型的EMA的权重动量更新参数α被设置为等于0.99。教师网络生成的置信度大于阈值T=0.9的伪标签被选择用于学生训练。我们利用SGD优化器来训练学生网络，在线和离线训练的学习率为0.001，动量为0.9。全球内存银行包含N米内存项目，这是设置为1024。此外，源模型使用SGD优化器进行训练，学习率为0.001，动量为0.9，持续10个时期。我们在评估过程中报告了教师网络在分布偏移目标域测试数据上的平均精度（mAP），IoU阈值为0.54.1.1晴朗天气到雾天当源训练的模型部署在现实世界的应用中，如自主导航，他们很可能是遇到来自多种天气条件的数据，雾、霾等在大多数情况下，部署的探测器模型将接受晴朗天气条件的训练。我们建议将其制定为在线适应问题，因为很难预先确定将发生什么样的天气条件。随后，我们以在线方式更新检测器模型，以适应部署后模型可能观察到的任何天气变化。为了在这种条件下评估所提出的方法，我们对[11] 第 52 话：你的未来在这里，我们有一个在Cityscapes数据集上训练的检测模型由2，975张正常天气图像和500张测试图像组成，包含8个对象类别：人、骑手、汽车、卡车、公共汽车、火车、摩托车和自行车。在推理过程中，图像从雾城景被顺序发送和对象检测模型是适应在一个在线的方式，以提高概括雾/霾天气。表1提供了拟议的FTTA方法与最先进的UDA、SFDA和O-SFDA方法的比较。城市景观→雾城景观适应场景的ODS。从表1中，我们可以推断，UDA和SFDA的方法，ODS以离线方式运行，而O-SFDA以在线方式运行。首先，在在线设置中，我们提出的方法比现有的UDA方法，如SWDA [50]，MTOR [2]和InstanceDA [67]有相当大的优势。与MeGA-CDA[62]和无偏DA [12]，我们提出的方法产生了具有竞争力的性能，下降了3-4 mAP。请注意，这些UDA方法可以访问标记的源数据，而在SFDA设置下，所提出的模型只能访问源训练模型。此外，该方法优于SFDA的方法，如SFOD[39]和HCL [27]分别为1.7和0.6 mAP。其次，与基于测试时自适应的485表3.PASCAL-VOC→ Watercolor的定量结果类型方法在线Ofline bike鸟车猫狗prsn mAPS仅源代码功能68.8 46.8 37.2 32.7 21.3 60.7 44.6DA Faster [7]（CVPR 2018）电话：+86-510 - 8888888传真： +86-510 - 8888888BDC Faster [50]（CVPR 2019）68.6 48.3 47.2 26.5 21.7 60.5 45.5BSR [32]（ICCV 2019）基本特征82.8 43.2 49.8 29.6 27.6 58.4 48.6UDAWST [32]（ICCV 2019）比赛特色77.8 48.0 45.2 30.4 29.5 64.2 49.2SWDA [50]（CVPR 2019）产品特点71.3 52.0 46.6 36.2 29.2 67.3 50.4HTCN [3]（CVPR 2020）展会特色78.6 47.5 45.6 35.4 31.0 62.2I 3 Net [4]（CVPR 2021）81.1 49.3 46.2 35.0 31.9 65.7无偏DA [12]（CVPR 2021）✓✕88.2 55.3 51.7 39.8 43.6 69.9 55.6SFOD [39]（AAAI 2021）✓✕76.244.949.331.630.655.2四十七点九SFDA教师[57]✓✕73.647.6 46.6 28.5 29.4 56.6记忆（我们的）✓✕70.748.5 51.331.634.0 61.3 49.6O-SFDA帐篷[65]（ICLR 2021）✕✓62.353.443.729.536.448.3记忆（我们的）✕✓66.146.247.8 30.8 30.055.3 46.1Tent [66]等方法，我们的最佳性能模型以3.0 mAP的巨大优势超越了它。因此，对于Cityscape→FoggyCityscapes适应场景，我们提出的方法在在线和离线SFDA设置中均产生了最先进的结果。4.1.2合成到现实世界的适应收集和注释检测数据是计算密集型的，其中在分配类别的顶部，需要将边界框添加到图像中的每个对象位置。另一方面，通过模拟创建合成数据集的计算密集度要低得多，并且可以免费生成注释。因此，在综合生成的数据集上训练检测器模型，然后将其部署在现实世界中是有然而，由于性能问题，真实数据和合成数据之间的样式/外观差异限制了这种部署。在这里，我们将其制定为在线适应问题，以更新真实世界测试数据上的合成数据训练模型。特别地，我们考虑在Sim10k上训练的源模型[29]在10，000张训练图像上，使用58，701个汽车类别的边界框，由游戏引擎Grand Theft Auto渲染。对于真实世界的测试数据，我们使用Cityscapes [11]在线模型自适应验证集。在表2中，我们报告了现有UDA、SFDA和O-SFDA方法的Sim 10 K →Cityscapes适应结果。在离线设置中，与现有的UDA作品如DAFaster [8]，SWDA [50]和RobustDA [30]相比，所提出的方法远远超过了他们所有人此外，当与SFOD [39]相比时，所提出的方法更好0.7 mAP。在在线设置中，与Tent[66]相比，我们提出的方法优于它4.0 mAP。因此，我们提出的是能够表现良好的合成下，到现实世界的域转移。4.1.3跨相机自适应在大多数现实世界的应用中，假设训练和测试数据都将使用具有相同参数的相机来收集。然而，由于摄像机参数的不同，使得采集到的图像具有不同的表现形式，如径向畸变、切向畸变等。这可能会导致模型由于相机参数的变化而表现不佳。因此，为了解决任何这样的相机失真，我们为-表4.城市景观→雾城景观的消融分析。方法记忆项目PRSN Rider 车卡车 bus火车 mcycle bcycle 地图只有源✕29.3 34.1 35.815.4 26.0 9.0922.429.725.2师生✕33.1 42.2 44.724.0 33.6 17.826.838.132.5SupCon✕33.0 43.1 49.826.5 31.1 23.327.737.233.8记忆（我们的）25637.2 41.751.3 27.5 38.5 28.529.639.336.7记忆（我们的）51237.4 45.251.9 24.4 39.6 25.231.541.637.1记忆（我们的）102437.7 42.8 52.424.5 40.6 31.729.442.237.7模拟的问题作为一个在线适应问题，并表明，所提出的方法成功地推广到这种情况下。在这里，我们只能访问源模型，它是在KITTI [16]数据集上训练的，该数据集包含7，481个带有汽车类别边界框的训练图像。为了模拟跨相机场景，我们考虑在Citsycapes [11]验证集上进行在线适配，该验证集包含500个图像。我们报告的跨相机适应实验表 2 与 Sim→Cityscapes 适应类似，即使是Kitti→Cityscapes适应，与UDA、SFDA和O-SFDA方法。具体地，在O-SFDA设置中，所提出的方法优于Tent [66] 5.6mAP。因此，我们所提出的方法是能够有效地模拟跨相机的主移位。4.1.4真实到艺术的改编在这里，我们评估所提出的方法的情况下，在推理过程中有一个概念的转变所谓概念转换，我们指的是对象发生完全变化的情况从现实世界到艺术图像。与对象经历风格/外观变化的先前场景不同，对象的整个概念是不同的，例如，一辆真实世界的汽车VS一辆卡通汽车[28]。我们表明，即使在这种具有挑战性的情况下，所提出的方法是能够提高模型的泛化，通过在线更新。我们考虑在Pascal-VOC数据[14]上训练的模型，该模型适用于Watercolor [28]的测试集。具体来说，Watercolor由1K训练和1K测试图像组成，分为六个类别。VOC→采用表3中现有方法的水彩结果。从表3中，我们可以推断，所提出的方法在离线设置中，优于大多数现有的UDA方法和SFDA方法。此外，在在线设置中，当与TENT[65]相比时，所提出的方法能够以显著的裕度优于。这证明了所提出的方法即使对于在线和离线设置也能够泛化。4.2. 消融分析定量分析相Cityscapes→FoggyCityscapes消融实验结果报告于表4中，离线-SFDA设置。我们首先考虑一个学生-教师离线更新基线，相比，只有源基线，提供了显着的改善。为了进行公平的比较，我们还考虑使用监督对比损失[31]进行离线更新。特别是，我们利用学生-教师培训提供的预测作为应用监督对比所需的标签信息486人汽车公共汽车摩托车骑士卡车火车自行车人汽车公共汽车摩托车骑士卡车火车自行车(a)（b）学生-教师（c）我们的图4. t-SNE [60]仅用于源的ROI功能的可视化，学生-教师和我们用于Cityscapes到FoggyCityScapes在线设置的方法。不同的颜色代表不同的阶级。与仅源和学生-教师方法相比，我们所提出的方法为每个类别学习了更好的分类边界和紧凑的特征表示。每个类别的特征，从而产生更强大的模型。进一步定性比较分析了在线自适应过程中输入序列顺序的影响，如图所示五、通过改变输入序列的顺序进行了多个实验，并相应地(a)雾城风光 (b)城市景观(c)水彩图5.通过定量比较分析了输入序列顺序对在线自适应的影响。我们可以从方差中观察到，输入序列顺序对模型性能的影响不大。请注意，在在线自适应中，测试样本仅被看到一次，并且自适应以无监督的方式发生。目标提案的损失。在表4中表示为SupCon，添加监督对比学习进一步将性能提高了1.3 mAP。然而，所提出的基于记忆的对比学习优于监督对比学习1.4 mAP，表明所提出的方法的实用性，以学习更好的目标表示。最后，我们分析了所提出的方法的性能不同的全球内存库容量从256到1024内存项目。如表4所示，与256和512个记忆项目相比，1024个记忆项目的基于记忆的对比损失表现最好此外，请注意，我们的模型需要大约1秒的时间来执行一个样本的在线自适应。定性分析图4显示了仅源、学生-教师培训的t-SNE可视化以及Cityscapes→FoggyCityscapes在线-SFDA设置的拟议方法。 t-SNE [60]可视化是从从500个测试图像的预测中提取的ROI特征。由于分布偏移，仅源基线的特征在师生培训的帮助下，该模型可以学习更好的分类边界，从而获得更好的量化性能。然而，在师生培训的特征有很大的方差，不具有紧凑的功能。而所提出的方法具有更好的分类边界，学习紧凑性能均值和方差如图所示。5.我们可以从方差中观察到，输入序列的顺序对模型的性能影响不大。此外，我们可以观察到模型性能的提高，因为它遇到更多的测试样本在线适应，显示MemXformer在利用在线目标分布的有效性。注意，在在线自适应中，测试样本仅被看到一次，并且自适应以无监督的方式发生。5. 结论在这项工作中，我们介绍了一个实用的域自适应设置的对象检测任务，这是可行的现实世界的设置。特别是，我们提出了一种新的统一的自适应框架，使检测器模型对在线目标分布的变化具有鲁棒性。此外，我们还引入了MemXformer模块，它存储了目标分布的原型模式，并提供对比对来促进目标域上的对比学习我们在多个检测基准数据集上进行了广泛的实验，并比较了现有的无监督域自适应、无源域自适应和测试时自适应方法，以显示所提出的方法对对象检测模型的在线和离线自适应的有效性。鸣谢：研究由陆军研究实验室赞助，并根据合作协议编号W 911NF-23-2-0008完成。本文件所载的观点和结论声明是作者的声明，不应被解释为代表陆军研究实验室或美国政府的官方政

下载后可阅读完整内容，剩余1页未读，立即下载