没有合适的资源?快使用搜索试试~ 我知道了~
52910SIGMA: 基于语义完整图匹配的域自适应目标检测0Wuyang Li Xinyu Liu Yixuan Yuan *香港城市大学0{wuyangli2, xliu423}-c@my.cityu.edu.hk yxyuan.ee@cityu.edu.hk0摘要0域自适应目标检测(DAOD)利用标记的域来学习一个能够推广到没有注释的新领域的目标检测器。最近的进展通过缩小跨域原型(类中心)来对齐类条件分布。尽管取得了巨大的成功,但它们忽略了类内显著的差异和训练批次中不匹配的语义,导致了次优的适应性。为了克服这些挑战,我们提出了一种新颖的DAOD的语义完整图匹配(SIGMA)框架,它通过完成不匹配的语义并重新定义图匹配来解决适应性问题。具体而言,我们设计了一个嵌入图的语义补全模块(GSC),通过在缺失类别中生成幻觉图节点来完成不匹配的语义。然后,我们建立跨图像图来建模类条件分布,并学习一个图引导的记忆库,以便进一步实现更好的语义补全。在将源数据和目标数据表示为图之后,我们将适应性重新定义为一个图匹配问题,即在图之间找到匹配良好的节点对以减小域差距,这个问题通过一个新颖的二分图匹配适配器(BGM)来解决。简而言之,我们利用图节点建立语义感知的节点亲和性,并利用图边作为结构感知匹配损失中的二次约束,实现了节点到节点的图匹配的细粒度适应性。大量实验证明,SIGMA明显优于现有的方法。我们的代码可在https://github.com/CityU-AIM-Group/SIGMA上获得。01. 引言0经过充分训练的目标检测器[23, 24,33]已被证明能够以一致的方式实现有希望的性能。0* YixuanYuan是通讯作者。本工作得到香港研究资助局(RGC)的一般研究基金11211221(CityU 9043152)的支持。0图1. 提出的DAOD的语义完整图匹配(SIGMA)框架的示意图。0训练和测试数据的分布。然而,在新领域中部署这些方法会导致性能灾难性下降,原因是域差异[3],这严重限制了目标检测器的泛化能力和可转移性。此外,这个挑战还限制了目标检测在现实场景中的应用,例如在不同天气条件下的自动驾驶和包含新场景的视频分析。为了克服这个限制,已经研究了无监督域自适应(UDA)方法,以适应未标记的目标域和已注释的源域,其中UDA工作的主要流派之一是在源域和目标域之间对齐特征分布。早期的工作[3, 12,27]采用分层特征的像素到像素适应,实现了整个图像的全局对齐。一些工作[3, 37,41]专注于前景对象,并在感兴趣的区域上进行更精确的适应。最近的一些工作[32, 37, 41,42]旨在在隐式特征空间中对齐跨域类条件分布,并以类别到类别的方式进行适应。这些工作使用原型模型建模类别中心,并最小化跨域原型的距离,以弥合类别级别的域差距。尽管这些工作表现出令人满意的性能,但现有的类别级别适应性工作[32, 37, 41,42]仍然存在两个挑战。首先,这些工作忽视了类内显著的差异,并直接对齐手工制作的类别52920中心,这必然会导致次优的适应性。由于物体实例的大小和外观各异,类内方差涵盖了表示类条件分布的基本信息,例如尺度和形状,这些也应该在领域适应中进行对齐。忽视类内方差可能导致许多未适应的物体实例以及不正确分类错误的不同类条件分布的重叠。尽管一些工作已经引入了显式方差[2]来缓解现有基于中心的测量问题,但它们遵循高斯假设来建模特征分布,在非凸深度特征空间中并不是最优的。这些观察结果激发了我们设计一种新的范式,即在非欧几里德图形空间[39]中对跨领域像素对进行对齐,该范式模拟和适应类条件分布,而无需手工制作基于中心的对齐。0第二个挑战在于训练批次中的领域不匹配的语义。一些现有的工作[32, 37,42]只在两个领域中共同出现的类别上进行适应,忽视了在单个领域中出现的不匹配类别。忽视缺失类别会导致适应性不起作用,因为会丢失语义知识。如图1所示,train只出现在源批次中,而这些bicycles在目标领域中可用,导致跨领域语义不一致。这些不匹配的语义导致了明确估计类中心的困难,限制了类条件分布的适应性。此外,目标领域中缺失的语义甚至会导致对源特定方向的潜在风险,因为监督源分类可能会生成有偏见的类条件分布[35]。因此,我们致力于通过在缺失类别中生成新的虚构样本[40]来设计一种语义完成策略,以减轻不匹配语义的负面影响并实现更有效的适应性。0为了克服上述挑战,我们提出了一个语义完备的图匹配(SIGMA)框架用于DAOD,该框架通过完成领域不匹配的语义并将适应性重新定义为图匹配问题,即找到图节点之间的适当匹配以弥合领域差距。如图1所示,我们设计了一个图嵌入的语义完成模块(GSC)来完成不匹配的语义,该模块利用领域级统计数据在缺失类别中生成虚构节点。然后,我们建立图来对两个领域的类条件分布进行建模,并学习一个图引导的记忆库来提高语义完成的能力。基于我们对领域适应性的重新定义,我们提出了一个二分图匹配适配器(BGM)来解决源图和目标图之间的图匹配问题,从而实现0一种细粒度的领域对齐。我们利用图节点学习语义感知节点亲和性,并在二次分配问题(QAP)的结构感知匹配损失中引入图边。这种基于图匹配的领域对齐能够进行细粒度的适应,具有良好匹配的语义,并减轻了现有基于原型的方法中的有偏和无效适应性。总结一下,我们的贡献如下。0•我们提出了一个语义完备的图匹配(SIGMA)框架用于DAOD,该框架通过图匹配来对齐类条件分布。据我们所知,这项工作代表了检测领域中首次尝试利用图匹配理论来弥合领域差距。0•我们提出了一个图嵌入的语义完成模块(GSC),通过生成虚构节点和一个二分图匹配适配器(BGM)来重新定义DAOD为图匹配问题,以弥合领域差距。0•在三个基准测试上进行了大量实验证明,SIGMA取得了最先进的结果,并显著优于DAOD的对应方法。02. 相关工作02.1. 域自适应目标检测0域自适应目标检测(DAOD)旨在弥合训练数据和测试数据之间的域差距,可以分为风格转换[ 13 , 14 , 16 ],自标记[14 , 21 ]和域对齐[ 3 , 17 , 27]。作为主要流派之一,域对齐方法采用对抗性特征对齐,并最小化跨域差异以弥合域差距。早期的工作[ 3 , 17 , 27]通过多样的机制,如空间注意力[ 17 ]和强弱对齐[ 27],对全局特征进行对齐。此外,一些工作倾向于对一组具有重要属性的局部像素进行对齐,例如区域提议[ 16]和对象中心[ 12]。最近,一些工作在类别级别引入了更精确的适应,GPA [37]利用基于RoI的图形建模原型,并缩小这些跨域测量。PARPN [ 41 ]在RPN阶段扩展了原型对齐的思想,[ 42]中的作者扩展了域级别的批次原型。然而,这些方法忽略了类内方差的重要性,导致类条件分布的次优对齐。本文通过图匹配打破了这个障碍,避免了由于手工原型设计和基于中心的对齐导致的不准确适应。̸(1)52930图2. DAOD的SIGMA框架概述。V2G表示从视觉到图的转换。02.2. 图匹配0图匹配建立了两个图之间的节点对应关系,并给出了属于不同图实体的图节点的一对一匹配。作为一个具有组合性质的二次分配问题(QAP)[ 20 ],图匹配求解器[ 20 , 38]优化一个跨图排列矩阵,以编码匹配的节点对,考虑节点和结构的亲和性。最近,图匹配已经扩展到视觉对应检测[ 8],多目标跟踪[ 10 ],点云配准[ 6]等领域,以建模图空间中的两两关系。高等[ 8]在图像上建模基于关键点的图,并在涵盖相同对象的图像之间建立图匹配。Fu等人在三维刚性点云上建模图,并在两个同质点集上执行图匹配,以实现鲁棒的点云配准。[ 10]中的作者在轨迹和检测空间上执行图匹配,以实现高质量的目标跟踪。与上述具有现成图定义和成对标签的场景不同,我们创新地将DAOD重新定义为图匹配问题,并利用QAP求解器来弥合域差距。03. 动机和准备工作0我们在理论上分析了现有的类别级别自适应方法,并提出了以下动机和新的解决方案。考虑到批次级别的源观测和目标观测 S = { ( x i s , y i s ) } B i =1 和 T = { x i t } B i=1,这些观测来自不一致的域分布 P s 和 P t ( P s � = P t),现有的方法 [ 32 , 37 , 41 , 42 ]的目标是建模和对齐类条件分布 P X | Y ( ϕ ( x s/t ) | y),其中 ϕ ( ∙ )是特征提取器。这些方法首先使用手工先验估计类别中心 µy s/t = E X | Y [ ϕ ( x ) | y ],例如,对象特征的均值0N s/t � N s/t i RoI y i ,然后最小化 µ y s 和 µ y t之间的域差异。然而,这些方法可能仅依赖于基于中心的知识实现有偏差的适应,并且无法适应由于不匹配的类别 Ωmiss s/t 在单个域中出现的情况,这是由于0可行的µ y =Ω miss s/ts/t。为了克服这些问题,我们在缺失的类别Ω misss/t中生成新的样本,以完成不匹配的语义,并建立跨图像图G s/t来模拟每个领域的类条件分布P X | Y ( ϕ ( x s/t ) | y)。然后,我们将域自适应重新定义为G s和Gt之间的图匹配问题,可以用差分QAP [6, 8,10]解决,如下所示:0min Π F ( Π ) = ||A s - Π A t Π T || 2 F - tr ( X0Π ∈ [0, 1] N s ×N t,Πl N s ≤ l N t,Π T l0其中A s ∈ R N s ×N s和A t ∈ R N t ×Nt分别表示编码图G s和G t的结构信息的邻接矩阵,Ns/t是图节点的数量,|| ∙ || F是Frobenius范数,X u ∈ R N t×N s是一元亲和矩阵,通常指定为节点亲和M aff[8],Π是松弛排列矩阵,编码节点到节点的分配关系1和Πi,j = 1表示节点v i s ∈ G s与节点v j t ∈ Gt匹配。与现有的工作[37, 41,42]不同,我们完成了缺失的语义并有效地对每个出现的类别进行了分布对齐。此外,我们的方法通过图匹配实现了细粒度的自适应,打破了现有基于中心的方法采用次优对齐的障碍。01 我们遵循[8]的方法,使用连续值放松单热排列矩阵,以满足神经网络训练的差分要求。529404. 提出的方法0所提出的SIGMA框架的整体工作流程如图2所示。给定批量标注的源图像{ ( x i s , y i s ) } B i =1和无标签的目标图像{ xi t } B i =1,我们使用共享特征提取器ϕ提取图像级特征{ ϕ (x i s/t ) } B i=1,这些特征被发送到图嵌入语义补全模块(GSC)(图2(a))。在GSC模块中,我们首先将视觉特征转换为图形空间(V2G),并执行领域引导的节点补全(DNC)以完成不匹配的语义,获得语义完整的节点集Vs/t。然后,我们建立交叉图像图Gs/t来模拟增强节点的类条件分布,得到增强节点˜ Vs/t,这也用于学习图引导的记忆库(GMB),以进一步改善语义补全。之后,我们将建模良好的图Gs/t发送到二分图匹配适配器(BGM)(图2(b))。我们使用图节点˜ Vs/t进行跨图交互(CGI),并学习语义感知节点亲和矩阵˜M aff。此外,我们利用图边Es/t作为二次约束(QC)来优化图匹配排列,实现良好对齐的节点对的细粒度自适应。04.1. 嵌入图的语义补全0给定批量标注的源图像{ ( x i s , y i s ) } B i =1和无标签的目标图像{ x i t } B i=1,具有C个类别,我们首先采用领域共享的骨干网络ϕ提取视觉特征{ ϕ ( x i s/t ) } B i=1, ϕ ( x i s/t ) ∈ R D × W ×H。对于源特征,我们执行空间均匀采样,收集地面真实框内的像素作为类别感知的前景节点,比例为10将前景框外的像素的C+1个像素作为背景样本。对于目标领域,我们将目标特征在分类头部进行前向传播,以获得伪分数图M t ∈ R C × W × H作为替代采样原则。然后,我们采样满足max C ( M i t )> τ fg的像素作为类别感知的前景节点,并且比例为10C +1个低分像素(max C ( M i t ) < τbg)作为背景样本2。在采样细粒度视觉特征之后,我们执行非线性投影,获得原始节点嵌入V raw s/t = { v i s/t } Ns/t i=1,实现从视觉空间到图形空间的转换。领域引导的节点补全。训练批次中的对象类别Ω B s/t ∈ { 0 , 1 , ..., C}在源域和目标域之间总是不匹配的,限制了类条件分布的自适应。因此,我们提出了一种语义补全策略,生成缺失类别Ω miss s = { ω | ω ∈ Ω B t,ω / ∈ Ω B s },Ω miss t ={ ω | ω ∈ Ω B s,ω / ∈ Ω B t },获得语义完整的节点Vs/t。为了生成ad-02τ fg经验性地设置为0.5,以满足非线性sigmoid函数的活动条件,τbg设置为0.05,遵循现有目标检测器中常用的得分阈值设置[19, 23, 24,33]。0为了避免包含不存在语义的传统节点,我们定义了一个图引导的内存库Ss/t∈RC×D,用于保存内部领域语义的类特定知识,并在下一节中解释该内存库的学习策略。考虑到源域和目标域共享相似的类别空间[3],我们充分利用来自对应域的语义线索来指导节点生成,从而提供批内类条件分布的联合测量。具体而言,对于源缺失类别ω∈Ω misss的补全,我们计算目标节点{v(ω)t}在类别ω中的标准方差,得到一个近似于缺失类别ω分布尺度的变量向量σ(ω)t∈RD。然后,我们从内存库中加载相应的内存种子S(ω)s作为类特定期望µ(ω)s。之后,我们进行高斯采样,并采用线性投影P(∙)来获得属于不匹配类别的幻觉节点V H s={v h s|v h s=P(x h s), x hs�N(µ(ω) s, σ(ω)t)}。在目标域中也进行相同的补全,以获得目标缺失类别Ωmiss t中的节点V Ht。我们不直接对齐这些基于统计的估计[37, 41,42],而是充分利用领域知识生成新颖和无偏的样本,避免偏倚和次优对齐。最后,现有节点和幻觉节点共同构成了用于后续图建模的语义完整节点集Vs/t。图引导的内存库。由于节点Vs/t来自批内的不同图像,我们建立一个跨图像图来模拟具有远距离语义依赖性的类条件分布,并提出了一个内存库来保存基于图的知识,从而帮助DNC生成更好的幻觉节点。具体而言,我们首先引入节点V s/t之间的边连接Es/t,并在每个域中建立一个跨图像图G s/t={V s/t, Es/t}。对于图的边,我们利用边缘丢弃[26]来避免由丰富的视觉对应关系引起的潜在关系偏差:As/t=Edgedrop{softmax[V s/tWe(V s/tWe)T]},其中As/t是编码结构信息的邻接矩阵,We是可学习的线性投影。然后,我们通过节点之间的基于图的消息传播执行单层图卷积,以聚合跨图像的语义知识,得到增强的节点表示:˜v is/t=LN(�|N R i|v j s/t∈N R i A i,j s/t v j s/t W gcn+v is/t),其中0NR i表示v i s/t的邻居节点,Wgcn是可学习参数,LN是层归一化[1]。为了为幻觉节点生成提供代表性和鲁棒性的依赖关系,我们引入了一个内存库来保存类特定的图嵌入,并设计了一种基于聚类的内存库学习策略。具体来说,我们随机初始化一个内存库where sim(bs/t, S(ω)s/t )=bs/t·S(ω)s/tbs/t(ω)s/t(5)52950在训练开始时,我们在内存库中初始化Ss/t∈RC×D,并逐渐更新出现的图节点的内存种子。对于训练批次中的每个出现的类别ω,我们收集类别ω中的图节点{˜v(ω) s/t},˜v(ω) s/t∈RD,并加载0从内存库S s/t中获取对应的内存种子S(ω)s/t∈RD。然后,我们同时获得内存种子和图形0将节点{S(ω) s/t, ˜v(ω)s/t}放在一起,并在图空间中进行谱聚类[31],生成两个簇,即包含种子的簇π seed s/t={S(ω) s/t, ˜v(ω)0聚类 π else = { ˜ v ( ω ) s/t}。由于域级别的知识(称为内存种子)相比批次测量提供了更强大和精确的估计,我们只使用 π seed s/t中的节点来更新内存库,这减轻了早期训练阶段出现的噪声节点的影响:0S ( ω ) s/t ← sim ( b s/t , S ( ω ) s/t ) S ( ω ) s/t + [1 −sim ( b s/t , S ( ω ) s/t )] b s/t ,0表示0自适应动量以实现更好的无梯度学习[34, 42],其中 b s/t = 10| π seed0˜ v ( ω ) s/t ∈ π seed s/t ˜ v (0现有的图节点用于更新内存种子,而去除那些幻觉节点,以避免手工制作的高斯先验对模型学习的潜在负面影响。04.2. 二分图匹配0给定图 G s/t,我们将跨域对齐重新定义为图匹配问题,即解决 G s 和 Gt 之间的 QAP。具体而言,我们使用图节点 ˜ V s/t建立跨图交互,并学习节点亲和力 ˜ M aff。此外,我们引入图边 E s/t通过结构感知匹配损失来弥合域间差距。跨图交互。由于图匹配是两个图实体之间的协同优化问题,图之间的消息传播对于图基亲和力学习的最优解至关重要。因此,我们引入 Gs 和 G t 之间的知识交流来建立跨域语义交互:0ˆ V s = LN { softmax [(˜ V s W q )(˜ V t W k ) T ](˜ V t Wv ) W p + ˜ V s },ˆ V t = LN { softmax [(˜ V t W q )(˜ V0(3) 其中 ˆ V s/t = { ˆ v i s/t } N s/t i =1是具有跨域感知的图节点集合,LN 是层归一化[1],W(∙)是可学习参数。为了增强图形语义,我们通过采用分类器 fcls 进行辅助节点分类任务,并使用交叉熵损失进行训练:0L node = -0NN0i =1 y i log { softmax [ f cls (ˆ v i s/t )]},(4)0其中 y i表示源节点的真实标签,对于目标节点则表示从分数图 M t中获得的伪标签。不同域之间的节点可以建立密集的关系,通过交互式语义线索进行稀疏和细粒度的适应。语义感知节点亲和力。给定具有跨域感知的图节点 ˆ V s/t,我们进一步学习一个亲和矩阵来建模 G s 和 G t之间的节点对应关系。与现有的利用局部视觉表示的图匹配方法 [6, 8, 10]不同,我们利用具有内在关系的类别级语义来学习一个语义感知的亲和矩阵。具体而言,我们将节点亲和矩阵的条目定义如下:M i,j aff = f mlp { f p (ˆ v i s ) � c f p (ˆ v j t )},M aff ∈ R N s ×N t,其中0� c 表示连接操作,f p 表示线性投影,f mlp是一个具有单输出通道的多层感知器层(MLP)。该MLP层学习两个图节点之间的内在语义关系,并将其编码为亲和表示。然后,将 M aff发送到实例归一化层[6]和差分Sinkhorn层[30],通过最大化k 次迭代优化(k 设置为足够大)获得双随机亲和矩阵 ˜ Maff。最后,亲和矩阵 ˜ M aff中的每个正条目表示两个图之间的匹配节点对,用于细粒度的域自适应。结构感知匹配损失。由于图节点是从图形建模的类条件分布中抽取的,我们通过具有相同语义的节点对齐两个域( ˆ v ( ω ) s ∈ G s 和 ˆ v ( ω ) t ∈ G t)来适应类别 ω的分布。具体而言,我们提出了一种结构感知匹配损失来实现这种细粒度的域自适应,其中包括以下三个组成部分:0Lmat = ∑01/Ns[maxj(˜Maff ⊙ YΠ)i,j - 1]20+ ∑0i,j0||1 - YΠ||1[˜Maff ⊙ (1 - YΠ)]2i,j0+ ∑0i,j0Ns ∙ Nt (As ˜ Maff - ˜ MaffAt)i,j,0其中,YΠ∈RNs×Nt中的(i,j)条目为1,如果vis∈Gs和vjt∈Gt在同一类别ω中,则为1,否则为0,˜Maff∈RNs×Nt为节点亲和度。第一项用于正确匹配的节点对,并增强正确情况下的最佳匹配,称为真正阳性增强(TE)(如图2ˆYΠ的红色条目)。第二项评估节点亲和度与真实值之间的差异,以抑制错误激活的情况,即假正例抑制(FS)(如图2ˆYΠ的灰色条目)。此外,我们引入了结构感知的二次约束(QC)作为第三项,以最小化局部匹配节点对的结构差异。52960方法 主干网络 行人 骑车 车辆 卡车 公交车 火车 摩托车 自行车 mAP SO/GAIN034.0 46.9 52.1 30.8 43.2 29.9 34.7 37.4 38.6 20.8/17.8 EPM [12] ECCV ′20 41.9 38.7 56.7 22.6 41.5 26.8 24.6 35.5 36.018.4/17.6 RPNPA [41] CVPR ′21 33.6 43.8 49.6 32.9 45.5 46.0 35.7 36.8 40.5 20.8/19.7 UMT [5] CVPR ′21 33.0 46.7 48.634.1 56.5 46.8 30.4 37.4 41.7 21.8/19.9 MeGA [34] CVPR ′21 37.7 49.0 52.4 25.4 49.2 46.9 34.5 39.0 41.8 24.4/17.4ICCR-VDD [36] ICCV ′21 33.4 44.0 51.7 33.9 52.0 34.7 34.2 36.8 40.0 22.8/17.2 KTNet [32] ICCV ′21 46.4 43.2 60.6 25.8 41.240.4 30.7 38.8 40.9 18.4/22.5 SSAL [21] NeurIPS ′21 45.1 47.4 59.4 24.5 50.0 25.7 26.0 38.7 39.6 20.4/19.2SIGMA(我们的方法)46.9 48.4 63.7 27.1 50.7 35.9 34.7 41.4 43.5 18.4/25.1032.9 46.7 54.1 24.7 45.7 41.1 32.4 38.7 39.5 22.8/16.7 EPM [12] ECCV ′20 39.9 38.1 57.3 28.7 50.7 37.2 30.2 34.2 39.524.2/15.3 DIDN [18] ICCV ′21 38.3 44.4 51.8 28.7 53.3 34.7 32.4 40.4 40.5 28.6/11.9 DSS [35] CVPR ′21 42.9 51.2 53.6 33.649.2 18.9 36.2 41.8 40.9 22.8/18.1 SDA [25] ICCV ′21 38.8 45.9 57.2 29.9 50.2 51.9 31.9 40.9 43.3 22.8/20.5SIGMA(我们的方法)44.0 43.9 60.3 31.6 50.4 51.5 31.7 40.6 44.2 24.2/20.00表1. 在Cityscapes → FoggyCityscapes(%)上使用VGG-16和ResNet-50主干网络的结果。SO表示仅源域的结果,GAIN表示与仅源域模型相比的适应性增益。0基于图匹配的一致目标Eq. 1和Eq.5,每个源节点将与目标域中同一类别的最佳匹配对齐,实现了在训练过程中类别条件分布的细粒度对齐。04.3. 模型优化0在训练过程中,我们采用了基于类别无关的全局对齐[12],使用对抗损失函数LGA对视觉特征{xis/t}Bi=1进行对齐。考虑到图节点之间的非网格对应关系和图形空间的非欧几里德表示[39],我们设计了一个节点鉴别器(ND)来对齐匹配良好的节点,该鉴别器由一个梯度反转层[7]、三个堆叠的判别块fb(每个块都是FC-LayerNrom-ReLU)和一个域分类器fdc(后面跟着二元交叉熵损失)组成:LNA =-∑NsiDlog{fdc[fb(vis)]} -∑Nti(1-D)log{fdc[fb(vit)]},其中D是域标签[3],vis/t是现有的图节点。然后,所提出的框架的整体优化目标表示为:0L = λ1Lnode + λ2Lmat + LNA + LGA + Ldet, (6)0其中,L node 是节点分类损失,L mat 是图匹配损失,LNA 是节点对齐损失,L GA 是全局对齐损失[12],L det是检测损失。λ 1 / 2 分别设置为0.1,以控制强度。05. 实验05.1. 数据集和评估0我们按照现有文献[3, 12, 21,32]中的标准UDA设置,在三个自适应场景上进行了广泛的实验。我们使用平均精度均值(mean Average Precision)进行评估。0方法 S → C SO/GAIN K → C SO/GAIN0EPM [12] ECCV ′ 20 49.0 39.8/9.2 43.2 34.4/8.8 DSS [35] CVPR ′ 2144.5 34.7/9.8 42.7 34.6/8.1 MEGA [34] CVPR ′ 21 44.8 34.3/10.543.0 30.2/12.8 RPNPA [41] CVPR ′ 21 45.7 34.6/11.1 - - UMT [5]CVPR ′ 21 43.1 34.3/8.8 - - KTNet [32] ICCV ′ 21 50.7 39.8/10.9 45.634.4/11.2 SSAL [21] NeurIPS ′ 21 51.8 38.0/13.8 45.6 34.9/10.7SIGMA(我们的方法)53.7 39.8/13.9 45.8 34.4/11.40表2. 在Sim10K → Cityscapes (S → C)和KITTI → Cityscapes (K→ C)上使用VGG-16骨干的比较结果(%)。0使用不同的IoU阈值(mAPIoU)进行比较,并使用SO/GAIN评估仅使用源数据的结果3以及与SO相比的自适应增益。此外,我们还报告了采用全局对齐[3]在FCOS [33]检测器上的GA[12]的结果作为我们的基线对照。Cityscapes → FoggyCityscapes。Cityscapes[4]是在干燥天气条件下使用车载摄像头拍摄的街景数据集,包括训练集(2975张图像)和验证集(500张图像),具有八个类别的标注边界框。Foggy Cityscapes[28]是基于Cityscapes的合成数据集,具有雾霾噪声。我们在这个自适应场景中探索了天气条件下的领域差距。Sim10k →Cityscapes。Sim10k[15]是从视频游戏《侠盗猎车手V》中获得的模拟数据集,与真实世界场景(Cityscapes)之间存在领域差距。该数据集包含了车辆类别的10000张带注释边界框的图像。我们在合成和真实世界图像之间进行领域适应,并报告了车辆类别上的性能作为通用设置。KITTI → Cityscapes。KITTI[9]是从车载摄像头收集的真实交通场景数据集,与Cityscapes(车载摄像头)之间存在跨摄像头领域差距。该数据集包含7481张图像中的标注车辆,用于适应跨摄像头领域差距。03 Source Only (SO)表示使用带标签的源图像进行训练,并在目标数据上进行测试,与“w/o adapt”相同。We adopt both VGG-16 [29] and ResNet-50 [11] fea-ture extractors, which are implemented with Pytorch [22].Our model is trained with the Stochastic Gradient Descent(SGD) optimizer with a 0.0025 learning rate, 4 batch-size,momentum of 0.9, and weight decay of 5×10−4. We sam-ple at most 100 graph nodes for each feature map in eachdomain.Considering the graph matching may fail if nonodes appear in the target domain, we follow [12] to pre-train the framework as a warm-up stage before introducingthe BGM adaptor. The adaption-unrelated settings about theobject detector strictly follow related works [12,21,32].-45.8 47.6 58.9 27.3 48.6 33.8 32.7 39.341.8-46.9 48.4 63.7 27.1 50.7 35.9 34.7 41.443.5200041.2 45.1 55.2 26.9 44.2 16.3 28.9 37.036.8020042.4 41.8 55.3 27.7 44.0 21.8 29.2 36.637.3202042.4 44.0 56.5 27.3 45.8 26.6 30.9 38.639.0505044.2 43.4 56.9 32.2 45.7 38.6 29.6 37.541.010010046.9 48.4 63.7 27.1 50.7 35.9 34.7 41.443.520020044.3 48.8 59.0 28.9 51.7 45.1 34.2 39.943.950050044.4 47.1 58.0 24.4 52.5 40.3 31.2 40.142.652970我们采用了VGG-16 [29]和ResNet-50 [11]特征提取器,使用Pytorch[22]实现。我们的模型使用随机梯度下降(SGD)优化器进行训练,学习率为0.0025,批大小为4,动量为0.9,权重衰减为5 × 10 −4。在每个域中的每个特征图中最多采样100个图节点。考虑到如果目标域中没有节点出现,图匹配可能会失败,我们在引入BGM适配器之前,按照[12]的方法,将框架预训练为热身阶段。关于目标检测器的与适应无关的设置严格遵循相关工作[12, 21, 32]。05.2. 实现细节05.3. 与现有技术的比较0Cityscapes → FoggyCityscapes。我们在表1中使用VGG-16和ResNet-50骨干进行比较。SIGMA分别达到43.5%和44.2%的mAP,大幅超越现有工作。与基于类别级别适应方法(如CFFA[42](38.6%),RPNPA [41](40.5%),MeGA-CDA[34](41.8%),KTNet [32](40.9%)和GPA[37](39.5%))相比,SIGMA分别实现了4.9%,3.0%,1.7%,2.6%和4.7%的mAP改进,显示了我们在现有基于原型的方法上的优势。此外,SIGMA在使用相同的FCOS[33]目标检测器时,分别以7.5%,2.6%和3.9%的mAP超过了EPM [12],KTNet [32]和SSAL [21]。Sim10k →Cityscapes。实验比较结果记录在表2的左侧。SIGMA在最佳适应增益(13.9%AP)下实现了53.7%的mAP,显著超越现有工作。与使用相同的FCOS [33]目标检测器的方法(如EPM [12](49.0%mAP),KTNet [32](50.7% mAP),SSAL [21](51.8%mAP))相比,SIGMA分别提高了4.7%,3.0%和1.9%的mAP,验证了我们的有效性。KITTI →Cityscapes。比较结果显示在表2的右侧。SIGMA以45.8%的mAP超越现有工作,并实现了可比的适应增益(11.4%的mAP)。与EPM [12],KTNet [32]和SSAL[21]相比,我们的方法在适应方面具有优势。05.4. 消融研究0我们在Cityscapes → FoggyCityscapes上使用VGG-16骨干网络进行了详细的消融研究(表3)。嵌入图的语义补全。如表3所示,采用GSC模块可以实现41.8%的mAP0方法 w/o prsn rider car truc bus train moto bike mAP0GA [12] - 40.3 41.5 54.2 26.7 42.1 15.4 27.1 35.1 35.30+GSC0DNC 45.2 46.2 57.2 29.1 46.5 31.2 29.2 38.7 40.40GMB 43.5 43.8 57.4 29.4 48.3 30.4 31.4 41.1 41.00ND 44.1 45.2 56.7 28.0 45.9 23.9 32.8 38.7 39.40CGI 44.4 48.0 58.8 28.4 50.3 40.5 31.7 40.8 42.8 +GSC SNA 46.046.9 58.8 28.6 48.2 40.4 33.1 39.5 42.6 +BGM SML 46.1 49.9 59.126.2 52.5 27.1 34.6 41.3 42.20表3. Cityscapes → Foggy Cityscapes上的消融研究(%)。0N f s N f t prsn rider car truc bus train moto bike mAP0表4. Cityscapes → FoggyCityscapes上使用不同节点组合的结果(%)。N fs/t表示从每个特征图中采样的源域和目标域的最大节点数。0策略损失mAP 0 . 5:0 . 95 mAP 0 . 5 mAP 0 . 750单个+TE 22.0 42.1 20.30匹配+TE+FS 23.8 43.2 23.00+TE+FS+QC 24.0 43.5 23.50多个+BCE 23.2 42.9 22.8匹配+MSE 23.7 43.1 23.00表5. Cityscapes → FoggyCityscapes上使用不同匹配策略和损失函数的结果(%)。mAP 0 . 5:0 .95是从0.5到0.95的IoU平均mAP,间隔为0.05。BCE是二元交叉熵,MSE是均方误差。0与GA基线[12]相比,我们的方法获得了6.5%的mAP增益。然后,我们逐步删除每个子组件以验证其有效性。删除领域引导的节点补全(DNC)限制了模型在不匹配的语义知识下的优化(40.4%mAP)。用一个普通缓冲区替换图引导的记忆库(GMB)导致0.8%的mAP下降(41.0%mAP),这是由于不可避免的噪声样本的影响,删除节点判别器(ND)导致显著下降(39.4%)由于图形空间中的严重领域差异。二部图匹配。引入BGM适配器可以实现一致的改进,达到显著的43.5%mAP,优于基线模型8.2%的mAP。删除交叉图交互(CGI)导致0.7%的mAP性能下降(42.8%mAP),这是由于两个域之间的有限交互。将语义感知节点亲和力(SNA)替换为[8]中的简化策略导致0.9%的mAP下降(42.6% mAP),并且删除To better understand our method, we investigate the nodeselection (Table 4) and matching des
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功