双二分图学习：一种通用的域自适应目标检测方法

87 浏览量更新于2023-10-14 收藏 1.83MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2703双二分图学习：一种通用的域自适应目标检测方法陈超奇1，李炯成2，郑泽彪2，黄跃2，丁兴浩2，于一舟1*1香港大学2厦门大学cqchen1994@gmail.com，jiongchengli@stu.xmu.edu.cn，zbzheng@stu.xmu.edu.cnhuangyue05@gmail.com，dxh@xmu.edu.cn，yizhouy@acm.org摘要域自适应对象检测（DAOD）通过将从标记的源域学习到的知识转移到新的未标记的目标域来减轻最近的DAOD方法借助于域对抗训练结合ad-hoc检测管道来实现特征自适应，从而采用局部特征对齐。然而，这些方法仅限于适应特定类型的对象检测器，并且不探索跨域拓扑关系。在本文中，我们首先制定DAOD作为一个开集域适应问题，前景（像素或区域）可以被看作是为此，我们提出了一个新的和一般的DAOD称为双二分图学习（DBGL），它捕捉跨域的像素级和语义级的相互作用，通过增加前-理由和背景之间的区别和建模不同的语义类别之间的跨域依赖。实验表明，建议的DBGL结合一级和两级检测器超过了国家的最先进的性能标准DAOD基准。1. 介绍在过去的十年中，由于深度学习的复兴和标记训练数据的爆炸性增长，目标检测获得了前所未有的然而，性能增益依赖于一个假设，即训练和测试数据来自相同的分布，这是挑战，以满足在现实世界中的应用程序。此外，在各个领域收集大规模的注释数据是不切实际的。直观的解决方案是将在源域上训练的现成对象检测模型直接应用于新的域。但是，在这方面，*通讯作者图1：我们将DAOD表述为开集域适应问题，其中前景指的是“已知类”，背景指的领域转移[36]阻碍了模型的部署，并成为一个不可避免的挑战。无监督域自适应（UDA）[31]通过促进知识转移和减轻域之间的分布转移UDA的设计原则是学习域不变的特征，并确保学习的特征将保留源域上的低现有的UDA方法主要分为两种类型，即，统计匹配[15，12，26，49，35]和对抗性学习[13，42，27，5，19]。在本文中，我们的目的是研究UDA技术的对象检测，即域自适应对象检测（DAOD）。考虑到检测任务的局部性质，大多数现有的DAOD方法努力改变适应的重点，从整体到局部凭借详细的特征对齐模块关于前景对象。然而，它们是高度模型相关的，也就是说，它们的适应过程依赖于检测模型的特定管道。例如，其中大多数[7，52，38，4，6，47，51，46]基于区域建议步骤将对抗训练[13]并入Faster R-CNN [37]中，鉴于SSD的密集预测属性[25]，Kim等人。 [21]提出在硬否定挖掘步骤期间联合减少假阳性和假阴性。如何2704弥合两级和一级DAOD之间的差距还有待深入研究。另一方面，现有的特征对齐技术提出了以前的DAOD作品集中在实现一对一的语义匹配，而忽略了固有的拓扑结构，不同的前景对象之间的关系。为了解决上述挑战，我们首先将DAOD表示为开放集域自适应（OSDA）问题[34]。与闭集UDA问题相比，OSDA问题假设源域和目标域共享相同的标签空间，在减少域之间已知类在DAOD中，如图1所示，我们发现背景在域之间是不同的，因此可以被视为“未知类”，即，背景是不可转移的，而前景具有跨域的更多共同特征。在这方面，严格匹配跨域的整个分布将是有风险的，并导致较差的性能。这促使我们通过以下两个步骤来设计DAOD算法：(1) 以无监督的方式区分前景和(2)在两个域中对前景对象的应用程序自适应。基于此，我们提出了一个通用的DAOD框架，称为双二分图学习（DBGL），分别在像素级和语义级上建模跨域拓扑关系，并学习细粒度的对应关系，用于知识转移。所提出的DBGL可以无缝地集成到任何现代物体探测器中。具体地说，DBGL由两个组件组成，即像素级二分图学习（PBGL）和语义级二分图学习（SBGL）。我们只保留相互最近的邻居，满足相互关系的一致性要求，搜索像素级的对应关系，像素级图是基于搜索到的像素对，长到相同的前景类别跨域构建。为了减少背景像素的影响，引入了像素原型.通过消息传递，每个前景节点聚合来自其邻居的特征，自然地分离前景和背景，增强语义对应。SBGL通过二分图学习对跨域前景对象关系进行为了识别和隔离背景，我们首先开发了一个跨域相似性正则化策略，以增加前景节点之间的相似性，并惩罚那些更有可能是背景的节点。为了增强节点特征，我们提出利用节点内部特征的相似性，赋予节点上下文感知能力，减轻离群节点的负面影响。我们的贡献可归纳如下：• 我们将DAOD表示为OSDA问题，其中没有被文献讨论，并给出了一个提示弥合理论和算法之间的鸿沟。然后，我们提供了理论分析上的上限OSDA设置下的预期目标误差，并揭示了如何经验优化这个上限的背景下，我们的学习框架。• 我们提出了一个新的和一般的方法，桥梁之间的差距一阶段和两阶段DAOD。所提出的DBGL联合探索跨域像素和语义拓扑关系，可以以更精确的方式区分前景-背景• 我们对基于两阶段（更快的R-CNN [37]）和一阶段（SSD [25]）对象检测器的三个基准进行了广泛的实验。实验结果表明，我们的方法显着优于形式的国家的最先进的DAOD。2. 相关工作无监督域自适应（UDA）。UDA的典型解决方案是通过将定义良好的散度度量纳入深度架构中来对齐共享潜在空间中的源和目标特征表示，例如最大平均偏差（MMD）[43，26]、核心关系对齐（CORAL）[41]、中心矩偏差（CMD）[49]和最优传输（OT）距离[23，48]. DANN [14]提出了一种域对抗训练策略，以在梯度反转层（GRL）的帮助下对抗性地混淆域ABG [29]开发了一个对抗性二分图学习框架，用于对基于视频的UDA的源-目标交互进行建模。Kang等人 [20]探索了跨域语义分割背景下的像素级关联（一对一）。然而，他们没有考虑域之间的拓扑对应关系，从而无法赋予适应模型的跨域推理能力。更重要的是，以前的UDA作品专注于闭集设置，不能简单地扩展到OSDA [34]。当前的OSDA方法[24，1，32，30]对于分类任务是有尾的，并且不能推广到检测任务，其中前景对象（正样本）和背景（负样本）自然地被视为所谓的已知和未知类。用于对象检测的UDA。Domain Adaptive Faster R-CNN[7]是第一种通过域对抗训练减轻图像级和实例级域差异的考虑到DAOD的局部自适应特性，最近的工作[52，38，4，16，18]中描述了DAOD的局部自适应特性。6，47，51，46，17，40，50]努力将特征自适应的重点从全局改变为局部，然后在不同级别上显式地对齐导出的局部特征。具体而言，Saito et al. [38]设计弱全局对齐2705∈H∈HH1−πK+1L我ΣΣR（h），EL（h（x），y）=πR（h）tt，j（x，y）QSi=1我K+1我我 i=1J j=1JK+1≤R*（h）+dX Y X YK模块，以避免整个数据分布的完全匹配。Chen等人[6]设计了一种分层可转移性校准网络，以协调不同级别上的可转移性和可辨别性之间的矛盾（即，给定假设空间，条件是常数函数K+ 1，对于H，目标样本上的预期误差Rt（h）被限定为，局部区域、图像和实例）。Xu等人 [47]和Zheng等人。 [51]提出基于前景对象执行细粒度实例级自适应Rt（h）tsK+1∆t∆H（PX|Y≤K，QX|Y≤K）+λ（一）原型对准[45，5]。Zhao等人。 [50]开发了一种协作式自我训练策略，以训练具有高置信度ROI的RPN和RPC。另一方面，Kim等人。 [21]，这是唯一的单阶段DAOD工作，提出+tK+1其中共享误差λ= minRt*（h）h∈H1−πt+Rs*（h），R*（h）=ΣK π s R s，i（h），且∆t= π tR t，K+1（h）。用于适配SSD的不准确的伪标签[25]。尽管现有的DAOD算法对特定检测器的适应能力较强，但不能扩展到不同的检测流水线上，因而不能形成一个通用的自适应框架。此外，关于DAOD的统计上限的理论分析如何建立跨域的拓扑关系模型来描述两组实体之间的交互仍然是一个有待探索的问题。3. 理论动因我们从理论上分析了我们的方法相对于OSDA的上限的动机，利用统计学习理论的域适应[11，2，3]。在引入泛化界之前，我们首先提供问题设置和定义。定义1. 开放集域自适应（OSDA）。假设我们具有ns个标记样本的源域Ds={（x s，y s）}ns和目标域Dt={x t}nt我们在补充中示出不等式（1）的推导。材料。根据不等式（1），目标误差由四项限定：（1）已知源域类Rs*（h）的期望误差;（2）域偏差dH∆H（PX|Y≤C，Q X|Y≤C）;（3）理想联合假设h* 的共享误差λ;（4）目标开集风险∆t。注1. Rs*（h）预计很小，并且可以很容易地最小化，因为我们有源地面真值标签。dH∆H（PX|Y≤C ，QX|Y≤C）与域不均等相关，并且可以通过域对齐步骤来最小化。λ与类式条件移位相关联，并且可以通过类别对齐来最小化，即，SBGL在我们的方法。当方法不将目标背景视为未知类时，目标开集风险Δ t往往较大。在我们的方法中，我们优化这个术语的建议DBGL之间的已知和未知类的区别简而言之，我们的工作旨在通过联合最小化上述四项来明确优化预期目标误差的上限的nt个未标记的样本。Ds和Dt由P（s，Q= Q（t，t），PQ. 源标签空间和目标标签空间共享K个已知类，并且分别包括未知类us和ut，这在两个域（i. 例如， us=/ut）。OSDA 的目标是学习最佳目标分类器h：Xt-Yt。定义2. 源和目标风险。h w.r.t.的源风险Rs（h）和目标风险Rt（h）。在源分布P和目标分布Q下，定义为K+1Rs（h），E（x，y）PL（h（x），y）=πsRs，i（h）i=1K+1TJj=1其中πs=P（y=i）和πt=Q（y=j）是类先验的4. 对偶二分图学习框架概述。如图2所示，拟议的DBGL由两个组件组成，即：PBGL和SBGL。PBGL构建关于可能的前景像素对的跨域逐像素相关性（基于低级特征），并且经由节点分类明确地增强它们的连接，这以无监督的方式强制SBGL基于一组实例级（Faster R-CNN [37]）或每锚点（SSD [25]）特征对跨域类间交互进行建模，从而增强了上下文感知能力和高级特征的语义请注意，建议的I jP和Q的概率然后，我们有Rs（h）=ΣπsRs，i（h）+πsRs，K+1（h）=Rs*（h）+∆sPBGL和SBGL是互补的。具体最后，PBGL通过明确区分语义空间不对称对SBGL的负面影响，从而缓解了语义空间不对称对SBGL的我i=1KK+1补间前景和背景，以及相应的Rt（h）=Σπt Rt，j（h）+πtj=1Rt，K+1（h）=Rt*（h）+∆tSBGL学习的类对齐可以提高准确性和PBGL引导分离的稳健性1−πH弱自我训练法，以减轻负面影响2706SSEEpijp|Ik|Fi∈IkSSSSSS不IJS不SeVVVV图2：DBGL的整体架构，主要包括像素级和语义级二分图学习模块，即PBGL和SBGL。CDA表示类别感知域对齐损失。4.1. 像素级二分图学习对于低级特征，现有的DAOD方法通常集中于强烈地对齐它们[7，38，16]或试图通过类似注意力的模块捕获前景对象[6，51，17]。然而，强特征对准将不可避免地混合前景和背景特征，并且因此引起负转移。此外，这些类注意力模块提取的前景特征的指导下源我们首先定义了每个源类别的像素原型的概念，它表示在源图像内属于相同对象类别这里，源像素的类别标签依赖于对象注释和边界框，并且边界框不可避免地包含噪声背景像素。因此，像素原型可以减轻背景的负面影响定义被表述为，监督，这使得适应过程偏向源并且容易出错。辨别前后-ck=1SΣF i，k ={1，2，. . . ，K}（2）SS基于此，所提出的PBGL对前景像素进行建模-通过消息传递和特征聚合，避免了其中，i是像素索引，并且Ik是源特征图Fs中用类别k标记的像素的集合。然后，我们利用ck选择Ik中与ck具有较高相似性的像素，即，真实的重新称重，这被先前的工程广泛采用。S s假设我们给定源和目标3D有限元。若cos（ck，Fi）>τ，Fi 被加到Ik中，其中cos（·，·）de-真地图Fs，Ft∈RC×H×W 浅层开采注意余弦相似度y，τ是阈值，Ik表示所选集合。的骨干网。我们的目标是把温泉-F或Ik中的每个源pix eli*，假设j′是它的nearr-将初始视觉特征Fs和Ft映射到节点域，即，con-s′构造像素级二分图GP={VP，VP，EP}，目标域中的最大邻居。同样，i是最接近其中Ps是目标像素j’在源域中的邻居。如果我也s和不表示源节点集和目标节点集。p代表边的集合，其测量域之间的像素级特征的节点亲和性一个直观一种构造边缘的方法是将所有域上的像素连接起来，但这会产生冗余并带来大量计算。因此，我们提出了一个更有效的方法，只保留相互最近的邻居，满足相互关系的一致性要求。属于类别k，我们将为目标像素j’分配伪标签k。通过这样做，我们可以在两个域中获得两组选择的像素，即，P和P.双极图边p旨在表示节点之间的相似性。为了减轻噪声背景像素的影响，我们让相似性是可学习的，E=σ（[F，F]θ）S2707（3）2708e.Σ联系我们E∈NCVVGNN NV我J不SKS不pvt∈NT（vs）其中σ表示S形函数，θp是可学习参数。为了对构造的二部图GP进行图卷积，我们扩充了它的原始形式，VP=[VP，VP]，（4）因此包括许多否定候选。（4）Vanilla原型型比对不能简单地应用于OSDA问题，因为源和目标标记空间是不对称的。受上述讨论的启发，我们设计了一个语义级二分图（GCN）来弥补st2拓扑建模阶级之间的关系P∫0EPS s sE=（EP）T0（五）电源。设二部图为GS={Vs，Vt，E }.的源节点集为VS={vs}Np∈RNp×d，目标节点集为�P�P�Psii=1N然后，增广二部图G= {V，E}节点集为VS ={vt}∈RNp×d，其中vs和vt可以通过利用现代图卷积网络（GCN）技术来学习[22]。我们在我们的实现中堆叠多个图形卷积层。具体地，图卷积递归地进行为：X（1+ 1）=ReLU A（X（1）W（1），其中W1是参数。是第l层的隐藏特征（其中1LL），并且A是邻接y矩阵。为了进一步区分前景和背景节点，我们在二分图中进行节点分类。注意，所选择的源像素和目标像素分别具有地面实况标签和伪标签。形式上，像素级二分图的最后一层（GCN1）使用分类器预测标签，并且可以写为如下：y=softmax（F C（GCN1（x，GP），（6）其中y是预测的标签，F 是全连接层，并且X是源或目标节点的特征。节点分类损失由L_GCN_1表示。4.2. 语义级二分图学习学习领域之间的语义相关性是领域自适应的核心问题。在这方面，已经提出了许多详细的语义对齐策略。其中，原型对齐[45，5，33]作为实现语义一致性的代表方法。最近的DAOD作品[47，51]也引入了这种方法，以基于对象提议的稀疏集合将前景对象与相同尽管它们对于从分类到检测的各种任务的一般功效，但是这些原型比对方法仍然受到若干限制。(1)原型对齐只考虑了一对一的跨域对应关系，而没有探索类间关系，这包含了丰富的信息，关于语义空间的拓扑结构。(2)当基于嵌入表示计算每个前景对象类别的原型时，不可避免地会tjj=1i j表示通过以下方式RPN，Np表示提议的数量，并且d表示节点特征维度。S表示边的集合。请注意，我们以Faster R-CNN为例来说明SBGL的技术细节，然后在实验中推广到一级检测器（SSD）（参见第5节）。跨域相似性正则化。首先，我们需要表征两个独立节点集之间的对应关系，即，定义邻接矩阵ARNp×Np，它把每条边（v s，v t）与它的元素A ij联系起来。一种可选的方法是遍历源和目标建议之间的所有可能的对以计算它们的相似性。直观地，具有较高相似性的节点对应被分配较大的权重。然而，考虑到OSDA问题的不对称性，我们需要区分已知类和未知类，否则消息传递过程可能会使目标节点聚集有偏见的语义信息.为了识别和隔离的背景，我们提出了一个跨域的相似性正则化（CDSR）策略，以产生可靠的域之间的节点对。我们的动机是正则化相似性度量，使得目标域中的源节点的最近邻居更有可能将该特定源节点作为最近邻居，即，将大的权重分配给来自s和t的相互最近的相邻节点。然而，我们发现vt1是vs的K-NN并不表示vs是vt的K- NN，这也被称为hubness问题[9，8]。在高级语义空间中，一些节点更可能是许多其他节点的最近邻居（例如，简单的肯定），但是一些其它节点可能不是任何节点的最近邻居（例如，硬底片）。在二分图S上，与源节点vs相关联的邻域由T（vs）表示。T（vs）的所有K个元素都是来自t的节点。类似地，与目标节点v_t相关联的邻域由S（v_t）表示。源的平均相似度节点v到其目标邻域的距离表示为，1Σr（v）= cos（v，v），（7）原型对准更适合于适配两阶段检测器，因为它们具有显式的实例级特征同样地，目标节点vt与其源邻域的平均相似度由rS（vt）表示。从形式上说由区域提案机制生成。相比之下一级检测器通常需要每像素预测1为了简单起见，我们省略下标i和j。包括一些负样本（即，背景），这使得适应过程具有风险和不受控制。（三）2709LGCN1GCN2LKG转KCDAS不 2S不 2不2|GS|不 KΣ eΣ我们利用这些相似性来定义节点之间的跨域相似性度量CDSR（·，·）CDSR（vs，vt）=σ（2 cos（vs，vt）−rT（vs）−rS（vt））（8）将目标节点聚类为K个类。然后，CDA损失公式化如下，LGCN2=Σ¨Pk，Pk¨+Σ（max{0，ξ−Pm，Pn}）（12）KMn通过这样做，我们可以获得邻接矩阵A。节点功能增强。在DAOD中，目标高级特征在域移位的情况下容易有偏差和不准确地表示对象。例如，在一系列域自适应Faster R-CNN中，目标区域提议是随机生成的，并且由于不存在地面实况标签而不能被划分为正样本或负样本。因此，所构造的二分图可能无法精确地计算出其中ξ是裕度项，并且在所有实验中设置为1。4.3. 总体目标假设检测损失表示为det，其包含分类和回归损失。由于所提出的DBGL能够以即插即用的方式工作，因此我们通过在低级特征上添加域鉴别器将DGBL并入域对抗训练[13]框架为此，DBGL的总体目标函数被公式化为，建模前景对象关系。为了提高焦油含量-LDBGL=Ldet+αLadv+βL+γL（十三）得到节点特征，我们从非局部操作[44，20]中获得动机，以通过将每个节点特征表示为来自所有其他目标节点特征的特征的vtj=θvtj+（1−θ）wkvtk，（9）K|王空军NCCDA其中α、β和γ是超参数。adv表示vanilla对抗训练损失。5. 实验5.1. 数据集我们在Pascal VOC[10]上评估了所提出的DGBL，eCDSR（vtj，vtk）w=（十）Clipart1k、Watercolor2k和Comic2k[18]数据集，kCDSR（vtj，vtk）K其中在所有实验中θ设定为0.5。注意，该步骤仅用于初始化，并且不随着训练进行而更新。增强的目标节点特征全局聚合语义节点空间上其他位置的特征，这隐含地赋予节点特征上下文感知能力。此外，通过比较目标域内节点特征的相似性，可以确定属于同一类别的节点之间的关系。强化我们遵循Eq。（4）-（5）将GS增大为G（S）={V（S），E（S）}，然后进行图的卷积。类别感知域对齐。基于？S，我们提出了一种类别感知的领域对齐（CDA）损失在G？S的顶部，对所有接地进行磁畴对准它们形成三个DAOD任务。遵循之前的DAOD工作[38，21，16]，我们将Pascal VOC 2007- trainval和VOC2012-trainval数据集作为源域，并分别使用Clipart 1k，Watercolor 2k和Comic 2k作为目标域Pascal VOC[10]是一个真实世界的图像数据集，包含16，551个图像，具有20个对象类。Clipart 1 k、Watercolor 2k和Comic 2k分别由1,000、2,000和2,000张图像组成，这些图像是从名为Behance的网站收集的，由Inoue等人注释，用于跨域对象检测任务。 Clipart1k具有与PascalVOC 相同的 20 个对象类别，并且 Watercolor2k 和Comic2k与Clipart1k数据集共享6个相同的对象类，即，自行车、鸟、猫、汽车、狗和人。对于PascalVOC Clipart，我们使用Clipart1k的所有图像作为训练和测试的目标域，遵循主流DAOD作品[38，6]。对于Pascal VOC水彩和Pascal VOC漫画类别从技术上讲，我们对比对齐源和目标原型，以实现域对齐。源和目标原型定义为，我们将t→rain集（1K图像）用于trainin→g和测试集（1K图像）用于评估。5.2. 实现细节Pk=1SKΣGCN（xi，GS）|GS| xi∈GS2SK对于基于两级检测器的实验，我们遵循-降低[38，6]中选择更快R-CNN的相同设置（11）Pk=1KΣGCN（xi，GS）xi∈GS使用ResNet-101架构。短边将每个输入图像的大小调整为600，并将批大小不K设置为2（每个域一个图像）以适应GPU内存。哪里|GS|表示GS中属于类k的节点（k ∈ {1，2，. . . ，K}）。我们利用目标伪标签来对于基于单级检测器的实验，我们遵循[18][19][20][21 ][22][23][24]2710×个表1：PASCAL VOC→ Clipart数据集的结果（%）。方法Aero bcycle 捕鸟船瓶总线车猫椅牛桌狗小时自行车prsn广场羊沙发列车tvmAP更快的R-CNN + ResNet-101来源[37]35.6 52.524.3 23.0 20.043.9 32.8 10.7 30.6 11.7 13.8 6.0 36.8 45.9 48.7 41.9 16.57.3 22.9 32.027.8DA-更快[7]15.0 34.612.4 11.9 19.821.1 23.2 3.1 22.1 26.3 10.6 10.0 19.6 39.4 34.6 29.31.017.1 19.7 24.819.8SWDA [38]26.2 48.532.633.7 38.554.3 37.1 18.6 34.858.3 17.0 12.5 33.8 65.5 61.652.09.324.9 54.1 49.138.1HTCN [6]33.6 58.934.0 23.4 45.657.039.8 12.0 39.7 51.3 21.120.1 39.1 72.8 19.330.150.251.8DBGL（我们的）28.5 52.334.332.8 38.666.438.225.3 39.9 47.423.9 17.9 38.9 78.3 26.228.956.844.541.6SSD + VGG-16来源[25]27.3 60.417.5 16.0 14.543.7 32.0 10.2 38.6 15.3 24.5 16.0 18.4 49.5 30.7 30.02.323.0 35.129.9DANN [14]24.1 52.627.5 18.5 20.359.3 37.4 35.1 32.6 23.9 13.8 22.5 50.9 49.9 36.3 11.631.3 48.0 35.831.8DT+PL（不含标签）[18]16.8 53.719.731.9 21.339.3 39.8 2.242.7 46.3 24.5 13.042.8 50.4 53.338.5 14.925.1 41.537.3WST [21]30.8 65.518.7 23.0 24.957.5 40.2 10.9 38.0 25.936.0 15.6 22.6 66.8 52.1 35.31.034.6 38.1 39.433.8BSR [21]26.3 56.821.9 20.0 24.755.3 42.9 11.4 40.5 30.5 25.7 17.3 23.2 66.9 50.9 35.2 11.033.2 47.1 38.734BSR+WST [21]28.0 64.523.9 19.0 21.964.3 43.516.4 42.2 25.9 30.5 7.9 25.5 67.6 54.5 10.331.257.443.535.7DBGL（我们的）23.2 65.530.118.3 24.667.6 43.915.1 38.7 36.4 31.320.2 25.074.3 55.1 38.2 12.541.049.143.9表2：Pascal VOC- Watercolor 2k（%）的结果。方法自行车鸟车猫狗人mAP更快的R-CNN + ResNet-101仅来源[37] 68.8 46.8 37.2 32.7 21.3 60.7四十四点六BDC-Faster 68.6 48.3 47.2 26.5 21.7 60.5四十五点五DA-更快[7]75.2 40.6 48.0 31.5 20.6 60.046.0香港邮政[38] 82.355.9 46.5 32.7 35.5 66.753.3DBGL（我们的）83.1 49.3 50.6 39.8 61.353.8SSD + VGG-16仅来源[25] 77.5 46.1 44.6 30.0 26.0 58.6四十七点一DANN [14] 73.4 41.0 32.4 28.6 22.1 51.4四十一点五北京赛车pk10开奖结果[21] 82.8 43.249.8 29.6 58.4四十八点六WST [21] 77.848.0 45.2 30.4 29.5 64.249.2BSR+WST [21] 75.6 45.8 49.3 34.1 30.3 64.1四十九分DBGL（我们的）84.0 46.7 45.5 36.2 35.7 63.752.0VGG-16 [39]架构。将输入图像的大小调整为300 300，并且批大小被设置为32（每个域16个图像）。我们微调了在ImageNet上预训练的ResNet-101和VGG-16。在所有实验中，我们报告了平均精度（mAP），IoU阈值为0.5。我们使用随机梯度下降（SGD）优化器训练域自适应检测网络，初始学习率为0.001和动量0.9。在5个时期之后，学习率降低到0.0001。我们设置α= 1和β=γ= 0。1在Eq。（13）对于所有实验。我们基于PyTorch深度学习框架实现了我们的实验。5.3. 与现有技术的我们将所提出的DGBL与最先进的DAOD方法进行比较，包括域对抗神经网络（DANN）[14]、强弱分布对齐（SWDA）[38]、对抗背景分数正则化+弱自训练（ BSR+WST ） [21] 和分层可转移性校准网络（HTCN）[6]。Source Only表示在源域上训练并直接应用于目标域而无需自适应过程的基线模型。我们得到了数量-2711转转表3：Pascal VOC-Comic 2k（%）的结果。方法自行车鸟车猫狗人mAP更快的R-CNN + ResNet-101仅来源[37] 33.2 14.8 23.819.5 19.7 35.6二十四点四分[38]36.0 18.3 29.3 9.3 22.9 48.427.4DBGL（我们的）35.6 20.3 33.9 16.4 26.6 45.329.7SSD + VGG-16仅来源[25] 43.3 9.4 23.6 9.8 10.9 34.2二十一点九DANN [14] 33.3 11.3 19.713.4 19.6 37.4二十二点五分BSR [21] 45.2 15.8 26.3 9.9 15.8 39.7二十五点五分WST [21] 45.7 9.3 30.4 9.1 10.9 46.9二十五点四BSR+WST [21]50.6 13.631.0 7.5 16.4 41.4二十六点八DBGL（我们的）45.4 15.9 24.8 11.5 29.4 55.130.4基于我们的复制的DANN的有效结果。对于其他上述方法，我们引用了他们的原始论文中报道的实验结果。Clipart1k上的结果。我们分别基于更快的R-CNN和SSD检测框架与表1中的现有技术方法进行所提出的DBGL基本上优于所有比较的方法，并提高了+1.3%（40.3%至41.6%）和+2.0%（35.7%~ 37.7%），表明我们的方法可以提高一级和二级检测器的适应能力此外，研究结果还揭示了探索跨领域拓扑关系和赋予适应模型推理能力的重要性。在Watercolor2k和Comic2k上的结果。表2和表3分别显示了 Pascal VOC Watercolor2k 和 Pascal VOCComic2k上的适配结果。建议DGBL超过所有比较的方法对大多数对象类别，并实现最佳的平均mAP，表明所提出的学习框架建模不同的DAOD方案的有效性和可扩展性。我们可以观察到DGBL在具有挑战性的DAOD任务上显示出令人印象深刻的适应性能，即，PascalVOC→ Comic 2k（26.8%至30.4%），其中分布-2712图3：Clipart1k、Watercolor2k和Comic2k的定性检测结果表4：在三个转移任务上的DBGL消融（%）。源Pascal VOC目标Clipart1k水彩2k漫画2k更快的R-CNN + ResNet-101不含PBGL39.552.028.3不带SBGL39.151.727.6PBGL，带随机链接37.248.126.4SBGL，无增强41.053.128.8DBGL（完整）41.653.829.7SSD + VGG-16不含PBGL36.150.528.0不带SBGL35.350.127.1PBGL，带随机链接33.445.626.4SBGL，无增强37.050.929.6DBGL（完整）37.752.030.4常规移位比其他DAOD场景大得多。理由是匹配高度不同的分布是容易出错的，DBGL显式地考虑拓扑信息，从而实现更好的对齐。5.4. 进一步的实证分析消融研究。我们深入研究了所提出的模块的单独效果和相互作用（即， PBGL和SBGL）进行完整和深入的消融研究。定量结果示于表4中。（1）w/o PBGL和w/o SBGL表示我们分别从完全DBGL模型中移除PBGL和SBGL。（2）PBGL w/ random link表示我们随机选择像素级图节点，而不是使用所提出的方法来选择高度相似的前景像素对。（3）SBGL w/o enhancement表示我们删除了SBGL模块中的节点特征增强步骤。我们可以看到，当任何一个组件模块被丢弃时，性能相应下降，揭示了DBGL中所有建议组件的定性检测结果。图3示出了不同方法对三个目标域的一些检测结果，即， Clipart1k 、 Watercolor2k 和Comic2k。所提出的DBGL在不同的目标域上显着优于仅源，WST+BSR [21]和HTCN [6]模型。可以看出，（1）DBGL以更精确的方式检测样本稀缺类别（例如，牛/狗在(d)和（e）中的飞机/鸟）。（2）DBGL能够检测那些模糊的前景对象并且提供更好的边界框回归（例如，（b）中的狗及（c）、（f）中的人）。6. 结论在这项工作中，我们提出了一个简单的和一般的框架，工作的DAOD问题，通过探索的拓扑意识和推理能力的检测器。该方法的核心思想是在像素级和语义级上对跨域拓扑交互和相关性进行建模，并通过消息传递和特征聚合将相似节点特征拉近，而三个DAOD基准测试的实验证明了建议的DBGL的有效性结合一级和两级检测器。2713引用[1] MahsaBaktashmotlagh ， MasoudFaraki ， TomDrummond，and Mathieu Salzmann.学习开集域适应的因子分解表示。2019年，在ICLR。二个[2] Shai Ben-David 、 John Blitzer 、 Koby Crammer 、 AlexKulesza 、 FernandoPereira 和 JenniferWortmanVaughan。从不同领域学习的理论Machine learning，79（1-2）：151-175，2010. 三个[3] ShaiBen-D a vid，TylerLu，TeresaLuu，andDa'vidP a'l.自适应不可能性定理域。人工智能和统计国际会议，第129-136页，2010年。三个[4] Qi Cai，Yingwei Pan，Chong-Wah Ngo，Xinmei Tian，Lingyu Duan，and Ting Yao.探索平均教师中的对象关系以进行跨域检测。在CVPR中，第11457- 11466页，2019年。一、二[5] Chaoqi Chen ， Weiping Xie ， Wenbing Huang ， YuRong ， Xinghao Ding ， Yue Huang ， Tingyang Xu ，Junzhou Huang.无监督局部自适应的渐进式特征对齐。在CVPR中，第627-636页，2019年。一、三、五[6] Chaoqi Chen ， Zebiao Zheng ， Xinghao Ding ， YueHuang，and Qi Dou.协调可转移性和可辨别性以适应对象检测器。在CVPR中，第8869一二三四六七八[7] Yuhua Chen ， Wen Li ， Christos Sakaridis ， DengxinDai，and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。在CVPR中，第3339-3348页，2018年。一、二、四、七[8] AlexisConneau 、 Guillaume Lample 、 Marc 'AurelioRanzato、Lud o vic Den o ye r和Herve' J e 'gou。没有并行数据的命令翻译在ICLR，2018年。五个[9] Georgiana Dinu Angeliki Lazaridou和Marco Baroni。通过减轻hubness prob- lem来改进zero-shot学习。ICLR，Workshop Track，2015年。五个[10] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams，John Winn，and Andrew Zisserman.pascal视觉对象类（voc）的挑战。IJCV，第303-338页，2010年。六个[11] Zhen Fang ， Jie Lu ， Feng Liu ， Junyu Xuan ， andGuangquan Zhang.开集域自适应：理论界和算法。IEEETransactions on Neural Networks and Learning Systems，2020。三个[12] Basura Fernando 、 Amaury Habrard 、 Marc Sebban 和Tinne Tuytelaars。使用子空间对齐的无监督视觉域自适应。在ICCV，第2960-2967页，2013中。一个[13] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督在ICML，第11801、6[14] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violett

下载后可阅读完整内容，剩余1页未读，立即下载