没有合适的资源?快使用搜索试试~ 我知道了~
Clusteringby visualsimilarityClusteringby visualsimilarity92040寻求相似性而非差异性:自适应目标检测的基于相似性的域对齐0Farzaneh Rezaeianaran 1 Rakshith Shetty 1 Rahaf Aljundi 20Daniel Olmeda Reino 2 Shanshan Zhang 3 Bernt Schiele 101德国马普计算机科学研究所,萨尔兰德信息学院2丰田汽车欧洲3南京理工大学0摘要0为了能够在各种场景中稳健地部署目标检测器,它们应该能够适应输入分布的变化,而无需不断注释新数据。这激发了针对检测的无监督域适应(UDA)算法的研究。UDA方法通过在源域和目标域之间引导检测器特征的对齐,从标记的源域适应到未标记的目标域。然而,关于要对齐哪些特征以及如何进行对齐,目前尚无共识。在我们的工作中,我们提出了一个框架,该框架概括了UDA方法常用的不同组件,为深入分析UDA设计空间奠定了基础。具体而言,我们提出了一种新颖的UDA算法ViSGA,它是我们框架的直接实现,利用了最佳设计选择,并引入了一种基于视觉相似性的简单而有效的方法,在引导对抗训练之前,基于实例级别的视觉相似性聚合特征。我们展示了相似性基于分组和对抗训练使得我们的模型能够集中于对齐特征组,而不需要强制匹配松散对齐的域中的所有实例。最后,我们研究了ViSGA在从不同来源收集标记数据的情况下的适用性。实验证明,我们的方法不仅在Sim2Real和AdverseWeather上优于先前的单源方法,而且在多源设置中也具有良好的泛化能力。01. 引言0目标检测器应该能够适应“域漂移”,这可能是由于天气或相机的变化等许多因素引起的,与训练数据相比。域漂移可能会导致目标检测器性能显著下降[5, 17]。域适应方法[10,9, 38, 26, 27,29]研究了这个问题,将其视为从源域学习模型的任务0组级别的鉴别器0相似性0基于组的0标记的源域图像0未标记的目标域图像0图1.我们ViSGA方法中提出的基于视觉相似性的分组的描绘。从检测器中提取的实例提议根据视觉相似性聚合为自适应数量的类别无关组,然后在域之间进行对齐。0适应目标领域。在目标检测中,收集边界框注释是昂贵的,因此在不需要对每个新领域进行注释的情况下进行域适应变得至关重要。这激发了无监督域适应(UDA)的挑战性设置[42, 39, 28,2],其中只有标记的源数据和未标记的目标数据可用。此外,训练数据本身可能在不同条件下收集,这通常被称为多源域适应的情况[31, 45, 46,47]。UDA工作中的一个主要方向是通过对齐源域和目标域来学习不变表示,提出了各种对齐策略。特别是在目标检测中,关于要对齐哪些特征以及如何引导对齐的问题一直是最近研究的主题。早期的工作[5,20]提出了通过对抗训练来对齐骨干网络的图像级特征和所有对象提议中提取的实例级特征。最近的一种最先进的方法[44]认为,在对齐之前聚合对象提议是有益的,并建议在引导对齐之前将所有提议压缩成单个类别原型向量,使用对比损失来引导对齐。这引发了关于在哪个聚合级别进行特征对齐以及引导此对齐的正确机制的问题。在这项工作中,我们提出了一种新颖的目标的UDA方法92050检测,称为视觉相似群组对齐(ViSGA)。我们的方法利用对抗训练的力量,同时利用不同提议的视觉相似性作为聚合的基础。通过依赖视觉相似性,我们可以聚合来自潜在不同空间位置的提议(图1),提高对抗训练的效果。这样做,我们可以驱动一个更强大的鉴别器,从而获得更好的对齐特征。为了增强提议聚合的灵活性,并避免由于预设的固定群组数量而引入对齐过程中的不必要噪音,我们选择基于提议聚合的距离进行动态聚类。这提高了我们的方法对输入中存在的可变数量的对象的适应性。我们的方法设计选择基于对检测的UDA方法的常见组件进行深入分析。特别是,我们研究了从考虑所有实例[5],基于聚类的多组到单个原型[44]的实例级别对齐的正确聚合级别。在聚合对象提议时,我们分析了包括预测的类别标签是否有益以及哪种距离度量方法更好,包括空间重叠和视觉相似性。我们进一步比较了使用对比损失与对抗训练作为对齐机制的有效性。总之,我们的主要贡献如下:1)我们提出了一种新颖、简单而有效的UDA方法,通过对抗训练和源域和目标域的动态视觉相似性聚合提议来进行目标检测。2)我们进行了深入分析,回答了关于对齐的正确级别是什么以及如何引导对齐的问题。3)我们在三种不同的领域转移场景下评估了我们提出的方法,包括:恶劣天气、合成到真实数据和跨摄像头,并展示了最先进的结果。4)我们是第一个考虑从不同来源收集注释数据的多源领域自适应目标检测的重要设置。我们展示了我们的方法在这种高度相关的场景中继续改进,这是我们方法有效性的另一个证据。02. 相关工作0目标检测。经典的目标检测方法基于滑动窗口分类和手工设计的特征[7, 41, 12]。然而,基于大规模数据[4,11]训练的深度卷积网络(CNN)[24, 19,37]最近变得流行起来。这些可以分为一阶段[25, 32,33]和两阶段[16, 15, 18, 34]框架。其中FasterR-CNN[34]由于良好的性能和良好的开放实现而被广泛采用。Faster R-CNN扩展了之前的工作[16,15],引入了区域建议网络(RPN)。第二个检测头对感兴趣区域(RoI)进行分类,并与之进行端到端训练。0RPN。在我们的工作中,我们使用FasterR-CNN作为我们的基础检测器。无监督领域自适应目标检测。Chen等人[5]是目标检测的早期UDA方法。它提出使用对抗训练(AT)[13]在FasterR-CNN检测器之上学习图像和实例级别的域不变特征。这个想法激发了其他工作,这些工作侧重于选择正确的特征和正确的聚合级别进行对齐[35, 20, 49, 43, 3]。[35,20]都采用对抗策略来对齐图像级特征。而He等人[20]则使用多个域鉴别器,并且还将类别信息与特征一起编码以进行实例级别的对齐。Xu等人[43]为图像级对齐添加了一个分类器,以在源域监督下弱化学习类别特征。另一方面,一些最近的工作提出了应用不同的对齐机制[50, 48,44]。Xu等人[44]采用基于几何的原型构建,并使用对比损失而不是AT来学习域不变特征。类似的对比损失在[22]中用于训练领域自适应分类器。Zheng等人[48]提出了一个混合框架,用于在实例级别上最小化跨域的单类别特定原型之间的L2距离,并在图像级别上使用对抗训练。在本文中,我们提出了一种新颖的框架ViSGA,借鉴了先前工作的最佳设计实践。与[44,48]不同的是,我们的方法以一种类别不可知的方式使用基于相似性的分组方案来聚合信息。此外,我们纯粹使用对抗策略,而不是[48]使用的混合框架或[44]使用的对比损失。此外,据我们所知,现有的用于检测的UDA方法只考虑单源UDA。最近,使用深度模型的一系列工作被提出用于多源设置,其中训练数据来自多个来源[31, 45, 46,47]。除了[31]用于语义分割外,这些工作主要考虑图像分类。这些工作的一般思想是考虑额外的组件或计算来将每个源域与目标域对齐[45, 46,47],或者在适应目标域之前将所有源域的信息聚合到一个中[31]。在这项工作中,除了单源UDA,我们还考虑将我们的方法推广到多源,以进一步检验我们的通用框架的有效性。0无标签的目标图像0在本节中,我们讨论了用于目标检测的无监督域自适应方法的几个方面的通用框架。从问题形式化开始,我们介绍了我们UDA框架的主要组成部分(在3.2和3.3中),它们是对状态的不同组件的一般化。 Supervised Ldisc = −d log(D(Fd)) − (1 − d) log(1 − D(Fd)).(2)92060Faster RCNN0标记的源图像0FasterRCNN0主干0区域提议0主干0区域提议0网络0检测0网络0图像级0头部0实例级0DA损失0分组0DA损失0有监督0分组0检测损失0检测0头部0图2.我们通用的无监督域自适应目标检测框架的组件。这里蓝色的框是Faster R-CNN的组件。它们在两个域中共享参数。0艺术。对于每个部分,我们讨论了现有的替代方案,稍后在第4.2节中进行比较。然后我们介绍了一种新颖的算法(在3.4节中),ViSGA,它是我们框架的直接实现,将表现最佳的组件与一种基于视觉相似性的动态聚合策略相结合。问题形式化。在无监督域自适应(UDA)目标检测中,我们给出了源域S = { ( x S i , y S i , B S i ) } N S i =1 的 N S个标记图像,其中 y S i 和 B S i分别是类别标签和边界框坐标。对于目标域T = { x T i } N Ti =1 ,只有 N T个无标签图像可用。两个域共享相同的标签空间,但它们的视觉分布不匹配。UDA方法的目标是学习在目标域上表现良好的目标检测器,尽管存在域偏移。03.1. 概述0我们的通用UDA框架由三个主要组件组成。首先是标准的目标检测网络FasterR-CNN,它接收输入图像并为图像中存在的所有目标实例生成边界框和标签。第二个组件是图像级域适应损失,它鼓励主干网络中全局图像表示的对齐。第三个组件是实例级域适应损失,它引导每个目标实例的表示对齐。如图2所示。因此,该方法的整体训练目标可以写成:0L = L det + λ 1 L img + λ 2 L inst,(1)0其中,L det 是检测器的有监督训练损失,L img 和 L inst分别是图像级和实例级域适应(DA)损失,λ 1 和 λ 2是权衡参数。对于不应用实例级对齐的方法,λ 2设为零。注意,L det仅适用于源域,其中有真实边界框注释可用。检测网络。遵循早期关于跨域目标检测的工作设定,我们部署了Faster0我们的方法和分析中都使用FasterR-CNN[5]作为目标检测网络。它由区域提议网络(RPN)和检测头组成。这两个网络都使用两个损失项进行训练,一个用于边界框估计的回归损失,一个用于标签预测的分类损失。因此,Faster R-CNN的检测损失L det 由L RP N 和Lhead 组成。03.2. 如何引导对齐?0域自适应损失(L img,Linst)的作用是在模型对源域和目标域输入的表示之间引入对齐。使用这种不变表示的下游模块(例如RPN和检测头)将是域不可知的,并在两个域中表现出相同的性能。尽管对抗性训练一直是减小特征分布差异的主要范式[5,35,49],但最近提出了对比损失来匹配源域和目标域的特征[44,22]。我们在本小节中介绍这些方法,并在我们的实验分析(第4.2节)中进行比较。对抗性训练。基于对抗训练(AT)的UDA方法的关键思想是通过欺骗一个训练有素的鉴别器,该鉴别器根据检测器特征预测输入数据的域,从而学习域不变表示。这种方法通常是类别不可知的,忽略特征的类别信息,专注于域级别的对齐。具体而言,将域d(d=0表示源域,d=1表示目标域)的特征F d输入到鉴别器D中,鉴别器预测提取特征的域。鉴别器通过最小化下面的交叉熵损失进行训练。0由于我们希望使两个域的特征在鉴别器的判断下无法区分,我们必须最大化方程(2)中关于特征F d的损失。为了实现这一点,在特征输入到鉴别器之前,我们引入了一个梯度反转层(GRL)[13]。对比学习。作为AT的替代方法,可以应用最大间隔对比损失来对齐源域和目标域的特征。LCL =C�i||F i0 − F i1||22 +C�j,j̸=imax{0, m − ||F i0 − F j1 ||22}(3)̸nn(i) = argminj
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- BottleJS快速入门:演示JavaScript依赖注入优势
- vConsole插件使用教程:输出与复制日志文件
- Node.js v12.7.0版本发布 - 适合高性能Web服务器与网络应用
- Android中实现图片的双指和双击缩放功能
- Anum Pinki英语至乌尔都语开源词典:23000词汇会话
- 三菱电机SLIMDIP智能功率模块在变频洗衣机的应用分析
- 用JavaScript实现的剪刀石头布游戏指南
- Node.js v12.22.1版发布 - 跨平台JavaScript环境新选择
- Infix修复发布:探索新的中缀处理方式
- 罕见疾病酶替代疗法药物非临床研究指导原则报告
- Node.js v10.20.0 版本发布,性能卓越的服务器端JavaScript
- hap-java-client:Java实现的HAP客户端库解析
- Shreyas Satish的GitHub博客自动化静态站点技术解析
- vtomole个人博客网站建设与维护经验分享
- MEAN.JS全栈解决方案:打造MongoDB、Express、AngularJS和Node.js应用
- 东南大学网络空间安全学院复试代码解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功