没有合适的资源?快使用搜索试试~ 我知道了~
8761PIT:用于跨FoV域自适应的位置不变变换顾七七1*周倩玉1* 徐明浩1冯正阳1程广良25陆雪泉3†石建平27马丽庄146†1上海交通大学、2商汤科技集团研究3迪肯大学、4华东师范大学、5上海AI实验室6上海交通大学教育部人工智能重点实验室7上海交通大学清源研究{miemie,zhouqianyu,xuminghao118,zyfeng97}guangliangcheng2014@gmail.comxuequan.lu @deakin.edu.aushijianping@sensetime.com,www.example.com,ma-lz@cs.sjtu.edu.cnsjtu.edu.cn摘要跨领域目标检测和语义分割技术近年来取得了令人瞩目的进展。现有的方法主要考虑由外部环境(包括背景、光照或天气变化)引起的域偏移,而不同的摄像机内参数通常出现在不同的域中,它们对域适应的影响很少被研究。在本文中,我们观察到,视场(FoV)的差距引起显着的实例外观之间的差异源和目标域。 我们进一步发现,FoV之间的差距在FoV增加(源FoV目标FoV)和FoV减小的情况下,两个域削弱域自适应性能。<出于观察的动机,我们提出了位置不变变换(PIT),以更好地对齐不同域中的图像。我们还介绍了一个反向PIT映射变换/对齐的图像回到原来的图像空间,并设计了一个(a) 原始图像(b) 变换图像损失重新加权策略,以加速训练过程。我们的方法可以很容易地插入到现有的跨域检测/分割框架,而带来的计算开销可以忽略不计。大量的实验表明,我们的方法可以健全的提高性能的跨域对象检测和分割的国家 的 最 先 进 的 技 术 。我 们 的 代 码 可 在https://github.com/sheepooo/www.example.com上获得。1. 介绍对象检测[20,41,40]和语义段-问题[33,5,6,14]是计算机视觉中的两个基本问题。前者的目标是精确定位和识别图像中的对象,后者的目标是图1:相对于相机处于不同位置的对象(汽车)具有不同程度的变形,这显著地加重了类内特征的对齐。这可以通过我们的PIT有效地缓解。顶行:由虚拟相机捕获的对象(在不同位置)的图像。其他行:来自KITTI数据集的真实照片。对每个像素的语义进行分类。针对这两个任务训练具有高性能的一般化模型需要具有精细注释的大量图像,而准备这种良好注释的数据是费力的。同时,由于域偏移的存在[1],在特定数据集上训练的模型在应用于另一个域时往往会遭受显着的性能下降一个共同* 同等贡献。†联合通讯作者。8762解决方案是将从标记的源域获取的知识转移到未标记的目标域,这被称为无监督域自适应(UDA)[38]。一般来说,已经探索了两种典型的方式来使模型从源域适应目标域。 一种是像素级对准,生成类似目标的图像以在目标区域上提供隐式或显式监督信号[44,25,61]。另一种是特征级对齐,两个域的特征分布通过约束域差异度量[34,48,62]或进行特征混淆[18,52,39]。在跨域检测/分割的研究中,以前的工作[8,43,60,2,9,59,25,50,31,65]主要集中在缩小由外部环境(例如,背景、光照和天气的变化等)引起的域偏移。然而,很少有人注意到相机的内部参数,往往带来了显着的域差异,由于使用不同的我们观察到,一个主要的相机参数,视场(FoV)1,诱导域间隙的不同尺寸事实上,FoV差异经常发生在数据集之间或现实世界的场景中。例如,在自动驾驶中,具有不同FoV的相机通常一起使用,因为在长时间的数据收集中相机的更新是不可避免的FoV差异导致跨源和目标域的实例结构外观的多样性,从而导致类别内的样本多样化这显然增加了域自适应模型的负担,从而导致不太理想的性能。受上述观察的启发,在本文中,我们尝试减轻域之间的不同FoV的不利影响,以提高跨域检测/分割的性能。我们讨论了在两个一般情况下的FoV间隙的影响。(1)在FoV增加适应(目标域的FoV大于源域的FoV)中,由于缺乏相似外观对应物,具有大入射角的目标域实例不能很好地与源域对准(2)在FoV减小适应(目标FoV小于源FoV)中,特定入射角范围内的源域实例的稀疏性也妨碍域对准。现有的UDA方法通常试图弥合整个域的差距,并优化模型,而没有特别考虑的FoV因素,从而防止模型从完全学习域不变的功能。为了解决上述问题,我们提出了位置不变变换(PIT)来直接缩小源域和目标域之间的FoV间隙(图1B)。①的人。1视野(FoV):在摄影技术中,通过照相机镜头的透视中心(后节点)到达格式的两个相对侧的两条光线之间的角度。具体地,位于原始成像空间中的像素被映射到形状为球面的另一个二维空间,使得各个位置中的实例的外观 此外,我们引入了一个反向PIT的映射变换后的图像回到原来的图像空间。此外,我们设计了一个有效的损失重新加权策略,以加快训练过程。我们的模块在提高性能的同时引起很少的计算开销,并且它们可以很容易地作为任何现有的跨域检测/分割框架的即插即用模块。我们的贡献可归纳如下:• 我们统计分析了源域和目标域之间的FoV差异对UDA模型的负面影响,其中域之间FoV的增加和减少都会损害域对齐。• 我们提出的位置不变变换(PIT)对齐实例的结构外观在不同的位置在每个类别中,和反向PIT映射到原始图像空间的变换后的图像。我们还引入了一个损失重新加权策略,以加快训练过程。• 在跨域检测和分割任务上验证了PIT的有效性。配备了我们的模块,最先进的UDA方法显示出比以前更好的性能。2. 相关工作无监督域自适应(UDA)。UDA的目标是通过减少两个域之间的分布间隙,使在标记源域上训练的模型适应未标记的目标域。一组最近的方法专注于最小化域差异[34,48,62]度量(例如最大平均差异[53]),对抗学习[18,52,39]或基于原型的对齐[58,42,60]。尽管在基于分类的任务中取得了成功[34,18,48,52,44,61],但这些方法在简单的分类数据集上工作良好(例如,在分类数据集上)。 MNIST [30]和SVHN [37]),但几乎不能应用于更具挑战性的任务,例如对象检测和语义分割。域自适应检测/分割。在目标检测或语义分割中,域转移问题直到最近才引起人们的关注。这一系列的研究已经被大量的研究人员所证实--研究人员的BER,并且已经做出了很大的努力来探索各种算法和架构以减少像素级中的域间隙[25,3,31,29,21],特征级[35,69,2,8,66],实例级[8,59,4][50][51][56][57][ 58][59][59]两个目标检测的步骤[8,67,2,43,4,60,59]8763我 我 i=1J j=1(一)PIT前(b)第(1)款PIT后(c)图2:(a)PIT的位置相关变形和位置不变性的图示(b)PIT之前和之后的图像的3D空间(c)两个坐标系之间的转换。O:相机的光学中心;F:焦点;x′Oy′:透镜平面(y′轴垂直于x′Oz); xFy:平行于x′Oy′的成像平面; uFv:用于映射图像的球面,其中坐标轴u和v是圆弧。和语义分割[25,50,36,31,57,51,55,65]。目前这两个任务的主流方法包括对抗性学习[67,23,43,50,36,55,51],自我学习[67,23,43训练[69,68,28]和自我组装[2,9,13,64,65]。尽管取得了很大的进步,这些作品主要集中在适应不同的外部环境条件,如背景,光照和天气。而摄像机内部参数在不同区域之间的差距被忽略了。在这项工作中,我们通过轻松地将其集成到对抗学习和这两项任务的自我集成中,展示了我们方法CNN与几何变换在过去的几年里,研究人员研究了具有几何变换或变形增益能力的CNN。空间Transformer网络[26]预测变换参数以减少仿射变换的影响。主动卷积[27]设计了一个可变换的卷积核,以获得更一般的接收场形状。可变形卷积网络[11]通过预测感受野位置进一步改进了前者,[47]使用球形CNN将平面CNN转化为直接在其等距矩形投影中处理360°图像这些方法主要侧重于设计新的网络体系结构,与之不同的是,我们的方法更加关注数据本身的属性(即数据的属性)。由相机成像引起的位置相关的变形)以增强UDA模型中的特征对准。3. 方法在无监督域自适应(UDA)中,具有N个S标记样本的源域S={(xS,yS)}NS和具有N T个未标记样本的目标域T ={xT}NT是可用的,其中xS遵循源分布PS,并且xTj〇 ys得到分布PT。UD A的目标是使用来自两个域的上述数据,训练在目标域中推广良好的模型。3.1. 动机在现实世界中,图像往往是由具有不同内参数的摄像机捕获的,这导致了跨摄像机域间隙。我们观察到物体的结构①的人。FoV参数限制可以由相机观察到的区域的角度,即可观察对象的最大入射角图图2(a)示出了入射角的变化如何l、m和n是结构相似的物体,它们位于距光学中心O相同距离的不同位置。当投影到成像平面上时,它们的像的长度l′、m′和n′明显不同。具体地,随着物体偏离场景中心的增加由于FoV对入射角范围的限制,同一类别内的对象的结构外观在源域和目标域之间可以是明显不同的,如图所示。1,其中不同程度的成像变形可以发生在两个域中。这种变形完全不同于透镜变形[54]。后者是与直线投影的偏差,并且可以通过相机校准来固定,并且校准的图像是成像平面上的理想投影。考虑到场景理解中学习结构不变特征表示的重要性[26,11],来自两个域的对象之间的结构差异可能使UDA模型陷入困境,其中���’’���′���’’���’’���“������”���876420100-10-2020100-10α-2020100-10α-20FoV of KITTI城市景观阿尔法3500300025002000150010005000-50-40-30-20-100个1020304050人-50-40-30-20-100个1020304050人-50-40-30-20-100个1020304050 人(a) KITTI(6733 images)(b)Cityscapes(2975 images)(c)KITTI(1000 images)图3:AP空间中每个(α,β)的前景出现的热图。(a)(c)来自整个KITTI [19]训练集和涉及1,000张图像的子集的统计数据,这些图像分别代表现实世界中的大规模和小规模数据集。(b)来自城市景观培训集的统计数据。这种差异不能很好地处理。为了更好地阐明两个域之间的FoV间隙的存在和潜在影响具体地,我们定义α和β(α如图所示)。在图2(c)中,β是yFz平面中的对应部分)分别作为点沿着水平轴和垂直轴朝向光学中心的入射角。注意到物体的成像变形与α和β密切相关,并且变形程度沿这两个角度的绝对值不断增大因此,我们将α轴和β轴交叉起来,形成一个二维空间,称为角位置空间(AP空间),其中每个点的坐标绝对值度量了物体在相应位置的水平和垂直变形程度。然后,我们计算KITTI [19]和Cityscapes [10]数据集上每个(α,β)整数值的前景出现次数,这些统计数据在图中显示为热图。3.第三章。可以观察到,KITTI数据集的对象比Cityscapes数据集的对象分布在更宽的入射角范围内,这导致交叉FoV适应的两个相反方向(见下文)。FoV增加适应。 在这种情况下,目标域具有比源域更宽的FoV分布。例如,从城市景观(图)改编。3(b))到KITTI(图3(a)),这意味着目标域中的对象拥有更大范围的变形程度。因此,一些目标对象落在AP空间中没有源对象的区域中,并且由于缺乏来自相似外观对应物的适当监督,它们不能很好地与源域对齐,这损害了UDA模型的性能建议的PIT模块(Sec. 3.2)通过其位置不变性有效地减轻了该缺陷。FoV降低适应。在这种情况下,目标区域具有较窄的FoV分布,例如,从KITTI(图2)进行调整。3(a)(c))到城市景观(图。3(b)),使得目标对象的分布范围被源对象的分布范围覆盖。这是真的,当源对象是足够密集无处不在(图。3(a))在AP空间内─通过UDA方法可以很好地进行主对准。然而,当源域具有低数据密度时(图1)。3(c)),目标对象很难找到其可以与之对准的具有相似结构外观的源对应物在这种情况下,所提出的PIT方法(第3.2节)能够在AP空间中收集源对象,从而简化对齐。3.2. 位置不变变换偏离透镜主轴越远的物体在摄像过程中被拉伸的程度越大,表现为图1中的成像变形现象。1.一、为了减轻这种变形,我们提出了位置不变变换(PIT)。图2(a)示出了PIT的原理。点的成像位置在该方法中,来自物体的穿过O的入射光用球面而不是平面接收,即,图1B中所示的具有球心O的uFv表面。第2段(b)分段。在这样的球形空间中,图像可以在很大程度上保留原始对象的相对大小对于图1中的相同大小的对象l、m和n图2(a)中,它们被映射到uFv表面上具有相同长度的1”、m”和n”该示例示出了球面上的成像对于对象的角位置是不变的在2D成像平面上显现球面的益处之后因此,这样的投影应该具有两个属性,这两个属性不能被现有的投影方法(例如:等矩形、墨卡托等):(1)变换后的图像空间应服从位置不变性,以便在像素级上对齐实例;(2)改造后的水平(垂直)线应保持水平(垂直),以保证8765原有监管源标签已转换的源标签���������������⊗������+���������⊗������监督与+源图像坑模块转换后的源图像任务网络转换源预测反向坑模块来源预测目标图像转换后的目标图像转换目标预测目标预测图4:我们的方法概述。边界框标签的有效性 考虑到这两个性质,我们制定了一个新的投影,其被定义为(参考图1)。2(c)对于直观概念:UX(U)=f×tan(f),(1)VY(V)=f×tan(f),(2)M′[U][V]=M[X(U)][Y(V)],(3)其中(X,Y)是原始图像空间中的坐标(即, (U,V)是PIT之后的图像空间中的坐标(即,具有原点F的uFv坐标系)。M[X][Y]和M’[U][V]表示变换之前和之后的对应点的像素值。f是焦距,其可以使用FoV参数估计或通过相机校准精确计算。如图1时,PIT后的图像尺寸变小,距离场景中心越远的区域被压缩的比例越此外,在PIT之后保留垂直/水平线。3.3. 跨FoV域自适应一体化所提出的PIT方法可以用作现有跨域检测和分割框架的即插即用模块。如图4中,来自源域和目标域的图像首先被馈送到PIT模块中以被转换成位置不变的图像,其用作任务网络的输入。在训练阶段,来自源域的标签也由PIT转换以提供监督。在推理方面,任务网络的预测结果通过反向PIT模块映射回原始图像空间,输出最终预测。反向PIT和损失重新加权策略。由于评估是用未转换的基础事实进行的,因此用原始标签提供监督是合理的,如图中的黑色虚线所示4.第一章然而,与仅需要针对数据集中的每个输入图像执行一次的PIT过程不同,反向PIT模块将在每次迭代中被采用并且导致额外的计算成本。为了加快训练速度,我们设计了一个像素级的损失重新加权策略来代替训练过程中的反向PIT模块。变换后的图像中的像素对应于原始图像中的区域,并且原始图像中的每个像素在评估中权重相等。因此,变换后的像素有了这个权重,转换后的监管在损失计算方面与反向PIT是等效加权矩阵被公式化为:( 1)A(1 )A ( |U |01-02|U| ) ) × ( Y ( |V |01-02|V|))的情况下,其中wR是分配给位于(U,V)中的像素的权重在变换后的图像中。使用以上导出的权重,我们重新加权逐像素损失,包括任务特定损失Ltask (例如,[9]中的监督损失Lsup)和域自适应损失Lda(例如,[9]中的一致性损失LconL=LtaskWR+λLdaWR,(5)其中λ是平衡两个损失的权重有了这个损失重新加权策略,我们可以使用转换标签以优化模型,如图中的绿线4、加快训练进程。4. 实验我们进行了广泛的实验对象检测和语义分割任务。结果表明,我们的(四)8766转转FoVx50o70o80o90o这种方法可以通过轻松地将其插入任何UDA框架来大大提高跨FoV适配的性能。4.1. 实验装置数据集。我们在实验中利用了三个提供FoV参数的公共数据集:Cityscapes [10],KITTI[19] 虚拟KITTI [17]。在这里,我们在每个数据集的名称之后添加二维数组,以指示用于场景捕获的相机的近似水平和垂直FoV参数(FoVx,FoVy)• Cityscapes[10](50◦,26◦)是一个包含多个城市街景的数据集它拥有2,975张用于训练的图像和500张用于验证的图像,并且两者都有密集的像素级标签。我们通过计算实例注释的最紧密矩形来获得对象检测任务的边界框标签,如[8]所做的那样。它使用4种类型的摄像机,具有不同的FoV( 49. 5◦
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功