没有合适的资源?快使用搜索试试~ 我知道了~
ConfMix: 基于置信度混合的无监督域自适应目标模型
423ConfMix:基于置信度混合Giulio Mattolin1,Luca Zanella2,Elisa Ricci1,2,Yiming Wang21意大利特伦托大学2意大利特伦托布鲁诺凯斯勒基金会lzanella@fbk.eu摘要用于对象检测的无监督域自适应(UDA)旨在调整在源域上训练的模型以检测来自新目标域的不可用符号的实例。与传统方法不同,本文提出了ConfMix方法,首次引入了基于区域级检测置信度的样本混合策略,我们将目标样本中对应于最可信伪检测的局部区域与源图像混合,并应用额外的一致性损失项来逐渐适应目标数据分布。为了鲁棒地定义区域的置信度分数,我们利用每个伪检测的置信度分数,其占检测器相关的置信度和边界框不确定性。此外,我们提出了一种新的伪标记计划,逐步过滤的伪目标检测使用的置信度,从松散到严格的方式沿训练。我们用三个数据集进行了广泛的实验,在其中两个数据集中实现了最先进的性能,在另一个数据集中接近了有监督的目标模型的性能。代码可在https://github.com/giuliomattolin/ConfMix上获得。1. 介绍对象检测是计算机视觉中的基本任务,其涉及例如通过边界框对属于某些预定义类别的感兴趣对象进行分类和定位。由于其在自动驾驶、视频监控和机器人感知等许多应用中的重要性,物体检测受到了极大的关注,导致了几种不同模型的开发然而,作为探测器大多数这项工作得到了欧盟地平线2020研究和创新计划的支持。957337号赠款协定和欧洲联盟委员会警察内部安全基金。ISFP-2020-AG-STAIT-101034216-STAIT。图1. ConfMix基于一种新的样本混合策略,该策略将源图像和具有最高伪检测置信度的目标区域(橙色依赖于深度学习,众所周知的事实是,由于域转移,当在视觉上与训练期间遇到的图像不同的图像上进行测试时,它们会遭受严重的性能下降[4]。为了解决这个问题,最近的研究工作已经投入到设计用于构建深度模型的无监督域自适应(UDA)技术上,该深度模型可以从注释的源数据集适应到目标数据集,而无需繁琐的手动注释[40,11,1,16,9]。绝大多数用于检测的UDA方法都依赖于逆向训练和利用梯度反射层(GRL)[11]来执行图像级和实例级的自适应[4,37,55,39,43]。其他方法主要集中在稳健地产生伪检测,以便有效地对目标数据[49,52,44]的模型进行微调在一般情况下,虽然在过去的几年中,已经提出了几个解决方案,在文献中,用于适应两阶段的对象检测器,我们认为,设计UDA的方法,也可以应用到一个阶段的检测器将是可取的。实际上,后一种方法更适合于需要实时处理和高计算效率的应用,例如自动驾驶。424→→→→同时,计算机视觉领域的最新研究已经表明,通过合成具有目标和源图像的混合样本,采用复杂的数据增强技术可以提高深度架构的泛化能力[51,50,17]。这些方法已经在UDA的背景下被考虑用于分类[45,30]和语义分割[10,32,20,5],证明了一些经验优势。然而,将这些方法扩展到UDA进行检测绝非易事。受这些先前工作的启发,在本文中,我们提出了ConfMix,第一个基于混合的UDA方法,用于基于伪检测的区域置信度的对象检测ConfMix背后的主要思想如图1所示。具体来说,我们建议人工生成的样本,结合目标图像的区域,其中模型是最有信心的源图像。我们还在训练过程中引入了相关的一致性损失,以在生成的图像之间执行连贯的预测。我们的直觉是,通过组合源图像和目标图像并形成新的混合样本,我们正在训练我们的模型,该模型是在具有可靠的伪检测和接近目标域样本的视觉外观的新颖的、综合生成的样本图像上进行的,从而提高了检测器的泛化能力。此外,伪检测的质量在自适应过程中起着至关重要的作用,并且与置信度度量密切相关。通过利用更严格的置信度度量,例如,用边界框不确定性[6]丰富检测器相关置信度,可以获得更可靠的伪检测,但是数量减少。为了减轻这一点,我们建议逐步限制伪标记的置信度。在初始自适应阶段,我们允许更多的伪检测,以便学习目标域的表示,而随着逐渐严格的置信度,我们的目标是提高检测精度与更值得信赖的伪检测。我们在不同的数据集上进行了广泛的实验(Cityscapes [7] FoggyCityscapes [38],Sim10K[19]Cityscapes和KITTI [13] Cityscapes),我们表明,我们的方法在大多数设置中优于现有算法。我们总结了我们的主要贡献如下:• 我们介绍了第一个样本混合UDA方法的对象检测。我们的方法,命名为ConfMix,混合的样本从源和目标域的基础上的目标伪检测的区域置信度• 我们提出了一种新的渐进伪标记方案,通过逐步限制自适应学习的置信度,这使得学习目标表示时可以平滑过渡,从而提高检测精度。• ConfMix获得了最先进的适配性能,在Sim10k上实现了+1.7%→Cityscapes和KITTI Cityscapes的平均精度(mAP)为+3.7%。2. 相关工作物体检测。当前的对象检测模型可以分为两个主要类别:一阶段和两阶段方法。单级对象检测器,如YOLO [34]和FCOS [41],采用统一的框架,直接从CNN骨干生成的特征图中获得最终结果。这些框架在计算上非常有效,并且能够在推理期间实现接近实时的速度。另一方面,两阶段对象检测器,如RCNN[15],通过首先提取区域建议,然后利用这些信息,生成分类标签和边界框坐标来生成预测。此类模型因其高性能而被广泛采用,但尽管已进行研究以提高检测速度[14,35,8],但与单级检测器相比,它们的速度要慢得多无监督域自适应。给定一个标记的源域和一个未标记的目标域,UDA的目标是使用可用的数据来生成一个模型,该模型能够在目标域上进行推广并表现良好。传统方法是通过使用差异损失函数直接最小化特征分布之间的距离来减小域间隙[29,40]。另一方面,基于对抗性的方法[11,12,42]采用了一个域识别器和一个特征提取器,通过欺骗识别器来学习产生域不变的特征表示许多工作证明了使用伪标签的好处,以最大限度地利用来自目标域的信息[28,23,24],最终考虑逐步纳入它们的计划[48]。其他工作集中于采用样本混合技术,如mixup [51]或CutMix [50],以提高泛化。例如,在[45,47]中,应用域级混合正则化来确保学习的特征表示中的域不变性,而在[3,33]中,模型在考虑分割任务的先前工作中实现了类似的想法[10,32,20,5,31]。然而,据我们所知,没有以前的工作已提出利用混合技术的UDA在对象检测的上下文。用于对象检测的UDA。在对象检测的背景下,UDA最近由[4]引入,它提出了在Faster R-CNN上使用两个GRL [11]进行图像和实例级对齐。随后,几种方法开始主要使用两级检测器来解决这个问题。对于图像级,[37]表明从主干中提取的特征的强局部对齐和弱全局对齐可以提高适应性,而[55]则专注于实例级,利用RPN建议来执行425∈··不不不.Σ区域一级对齐。为了使源偏置决策边界适应目标数据,[2]通过使用Cycle-GAN生成插值样本,将对抗训练与图像到图像的转换相结合[54]。其他最近的工作已经提出应用具有伪检测的自训练来执行适应。为了解决由过拟合噪声伪检测引起的性能下降的风险,[49]引入了通过随机推理生成的伪检测集[27]提出自熵下降(SED)作为一种度量来搜索可靠伪检测的适当置信阈值,而[44]使用学生-教师框架并逐渐更新源训练模型。很少有工作已经解决了一级检测器的UDA例如FCOS [25,26,18]或SSD [21]。特别是,采用自训练过程通过执行硬否定伪检测挖掘,然后执行弱否定挖掘策略来减少不准确伪检测的负面影响此外,对抗学习使用GRL [11]和一个用于提取区分性背景特征和减少域移位的目标的学习器。然而,我们的方法是完全不同的,因为它不需要额外的架构组件的网络,但提出了一个基于混合的数据增强策略,以促进正规化的模型。3. 方法如图2所示,所提出的ConfMix通过混合源图像来合成图像xM∈RW×H ×C检测器相关损耗Ldet,以便在自适应期间保持检测器能力。在下面的章节中,我们详细描述了我们提出的ConfMix,其中我们首先介绍了秒中基于高斯的检测置信度的估计3.1,其次是基于置信度的区域混合策略,用于合成第3.1节中的训练样本。3.2和Sec. 3.3.最后,我们提出的培训目标与损失在秒。三点四分。3.1. 基于高斯的检测置信度传统的对象检测器,如YOLO [34],Faster R-CNN[35]和FCOS [41],计算并为每个检测分配置信度得分C det[0,1],通常依赖于检测器,并用于通过非最大抑制滤除不可靠的预测。然而,这样的置信度分数不考虑预测的边界框b=[bx,by,bh,bw]的可靠性,其中[bx,by]是图像上边界框的位置,bh和bw分别表示高度和宽度。如[6]中所建议的,通过考虑依赖于检测器的置信度和从边界框预测的不确定性导出的置信度,可以提高伪检测的可靠性并减少误报的数量。为了计算边界框不确定性,需要基于高斯的建模。具体而言,对于b中的每个元素,检测器模型预测均值μ和方差μ,其中方差表示定位不确定性。因此,我们可以将基于高斯的边界框b表示为:年龄xS∈RW×H ×C和目标的局部区域im-b=[µ,µ,µ,µ,],(1)年龄xT∈RW×H ×C,具有最可靠的伪解-bx通过bh bwbx通过bh bw保护 我们首先预测一组NT伪检测y=伊吉|i∈[1,N]在ta r上得到图像并计算其中,两种方法bµ =[µbx,µby,µbh,µbw]及使用检测器网络F(Θ)的每个伪检测的置信度,该检测器网络F(Θ)用Θ参数化并且最初仅在源数据上训练。我们选择遵循边界框预测的高斯模型,而不是确定性的一个,以提高检测器置信度的可靠性与边界框预测的不确定性接下来,我们将目标图像XT划分为相等大小的区域,并选择具有伪检测的最高平均置信度的区域与源样本XS混合,形成混合样本XM。我们将x T、x S和x M传递到检测器F(Θ),并获得它们相应的检测值ΔyT、ΔyS和ΔyM。然后,检测器通过施加一致性损失L_cons来学习适应目标域,该一致性损失L_cons通过根据两个样本图像如何混合来混合源检测结果M和目标检测结果T来促进目标检测结果M和组合检测结果S,T之间的相似性。源地面实况探测yS的监督是通过具有更新回归损失的检测器(参见第第3.4段)。请注意,将sigmoid函数σ()应用于预测方差值,以确保其范围在0和1之间。由于方差值越大意味着越不确定性越高,所以边界框的置信度计算为:Cbbx=1−mean(b),(2)其中mean()计算b的平均方差。因此,组合置信度可以计算为:Ccomb=Cdet·Cbbx。(三)3.2. 基于置信度的区域混合根据目标图像上每个伪检测的估计置信度,我们设计了一种新的混合策略来合成具有高可靠性伪检测的新训练样本。变量b=[bx,by,bh,bw]由下式预测:426不−图2.拟议ConfMix方法概述。我们将源样本xS和目标样本xT传递到检测器模型F(Θ),从而获得关于v的预测xS和xT。 我们选择具有最高区域置信度的目标区域以形成具有源图像的混合样本xM,然后将其馈送到检测器模型F(Θ),产生预测xM。我们使用源注释yS和自监督一致性y损失来训练模型,其中监督检测损失通过将组合源与自监督一致性y M进行比较来训练,并得到预测值yS,T。检测。我们提出了一种新的区域级混合策略,而不是只提取伪检测或随机选择目标图像的一部分[50]进行混合,其合成样本包含来自两个域的前景和背景特征,有助于更有效地适应目标域。具体来说,我们随机采样源图像xS和目标图像xT。然后将目标x T传递到对象检测器F(Θ),从而产生预测xT。然后将目标图像XT如果每个区域的中心坐标位于该区域内,则每个区域被认为包含预测y_i。区域置信度被计算为位于该区域内的所有伪检测我们选择具有最高区域置信度的区域与采样的源图像xS混合,并生成合成图像xM:从宽松到严格的方式,首先通过允许更多的伪检测来学习目标域的初始表示,然后逐渐转向更严格的置信度度量,以利用更可靠的伪检测来提高检测精度。为此,我们从用于过滤伪检测的松散置信度量Cdet开始。随着迭代的继续,我们逐渐为Ccomb分配更多的重要性,并使用移动的权重δ:C=(1 − δ)·C det+ δ·C comb。(五)移位权重δ基于训练的进度而变化,因此它取决于迭代t、时期e和一个时期中的批次数量Nb。我们用一个非线性函数来设计δ,使其从0逐渐增加到1:2δ=1,(6)1+exp(−α·r)xM=MT<$xS+(1−MT)<$xT,(4)其中,MT∈RW×H是表示不R=Nb·e、(7)目标图像的像素应当被掩蔽。3.3. 渐进式伪标签伪检测的正确性与用于过滤检测的置信度度量在适应的早期阶段,由于大的域间隙,置信度往往不太可靠,并且通常具有较低的值。因此,如果应用严格的置信度度量,例如C梳,则因此,我们建议进行渐进过渡其中r是当前迭代与总迭代次数之比,其比例由α调制。具有高于预定义阈值C_th(即C > C_th)的置信度值的伪检测被认为是有效检测,并且在基于置信度的区域混合和检测器自适应训练期间将其考虑在内3.4. 自适应检测器训练为了促进检测器F(Θ)的自适应学习,我们依赖于两个主要损失:自我监督的一致性427日S和T日不SLLL·L·L·ΣN·→BΣ. Σ×S和T不S不不SSµ∈∈损失项Lcons在混合样本上,并且有监督地去除xM上的伪检测数量,具有置信度标记源样本上的tector损失项LdetLdet大于Cγ和伪检测一致性损失Lcons旨在通过惩罚差异来在非最大抑制之后,为了反映伪检测的可靠性:关于Mr.以及组合检测器S,T通过合并.,和,我S和Ty:Ci≥C γ,.基于源信号S和目标信号T的检测,形成混合样品γ=|˜S,T、(10)|具体地,设R是得到伪检测的目标的驻留在所选择的目标区域内,而R-R是驻留在所选择的目标区域外的源伪检测的集合。组合检测器S,T是以下项的联合:两个集合,即,y=,yR,yR−,. 可能发生的情况是,哪里|·|是集合的基数。4. 实验我们评估我们提出的方法ConfMix对三个共同基准adap的最新方法y的边界框维数yR(或yyR−)canex-越过所选目标(或源)区域,导致不准确的伪检测。因此,我们通过它们对应的区域边界来裁剪这些边界框。我们将Lcons和Ldet定义为Lcons=(yM,yS,T)和Ldet=其中,监督检测损失L det和自监督一致性损失L cons两者共享相同的损失函数()。虽然L det旨在使源样本上的预测检测结果yS与地面实况检测结果yS之间的差异平均化,L_cons旨在惩罚混合样本上的预测检测结果M和伪检测结果S,T注意,()取决于所采用的对象检测器。 在单阶段YOLOv5的情况下,()是三个项的组合:L box是用于回归边界框坐标的完全IoU(CIoU)损失,L obj是用于对象性得分的二进制交叉熵(BCE)损失,并且L cl是用于分类得分的BCE损失。特别是,由于我们的预测边界框遵循高斯建模,因此每个样本图像的回归损失更新如下:1Ni i站场景,以及广泛的消融研究,证明我们设计选择的有效性数据集。我们在四个数据集上评估我们的方法:• Cityscapes [7]是用于语义理解的城市街道场景的集合。这些图像是在50个城市收集的,历时数月,在白天和良好的天气条件下进行。单实例注释可用于以下8个类别:人、骑手、汽车、卡车、公共汽车、火车、摩托车和自行车。• FoggyCityscapes [38]是Cityscapes的扩展,其中图像通过应用雾过滤器来增强。FoggyCityscapes包括与Cityscapes相同的图像和8个cat-egories。• Sim10K是一个合成数据集,由来自视频游戏Grand Theft Auto V的10,000张图像组成,其中仅包括汽车类别。• KITTI[13]是由高分辨率彩色和灰度摄像机记录的数小时交通视频的数据集,包含7481个训练图像,并为8个类别提供注释:汽车,货车,卡车,行人,坐着的人,骑自行车的人,电车和其他。以下 [18]、 我们 实验 对 基准Cityscapes→ FoggyCityscapes关于天气适应-L箱=N(1−平均值(N(yi|bµ,b)),(8)i=1站,模拟10K→城市景观关于合成到真实适应, 《城市之歌》(City of City),其中()是正态分布的概率密度函数,用于计算获得Ldet的地面真值yi∈yS或Lcons的伪检测yi∈NyS,T的条件概率,giv en相应的ive平均值和由对象检测器r预测的变化量。N代表了 伊岛最后,总损失表示为以下各项的加权和:Ldet和Lcons:Ltotal=Ldet+γLcons,(9)其中γ是用于平衡监督项和自监督项的超参数。当伪检测更可靠时,一致性损失Lcons可以具有更大的重要性,反之亦然。 因此,我们将γ定义为摄像头自适应在后者的合成到真实和跨相机适应中,我 们 只 考 虑 汽 车 类 别 , 而 对 于 CityscapesFoggyCityscapes,我们考虑完整的8个类别。评估指标。我们评估我们提出的方法在目标域的平均精度(AP),这是计算结合精度和召回率为每个对象类别分别。我们通过对所有对象类别的AP进行平均来获得平均AP(mAP)。实作详细数据。我们的实验基于YOLOv5s架构,因为它在YOLOv5系列中的亮度我们将批大小设置为2,每个批包含一个源图像以及大小为600 600的目标图像。在我们所有的实验中,我们在源域上预训练模型,∈˜y428日→→→→→→∼→∼以COCO预训练的权值作为初始化,进行20个epoch,并进行50个epoch的自适应学习。在非最大抑制阶段,我们设置IoU阈值城市景观到0.5,并且置信阈值Cth到0.25,用于生产。伪检测。对于γ的计算,我们设置置信阈值Cγ为0.5。详情请参阅-补充材料中的超参数。4.1. 比较我们比较ConfMix对最近的国家的最先进的UDA方法的自适应对象检测的三个基准。特别地,我们比较了 诸 如 MGA [53] , MeGA-CDA [43], SSOD [36] ,ESTA [18],CDN [39],SAPN [22]等对抗性特征学习方法;基 于 伪标 签 的 自训 练 技 术 ,如 SC-UDA [49], IRL[44],FL-UDA [27],CTRP [52];和图推理工作,如扫描[25],SIGMA [26],GIPA [46]。我们还包括结果讨论。表1报告了ConfMix和所有比较方法在合成到 真 实 场 景 Sim10k Cityscapes 和 跨 相 机 场 景 KITTICityscapes中的结果。在这两个基准测试中,我们的ConfMix 都 获 得 了 最 先 进 的 适 应 性 能 , 在 Sim10kCityscapes上获得了+1.7%,KITTI上涨3.7%城市景观方面的mAP。表2报告了ConfMix和所有比较方法在天气适应场景Cityscapes FoggyCityscapes 中 的 每 类 检 测 性 能 。ConfMix和我们的上限“Oracle”之间的差距相当小,即。-1.5%。受此基准测试的低“Oracle”性能(低于MGA [53])的限制,我们的方法不太可能优于有关mAP的现有方法。然而,与SIGMA [26]相比,我们的方法在人类中实现了+1%的AP增益,与MGA [53]相比,在汽车类中实现了+2%的AP增益,这分别是在这些类中获得第二好AP的方法。实时分析。我们在单个NVIDIA Tesla V100上执行所有实验在自适应训练时,每个epoch需要13分钟,批量大小为2,而在Sim10K Cityscapes上每个epoch训练YOLOv5的时间为6分钟。在Cityscape数据集上,ConfMix的检测速度为每秒76帧,几乎等于YOLOv5的每秒79帧4.2. 消融研究我们通过对Sim10K Cityscapes的消融研究验证了我们方法的主要设计选择的影响。基于信任的区域混合是否有帮助? 我们肛交-表1. Sim 10 K/KITTI Cityscapes基准的定量结果(mAP)。yse各种不同的混合策略及其在适应后的对象检测性能方面的影响。具体来说,我们使用C梳置信度运行我们的方法,而不使用建议的渐进伪标记。 我们用5种不同 的 选 择 来 改 变 混 合 策 略 ( 如 图 所 示 ) 。 4 ) :CutMix [50]随机剪切目标区域并将其 与源图像混合;ConfMix(Vertical Mix)在中间垂直切割源图像和目标图像,并混合最有信心的目标区域; ConfMix(Hori-zirconia Mix)在中间水平切割源图像和目标图像,并混合最有信心的目标区域;ConfMix(2-regionMix)选择目标图像的两个最可信的区域进行混合;而ConfMix只选择目标图像的最可信区域进行混合。我们进一步研究了ConfMix的4分割方案,将分割区域的数量改变为6(2×3)和9(3×3)。如表3所示,与CutMix相比,我们的ConfMix实现了+5.6%的mAP增益,这意味着考虑最有把握的目标区域进行混合比随机剪切目标区域并混合更有好处它 与 源 图 像 进 行 适 配 。 ConfMix 的 性 能 也 优 于ConfMix(垂直混合)、ConfMix(水平混合)和ConfMix(2区域混合)。这意味着将更多的目标区域与源图像混合可能会对自适应性能产生负面影响,这可能是由于包括了大量的不太可信的目标伪检测。有趣的是,我们注意到切割方向,即,垂直或水平混合影响自适应性能,其中垂直混合比水平混合表现出更好的自适应性能;我们认为,这一现象取决于具体情况。特别是,对于有关自动驾驶场景的数据集,垂直混合总是包括目标和源样本的道路区域,因此更有可能包括对象,而水平混合可能仅包括不太可能Sim10K→KITTI→城市景观方法检测器骨干地图地图源仅YOLOv5CSP-Darknet5349.539.9SC-UDA [49]Faster R-CNNVGG-1652.446.4MeGA-CDA [43]Faster R-CNNVGG-1644.843.0[27]第二十七话Faster R-CNNVGG-1643.144.6CDN [39]Faster R-CNNVGG-1649.344.9[22]第二十二话Faster R-CNNVGG-1644.943.4CTRP [52]Faster R-CNNVGG-1644.543.6IRGG [44]Faster R-CNNResNet-5043.245.7特别会议[36]Faster R-CNNResNet-5049.347.6GIPA [46]Faster R-CNNResNet-5047.647.9MGA [53]FCOSVGG-1654.648.5SIGMA [26]FCOSVGG-1653.745.8扫描[25]FCOSVGG-1652.645.8[18]FCOSResNet-10151.245.0ConfMix(我们的)YOLOv5CSP-Darknet5356.352.2OracleYOLOv5CSP-Darknet5370.370.3 →429→→→→表2.Cityscapes→ Foggy Cityscapes基准的定量结果(mAP)图3.使用不同置信度设置训练的ConfMix模型的Sim10K Cityscapes场景的定性结果我们用蓝色bbx显示真阳性,用红色bbx显示假阴性,用橙色bbx显示假阳性。通过引入置信度之间的逐渐过渡,与仅使用Cdet进行训练相比,我们实现了更少的假阳性检测,与仅使用Ccomb进行训练相比,我们实现了更少的假阴性检测。包括对象。最后,我们的4区域划分方案导致最佳的自适应性能,与6和9个分区相比,mAP分别提高了+0.6%和+1.2%。这是由以下直觉支持的:较小的区域产生包含较大部分的源域的混合样本,并且增加了包含目标对象的概率,从而限制了对它们的完整表示的自适应学习。方法地图[50]第五十话49.1ConfMix(垂直混合)53.6水平混合(HorizontalMix)39.6ConfMix(2-区域混合)41.1ConfMix(6-division)54.1ConfMix(9-division)53.5ConfMix54.7表3.各种混合策略的目标检测精度渐进式伪标签有用吗?为了验证所提出的渐进式伪标记策略,我们研究了一组伪标记的变体。特别地,我们取消了仅使用Cdet或Ccomb对伪检测进行阈值化的做法。我们还研究了不同的方向的权重调整,即。C detC comb和C comb C det,以及不同的移位权重,其中r(在等式7中)表示线性衰减,δ(在等式6中)表示非线性衰减。我们提出的策略(Cdet Ccomb(δ))使用提出的移位权重δ逐渐从Cdet移位到更严格的Ccomb。如表4所示,仅使用Ccomb证明比仅使用Cdet进行自适应更有利,并且这主要是由于更可靠的伪检测。此外,我们通过使用非线性权重δ从Cdet到Ccomb逐步开发,获得了最佳结果。在早期自适应时限制性较小的置信度Cdet允许更多的目标伪检测,这可以帮助方法检测器骨干人骑手车卡车总线火车摩托车自行车地图源仅YOLOv5CSP-Darknet5334.837.648.714.330.18.814.628.127.1SC-UDA [49]Faster R-CNNVGG-1638.543.756.027.143.829.731.239.538.7MeGA-CDA [43]Faster R-CNNVGG-1637.749.052.425.449.246.934.539.041.8[27]第二十七话Faster R-CNNVGG-1630.451.944.434.125.730.337.241.837.0CDN [39]Faster R-CNNVGG-1635.845.750.930.142.529.830.836.536.6[22]第二十二话Faster R-CNNVGG-1640.846.759.824.346.837.530.440.740.9CTRP [52]Faster R-CNNVGG-1632.744.450.121.745.625.430.136.835.9MGA [53]Faster R-CNNVGG-1643.949.660.629.650.739.038.342.844.3IRGG [44]Faster R-CNNResNet-5037.445.251.924.439.625.231.541.637.1特别会议[36]Faster R-CNNResNet-5038.845.957.229.950.251.931.940.943.3GIPA [46]Faster R-CNNResNet-5032.946.754.124.745.741.132.438.739.5扫描[25]FCOSVGG-1641.743.957.328.748.648.731.037.342.1SIGMA [26]FCOSResNet-5044.043.960.331.650.451.531.740.644.2[18]FCOSResNet-10141.543.657.129.444.939.729.036.140.2ConfMix(我们的)YOLOv5CSP-Darknet5345.043.462.627.345.840.028.633.540.8430→→ → → →→→→图4.不同混合策略的说明。CutMix[50]随机剪切目标区域并将其与源图像混合。ConfMix(垂直混合)在中间垂直剪切源图像和目标图像,并混合最自信的目标区域。ConfMix(水平混合)在中间水平剪切源图像和目标图像,ConfMix(2-region Mix)选择目标图像的两个最可信的区域进行混合。最后,ConfMix(6-division)、ConfMix(9-division)和ConfMix将目标图像分别划分为6个、9个和4个区域,并仅选择最一致的目标区域进行混合。随着目标表征学习,而逐渐重量0.2 0.4 0.6 0.8 1γ平均年龄53.8 54.7 55.6 54.9 47.756.3表5.不同权重对目标检测精度的一致性损失。预拌时仅保留25%、50%、75%和100%(即,我们的设置)中最可靠的伪检测,其中置信度阈值C被固定用于过滤检测。如表6所示,减少伪检测的数量一致地导致比使用所有伪检测更差的结果,即,我们的设置。由于我们的渐进式伪标签方案,大多数误报都可以被过滤掉,因此置信度大于Cth的检测通常有助于模型学习目标特征。伪检测(%)25% 50% 75% 100%平均年龄表6.不同伪检测次数下的目标检测精度。样品混合是否比简单的自混合性能更好?转换到C的用法梳,我们提高了训练?我们将ConfMix与一个简单的基线进行比较,该基线包括应用朴素的微调,伪检测,从而有利于检测器的准确性。图3显示了仅使用Cdet、仅使用Ccomb以及我们提出的策略Cdet Ccomb(δ)时的定性检测结果。如可以观察到的,当仅使用Cdet时,模型更可能预测假阳性,而仅使用Ccomb的模型生成更多的假阴性。我们提出的逐步过渡策略可以更好地结合两个置信度进行自适应训练,在目标域上实现最佳的自适应性能。信心CdetCcombCcombCdetCcombC det(r)C comb(r)C det(δ)C梳状峰(δ)mAP52.754.755.054.954.356.3表4.目标检测精度与各种置信度有关伪标记一致性损失的重量重要吗?由于伪检测不可避免地带有噪声,我们有动机对一致性损失进行适当的加权,以避免引入伪检测错误。因此,我们研究了一致性损失的权重如何通过使用一组恒定权重来影响自适应性能,并与我们的动态权重γ进行比较。关于恒定权重,我们在0.2的步长中将其从0.2变化到1。如表5所示,使用γ作为稠度权重导致最佳mAP性能,与0.6的最佳恒定权重相比提高了+0.7%。因此,其值根据伪检测置信度而变化的动态权重的使用可以通过稳定训练和减轻过度拟合不可靠伪检测的问题来混合前伪检测的数量重要吗?我们分析了伪检测的数量-伪检测通过在源域上训练的模型,我们使用ConfMix中使用的相同置信度阈值Cth在目标数据集上生成伪检测,以过滤非最大抑制顶部的框。然后,我们扩展包含源样本和目标样本的训练数据集,以进行进一步的训 练。通 过这 种自 我 训练 ,我 们实 现了 30.5( Cityscapes Foggy Cityscapes ) 、 55.4 ( Sim10KCityscapes)和46.4(KITTI Cityscapes)的mAP,这比表1和表2中报告的ConfMix差得多,证实了我们建议的有效性。5. 结论我们提出了ConfMix,一种新的基于置信度的混合方法,用于以无监督的方式将在源域上训练的对象检测器提出了一种区域级的样本数据增强策略,将伪检测可信度最高的目标图像区域我们还引入了渐进式伪标记方案,通过逐步限制置信度,以促进从学习目标表示到提高检测精度的平滑过渡。我们将我们的方法与最先进的方法进行了比较,在两个基准测试中展示了其优越的性能作为未来的工作,我们将把我们的方法应用到自动驾驶以外的其他实际场景中,并提高其与不同对象检测框架的兼容性。431引用[1] Chaoqi Chen , Weiping Xie , Wenbing Huang , YuRong , Xinghao Ding , Yue Huang , Tingyang Xu ,Junzhou Huang.无监督局部自适应的渐进式特征对齐。在IEEE/CVF计算机视觉和模式识别会议论文集,第627- 636页[2] Chaoqi Chen , Zebiao Zheng , Xinghao Ding , YueHuang,and Qi Dou.协调可转移性和可辨别性以适应对象检测器。在IEEE/CVF计算机视觉和模式识别会议论文集,第8869-8878页[3] Jie-Neng Chen,Shuyang Sun,Ju He,Philip HS Torr,Alan Yuille,and Song Bai. Transmix:参与视觉转换器的混合。在IEEE/CVF计算机视觉和模式识别集,第12135[4] Yuhua Chen , Wen Li , Christos Sakaridis , DengxinDai,and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。 IEEE会议论文集计算机视觉和模式识别,第3339- 3348页,2018年。[5] 陈云春,林燕玉,杨铭轩,黄家斌。Crdoco:具有跨域一致性的像素级域转移。在IEEE/CVF计算机视觉和模式识别会议论文集,第1791-1800页[6] Jiwoong Choi、Dayoung Chun、Hyun Kim和Hyuk-JaeLee。高斯yolov 3:一个准确和快速的对象detector- tor使用定位不确定性的自动驾驶。在IEEE/CVF计算机视觉国际会议论文集,第502-511页[7] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,Stefan Roth,and Bernt Schiele.用于语义城市场景理解的cityscapes数据集在Proceedings of IEEEConference on Computer Vision and Pattern Recognition,第3213-3223页[8] 戴纪峰,易力,何开明,孙建。R-fcn:通过基于区域的全卷积网络的目标检测。神经信息处理系统的进展,2016年29日。[9] 邓中英,周开阳,杨永新,陶祥昂.多来源领域适应之领域注意一致性。arXiv预印本arXiv:2111.03911,2021。[10] Geoff French 、 Samuli Laine 、 Timo Aila 、 MichalMackiewicz和Graham Finlayson。半监督语义分割需要强的、变化的扰动。arXiv预印本arXiv:1906.01916,2019。[11] 雅罗斯拉夫·甘宁和维克多·伦皮茨基。通过反向传播的无监督国际机器学习会议论文集,第1180-1189页。PMLR,2015.[12] Yaroslav Ganin 、 Evgeniya Ustinova 、 Hana Ajakan 、PascalGermain、HugoLarochelle、FrancçoisLa violette、Mario Marchand和Victor Lempitsky。神经网络的领域对抗机器学习研究杂志,17(1):2096[13] Andreas Geiger,Philip Lenz,and Raquel Urtasun.我们准 备 好 自 动 驾 驶 了 吗 ? Kitti Vision 基 准 套 件 。 在Proceedings of IEEE Conference on Computer Vision andPattern Recognition,第3354-3361页[14] 罗斯·格希克。快速R-CNN。IEEE国际计算机视觉会议,第1440-1448页,2015年[15] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语 义 分 割 。 在 Proceedings of IEEE Conf
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功