跨域检测中的MeanTeacher对象关系探索

58 浏览量更新于2023-10-19 收藏 3.24MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

11457跨域检测算法中Mean Teacher对象关系的探索Qi Cai<$，Yingwei PanYuan，Chong-Wah Ngo<$，Xinmei Tian< $，Lingyu Duan< $，and TingYaoYao†中国科学技术大学，合肥，中国北京JD AI Research香港城市大学香港九龙分校北京大学{cqcaiqi，panyw.ustc，tingyao.ustc}@ gmail.com，cscwngo@cityu.edu.hk，xinmei@ustc.edu.cn，lingyu@pku.edu.cn摘要从带有标签的3D CAD模型合成图像(a) 更快的R-CNN结果渲染合成数据（例如，3D CAD渲染图像）来生成用于学习深度模型的注释近年来，视觉任务引起了越来越多的关注。然而，简单地将在合成图像上学习的模型应用于真实图像可能会由于域偏移而导致较高的泛化误差。为了解决这个问题，跨领域识别的最新进展是Mean Teacher，它直接模拟无监督的自适应作为半监督学习。因此，在师生方案中，自然地用一致性正则化来弥合域间隙。在这项工作中，我们提出了这意味着教师范式适用于跨域检测。具体来说，我们提出了Mean Teacher with Object Relations（MTOR），它通过将对象关系整合到教师和学生模块之间的一致性成本度量中从技术上讲，MTOR首先学习关系图，这些关系图分别为教师和学生捕获区域对之间的相似性。然后，整个架构通过三个一致性正则化进行优化：1）区域级一致性，以使教师和学生之间的区域级预测一致，2)图间一致性，用于匹配教师和学生之间的图结构;以及3）图内一致性，用于增强学生图内相同类的区域之间的相似性。在Cityscapes、Foggy C-ityscapes和SIM10 k之间的传输上进行了广泛的实验更值得注意的是，我们获得了一个新的单模型记录：22.8%的mAP在Syn2Real检测数据集上。1. 介绍深度神经网络已被证明对于在大规模数据集上学习视觉模型非常有效-*这项工作在JD AI Research进行。图1.通过（a）直接应用在来自3D CAD模型的图像上训练的Faster R-CNN，(b) 在这部作品中，我对《Mean Teacher》进行了改编S.迄今为止，在文献中，存在各种数据集（例如，ImageNet [41]和COCO [25]），其中包括注释良好的图像，可用于在各种视觉任务中开发深度模型，例如，识别[15，47]，检测[13，40]和语义分割[2，27]。然而，给定新的数据集，典型的第一步仍然是执行密集的手动标记，这是成本昂贵且耗时的。另一种方法是利用主要来自3D CAD模型的合成数据[34]，并且可以自由自动生成地面实况然而，许多以前的经验也表明，重新应用在合成数据上学习的模型可能会由于称为“域偏移”的现象而损害真实数据的性能取图1所示的对象检测结果(a) 例如，在来自3D CAD的合成数据上训练的模型不能准确地定位对象，例如个人和汽车。因此，无监督域自适应，其目的是利用标记的例子从源域和大量的未标记的例子在目标域，以减少对目标数据的预测误差，可以是一个可行的解决方案，这一挑战。最近在无监督自适应方面的一个开创性实践[9]是直接将此任务模拟为半监督学习。其基本思想是开发Mean Teacher [48]，这是半监督学习中最先进的技术，通过在输入扰动下追求两个预测的一致性来在跨域识别任务中工作（例如，图像的不同增强因此，域间隙通过Mean Teacher中的一致性正则化自然地桥接，其强制执行两个模型的预测（即，教师和学生），车Faster R-CNN真实图像(b)适应结果车人车适应老师11458(a)（b）第（1）款（c）第（1）款通过计算教师和学生的每对区域整个MTOR图2.跨域二进制分类任务的草图，其中源域中有两个标记的示例/区域（大蓝点），目标域中有一个图像的三个未标记的示例/区域（蓝色圆圈），展示了未标记的目标样本的选择如何影响跨域的统一拟合函数（灰色曲线）。(a)没有正则化的模型可以灵活地拟合任何只对标记源数据进行正确分类的函数。(b)使用增强标记源数据（小蓝点）训练的模型学习在标记数据周围产生一致的结果。(c)Mean Teacher [9]局部强制预测与每个目标样本周围的噪声一致，追求拟合函数（灰色曲线）的额外局部平滑。(d)具有图间一致性的MeanTeacher同时适应目标样本，以使它们的整体图结构抵抗噪声。（e）具有图内一致性的Mean Teacher在相同类别的目标样本之间实施额外的一致性，进一步改善了具有长程平滑的拟合函数。与每个未标记目标样品周围的扰动/噪声一致（图2（c））。Mean Teacher的目标是学习一个比没有正则化（图2（a））或仅增强标记源数据（图2（b））训练的模型更平滑的域不变函数。在本文中，我们新颖地考虑使用的平均教师跨域检测的观点，区域级和图形结构的双。区域级一致性的目标是将教师和学生模型的区域级分类结果与相同的教师生成的区域建议对齐，这反过来又隐含地加强了对象定位的一致性。图结构一致性的解释是基于一个图像中对象之间的内在关系在Mean Teacher的上下文中，这种图形结构的一致性（即，图间一致性）等同于匹配教师和学生模型之间的图结构（图2（d））。另一种图形结构的一致性，即，图内一致性被额外地利用来加强学生模型的图内的相同类别的图像区域之间的相似性（图 2（e））。通过将区域级和图形结构化的学习的思想合并到Mean Teacher中以促进跨域检测，我们提出了一种新颖的具有对象关系的Mean Teacher（MTOR），如图3所示。整个框架由Faster R-CNN相同主干下的教师和学生模块组成[40]。具体地说，每个标记源样本只通过学生模块进行监督学习检测，而每个未标记目标样本将通过两次随机增强分别输入教师和学生，从而能够对诱导噪声进行一致性度量。在训练过程中，使用教师生成的同一区域规划，将两个关系图连接起来，然后通过学生模式中的监督检测损失进行训练EL加上三个一致性正则化，即，区域级一致性用于对齐区域级预测，图间一致性用于匹配教师和学生之间的图结构，以及图内一致性用于增强学生中相同类的区域之间的通过区域级和图结构的检测，我们的MTOR可以更好地建立跨域的不变性，从而获得令人鼓舞的检测结果，如图1（b）所示。2. 相关工作物体检测。近年来，深度学习在对象检测方面取得了显著进展。R-CNN [14]是早期的作品之一，它利用两阶段范例进行对象检测，首先通过选择性搜索生成区域建议，然后将建议分类为前景类/背景。后来的Fast R-CNN [13]通过在区域建议中共享卷积特征来扩展这种范式Faster R-CNN [40]通过用准确有效的区域建议网络（RPN）取代选择性搜索来推进FastR-CNN接下来，一些子系统[7，8，18，22，23，33，46]努力提高两级检测器的精度和速度。另一种工作是通过跳过区域提议阶段以一阶段的方式构建检测器。YOLO [37]联合预测多个类别的边界框和置信度作为回归问题。SSD [26]通过利用不同尺度的多个特征图进一步改进了它已经提出了对单阶段方案的许多扩展，例如。[10、24、38、39]。在这项工作中，我们采用Faster R-CNN作为检测骨干，以提高其鲁棒性和灵活性。域适配。至于领域适应的文献，虽然它是相当庞大的，最相关的类别我们的工作是无监督的域适应深体系结构。最近的工作涉及基于差异的方法，这些方法通过最大平均差异（MMD）最小化域差异来另一个分支是通过学习域混淆来利用域混淆[11，12，44，49]。后来，自组装[9]扩展了Mean Teacher [48]的领域适应，并在几个跨领域识别基准上建立了新的记录。所有上述工作都集中在用于识别的域自适应上，并且最近已经对其他任务中的域自适应给予了很多关注对象检测[4，35]和语义分割[5，16，53]。对于对象检测的域自适应，[45]使用传输分量分析来学习跨域的公共传输分量，[35]使用子空间对齐来对齐区域特征。最近，[4]构建了一个（e）后之前（d）其他事项11459XtXtXtuuu2：w=不fTfS有监督丢失图内一致性区域级一致性图3.跨域检测的Mean Teacher with Object Relations（MTOR）概述，教师和学生模型在Faster R-CNN的相同主干下（更好地查看颜色）。每个标记的源图像被馈送到学生模型中进行有监督的检测学习首先将每个未标记的目标图像xt变换为两个扰动样本，即，xS和xT，t t然后将扰动后的样本分别注入学生模型和教师模型在训练期间利用在教师和学生之间共享的教师生成的区域建议RT的相同集合，两个关系图，即，GT和GS，分别通过计算教师和学生的每对区域之间的特征相似度来构造。接下来，设计了三种一致性正则化，以促进MeanTeacher范式中区域级和图级的跨域检测。结构化视角：1）区域级一致性，以调整教师和学生之间的区域级预测; 2）图间一致性，用于匹配教师和学生之间的图结构;以及3）图内一致性，用于增强学生的图内的同类区域之间的相似性。整个MTOR是通过最小化标记源数据上的监督损失加上未标记目标数据上的三个一致性损失来训练的。请注意，学生模型是用随机梯度下降优化的，教师的权重是学生模型权重的指数移动平均值域自适应更快的R-CNN通过学习域分类样本xu，一致性损失惩罚不同的在图像和实例级别上都是如此。学生的）和摘要与以前的工作类似[4]，我们的方法教师），通常计算为uT旨在利用其他未标记的目标数据进行学习-均方误差：使用域不变检测器进行跨域检测。本文的创新之处在于对“中庸”教师的开发，L孔（xu）=的||fS（xS;wf））−fT（xT;wf）||二、（一）域间隙与一致性正则化的对象检测的上下文中，这还没有以前探索。此外，图像区域之间的对象关系被优雅地集成到Mean Teacher范式中，以提高跨域检测。3. 半监督学习中的吝啬教师我们简要回顾了Mean Teacher的半监督学习[48]。Mean Teacher由两个模型组成，学生使用梯度下降进行训练，而教师在第t次迭代时的权重是学生权重wfSfT的α·w t−1+（1−α）·w t−1。 α是平滑系数控制教师权重更新的参数。因此，Mean Teacher中的总训练损失由标记样本的监督交叉熵损失和未标记样本的一致性损失组成，并与权衡参数λ进行平衡：相同的网络架构：由wfS参数化的学生模型fS和由wfT参数化的教师模型fT。教师的主要思想是鼓励预测，ΣL=（xl，yl）∈XLLCE（xl，yl）+λ·Σxu∈XUL cons（x u）.（二）教师和学生一致的输入或网络参数的小扰动下的tions换句话说，对于相同的未标记样本，通过两个不同的增强输入，教师和学生模型应该产生相似的预测概率。具体来说，在半监督学习的标准设置中，我们可以访问la-有标号集XL={（xl，yl）}和无标号集XU={xu}。4. 跨域检测中的Mean Teacher在本文中，我们重塑了检测骨干中的Mean Teacher（例如，更快的R-CNN）通过将对象关系集成到教师和学生之间的一致性正则化度量中来进行跨域检测。我们的平均教师与对象关系（M-给定两个扰动样本xS和xT同样的unla-TOR）框架的详细描述见图3。我们开始u u预测标签RCNNRCNNRPN特征图基本CNN特征图RPN基本CNN随机增强随机增强学生模型源图像目标图像老师模型特征图图间一致性S不11460RPNXtRXtRCNNSRXtXtXtXt不XtR不不ConvXtXtXtXtxtxtf=F（x），RRPNxt第一节阐述问题的提法。然后，提供了一个区域级的一致性，这是不同的原始平均教师在图像级的一般一致性，以促进在区域级的领域适应。此外，在MeanTeacher中引入了两种图结构的映射（inter-graph和intra-graph映射）来解释对象关系，实现了区域间的最后给出了综合各种约束的总体目标及其优化策略4.1. 问题公式化在无监督域自适应中，我们在源域中给出Ns个标记图像Ds={（xs，Bs）}，在目标域给出Nt个未标记图像Dt={xt}，其中Bs表示源图像xs的边界框注释。跨域检测的最终目标是设计依赖于Ds和Dt的域不变检测器。受最近半监督学习中基于一致性方法的成功启发[1，20，48]和平均值al图，我们使检测骨干-Faster R-CNN在Mean Teacher范式中跨域可转移，具有三个一致性正则化：1）区域级一致性（第4.2节），以对齐共享相同空间位置的教师和学生图中的顶点的区域级预测，2）图间一致性（第4.3节），用于匹配图结构（即，亲和矩阵），以及3）图内一致性（第4.4节），以增强学生图内属于同一类的区域之间的相似性。4.2. 区域级一致性与[9]在识别中追求图像级一致性以干扰输入不同，我们通过在教师和学生之间的相同区域提议下利用区域级一致性来促进跨域检测中的Mean Teacher。区域级一致性的设计有助于减少局部实例方差，如尺度、颜色抖动、随机噪声等，从而隐含地加强目标定位的一致性。从技术上讲，给定两个扰动样本xT和xS教师在跨域识别[9]，我们制定我们的t t跨域检测模型在一个平均教师范式，通过强制教师和学生模型的预测一致的扰动下输入未标记的目标样本。因此，每个标记的源样本xs通过学生模块来执行检测的监督同时，每个未标记的目标样本Xt首先被变换为两个扰动样本（即，xT和xS），然后馈入-一个未标记的目标样本xt，它们被馈送到教师和相同主干下的学生检测器（即，更快的R-CNN）。Faster R-CNN是一个两阶段检测器，由三个主要组件组成：用于特征提取的基本卷积神经网络（BaseCNN）、用于生成候选区域提议的区域提议网络（RPN）、以及用于对每个区域进行分类的基于区域的卷积神经网络（RCNN）。因此，随着ttxT的输入，教师FT的基本CNN首先，亲教师和学生模型分开。这使得学生和老师之间的一致性。在训练过程中，与MeanTeacher在跨域识别方面不同[9]，它只鼓励通用图像级t转换引入输出特征图fT。接下来，根据输出特征图fT，经由教师F T中的RPN生成一组区域提议R T={r t}：一致性，我们考虑更细粒度的一致性（即，区域级），其被定制用于对象检测。T T T Txt转换txt =F T（fT）。（三）此外，特别地，对于每个区域提议rt∈ RT，ROI池化层是设计用于在Mean用于提取固定长度向量fT从特征教师，这进一步促进适应调整的重新-图fT，它代表了教学中结果取决于对象之间的内在关系。儿RCNN在教师FT进一步将每个区域具体而言，鉴于同一套区域提案-特征fT作为输入，并将其分类为C前-T={rt}，我们构造两个关系图GT和GS来学习捕获任何一对关系图之间关系的仿射矩阵R地面类别和一个包罗万象的背景类。这里每个区域的预测是在背景加上前景类别上的概率分布，其被分解。分别在教师和学生中。注意我们使用记为dT= FT（FT）。因此，通过积累为简单起见，G ∈ {GT，GS}，即，G 表示图rRCNNRxtxtxt无论是老师GT还是学生GS更确切地说，由所有区域的预测结果建议，整个检测教师中的x T的输出表示为V T={dT}。似-将教师/学生中的每个区域视为一个顶点，通常，对于学生模型FS，另一个扰动像xS是构造了一个正则图Gxt={Vxt，Ext}，其中输入到它的基本CNNFS来制作特征图Vxt表示所有区域提案在教师/学生中，Ext是a（|Vxt|×|Vxt|）a familma-fS. 请注意，我们没有在student中通过RPN生成xS的另一组区域建议，而是直接将它的条目衡量了每一个t之间的相似性-两个地区。Ext是对称的，表示无向的RT老师的区域建议as the ones那些in student学生：加权图在两个构建关系的基础上-fS= F S（xS），RS= RT.（四）x t转换txtxt11461XtXtRXtXtXtXtXtRRJXtRJXtXtXtXtXtXtXtXtXtXtXtRmRnxtxt也就是说，我们赋予教师和学生相同的区域建议，使教师和学生之间的互动，以衡量区域水平的一致性。给定在学生中。因此，IntEr-G一致性损失（EGL）被定义为教师模型和学生模型中的图的亲和矩阵之间的均方误差：区域建议RS和特征图fS，我们可以获得LEGL=1· ||ES−ET||二、（七）每个区域建议的区域特征fS和相应的Xt|RT |2xtxt2响应概率分布dS=FS（fS），lead-rRCNNRS4.4. Student中的图内一致性对整个检测结果进行分析，学生VS={d r}。因此，区域一级的一致性被衡量为[21，42]自适应域的启发-教师VT以及图间一致性的设计，以进一步控制。学生VS.要更多地关注前景样本和舞台，在具有挑战性的跨领域检测中进行培训的情况下，我们遵循[9]，并采用置信度阈值过滤出背景区域的建议和低，强制同一类区域之间的相似性学生在老师的监督下的图表。具体而言，由于在非监督域自适应设置中没有为目标样本提供标签，因此我们直接利用置信前景区域建议与噪声。为教师分配每个区域的建议rt∈ RT一个对教师模型的每个区域建议rt∈RT，我们给出了”标号：r = a r g m ax j ∈ C（d T）. 2016- 05- 22 01：01：01（|RT|×|RT|）xtrjxt将置信度设为qT=maxj∈C（dT），其中C是监督矩阵MT是自然产生的，C前景类别和dT的集合是预测-两个区域是否属于同一类别：.第j个前景类别的ed概率。如果qT小于R置信度阈值为0，我们消除了区域propos-在RT。通过改进的区域建议（RT），（MT）（m，n）=1如果lrm=lrn，，（8）0否则。xtx t教师和学生的相应区域级预测dent（VT={dT}andVS={dS}），区域级其中，Rlrm和Rlrn表示两个区域的伪标签r，r∈RT。因此，考虑到xtrxtrMnxtConsiderLoss（RCL）计算为以下各项的平均值：学生ES以及监督矩阵MT，区域一级预测之间的均方误差intrA-G一致性损失（AGL）定义为：教师和学生对所有地区的建议：中文（简体）·（1−（ES））LRCL=1·Σ||dT− dS||二、（五）AGL1≤m，n≤|RT|xt（m，n）xt（m，n）Xt|RT|r r2r∈RTLxt=max（1，Σ1≤m，n≤|RT|（MT）（m，n））.（九）4.3. 图间一致性区域级的一致性仅单独对齐教师和学生中每个区域提案的预测，而未利用区域之间的关系。因此，从计算机视觉任务中的图结构开发[31，32，51，52]中受到启发，我们设计了一种新颖的图结构正则化，即，图间一致性，通过匹配教师和学生模型中构建的图的亲和矩阵来测量输入扰动下图结构的一致性。图间一致性的理论是每个图像中对象之间的内在关系对于不同的图像增强应该是特别地，对于在教师GT=中构造的图，注意，当至少两个区域在Rt中共享相同的伪标记时，触发LAGL。通过最小化图间一致性损失，增强了student中具有相同伪标签的区域之间的相似性，追求student图内较低的类内变异。4.5. 优化培训目标。我们的MTOR的总体训练目标集成了标记源数据Ds上的监督损失Lsup和三个一致性损失，即，区域级一致性L-RCL在等式(5)图间一致性Eq. (7)和图内一致性LAGL在等式（1）中。(9)在未标记的目标数据Dt上：Σ ΣT T TxtL=L（x，B）+λ·（LRCL+LEGL+LAGL），{Vxt，Ext}，教师Ext的亲和矩阵得到（xs，Bs）∈DssupS sxt∈Dtxtt tt tt将每个条目定义为两个区域之间的相似性例如，给定两个区域建议rm，rn∈ RT，（十）其中λ是折衷参数。E x t中的条目（Ext）m，n 计算为余弦相似度在区域表示（fT（fT）：重量更新。用标准SGD算法通过最小化L来优化学生网络FS。的11462Xt·f不（ET）m，n=||fTT Trmrn||f T||fT||.（六）迭代t时教师网络FT的权重更新为学生权重的指数移动平均值：rm2rn2wtT=α·wt−1+（1−α）·wt−1，（11）同样，我们得到学生E x S的亲和矩阵通过测量每两个区域之间的余弦相似度，FFTFS其中α表示平滑系数参数。F114635. 实验我们在两个不同的域转移s-cenarios中对跨域检测的MTOR进行了广泛的评估，包括城市场景中的一个正常到雾天的天气转移（Cityscapes[6]→雾城[43]）以及两个合成到真实的转换（即，SIM10k[19] →C-自然景观和3D CAD渲染图像→中的真实图像Syn2Real检测数据集[34]）。5.1. 数据集和实验设置数据集。Cityscapes数据集（C）是一个流行的语义理解基准，在城市街道场景中具有像素级注释，包含2，975张用于训练的图像和500张用于验证的图像。由于它不是专门用于检测的，我们遵循[4]并通过每个实例分割掩码的最紧密矩形为8个类别（人加7种交通工具）生成边界框注释。Foggy Cityscapes（F）是最近提出的模拟真实场景中雾的合成雾数据集。每个模糊的图像都是用Cityscapes的清晰图像和深度图渲染的。因此，Foggy Cityscapes中的注释和数据分割继承自Cityscapes。SIM10k（M）数据集包含从计算机游戏Grand Theft Auto V（GTA 5）渲染的10k图像，带有汽车的边界框注释。Syn2Real检测数据集是迄今为止最大的合成到真实对象检测数据集，在训练、验证和测试域中具有超过70k个图像。训练域由从3D CAD模型生成的8k个合成图像（S每个对象都独立渲染，并放置在白色背景上验证域包括来自COCO[25]（O）的3，289个真实图像，并且测试域包含来自YTBB[36]（Y）中的视频帧的60，863个图像。正常到有雾天气转换。我们遵循[4]并评估C→F在不同天气条件下的转移。Cityscapes中的训练集作为源代码域我们使用Foggy Cityscapes中的训练集作为目标域，并在其验证集上报告结果。合成到真实图像传输。我们考虑合成到真实的转移的两个方向：M→C和S→O/Y。对于M→C，我们利用整个SIM10k作为源域，并利用Cityscapes训练集作为目标域。结果报告在Cityscapes验证分割中。对于Syn 2 Real检测数据集上的S→O/Y，我们将训练集（合成图像）作为源域，将验证集（COCO）/测试集（YTBB）作为目标域。由于测试集的注释不是公开的，我们将结果提交到在线测试服务器进行评估。实施详情。对于 C→F 和 M→C ，我们采用在ImageNet[41]作为Faster R-CNN主干的基本架构。对于更具挑战性的 S→O/Y ， Faster R-CNN 主干主要构建在 152 层ResNet上。为在所有传输中，我们使用“以图像为中心”的采样策略[13]。调整每个输入图像的大小，使其比例（短边）为600像素。每个minibatch包含每个GPU的2个图像，一个来自源域，另一个来自目标域。我们在4个GPU上训练（因此有效的小批量大小为8），每个图像有128个采样锚点，阳性与阴性的比例为1：3 [13]。我们基于MXNet [3]实现了MTOR。具体地说，网络权值由SGD优化器训练，权值衰减为0.0005，动量为0.9.对于所有实验，学习率和最大训练时期被设置为0.001和10。置信度阈值λ根据经验设置为0.98S→O/Y为0.99。等式中的折衷参数λ(10)平滑系数方程中的参数α(11)分别设置为1.0和0.99。此外，我们的MTOR首先在标记的源数据上进行预训练。对于目标图像上的数据增强，我们首先用相同的空间扰动来增强每个目标图像，接下来，我们另外执行具有随机颜色抖动的两种不同类型的亮度、对比度、色调和饱和度增强）或PCA噪声，导致两个扰动的目标样本，一个用于学生，另一个用于教师。在[4]之后，我们报告了用于评估的IoU阈值为0.5的mAP。比较方法。为了从经验上验证我们的MTOR的合并，我们比较了以下方法：（1）Source-Only直接利用在源域上训练的Faster R-CNN模型来检测目标样本中的对象。(2)DA[4]设计了两个域分类器来消除图像级和区域级域差异，并通过一致性正则化器进一步加强(3)MTOR是本文的建议。此外，我们设计了三个退化的变种训练区域级一致性（MTORR），区域级加图间一致性（ MTORRE ），区域级加图内一致性（MTORRA）。(4)Train-on-target是一个oracle运行，在所有标记的目标样本上训练Faster R-CNN。5.2. 性能比较与分析正常到有雾天气转换。表1显示了Foggy Cityscapes验证集C→F转换的性能比较。总的来说，关于mAP分数的结果表明，我们提出的MTOR达到了超与最先进的技术（DA）相比，性能优越。特别是MTOR的平均功率平均值可达35.1%，比最佳竞争对手DA的平均功率平均值提高了3.1%。仅在标记的源数据上训练Faster R-CNN的Source-only的性能可以被视为没有自适应的下限。通过在图像和区域级别上额外地结合域分类器，DA导致比仅源的大的性能提升，这基本上表明了可重构的优势11464表1.Foggy Cityscapes验证集上不同模型的平均精密度（mAP），用于C→F转移。RCLEGLAGL人骑手车卡车总线火车mcycle自行车地图只有源25.735.936.019.430.89.729.028.926.9美国[4]29.240.443.419.738.328.523.732.732.0MTORRC30.841.544.121.637.835.126.735.834.2MTORRECC28.740.145.922.938.038.626.934.934.5MTORRACC29.641.243.722.238.440.927.835.334.9mTORCCC30.641.444.021.938.640.628.335.635.1准点训练31.442.651.728.843.440.231.733.237.9表2.Cityscapes验证集上车辆的平均精度（AP），用于M→C转移。在源数据和目标数据上检查域差异。请注意，为了公平比较，我们基于相同的50层ResNet架构重新实现了DA。怎么-(a) 仅来源(b) DA(c) mTOR图4. COCO的S→O检测结果示例。费与其他基线相比，我们提出的MTOR实现了明显的性能改进。类似于在SIM10k、Cityscapes和然而，DA的性能仍然低于我们的MTORR，MTOR R在Mean Teacher范式中利用区域级一致性正则化。这证实了在未标记目标样本扰动下实施区域级一致性对于跨域检测的有效性。此外，通过从图间或图内的角度，通过图结构化的概念，进一步将对象关系集成到Mean Teacher范式中，我们的MTORRE和MTORRA改进了MTORR。实验结果表明，图间一致性在匹配教师和学生之间的图结构方面具有优势，而图内一致性在增强学生中同一类区域之间的相似性方面具有优势。MTOR通过同时使用区域级和两个图结构的映射，进一步提高了性能，体现了Mean Teacher范式中图间映射和图内映射的优点.合成到真实图像传输。表2总结了M→C上合成到真实传输任务的性能比较。我们的MTOR表现出更好的每-比其他跑步更快。特别是，汽车的AP为MTOR可以达到46。6%，比DA绝对改善4. 百分之七。类似于正常到雾天气转移中的观测，MTORR通过在Mean Teacher中对齐区域级预测而比DA表现得更好，并且通过在MTORRE和MTORRA中结合图间和图内一致性来进一步提高性能。结合所有这三个一致性regularizations，我们的MTOR实现了最佳性能。我们进一步评估了我们在更具挑战性的Syn 2 Real检测数据集上进行S→O/Y转移的方法。表3显示了S→O反式上的性能比较。雾中的城市景观，MTORR的表现优于DA，考虑目标样本的区域级一致性，用于跨域检测。此外，MTORRE和MTORRA分别采用图间一致性和图内一致性作为搜索目标，其搜索性能优于MTORR，而我们还将我们的MTOR、Source-only和DA提交到在线评估服务器，并在官方测试集上评估了性能表3总结了官方测试集YTBB用于S→Y转换。结果清楚地表明，我们的MTOR优于其他两个基线。定性分析图4显示了通过三种方法对COCO进行S→O转移的检测结果的四个示例，即，仅限源，DA和我们的MTOR。的示例结果清楚地表明，我们的MTOR可以通过在MeanTeacher paradig-m中探索区域级和图结构的一致性来例如，MTOR正确地检测在仅源和DA中遗漏的第四图像中的人参数λ和α的影响。为了阐明等式中折衷参数λ的影响，(10)以及方程中的平滑系数参数α(11)，我们在图5中示出了具有不同折衷/平滑系数参数的性能曲线。如图所示，我们可以看到λ和α的mAP曲线都大体上像“当λ在0. 1至5μ0和α变化在0. 92比0 九九九九。当λ为1时实现最佳性能。0，α约为0。九十八最高置信度检测的误差分析到马自行车车电机马植物自行车自行车自行车车电机自行车人自行车马马植物person人车电机电机自行车RCLEGLAGL汽车AP只有源39.4美国[4]41.9MTORRC45.9MTORRECC46.1MTORRACC46.3mTORCCC46.6准点训练58.611465表3.针对S→O/Y传输，Syn 2 Real检测数据集上不同模型的平均精度（mAP）RCL EGL AGL平面自行车总线车马刀mcycl人厂sktbd火车卡车地图用于S→O转移的验证集（COCO）上的mAP：只有源30.025.331.3 14.017.31.925.618.514.714.721.12.218.1美国[4]30.324.131.3 14.017.41.327.418.917.514.521.83.118.5MTORRC32.022.829.1 15.320.80.632.422.20.518.236.90.619.3MTORRECC33.321.232.9 13.118.13.132.224.01.420.534.40.619.6MTORRACC35.424.032.1 14.919.11.831.624.23.718.931.72.020.0mTORCCC35.524.932.9 15.419.11.831.421.814.418.930.41.720.7准点训练84.552.277.5 58.776.128.965.471.949.270.583.852.564.3用于S→Y转移的官方测试集（YTBB）上的mAP：只有源28.418.423.8 28.435.83.635.78.68.414.86.45.218.1美国[4]38.016.123.3 30.733.04.734.86.115.714.09.89.519.6MTOR（我们的）CCC42.821.031.3 33.342.910.238.57.212.918.07.28.222.835.2%35.0%34.8%百分之三十四点六百分之三十四点四34.2%35.4%35.2%35.0%34.8%百分之三十四点六百分之三十四点四34.2%图5.参数λ和α对C→F转移的影响(a) （b）发展援助（c）中期业绩报告图6.C→F上最高置信度检测的误差分析。为了进一步阐明区域层次和图形结构的统计分析在平均教师范式中的作用，我们分析了仅源、DA和MTOR由Foggy C-ityscapes上C→F转移的最高置信度检测引起。我们遵循[4，17]并将检测分为3种类型：正确（IoU与地面实况≥ 0.5），错误定位（0.5> IoU与地面实况≥0.3）和背景（IoU与地面实况0.3）。<对于每个类，我们选择前K个预测，其中K是这个类中的地面实况边界框的数量。我们在图6中报告了所有类别中每种类型的平均百分比。与仅源相比，DA和我们的MTOR明显提高了正确检测的数量（o范围颜色），并减少了误报的数量（其他颜色）。此外，通过利用Mean Teacher中的区域级和图形结构化的映射，MTOR导致比DA更小的错误定位和背景误差关系图的可视化。图7还示出了示例性关系图的可视化（即，亲和矩阵）由仅源、DA和我们的M-Tor onFoggy Cityscapes forC →F transfer. 对于每种方法，我们提取每个地面真值区域的区域表示，并通过计算构造关系图。每两个区域之间的余弦相似度。注意，前三个区域属于汽车类，其余四个区域属于人类。因此，我们可以清楚地看到，MTOR的大多数类内相似性高于仅源和DA。结果表明，该方法的优越性。(a) （b）发展援助（c）中期业绩报告图7.Foggy Cityscapes上关系图的可视化。在MTOR中强制执行图内一致性的阶段，导致用于对象检测的更具鉴别力的区域特征。6. 结论我们提出了 Mean Teacher with Object Relations（MTOR），它以无监督的方式探索了对象检测的领域适应。特别地，我们从区域层次和图结构两个角度研究了中庸之道范式下的问题。为了验证我们的说法，我们已经建立了两个关系图，分别捕捉教师和学生的区域对之间的相似性。区域级一致性是使教师和学生之间的区域级预测一致，这有助于区域级的领域适应。图间一致性进一步匹配教师和学生之间的此外，利用图内一致性来增强学生中同一类区域之间的相似性，从而使图具有较低的类内变异。在Cityscapes、Foggy Cityscapes和SIM10k之间进行的传输实验验证了我们的建议和分析。更值得注意的是，我们在Syn2Real检测数据集上实现了单一模型在合成到真实图像传输上的最新性能。致谢。这项工作得到了中国国家重点研发计划的部分支持&，合同号为。2017YFB1002203和国家自然科学基金编号：61872329。0.10.20.51.02.05.0权衡参数0.92 零点九五 0.98 0.990.9990.9999平滑系数参数百分之二十九百分之六十四占7%百分之三十四百分之五十六百分之十个人1person24car3car2个人3人1车正确百分之三十八错误定位百分之五十四百分之八场景地图地图11466引用[1] 本·阿西沃拉特昆，马克·芬齐，帕维尔·伊兹梅洛夫，还有安德鲁·戈登·威尔逊.用加权平均法改进基于一致性的半监督学习。arXiv预印本arXiv：1806.05594，2018。[2] Liang-ChiehChen ， GeorgePapandreou ， IasonasKokkinos，Kevin Murphy，and Alan L Yuille.Deeplab：使用深度卷积网络、atrous卷积和全连接crfs进行语义IEEE Trans. on PAMI，2018.[3] Tianqi Chen ， Mu Li ， Yutian Li ， Min Lin ， NaiyanWang，Minjie Wang，Tianjun Xiao，Bing Xu，ChiyuanZhang，and Zheng Zhang.Mxnet：一个灵活高效的机器学习库，用于异构分布式系统。在机器学习系统的工作车间，NIPS，2016年。[4] Yuhua Chen ， Wen Li ， Christos Sakaridis ， DengxinDai，and Luc Van Gool.领域自适应更快的r-cnn的对象检测在野外。在CVPR，2018年

下载后可阅读完整内容，剩余1页未读，立即下载