没有合适的资源?快使用搜索试试~ 我知道了~
7571简单的多数据集检测Xingyi Zhou1VladlenK oltun2Philipp Kr aühenb uühl11德克萨斯大学奥斯汀分校2苹果摘要我们如何建立一个通用和广泛的目标检测系统?我们使用所有的标签的所有概念曾经注释。这些标签跨越具有潜在不一致分类的不同数据集。 本文提出了一种在多个大规模数据集上训练统一检测器的简单方法。我们使用特定于以太网的训练协议和损失,但与特定于以太网的输出共享一个共同的检测架构。我们展示了如何自动集成这些特定于机器人的输出到一个共同的语义分类。与以前的工作相比,我们的方法不需要手动分类法协调。实验表明,我们学习的分类优于专家设计的分类在所有数据集。我们的多数据集检测器在每个训练域上的性能与特定于特定代码可在https://github.com/xingyizhou/UniDet上获得。1. 介绍计算机视觉旨在产生广泛的,通用的感知系统,在野外工作。然而,对象检测被分割成数据集[18,22,24,33],我们的模型被锁定在相应的域中。这种碎片化带来了对象检测[5,10,20,31,39,45]和实例分割[14]的快速进步,但也带来了缺点。 单个数据集有限 在图像域和标签词汇表中,并且不产生通用的识别系统。我们能否通过统一不同的检测数据集来消除这些限制在本文中,我们首先在一组不同的数据集上训练对象检测器,就像在单个数据集上训练一样简单不同的数据集通常在不同的训练损失、数据采样策略和时间表下进行训练。我们证明了我们可以为每个数据集训练一个具有单独输出的检测器,并对每个数据集应用我们的训练模拟了用一个通用网络训练并行的特定于以太网的模型。因此,我们的单个检测器充分利用了所有训练数据,在训练域上表现良好,并且具有推广性CocoCoco熊鱼OpenImages熊汽车Mapillarycar汽车马皮拉里树OpenImages椅子Coco垃圾桶Obj365胡萝卜叉子COCO香肠OpenImages图1.不同的数据集跨越不同的语义和视觉领域。我们学习统一多个数据集的标签空间,并训练一个跨数据集泛化的单个对象检测器。更好地去新的未知领域。但是,此检测器会为出现在多个数据集中的类产生重复输出。一个核心挑战是将不同的数据集集成到一个通用的分类法,并训练一个检测器,该检测器对一般对象进行推理,而不是对特定于特定类别的对象进行推理。传统方法手工创建这种分类法[19,47],这既耗时又容易出错。我们提出了一种全自动的方法来统一的多数据集检测系统的输出空间,只使用视觉数据我们使用这样一个事实,即来自不同数据集的类似概念的对象检测器会在类似的新对象上开火。这使我们能够定义跨数据集合并概念的成本,并完全自动地优化公共分类法。我们的优化共同找到一个统一的分类,从这个分类映射到每个数据集,并在统一的分类使用一种新的0-1整数规划公式的检测器。在这种统一分类法上训练的对象检测器具有来自所有训练数据集的大量自动构造我 们 评 估 我 们 的 统 一 对 象 检 测 器 在 一 个unprecedented规模。我们在3个大型和不同的数据集上训练统一的检测器:COCO [22]、Objects 365 [33]和OpenIm- ages [18]。这是第一次,我们表明,一个单一的检测器执行,以及特定的模型对每个indi,7572∈∈D∈ΘD DD D D∪∪Θ12vidual dataset.统一的分类法进一步改进了该检测器。至关重要的是,我们证明了在不同训练集上训练的模型可以在没有重新训练的情况下推广到新的领域,并且优于单数据集模型。2. 相关工作在多个数据集上进行训练。近年来,在多个不同的数据集上进行训练已经成为提高深度估计[29],立体匹配[43]和人员检测[13]的模型鲁棒性In these domains,unifying the output space involves modeling dif- ferentcamera transformations or depth ambiguities. 相反,对于识别,数据集统一涉及合并不同的语义概念。MSeg[19]手动统一了7个语义分割数据集的分类,并使用Amazon Mechanical Turk解决数据集之间相比之下,我们建议从视觉数据自动学习标签空间,而不需要任何手动工作。Wang et al. [40]在多个数据集上训练通用对象检测器,并通过加入不同的监督源来获得鲁棒性。这类似于我们的分区检测器,虽然它们工作在小数据集上,并且没有对不同数据集之间的训练差异进行建模。Universal-RCNN [42]在三个大型数据集[17,22,48]上训练分区检测器,并使用数据集间注意力模块对类关系进行建模然而,它们再次对所有数据集使用相同的训练配方,并且如果同一对象出现在多个数据集中,则为同一对象产生重复的输出。Wang et al.[40]和MSeg[19]在单个统一模型中观察到性能下降。在我们的专业培训框架下,情况并非如此:我们的统一模型在训练数据集上的表现与单数据集模型一样好。此外,这些多头模型为每个输入图像产生特定于小块的预测。当在域中评估时,它们需要测试域的知识当在域外评估时,它们为单个概念产生多个输出。这限制了它们的通用性和可用性。我们的方法,另一方面,统一的视觉概念在一个单一的标签空间,并产生一个单一的一致的模型,不需要知识的测试域,可以干净地部署在新的领域。Zhao等人。[47]在多个多个数据集:COCO [22]、Pascal VOC [6]和SUN- RGBD [37],总共不到100个类。他们手动合并分类,然后使用特定于数据集的模型生成的跨数据集伪标签进行训练伪标签的想法是对我们工作的补充。我们统一的标签空间学习消除了手工 劳 动 , 并 在 更 大 的 规 模 上 工 作 : 我 们 统 一 了COCO,Objects365,和OpenImages,具有更复杂的标签空间,LVIS [12]以联邦的方式将COCO注释扩展到>1000个类我们融合多个带注释的数据集的方法是互补的,并且可以在没有手动操作的情况下实现统一不同的对象检测数据集。关于训练集之外的新对象类别的零镜头分类和检测原因[1,8]。这通常是通过语义嵌入[25]或辅助属性注释[7]来表示新类来实现的 在零射击检测中,Bansal etal.[1]提出了一种静态分配的背景模型,以避免新的类被检测为背景。Rahman等人[28]使用测试时训练来逐步生成基于单词嵌入的新类别标签。Li等人。[21]利用外部文本描述来描述新的对象。我们的程序是互补的:我们的目标是通过在训练过程中合并不同的数据集来构建一个足够大的标签空间,这样即使没有诸如词嵌入或属性之类的机器,经过训练的检测器也可以很好地跨域如果需要,可以添加这样的机器,以进一步扩展我们模型3. 预赛目标检测的目的是预测一个位置,R4和类检测得分diR|L|对于图像I中的每个对象i。检测分数描述了边界框属于具有标签c L的对象的置信度,其中L是数据集的所有类(标签空间)的集合。许多关于对象检测的现有工作都集中在COCO数据集[22]上,该数据集包含80个常见对象类的均衡注释。这种类平衡简化了训练并产生良好的泛化。在COCO上训练对象检测器遵循一个简单的配方:在采样图像I和其对应的注释边界框annota上最小化损失l,从数据集D中提取的选项B:minE(Iθ,Bθ)<$Dθl(M(Iθ;Θ),Bθ)<$.(一)这里,B包含类特定的框注释。lossl对输出和注释的集合进行操作,并使用重叠标准来匹配它们。现在让我们考虑在多个数据集1,2,.上训练检测器。. . ,每个都有自己的标签空间L1,L2,在多个数据集上训练的一种自然方法是简单地将所有数据集的所有注释组合成一个较大的数据集 =1 2 ,并合并其标注空格L=L1L2.................. 跨数据集合并。然后,我们用更多的数据优化相同的损失minE(I,B)DD.l(M(I(二)900+类。YOLO9000 [30]结合了检测和分类数据集,以扩展检测词汇。这在较小的均匀分布的数据集上显示出了希望[6,40,41]。它的优点是7573××××∈ T≤不T → T ∈{}MDDMMM不LΣ我不我minE(I,B)DkIk(Mk(I;Θ),B)K KΣ TT1,=T1. - 是的- 是的、NL、TDKCCCTΣTΣ将模型分割成联合检测器,12我数据集之间的类在更大的注释集上训练。然而,现代大规模检测数据集具有更自然的不平衡类分布。Objects365 [33]包含的图像比COCO多5个,OpenImages [18]比COCO多18虽然Objects365和OpenImages中前20%的类分别比COCO多包含19和20个图像,但后20%的类实际上比COCO少。类分布和数据集大小的这种不平衡几乎保证了数据集的简单串联将无法工作。事实上,即使是相同的损失(1)也不适用于所有数据集。最成功的Objects365模型[9]采用类感知采样[35]。OpenImages模型以不同的方式处理稀有类[38],并对损失中的类层次结构进行建模[26]。这表明在数据集Dk上训练检测器Mk需要特定于网络的损耗lk:4.1. 学习统一标签空间考虑多个数据集,每个数据集都有自己的标签空间L1,L2,. . . . 我们的目标是为所有数据集共同学习一个公共标签空间L,并定义这个公共标签空间和特定于数据集的标签k之间的映射:LL k.从数学上讲,K0、1|Lk| ×|L| 是布尔线性变换。在这项工作中,我们只考虑直接映射。 每个联合标签c∈L映射到at最多一个特定标签Lk:kT11.一、也就是说,数据集本身不包含重复的类。另外,每个特定于关节的标签只与一个关节标签匹配:k1=1。特别是,我们没有在数据集之间分层地关联概念。当有不同的标签粒度时,我们将它们都保存在标签空间中,并期望预测所有的标签粒度1。给定一设置的分区检测器输出d1∈R|L1|,d2∈R|L2|,的。-是的-是的对于边界框B1,我们Σˆ ˆΣΘ通过简单地平均联合检测得分di来建立联合.(三)公共类的输出:没有单一的损失推广到所有数据集。下一秒-因此,我们对多数据集训练提出了不同的看法。TdkKK并展示如何训练一个在所有数据集上都表现良好的模型。其中除法是按元素的。图2c提供了概述。从这个联合检测器,我们恢复数据集-具体产出d =Tkd i. 我们的目标是找到一套4. 训练多数据集检测器我们的目标是在K个数据集上训练一个检测器1,. . .,K,其标号空间为L1,. . .,L K,以及数据集特定的训练目标l1,. - 是的- 是的,l K. 我们的核心见解是,我们可以像单独训练多个特定于数据集的检测器一样训练统一的检测器,只要我们不试图合并不同数据集之间的标签空间。 这可以被认为是训练K个特定于数据集的检测器1,. - 是的- 是的 ,K并行,同时共享它们的骨干架构。除了最后一层之外,每个特定于小行星的架构都与共同的骨干共享。每个数据集都使用自己的分类层,映射不并且隐式地定义联合标签空间L,使得联合分类器在性能上不降级。简单的基线包括手工设计的映射和标签空间L[19,47],或基于语言的合并。这些技术的一个问题是词标签是模糊的。相反,我们让数据说话,并根据预先训练的分区检测器在不同图像上的发射相关性自动优化标签空间,这是感知相似性的代理。对于特定的输出类c,设c是度量合并标签空间di的质量的损失函数,并且它的重新投影与原始的不相交标签相比是dk端我们称之为分区检测器(图2b)。我们通过最小化我在单个盒子i上间隔dk。设Dk=[dk,dk,. . - 是的]bethe数据集Dk的分区检测头的输出。让K-100具体损失:D=TTDk是合并的检测分数,并且Dk= T T D k是合并的检测分数。Σ Σ ΣΣ最小EΘDE(I,B)DkKk k~kTkT1kD是重投影。我们的目标是在给定布尔约束的情况下,在所有检测器输出上优化这种损失。这里,均匀地采样数据集,即,向分区检测器显示来自每个数据集的相同数量的图像,正如我们将在第5节中所展示的那样,它在经验上最有效。当分区检测器学习检测所有类别时,我们的映射minimizeEL(Dk,Dk)+λ|L|(六)c∈Lk它仍然产生不同的特定于以太网的输出。例如,它预测一个COCO-人,与一个Objects 365-人分开,等等。接下来,我们将展示如何将此满足Tk1= 1和TkT1≤1k。基数惩罚λ|L|鼓励小而紧凑的标签空间。损失Lc在di=(五)lk(Mk(Iκ;Θ),Bκ).(四)7574输出标签的统一集合L = L1<$L2<$。-是的- 是的.1这遵循OpenImages的官方评估协议[18]。7575∈不× ××T∈联系 我们不∈联系我们DT∈||∈| |||||||T|DΣCCc c c cc c联系我们CocoCocoCocoCoco类O365类OID类(a) 单数据集检测器损失1O365损失200OID损失300类O365类OID类(b) 分区检测器损失1O365损失200OID损失300(c) 统一检测器图2.标准检测器(a)在具有数据集特定损失的一个数据集上训练我们在具有共享骨干、数据集特定输出和损失的多个数据集上训练单个分区检测器(b)最后,我们将分区检测器的输出完全自动地统一在一个公共分类中(c)。输出空间c Lk可能看起来是限制性的。然而,它确实包括检测中最常见的损失函数:评分失真和平均精度(AP)。第4.2节讨论了我们优化中使用的精确损失函数。目标6将L上的组合优化与L上的0-1整数规划混合。然而,有一个简单的重新参数化,有助于有效的优化,mization首先,观察标签集L简单地对应于T中的列数。此外,我们每个数据集最多合并一个标签TkT1≤1。因此,对于每个数据集k列k(c)Tk取Lk +1值之一: Tk=0,11,12,. . . ,其中1i0、1|Lk|是第i个元素的指示符向量。每一列(c)T然后只选择从一个小的一组潜在的价值T=T1T2。. . ,其中表示笛卡尔积。我们不是直接优化标签集L和转换,而是使用combinato-在tT的潜在列值上的序列优化。设xt0、1 是组合t的指示器T.xt=1意味着我们应用由t指定的类组合,否则不应用。 在这个公式中,约束数据集,它减少到加权图匹配,是NP难的,但实际上是可解的整数线性规划明[23]。组合重构的一个缺点是,潜在组合T的集合在所使用的数据集中呈指数增长:T=O(L1L2L3. -是的-是的)的情况。 然而,大多数合并t T都是坏的,并且产生大的合并成本ct。补充材料提出了一个线性时间贪婪枚举算法的低成本合并,与一个pruning超参数τ。只考虑低成本匹配,标准整数线性规划求解器找到一个最佳的,我们尝试的所有标签空间在几秒钟内都可以找到错误的解决方案,即使是|L|>600个,最多6个数据集。4.2. 损失函数我们的约束目标6中的损失函数是相当一般的,并且捕获了广泛的常用损失。我们强调两个:一个无监督的目标,基于分区和统一的输出之间的失真,和平均精度(AP)的验证集。失真测量分区检测器和统一检测器之间的检测分数差异:对于所有数据集特定的标签c,k1=1k转化为tTt(c)=1xt=1。此外,优化的目标简化为Ldis t(Dk,Dk)=.Dk−Dk2.(九)ΣΣkk这种失真度量的缺点是在优化t∈T xtEDkc∈L k|t(c)=1Lc(Dc,Dc)<$+λt∈T xt.(七)联合标签空间。平均精密度。考虑到重新预测的特定于Ct重要的是,可以为标签t的任何子集预先计算合并成本ct。这导致目标6的紧凑整数线性规划公式:输出Dk,我们可以测量平均精度APc(Dk)在k的验证集上的每个输出类c。我们的损失衡量AP的改善:LA P(Dk,Dk)=1。AP(Dk)−AP(Dk)(十)CcCc最小化x阿托克斯t(ct+λ)C cc|L k|t∈T受t ∈T |tc=1xt=1c(8)Coco检测器O365检测器OID检测器Coco头共享O365主干头OID头Coco头共享O365主干头OID头7576AP计算在计算上相当昂贵。我们将在代码中提供优化的联合评估这两个损失函数允许我们训练分区检测器并在训练后合并其输出空间对于两个数据集,上述目标等价于加权二分匹配。对于更多的最大化原始评估度量(AP)或最小化由统一引起的变化。7577×5. 实验我们的目标是促进训练一个在数据集上表现良好的单一模型。在本节中,我们首先介绍我们的数据集设置和实现细节。在第5.1节中,我们分析了我们的关键设计选择的一个partitioned检测器基线。在第5.2节中,我们评估了我们的统一检测器和统一标签空间学习算法。我们进一步在交叉数据集评估(第5.3节)中评估新测试数据集中的统一检测器,而无需对测试域进行任何训练。数据集。 我们的主要训练数据集来自Robust VisionChallenge(RVC)2。这是用于对象检测的四个大型数据集:COCO [22]、OpenIm- ages [18]、Objects 365 [33]以及可选的Mapillary [24]。为了评估模型的泛化能力,我们按照MSeg [19]建立了一个跨数据集评估协议:我们在新的测试数据集上评估模型,而不对它们进行训练。具体来说,我们在VIPER [32],Cityscapes[3],ScanNet [4],WildDash [44],KITTI [11],PascalVOC [6]和CrowdHuman [34]上进行测试。所有数据集的详细描述包含在补充中。在我们的主要评估中,我们 使 用 大 型 和 通 用 数 据 集 : COCO 、 Objects365 和OpenImages。Mapillary相对较小,并且特定于交通场景;我们只为RVC和跨数据集实验添加它。对于每个数据集,我们使用其官方评估指标:对于COCO、Objects365和Mapillary,我们使用IoU阈值为0.5到0.95的mAP。对于OpenImages,我们使用官方修改的mAP@0.5,它排除了未标记的类并强制执行分层标签[18]。对于交叉数据集评估中的小数据集,我们使用IoU阈值0.5的mAP ,以与PascalVOC 保持一致[6]。实作详细数据。 我们使用CascadeRCNN检测器[2]和跨数据集的共享区域建议网络(RPN)。我们在实验中评估了两个模型:分区检测器(即,检测器,具有特定于电池的输出头)和统一的检测器。对于分区检测器,所有级联阶段的最后分类层在数据集之间分裂统一检测器使用CascadeR-CNN [2]。我们的实现基于Detectron2 [41]。我们采用大多数默认的超参数进行训练。我们使用标准的数据增强,包括随机翻转和缩放范围[640,800]内的短边。我们使用SGD,基本学习率为0.01,批量大小为16,8个GPU。除非另有说明,否则我们使用ResNet50 [15]作为对照实验中的主干。我们在大多数实验中使用2训练时间表(180k迭代,学习率在120k和160k迭代时下降)[41],除非另有说明,无论训练数据大小如何。2http://www.robustvision.netCOCO O365 OImg平均值简单合并[40]34.214.6 50.8 33.2使用统一数据集采样41.116.5 46.0 34.5w/类感知采样35.318.5 61.8 38.5w/数据集+类感知采样41.820.3 60.0 40.6分区探测器(我们的)41.820.6 62.7 41.7表1. 多数据集训练策略的有效性。我们从简单的数据集合并开始[40],然后在不同的训练数据集之间添加图像的我们的parti- tioned检测器将这些采样策略与特定于数据集的损失(最后一行)相结合。5.1. 多数据集检测我们首先评估分区检测器。我们使用特定于数据集的输出,并且不合并不同数据集之间的类在评估期间,我们假设目标数据集是已知的,并且仅查看相应的输出头。如第4节所述,我们的基线强调了两个基本组成部分:数据集和数据集特定训练目标之间的图像的均匀采样。对于这些实验,我们区分了对象的修改,这些修改仅在每个数据集内以不同的方式采样数据(例如,类感知采样),以及损失函数的变化(例如,分级损失)。我们从[40,41]的基线开始。它们只是从所有数据集中收集所有数据,并使用共同的损失进行训练。如表 1 所 示 , 这 会 使 模 型 偏 向 于 大 型 数 据 集( OpenImages ) , 而 对 于 相 对 较 小 的 数 据 集(COCO),性能较低对数据集进行均匀采样(第二行)可以将较小数据集的性能与大型数据集的性能进行比较,从而提高整体性能。另一方面,OpenImages和Objects365都是长尾的,并且最好使用高级数据集间采样策略[26,35]进行训练,即类感知采样。类感知采样显著提高了Open- Images和Objects 365的准确性。将统一数据集采样和数据集内类感知采样相结合,可以进一步提高性能。最后,OpenImages [18]需要预测标签层次结构。例如,它需要预测这打破了默认的交叉熵损失,该损失假定每个对象具有排他性的类标签。相反,我们为OpenImages [18]使用专用的分层感知sigmoid交叉熵损失具体来说,对于OpenImages中的注释类标签,我们将其所有父类设置为正数,并忽略其后代类的损失。我们的分区检测器结合了采样策略和特定于网络的损失。等级意识损失产生显著的+2。仅在OpenImages上就有7mAP的改进,并且不会降低其他数据集的质量。7578××3××××| |人类足球专家足球牛牛Objects365足球OpenImages足球365美式足球对象365奶牛可可牛OpenImages牛了解到足球美式足球牛专家级人鼠烤箱Objects365鼠标COCO鼠标OpenImages鼠标OpenImages烤箱了解到计算机鼠标动物小鼠带炉灶面的带控制面板的烤箱前门Objects365烤箱COCO烤箱图3. 学习的统一标签空间的采样结果。我们展示了作为Robust Vision Challenge的一部分提供的专家设计的标签空间(每行顶部,蓝色)和我们学习的标签空间(每行底部,粉红色)之间的差异。我们学习的标签空间捕捉详细的视觉差异。放大查看详细信息。特定日期集与分区检测器在我们的partitioned检测器中,在多个数据集上训练类似于训练单独的个体模型,但具有共享的检测器。表2比较了在所有数据集上训练分区检测器与特定于数据集的模型。我们比较了检测器在不同的培训时间表(在COCO默认时间表)。这三个特定于小行星的模型中的每一个都看到了与我们的parti- tioned检测器相同数量的梯度更新。在2训练计划(180k迭代)中,单数据集模型通常比分区模型表现更好,因为每个数据集仅在分区模型中针对1计划在6调度下,分区检测器开始匹配特定于小数据集的模型,并且在相同的总迭代下优于2个在8时间表中分区检测器超越了COCO上的单数据集模型,并匹配OpenImages和Objects365模型。5.2. 统一多数据集检测接下来,我们评估统一标签空间的不同方法统一的标签空间我们运行我们的标签空间学习算法从第4.1节基 于 分 区 检 测 器 的 输 出 , 该 分 区 检 测 器 具 有 在COCO,Objects365和OpenImages上训练的ResNeSt骨干[46],总共有945个不相交的班超参数是λ=0。5,τ=0。二十五优化最终得到基数L = 701的统一标签空间。我们将我们的自动化数据驱动的统一与基于人类和语言的基线进行比较。我们使用官方手工制作的RVC分类法作为人类专家基线3。超过三分之二的学习标签空间与人类专家一致。图3突出显示了一些差异。我们的统一成功地将具有不同描述的相似概念(“牛”和“牛”)分组有趣的是,学习的标签空间将COCO、Objects365和OpenImages中的“oven”类分开,即使它们共享同一个单词。目视检查显示,由于不同数据集中“烤箱”概念的不同基本定义,它们在视觉上是不同的:COCO烤箱包括炉灶面,OpenImages烤箱包括控制面板,Objects365烤箱只是前门。我们的数据驱动的分类协调能够检测到这样的区别,这是错过了字级的方法。3https://github.com/ozendelait/rvc_devkit/blob/master/objdet/obj_det_mapping.csvCOCO对象365 COCO对象36表2. 特定于日期集的检测器与分区检测器。我们展示了我们的分区模型和三个特定于数据集的模型在不同训练时间表下的验证mAP。分区模型的性能与长时间调度的特定于网络的模型相2×Oimg.6×8×5 OImg. Coco Objects365 OImg.分区检测器41.820.662.744.623.664.845.524.666.0Coco41.5--42.5--42.5--学生寮365-23.8--25.0--24.9-OpenImages--64.6--65.4--65.77579×| |××××|L|COCO O365OImg. 是说GloVe嵌入 696 41.6±0.00 20.3±0.12 62.4±0.06 41.4±0.05学习失真682 41.6±0.15 20.7±0.06 62.6±0.06 41.7±0.09已学习,AP(我们的)70141.9±0.1020.8±0.1063.0±0.2141.9±0.02专家659 41.5±0.0620.7±0.0662.6±0.0641.6±0.04表3.统一标签空间的评估 我们在训练域的验证集上显示标签空 间 大 小 ( L ) 和 mAP 。 我 们 比 较 基 于 语 言 的 基 线(GloVe)和人工统一的人类专家。每个模型都是在2时间表中训练的ResNet 50 Cas- cadeRCNN。我们显示了基于3次重复运行的平均值和标准差。我们学习的标签空间比语言和人类更好地工作。λτ|L|COCO O365 Oimg. 平均数0.1 0.2570041.920.662.941.8表4. 超参数选择。我们改变了标签空间学习算法的λ和τ。我们展示了3个数据集上的标签空间和mAP的大小。* :默认选项。修剪阈值τ影响标签空间大小,但不影响mAP。接下来,我们将我们学习的标签空间与替代品进行定量比较。对于每个标签空间,我们使用该标签空间重新训练多数据集检测器。在训练过程中,与我们的分区模型一样,我们只对源数据集中注释的类应用训练损失。我们将我们学习的标签空间与“尽力而为”的人类基线和基于语言的基线进行比较。对于基于语言的基线,我们用GloVe词嵌入之间的余弦距离[27]替换第4.2节中定义的成本度量,并运行相同的整数线性程序。表3显示了结果。我们用不同的随机种子重复训练三次,并报告平均值和标准差。四个标签空间在大多数类别上一致,因此总体mAP接近。 我们自动构建的标签空间始终优于人类专家基线,健康的0。平均3mAP保证金在多次训练运行下,改善在统计学上是稳定的。值得注意的是,我们的模型相对于专家的改进大于专家超参数选择。表4消除了标签空间学习算法的超参数λ和τ(第4.1节)。我们的算法对基数惩罚因子λ具有鲁棒性。将基数惩罚λ从0的情况。一赔一0只影响标签空间的大小3。修剪阈值τ对标签空间大小有较大影响,但对最终性能没有影响。 我们使用λ=0。5,τ=0。25之间的良好平衡标签空间大小和超龄性能。CocoO365Oimg.是说统一(朴素合并)44.423.665.344.4统一(再培训)45.424.466.045.3分区(Oracle)45.524.666.045.4甲骨文(Oracle)42.524.965.744.4表5. 统一与分区检测器。我们显示了直接通过合并分区检测器权重(顶部)、在联合分类上重新训练的同一检测器(第二个)、知道目标域的分区检测器(第三个)以及三个特定于集群的检测器(底部)在统一检测器的训练域上的验证mAP。下面的两行需要已知的测试数据集源,而上面的两行则不需要。所有模型都使用在8×时间表中训练的ResNet-50CascadeRCNN。统一与分区检测器。接下来,我们使用联合分类法,分区检测器和特定于数据集的检测器的合奏,并没有再训练的统一检测器进行比较。分区检测器和集成需要知道的目标域在测试时,而统一的模型不需要。这意味着统一的模型可以在新的领域中部署而无需任何修改,而替代品必须知道它们在哪个领域表5示出了结果。分区检测器在相同的条件下(表5底部),特别是在“小”COCO数据集上,性能离线统一失去了一些准确性,但当在统一的税收制度下重新训练模型时,这一点会重新获得(表5顶部)。重要的是,统一模型在测试时不需要知道它们在哪个领域。5.3. 跨数据集评价我们通过在训练过程中看不到的新测试域中评估对象检测器在这个设置中,我们不假设提前知道测试类。为了进行公平和公正的评估,我们使用一个简单的基于语言的匹配来找到测试到训练标签的对应关系。具体来说,我们计算每个测试标签和训练标签之间的GloVe [27]单词嵌入距离,并将测试标签与其最接近的训练标签进行匹配。如果多个训练标签匹配,我们 将 以 固 定 顺 序 打 破 联 系 :COCO 、Objects365 、OpenImages和Mapillary 4。我们将我们的多数据集模型(分区或统一)与单数据集模型进行比较。我们使用所有四个RVC训练集来训练多数据集模型。具体来说,我们从在三个大型数据集上训练的6调度模型开始,并在具有10个较小学习率的2微调调度中添加Mapillary [24]。我们在相同的时间表5,超参数和检测下4我们还尝试在不同的顺序下进行评估,并找到列出的顺序对所有方法都是最好的。5,除了Mapillary模型,对于该模型,2时间表的性能优于更长的时间表。0.5* 0.25* 70141.920.863.041.91.00.25 70341.920.963.041.90.50.266841.620.762.941.70.50.372841.820.962.941.97580∼×#VOCViper城市景观ScanNetWildDash人群。KITTI是说1Coco80.013.939.617.425.973.930.540.22学生寮36571.920.743.424.927.671.832.241.83OpenImages64.410.429.824.220.366.721.833.94Mapillary11.415.244.70.023.449.337.826.05合奏79.716.846.030.132.173.934.344.76分区83.120.948.432.234.470.038.946.87统一(再培训)82.921.352.629.834.770.739.947.38数据集特定80.331.854.644.7-80.0--表6. 跨数据集评估。我们在训练期间未看到的数据集的验证集上显示mAP50。我们比较了在每个单个训练数据集(第1-4行)上训练的模型、4个单个数据集模型的集合(第5行)、分区检测器(第6行)以及具有我们学习的统一标签空间的统一检测器(第7行)。作为参考,我们在第8行显示了在每个测试数据集的训练集上训练的这些列是指测试数据集。每个模型都是一个ResNet-50 CascadeRCNN,经过训练,直到收敛或最多达到8倍的时间表。模型此外,我们还比较了类似于parti- tioned模型训练的四个单数据集模型的集合作为参考,我们还展示了在每个测试数据集的训练集上训练的检测器的性能。这用作已经看到测试域和标签空间的oracle请注意,KITTI和WildDash很小,没有验证集。因此,我们对训练集进行评估,而不提供oracle模型。表 6 示 出 了 结 果 。 COCO 模 型 在 Pas- cal VOC 和CrowdHuman等测试数据集上表现出合理的性能然而,它的性能不太令人满意的数据集,如ScanNet,其标签空间显着不同于COCO。在更多样化的Objects 365数据集上进行训练,在室内领域产生了更高的准确性,但在VOC和Crowd-Human上失去了优势在所有数据集上进行训练,无论是使用分区检测器(第6行)还是使用统一检测器(第7行),通常都会在所有测试数据集上产生良好的性能。值得注意的是,我们的两个检测器都比4个单数据集模型的集合(第5行)表现得更好,这表明多数据集模型学习了更一般的特征。在Pascal VOC上,两个多数据集模型都超出了VOC训练的上限,而没有看到VOC训练图像。我们的统一模型优于parti- tioned检测器的整体,并在一个统一的分类。5.4. 扩展到大型模型接下来,我们用一个大的骨干来扩展我们的统一检测器我们使用ResNeSt200主干[46],并遵循与第5.2节相同的训练过程,使用8时间表。培训在配备8个Quadro RTX 6000 GPU的服务器上进行了16天。 表7显示了我们的单个模型实现的52岁COCO上9 mAP,60。OpenImages上的6mAP, 和三十三岁。365.第365章一夜情 我们比较了每个数据集上具有可比基线的最新结果。在COCO上,我们的结果改进了仅COCOResNeSt200 [46]模型,通过2mAP使用相同的探测器,COCO OImg. Mapillary O365我们52.960.6/56.825.333.7[46]第四十六话50.9---TSD [36]-60.5/---CACascade RCNN [9]---31.6表7. 放大到大型模型。我们展示了COCO测试挑战集,OpenImages挑战2019测试集(公共测试集/私有测试集),Mapillary测试集和Objects 365验证集的结果。顶行:我们的检测器,具有ResNeSt200主干。2-4行:具有可比主干的最先进的单数据集模型(没有模型集成或测试时增强)。因 为 我 们 有 能 力 用 更 多 的 数 据 进 行 训 练 。 在OpenImages 上 , 我 们 的 结 果 与 Open- Images 2019Challenge中的最佳单个模型 TSD [36]相匹配,具有可比 的 骨 干 ( TSD 的 SENet 154-DCN [16] ) 。 在Objects365上,我们的表现比2019年Object365检测挑战赛的获胜者[9]高出2mAP点。6. 结论我们提出了一个简单的方法来训练跨多个数据集的单个对象检测器,以及自动构建统一分类法的公式。我们得到的检测器可以部署在新的领域,而无需额外的知识。我们希望我们的模型使对象检测更容易为一般用户。局限性。我们的标签空间学习算法目前只使用视觉线索,整合语言线索作为辅助信息可能会进一步提高性能。我们的公式目前不考虑标签层次结构,由此产生的标签空间将COCO person和OpenIm- ages boy视为两个独立的类。我们离开的标签层次结构作为令人兴奋的未来工作。致谢。本材料基于美国国家科学基金会资助的工作。IIS-1845485和IIS-2006820。Xingyi由Facebook Fellowship支持7581引用[1] Ankan Bansal 、 Karan Sikka 、 Gaurav Sharma 、 RamaChel-lappa 和 Ajay Divakaran 。 零 镜 头 物 体 检 测 。 在ECCV,2018。2[2] 赵伟蔡和努诺·瓦斯康塞洛斯。级联r-cnn:高质量的对象检测和实例分割。TPAMI,2019。5[3] Marius Cordts , Mohamed Omran , Sebastian Ramos ,Timo Rehfeld,Markus Enzweiler,Rodrigo Benenson,Uwe Franke,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 构建基于Django和Stripe的SaaS应用教程
- Symfony2框架打造的RESTful问答系统icare-server
- 蓝桥杯Python试题解析与答案题库
- Go语言实现NWA到WAV文件格式转换工具
- 基于Django的医患管理系统应用
- Jenkins工作流插件开发指南:支持Workflow Python模块
- Java红酒网站项目源码解析与系统开源介绍
- Underworld Exporter资产定义文件详解
- Java版Crash Bandicoot资源库:逆向工程与源码分享
- Spring Boot Starter 自动IP计数功能实现指南
- 我的世界牛顿物理学模组深入解析
- STM32单片机工程创建详解与模板应用
- GDG堪萨斯城代码实验室:离子与火力基地示例应用
- Android Capstone项目:实现Potlatch服务器与OAuth2.0认证
- Cbit类:简化计算封装与异步任务处理
- Java8兼容的FullContact API Java客户端库介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功