没有合适的资源?快使用搜索试试~ 我知道了~
6044基于分类权值Jason Kuen1 Federico Perazzi2 Zhe Lin2 Jianming Zhang2Yap-PengTan1新加坡南洋理工大学2Adobe Research摘要大规模的目标检测数据集在类别数量和标注计数方面不断增加其大小然而,在检测数据集中注释的对象级类别的数量比图像级分类标签小一个数量级。现有技术的对象检测模型以监督方式进行训练,这限制了在 本 文 中 , 我 们 提 出 了 一 种 新 的 权 重 转 移 网 络(WTN),以有效地和高效地将知识从分类网络我们首先介绍输入和功能normalization计划,以遏制在训练过程中的香草WTN下的拟合。然后,我们提出了自动编码器-WTN(AE-WTN),它使用重建损失来保存分类网络在与vanilla WTN相比,AE-WTN在分别具有500个可见类和57个新类的两个Open Images评估集上获得了6%的绝对性能增益,并且在具有200个新类的VisualGenome评估集上获得了25%的绝对性能增益1. 介绍最先进的对象检测器[12,34]通常使用大量的边界框 注 释 进 行 训 练 。 大 型 数 据 集 , 如 COCO [26] ,Pascal VOC[7]和OpenImages [22]提供了大量的边界框,但注释对象类别的数量通常非常有限。原因在于,边界框的数量可以是半自动的,例如,[22],而增加类的数量需要大量的人力劳动。另一方面,诸如分类数据集中可用的图像级标签之类的图像级因此,一些作品研究了在弱监督机制下仅使用图像级标签的对象检测器的训练这些方法利用了分类数据集或社交网络中的图像标签中可用的各种类别[29],但忽略了分类数据集中的类别。图1.我们提出的检测器无法访问由红色框“Car- bonara“表示的对象类的框级它通过从大规模预训练的图像分类网络中转移权重知识来学习检测新的对象类别。对象检测数据集中可用的空间信息。相比之下,部分监督方法[16]采用两种类型的注释。虽然将知识从分类网络转移到具有部分监督的检测网络的现有方法[24,33,39,40]比弱监督方法[3,4,24]实现了更高的准确性,但它们在训练和测试期间会产生显着的计算成本。开销来自两个网络的联合训练[24,33],或者来自在测试期间执行分类网络的前向传递[39,40]。此外,联合训练方法通常需要在训练检测网络时存在存储密集型大规模分类数据集。为了克服这些限制,我们提出了一种新的方法,通过非线性权重转移网络(WTN)[16]将区分性语义知识从分类转移到检测给定一组常见的类annotated为这两个任务,我们学习一个函数,权重转移网络,映射权重在分类网络的全连接层的对象检测网络。一旦被训练,WTN被用于通过从分类网络传递看不见的类的权重来扩展由对象检测器识别的类别该策略是有利的,因为它仅向训练和训练增加很少的计算和存储器开销。6045完全没有推理的负担与香草重量转移网络[16]相比,我们在模型中引入了两个关键组件。首先,我们插入规范化层来解释分类权重的不同幅度。其次,我们用自动编码器代替多层感知器。自动编码器的潜在空间对应于对象检测器的分类权重,因此使用对象级监督进行训练。自动编码器的输入和输出之间的重构损失对于保留所有类别的语义信息是必不可少的,而检测网络的分类损失促进了类别权重的区分嵌入在Open Images [22]和Visual Genome [20]数据集上进行的大量实验表明,在涉及新对象类别的具有挑战性的检测任务上,所提出的方法显着优于现有的部分监督检测方法。此外,由于自动编码器WTN的重建损失所带来的辅助正则化效应,我们提出的方法甚至可以恢复现有WTN在所见类别上的性能损失。捐款.这项工作的贡献有三个方面:i)我们通过引入输入和特征归一化方案来解决WTN的欠拟合问题。由此产生的模型WTN+实现了改进的检测性能超过香草WTN; ii)我们提出了我们的主要模型,自动编码器WTN,它更好地保留了所有对象类的语义知识,同时学习为检测网络生成有区别的分类权重; iii)我们通过使用具有数百万图像和数百个对象类的大规模数据集进行广泛评估来验证我们的方法的有效性。2. 相关作品多年来,已经提出了几种基于卷积网络的对象检测框架和架构:R-CNN [10],Fast R-CNN [9],Faster R-CNN [34],R-FCN [5],SSD [27],YOLO [32,33],FPN [25]。它们可以大致分为单次检测器[5,27,32,33]和两次检测器[9,10,34],前者直接从特征图预测检测框,后者首先生成对象建议,然后基于建议执行特征图的空间提取以进行进一步预测。这些方法从算法的角度和在完全监督的设置中改进了对象检测。在这项工作中,我们采用了Faster R-CNN [34],因为它的框级分类头只学习一组分类权重,类似于图像级分类(源任务)网络。这使得从分类到检测的知识转移更加顺畅,而使用单发检测网络可以为不同的锚框学习多组分类权重。对象级注释的收集非常耗时和繁琐,尤其是当类的数量很大时。在大量的类的情况下,由于类的复杂重叠含义,获得准确和完整的注释是非常具有因此,几种方法尝试使用图像级注释来按比例增加由对象检测器处理的对象类的数量从图像分类到对象检测的知识转移是一个活跃的研究领域,解决了目标数据集和/或对象类的边界框注释的缺乏这些用于按比例放大对象检测的基于知识转移的方法可以分为两类:弱监督和部分监督方法。弱监督方法通常仅依赖于图像级分类数据集,并利用类别不可知框建议或先前对象知识来构建对象检测器。例如,Uijlingset al.[43]使用知识转移执行多实例学习(带有边界框的源数据集),以生成目标训练数据集的框。在[41]中,弱监督对象检测器在弱标记的网络数据集上进行训练,以生成用于目标检测任务的伪地面实况。[37]结合区域级语义相似性和从一些外部知识库中学习的常识信息,仅用图像级标签训练检测器。与我们的工作更密切相关的是权重自适应方法[15,39,40],它可以微调分类网络并学习特定于检测的偏差向量,以使网络适应检测。这些基于自适应的方法假设网络的分类能力被很好地保持(例如,使用R-CNN [10])。这限制了它们有效地应用于最近的检测方法(例如,更快的R-CNN [34],特征金字塔网络[25])显着修改了骨干网络结构。然而,我们的方法不受这些约束的限制。一般来说,基于分类权重的知识转移[16]可以应用于任何最近的检测框架[27,33,34]。另一方面,部分监督方法采用弱标签,即。图像级注释以及边界框级注释。例如,YOLO-9000 [33]通过在边界框级数据和图像级数据上同时训练来扩展检测器通过将检测网络解耦为两个分支(正敏感语义聚焦),R-FCN-3 K[37]能够将检测扩展到3000个类别,尽管在几个对象类别的有限边界框注释上进行了训练。与此相反,我们专注于大规模对象检测,而无需在训练期间访问额外的数据(分类)源。一个训练良好的图像分类网络拥有足够丰富的语义知识的大-6046FCLeakyReLUFCFC标准规范LeakyReLU组规范FCσ(vj)C cC缩放数据集我们认为,这样的权重可以有效地利用,以帮助建立一个对象检测器处理大量的类别。3. 重量转移网络准备工作。我们考虑处理对象类C的分类网络CLN和处理对象类D的检测网络DEN的设置。由CLN处理的类别的数量比由DEN处理的类别的数量大得多,即。|C|>>>|D|.我们的目标是扩大美食水氮wc∈WCLNwd∈WDENwc∈WCLNwd∈WDENWTN+DEN通过部分监督的方式处理数据,将权重知识从CLN(源任务)传递到DEN(目标任务)。我们利用CLN的最终最终的FC层权重可以被看作是语义嵌入的一种形式,包括关于对象类别和复杂类关系的丰富知识。此外,预训练的大规模图像分类网络是非常容易获得的,并且许多是公开共享的。使用权重传递网络(WTN)通过在两个任务之间共享的对象类别(S)将来自CLN的分类知识传递到DEN:C. WTN是一个神经网络,它可以作为一个类-用于将每类分类权重向量WC=[w1,w2,…, W|C|]从CLN到图2.WTN和WTN+网络结构的比较。白色矩形对应于具有可学习参数的层。如何训练CLN的分类权重。例如,在一个示例中,在一个大规模CLN中,我们发现此外,类通用非线性WTN自然不能适应和学习以及(传统的)类特定的线性分类权重,损失最小化。这些对WTN的训练和优化提出了挑战。从经验上讲,我们发现,与在相同标签上训练但没有WTN的传统DEN相比,使用现有WTN方法训练检测网络(DEN)会降低D因此,从最近的激活研究结果来看,DEN的分类权重WD=[w1,w2,...,W|D|]作为WD=T(WC)。D d d标准化技术[17,44],我们引入了一个新的变量,WTN的ant,WTN+,提高了DWTN与DEN在检测数据集上联合训练D类。WTN网络参数的梯度在训练WTN和DEN之前,我 们 虽 然 S 依 赖 于 WTN , 但 对 于 不 属 于 S 的DEND\S),我们像传统的检测网络一样训练它们的权重。 为了-在DEN传统上,WTN基于两层多层感知器(MLP)架构。由于它的类通用性,WTN能够进行有效的归纳学习[6]。换句话说,尽管在训练期间WTN和DEN仅看到类S,但是在测试WTN(以及包含了类SWTN)可以与不与DEN共享的CLN的类N-起相当好的工作,即,N=C\S。规范化。大规模分类数据集的类别分布不均衡,具有很强的隐含意义。类,更容易优化。WTN和WTN +之间的模型架构差异如图所示。二、标准归一化应用于输入权重WC,以使不同的输入通道能够对WD的预测做出贡献,以抑制某些类别的超显性/欠显性。令v,j表示W, C的第j个特征/通道的权重,我们将vj归一化为:vj−µ(vj),其中µ(·)和σ(·)是平均值和标准偏差函数。组归一化[44]层以其强大的优化优势而闻名这些小而关键的修改是训练高效WTN的关键。4. 自动编码器权值传递网络在训练期间,只有共享类S对WTN的梯度和损失有贡献。新颖对象类N对于WTN是未知的并且未被WTN考虑。缺乏对C的整个类群体的知识限制了WTN有效地6047wc∈WCLNCls.头FC共享FC小说具有编码器和解码器网络。AE-WTN是在WTN+的基础上构建的。编码器网络共享与WTN+在现有的WTN之后,编码器网络作为函数T()工作以在给定WC的情况下预测WD作为输入。在训练期间,梯度从DEN的损失传播到编码器网络。AE-WTN的网络结构以及它如何与CLN和DEN相互作用如图所示。3 .第三章。AE-WTN使用附加的基于自动编码器的训练损失设T()表示编码器网络,G()表示解码器网络,重建预测如下:w∈ C=G(T(wC)); 在这里,我们采用平滑L1损失[9]作为重建损失,以最小化不同的预测重建与原始输入之间的差异(WC):.rec=0的情况。5(wC−wC)2,如果|wC−wC|<1|-0。|−0. 五、否则(一)图 3.具 有 自 动 编 码 器 -WTN ( AE-WTN ) 的 目 标 检 测 器(DEN)的训练和测试阶段。训练阶段:在训练DEN之前,我们提取CLN与DEN同时训练,AE-WTN通过共享的注意,我们将重构损失应用于所有CLN类C(即,SN),而不仅仅是共享类S。另一方面,检测损失(盒级分类)只关心类S和通过这样的公式化,我们基于以下内容执行多任务训练:以下混合训练损失(不包括区域建议网络重建损失会惩罚在重建原始权重S. “其他”检测类(即, D\S)进行训练通常作为常规分类权重。只有WCLN .由于AE-WTN(对于DEN的权重)是S对检测损失有贡献。 AE-WTN使用一个反射损耗反射来从其编码器的输出中重建S和N的权重。测试阶段(虚线多边形):CLN的新类N和共享类S的权重都可以通过AE-WTN离线适配以用于DEN。有了这个,DEN能够检测除了S和“其他”类之外的新类N最初由预训练的CLN获得,用于处理大量类别。我们假设,通过让WTN具有类群体的狭窄视图,其建模能力(具体地与N相关)被严重地利用不足,并且这损害了WTN在类N上的性能。为此,我们引入Autoencoder-WTN(AE-WTN)-一种AE-WTN是一种自动编码器中间网络激活的形式,它们受到影响并且为了重建的目的,期望极大地保留原始类别信息。相比之下,现有的WTN(或甚至WTN+)仅由DEN基于重建的信息保存已被证明可以帮助神经网络在监督学习中实现更好的局部最优[23,45]。通过用重建损失补充CLN我们发现这对AE-WTN有正则化效应,提高训练期间看到的完全注释对象类别(D∩S)的泛化性能。这一观察结果与[23,45]的发现一致,即可以使用自动编码器改进监督学习。当我们对包括N在内的CLN输入图像FC共享FC小说wc∈WCLN什特雷茨DEN编码解码FC足球俱乐部组规范LeakyReLU包装Cls.头LeakyReLU组规范FC足球俱乐部FC其他AE-WTN边界框预测wd∈WDEN电子邮箱FC小说FC共享6048(没有监督注释),[23,45]将损失仅应用于具有监督注释的输入示例我们的工作也类似于半监督学习,其中重建损失(自动编码器)[31,46]被用作辅助损失,以利用未标记的数据(在这项工作中,N类未标记)来提高模型性能和泛化能力。在现有WTN,WC,N的训练期间,不利用包含在WC中的新类别N的权重并且,类N对训练没有贡献深度神经网络通常已知通过训练消除输入的任务无关信息[36,42]。因此,很可能WTN学习“忽略”关于类N的一些类信息,这些类信息对类S不重要但对AE-WTN的重构损失通过显式地涉及新的对象类N来解决现有WTN的这样的缺点。WC ,N中的丰富类别信息(其潜在地有益于AE-WTN5. 实验5.1. 实现细节训练和评估集看到类D. 我们使用来自Open ImagesV4 Challenge的官方训练和验证数据集(称为OI-500)[22],其中包含500个对象类,用于在类D上训练和评估DEN。Open Images数据集中的对象类是分层组织的,许多类并不互斥。 Open Images“0.5IoU阈值下的平均精度(AP)”或AP 50的定制版本我们使用相同的Open Images训练集来训练基线Faster RCNN和我们的基于WTN的模型,以便对新类N进行公平比较。新颖类的评估集。为了评估DEN第一个评估集(OI-57)是Open Images V4完整/非挑战数据集的子集,包含57个新对象类和31,061张图像。第二个评估集(VG-200)被设置为Visual Genome [20]数据集的子集,包含24,690个图像,200高频对象类,这是新的DEN。我们对OI-57采用相同的AP50指标。由于Visual Genome数据集中的许多对象实例根本没有注释,因此我们遵循[2]的实践,通过使用每个图像的平均召回率/AR50@100检测来衡量DEN在该评估集上的检测性能。分类网络(CLN)(资料来源)。在训练WTN和DEN之前,预先训练的大规模CLN模型已经被收购。我们使用公开可用的ResNet-101,在OpenImages v2 [22]上预训练,具有5000个对象类。考虑到数据集的多标签性质,它使用多标签(sigmoid)分类损失进行训练分辨率为299×299。该模型使用50个GPU工作者和32个620K训练步骤。最终分类层的传入特征是2048维的。探测网络(DEN)(目标)。本文中的DEN架构是一个更快的R-CNN [34],其主干集成了ResNet-50 [13]和特征金字塔网络(FPN)[25]。ResNet-50主干在ImageNet-1 k [35]数据集上进行预训练,其BN参数在DEN训练期间被冻结。盒级头(用于盒分类和回归)是一个2层多层感知器(MLP),具有2048维特征和输出通道。DEN使用8个图像的小批量(2个图像/GPU)进行训练,总共180 K次迭代。我们使 用 SGD 优 化 网 络 , 动 量 为 0.9 , 初 始 学 习 率 为2×10−2。该网络是正则化的,权重衰减为1×10−4。我们紧紧地贴在Faster R-CNN的原始训练损失函数,除了对于分类损失,我们用sigmoid二进制交叉熵代替,考虑到Open Images类层次结构和多标签性质。基于给出的层次树[22]扩展了训练类标签[1]重量转移网络(WTN)。默认情况下,WTN变量,蚂蚁有输入/功能/2048输出通道。对于WTN+和AE-WTN中的组归一化(GN)层,我们遵循相同的 WTN网络是从零开始同时训练的-使用AdamW [28]使用默认的超参数和1×10−4的权重衰减的DEN。对于AE-WTN,在整个实验中将α5.2. 与相关方法的比较为了验证我们提出的AE-WTN模型的有效性,我们将其与下面描述的现有权重转移相关方法进行了实验比较。请注意,所有这些方法都使用相同的Faster R-CNN检测框架和ResNet-50主干。•更快的R-CNN:Vanilla更快的R-CNN [34]对看到的类执行完全监督学习。与WTN相比,vanilla Faster R-CNN学习传统分类线性和类特定的权重。为了检测新的类,我们采用最近邻的方法(NN),最近看到的类的检测。•LSDA[15]:LSDA通过学习加性类特定偏差来调整CLN的权重以进行检测任务。为了在测试期间对一个新类进行预测,6049OI-500(见)OI-57(小说)公司简介(小说)方法AP50AP50AR50更快的R-CNN [34]更快的R-CNN(NN)LSDA [15]LSDA(Visual Transfer)[39] ZSD [2] with CLNweights ZSD [2] withfastText [18]WTN [16]59.55-59.4459.4447.3758.3952.87-28.0925.8926.4334.6329.5134.94-49.3951.1453.0338.0435.0941.91WTN+► 默认模型105×重量衰减活动正则化器[30][38]第三十八话压缩容量58.8258.4655.8657.1458.8039.2840.7933.4740.0937.8165.6065.8736.2665.5263.16AE-WTN59.5941.0766.75表1.在评估数据集上与权重转移相关方法进行比较-OI-最接近的类被平均并被添加到CLN的权重向量。还包括视觉相似性转移变体[39]。•ZSD[2]:ZSD通过预训练的词嵌入执行零触发检测。在一个联合视觉词嵌入设置,检测器学习在单词的嵌入空间中输出视觉嵌入。这里,考虑两种嵌入•WTN[16]:这对应于既不使用归一化技术也不使用重建损失的标准(现有)WTN模型。•WTN+变体:由于AE- WTN的重建损失可以被视为正则化因子,因此我们将其与使用增加的权重decay(5×)[21],活性正则化因子(0.01)[30],Dropout(0.3)正则化的几个WTN+[38]关于中间激活和减少网络CA-pacity(隐藏层中的通道数量减半)。试图以弱或部分监督来缩放对象检测。通过将自动编码器集成到WTN(AE-WTN)中,可以恢复所见的类检测性能。从头开始训练传统的WTN是非常具有挑战性的重建损失(其比检测损失更容易优化)鼓励AE-WTN输出高度代表原始CLN权重的权重,从而提供良好的初始化以获得更好的局部最优。与发现使用自动编码器减少监督训练损失的先前工作类似[23,45],我们发现AE-WTN(0.5572)获得的可见类的框级分类训练损失比WTN+(0.5754)低此外,重建损失明确地涉及训练期间的新类N,并且迫使AE-WTN在潜在和输出空间中保留新类的丰富类信息它还鼓励DEN学习的视觉特征因此,配备AE-WTN的检测器显示出改善的(绝对)表演1。8%和1. 在OI-57和VG-200上分别比WTN+高1%。与应用于WTN+的其他现有正则化技术相比,AE-WTN在所有数据集上表现更好。这证实了重建损失的优点不能简单由其他正则化器复制,这些正则化器不利用CLN权重中包含的定性结果。我们在图中提供。5我们提出的AE-WTN检测器在Open Images [22]和Visual Genome [20]数据集的测试图像上获得的一些定性结果。只显示具有最高分数的类,并且新的类与看到的类竞争相同的值得注意的是,检测器可以以比看到的类更大的置信度检测各种新类,尽管在训练期间没有看到它们。5.3. 分析结果见表5.1。我们使用ResNet-50作为vanilla FasterRCNN检测器的主干,其在OI-500上的AP 50为59。55%,比60%略差。最先进的SE-ResNeXt-101检测器可达到0%[1]。总的来说,WTN方法在新类(0 I- 57和VG-200)上大幅优于非WTN方法,这是由于WTN学习的强大的权重转移函数可以推广到许多类。在WTN方法中,AE-WTN结合了所有提出的改进,取得了最好的效果。WTN和WTN+在 OI-500(见D类)上的性能与其构建的香草Faster R-CNN检测器相比有所减弱换句话说,从常规分类权重切换到WTN会降低所见类的性能。这种现象已经被先前的作品观察到[15,19]。邻里保护。 到更好理解AE-WTN的局部邻域保持的重建损失的含义,我们计算由CLN的权重和感兴趣的WTN模型(AE-WTN、WTN +或WTN)的输出权重获得的最近邻之间的重叠计数 这项研究是在20个随机抽样的班级进行的,计数是这些班级的平均值最近的邻居是在CLN的5,000个类中。研究结果见图。4.第一章例如,在一个示例中,在100个邻居处,AE-WTN48.25 重叠 邻居 而 WTN+和WTN分别有38.0和31.95个重叠邻居。如图所示,AE-WTN始终达到更高的数字60500的情况。1045040表3.后ReLU激活规范的均值和方差30201020 40 60 80 100数个最近邻居图4. CLN的最近邻与通过感兴趣的WTN模型(AE-WTN、WTN +或WTN)获得的最近邻之间的重叠计数(垂直轴)WTN→WTNOI-500(见)OI-57(小说)公司简介(小说)输入诺姆组诺姆AP50AP50AR50✗✓✗✓✗✗✓✓52.8757.6054.6058.8234.9437.2735.8439.2841.9154.1958.5565.60表2. WTN+架构的烧蚀研究的重叠邻居(与CLN值得注意的是,随着最近邻居数量的增加,差距会扩大。WTN +中的标准化。我们在表2中进行消融研究,以了解不同归一化技术的性能变化。结合WTN+的两个归一化以获得已知和新类别的最佳结果至关重要。此外,与WTN+相比,我们观察到非归一化WTN的训练损失更严重,这意味着模型拟合不足是WTN性能不佳的内在原因选 择 特 征 标 准 化 。 选 择 GN [44] 而 不 是 典 型 的BatchNorm(BN)[17],因为对于WTN+,BN对不具有检测注释/丢失的新型输入的鲁棒性较低[8]。我们发现,具有BN的WTN+的后ReLU激活(L2)范数具有异常新类别的大方差。它是70×(或7。117)共享类的,尽管允许BN在所有班级都在训练。这种不稳定的激活在训练期间不会被检测网络遇到。 这表4.训练时间和内存使用。导致WTN+表3显示了使用GN和BN的L2范数均值方差计算效率。计算效率是对象检测器的训练和/或部署中的主要关注点,特别是对于大规模检测器。在表4中,我们显示了使用不同模型进行训练的每次迭代训练时间(毫秒/毫秒)和单GPU内存使用情况。总的来说,WTN模型在Faster R-CNN的基础上增加了非常小的计算 成 本 。 在 测 试 过 程 中 , 所 有 权 重 都 可 以 使 用WTN/WTN+/AE-WTN离线转换,以达到vanilla FasterR-CNN的效率。6. 结论训练大规模对象检测器是非常需要资源的(例如,数据、计算)。在这项工作中,我们引入了一种高效的WTN方法来扩大对象检测,并提出了新的方法,通过归一化技术和基于自动编码器的反射损失来大力推动WTN的极限。AE-WTN采用的重构损失有效地提高了其保留和利用由预训练的CLN学习的语义丰富的类信息(所有类)的能力。这导致改进的DEN训练和更好的检测性能上看到的和新的类。确认Jason Kuen先生获新加坡南洋理工大学电机及电子工程学院之引用[1] Takuya Akiba 、 Tommi Kerola 、 Yusuke Niitani、 ToruOgawa、Shotaro Sano和Shuji Suzuki。Pfdet:2018年开放图像挑战赛目标检测赛道的第二名解决方案。arXiv预印本arXiv:1809.00778,2018。五、六AE-WTNWTN+WTN重叠CLN的邻居时间(ms)记忆Faster R-CNN3654.11WTN+3714.153794.19AE-WTN4014.26是说方差共享cls小说cls共享cls小说cls第四十四章1.8381.7840.0910.093英国广播公司[17]1.3792.6270.1047.1176051图5.所提出的AE-WTN的定性结果。蓝色检测框表示对象类别D,红色框标记为新颖类N.我们的方法可以处理各种各样的新类和概念,同时在看到的类上表现良好[2] Ankan Bansal 、 Karan Sikka 、 Gaurav Sharma 、 RamaChel-lappa 和 Ajay Divakaran 。 零 镜 头 物 体 检 测 。 在ECCV,2018。五、六[3] Hakan 比伦 Marco 佩德索利 和 Tinne Tuytelaars基于凸聚类的弱监督目标检测。在CVPR,第1081-1089页,2015年。1[4] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在CVPR,第2846-2854页,2016年。1[5] 戴纪峰,易力,何开明,孙建。 R-fcn:对象通过基于区域的全卷积网络进行检测。在NIPS,第379-387页,2016年。2[6] 拉蒙·洛佩兹·德·曼塔拉斯和伊娃·阿门戈尔从示例中进行机器学习:归纳和懒惰的方法。数据知识工程,25(1-2):99-123,1998. 3[7] M. 埃弗灵厄姆湖,澳-地凡古尔角,澳-地K. I. 威廉斯,J.Winn和A.齐瑟曼。PASCAL Visual Object Classes Chal- lenge2012(VOC2012)1[8] Angus Galloway , Anna Golubeva , Thomas Tanay ,Medhat6052Moussa,and Graham W Taylor. 批量标准化是一个对抗性脆弱的原因。在ICML研讨会,2019年。7[9] 罗斯·格希克。快速R-CNN。在ICCV,第1440二、四[10] Ross Girshick,Jeff Donahue,Trevor Darrell和JitendraMalik。丰富的特征层次结构,用于精确的对象检测和语义分割。在CVPR中,第5802[11] 顾久祥,赵汉东,林哲,李胜,蔡建飞和明阳灵。基于外部知识的场景图生成与图像重建。在CVPR,2019年。4[12] Kaimi ng He,Geor gia Gkioxari,Piotr Dolla'r和Ross Gir-真恶心。面具R-CNN。ICCV,第2980-2988页。IEEE,2017年。1[13] Kaiming He,Xiangyu Zhang,Shaoying Ren,and JianSun.用于图像识别的深度残差学习。CVPR,第770-778页,2016年。5[14] 杰弗里·E·辛顿和理查德·S·泽梅尔。 自动编码器,最小描述长度和亥姆霍兹自由能。在NIPS,第3-10页,1994年。4[15] Judy Hoffman 、 Sergio Guadarrama 、 Eric S Tzeng 、Ronghang Hu 、 Jeff Donahue 、 Ross Girshick 、 TrevorDarrell和Kate Saenko。Lsda:通过自适应进行大规模检测。在NIPS,第3536-3544页,2014中。二、五、六[16] Ronghang Hu , Piotr Dolla'r, Kaiming He , Trev or Darrell,and罗斯·格希克。学会把每一件事都分割开来。在CVPR中,第4233-4241页,2018年。一、二、六[17] Sergey Ioffe和Christian Szegedy。 批次标准化:通过减少内部协变量偏移来加速深度网络训练。在ICML,第448-456页,2015中。三、七[18] 阿尔芒·儒林 爱德华·格雷夫 Piotr Bojanowski和托马斯·米科洛夫有效的文本分类技巧包。在ACL中,第427计算语言学协会,2017年4月6[19] Bingyi Kang,Zhuang Liu,Xin Wang,Fisher Yu,JiashiFeng,和特雷弗·达雷尔通过特征重加权的少镜头对象检测。arXiv预印本arXiv:1812.01866,2018。6[20] Ranjay Krishna,Yuke Zhu,Oliver Groth,JustinJohnson,Kenji Hata , Joshua Kravitz , Stephanie Chen , YannisKalantidis,Li-Jia Li,David A Shamma,et al.可视化基因组:使用众包密集图像注释连接语言和视觉。IJCV,123(1):32-73,2017。二、五、六[21] 安德斯·克罗和约翰·A·赫兹一个简单的重量衰减可以提高泛化能力。NIPS,第950-957页,1992。6[22] Alina Kuznetsova 、 Hassan Rom 、 Neil Alldrin 、 JasperUi-jlings 、 Ivan Krasin 、 Jordi Pont-Tuset 、 ShahabKamali、Stefan Popov、Matteo Malloci、Tom Duerig和Vittorio Ferrari。开放图像数据集v4:统一的图像分类,对 象检测,和视 觉关系检测 的规模。 arXiv:1811.00982,2018。一、二、五、六[23] Lei Le,Andrew Patterson,and Martha White.监督au-toencoders:使用无监督正则化器提高泛化性能。在NeurIPS,第107-117页,2018年。四五六[24] Dong Li,Jia-Bin Huang,Yali Li,Shengjin Wang,andMing-宣阳。具有渐进域适应的弱监督对象定位。在CVPR,第35121[25] Tsung-Yi Lin , Piotr Dollar , Ross Girshick , KaimingHe,Bharath Hariharan,and Serge Belongie.用于对象检测的特征金字塔网络。在CVPR中,第2117-2125页,2017年。二、五[26] 林宗毅,迈克尔·梅尔,塞尔日·贝隆吉,詹姆斯·海斯,皮埃特罗·裴罗那、德夫·拉马南、皮奥特·多尔·拉尔和C·L·劳伦斯·齐特尼克。微软coco:上下文中的公用对象。参见ECCV,第740-755页。Springer,2014. 1[27] Wei Liu,Dragomir Anguelov,Dumitru Erhan,ChristianSzegedy,Scott Reed,Cheng-Yang Fu,and Alexander CBerg. Ssd:单发多盒探测器。在ECCV中,第21-37页。施普林格,2016年。2[28] 伊利亚·罗希洛夫和弗兰克·哈特。 解耦重量衰减正则化 2019年,在ICLR。5[29] DhruvMahajan ,RossB.Girshick , VigneshRamanathan , Kaiming He , Manohar Paluri , YixuanLi,Ashwin Bharambe,and Laurens van der Maaten.探索弱监督预训练的局限性。在ECCV,2018。1[30] 斯蒂芬·梅瑞蒂布莱恩·麦肯理查德·索彻再-用于语言RNN的访问激活正则化。arXiv预印本arXiv:1708.01009,2017。6[31] Antti Rasmus,Mathias Berglund,Mikko Honkala,HarriValpola和Tapani Raiko使用梯形网络的半监督学习。NIPS,第3546-3554页,2015年。5[32] Joseph Redmon,Santosh Divvala,Ross Girshick和Ali法哈迪。你只看一次:统一的实时对象检测。在CVPR,第779-788页,2016年。2[33] 约瑟夫·雷德蒙和阿里·法哈迪 Yolo9000:更好,更快,强在CVPR中,第6517-6525页。IEEE,2017年。一、二[34] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn:实现区域建议网络的实时对象检测。TPAMI,(6):1137-1149,2017。一二四五六[35] Olga Russakovsky,Jia Deng,Hao Su,Jonathan Krause,Sanjeev Satheesh , Sean Ma , Zhiheng Huang , AndrejKarpathy,Aditya Khosla,Michael Bernstein,et al.图像网大规模视觉识别挑战。IJCV,115(3):211-252,2015. 5[36] Ravid Shwartz-Ziv和Naftali Tishby 打开黑色深度神经网络的盒子。arXiv预印本arXiv:1703.00810,2017。5[37] Bharat Singh,Hengduo Li,Abhishek Sharma,and LarryS戴维斯R-fcn-3000(30fps):解耦检测和分类。在CVPR中,第1081-1090页,2018年。2[38] Nitish Srivastava , Geoffrey Hinton , Alex Krizhevsky ,IlyaSutskever和Ruslan Salakhutdinov。Dropout:防止神经网 络过 拟合 的简 单 方法 。JMLR ,15 (1 ) :1929-1958,2014. 6[39] 唐宇星,王若西亚,高博扬,Emmanuel Del-landr e´ a,RobertGaizauskas,andLimingChen. 使用视觉和语义知识转移的大规模在CVPR中,第2119-2128页,2016年。一二6[40] Yuxing Tang,Josiah Wang,Xiaofang Wang,BoyangGao , EmmanuelDellandre´a , RobertGaizauskas ,andLimingChen.大规模半监督目标检测的视觉和语义知6053识传递TPAMI,40(12):3045- 3058,2018。一、二[41] 陶青衣,杨昊,蔡剑飞。零注释ob-6054具有网络知识传递的对象检测。在ECCV,2018。2[42] Naftali Tishby和Noga Zaslavsky 深度学习和信息瓶颈原理在IEEE信息理论研讨会(ITW)中,第1-5页。IEEE,2015年。5[43] Jasper Uijlings Stefan Popov和Vittorio Ferrari 重访-用于
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Aspose资源包:转PDF无水印学习工具
- Go语言控制台输入输出操作教程
- 红外遥控报警器原理及应用详解下载
- 控制卷筒纸侧面位置的先进装置技术解析
- 易语言加解密例程源码详解与实践
- SpringMVC客户管理系统:Hibernate与Bootstrap集成实践
- 深入理解JavaScript Set与WeakSet的使用
- 深入解析接收存储及发送装置的广播技术方法
- zyString模块1.0源码公开-易语言编程利器
- Android记分板UI设计:SimpleScoreboard的简洁与高效
- 量子网格列设置存储组件:开源解决方案
- 全面技术源码合集:CcVita Php Check v1.1
- 中军创易语言抢购软件:付款功能解析
- Python手动实现图像滤波教程
- MATLAB源代码实现基于DFT的量子传输分析
- 开源程序Hukoch.exe:简化食谱管理与导入功能
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功