目标检测中的LGD：自蒸馏框架提升性能，不依赖预先训练的教师

58 浏览量更新于2023-12-01 收藏 1.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

+v：mala2255获取更多论文基线标签FGFI-101（带教师）FGFI-101 DCN（w/ teacher）Ours--×}×我们的优势×LGD：用于目标检测的标记引导自蒸馏张培珍，*1康子健，*2杨彤，1张翔宇，<$1郑南宁，2孙建11MEGVII技术，2XiZhangpeizhen，Yangtong，Zhangxiangyu，megvii.com，nnzheng@mail.xjtu.edu.cn，kzj123@stu.xjtu.edu.cn摘要在本文中，我们提出了第一个自蒸馏框架的一般目标检测，称为LGD（Label-Guidedself-D istillation）。以前的研究依赖于一个强大的预先培训的教师提供指导性的知识，可能是在现实世界的情况下不可用。相反，我们只根据学生的陈述和常规标签生成一个有指导意义的知识。我们的框架包括稀疏标签外观编码器，对象间关系适配器和对象内知识映射器，它们在训练阶段共同形成隐式教师，动态地依赖于标签和不断发展的学生表示。它们通过检测器进行端到端的训练，并在推理中被丢弃实验上，LGD在各种检测器、数据集和实例分割等扩展任务上都获得了不错的结果。例如，在MS-COCO数据集中， LGD 使用 ResNet-50 在 2× 单尺度训练下将RetinaNet从36.2% mAP提高到39.0% mAPRetinaNet与各种骨干的结果444240R-101 DCN升百分之二点八。它在2次多尺度训练下将ResNeXt-101DCN v2的FCOS等更强大的检测器从46.1%提升到47.9%（+1.8%）。与经典的基于教师的方法FGFI相比，LGD不仅在不需要预先训练的教师的情况下表现更好，而且在固有的学生学习之外还减少了51%的培训成本。代码可在https://github.com/megvii-research/LGD上获得。1介绍知识蒸馏（ KD ）（ Romero et al.2015;Hinton ，Vinyals，and Dean2015）最初被提出用于图像分类，并获得了令人印象深刻的结果。通常，它是关于将指导性知识从预先训练的模型（教师）转移到较小的模型（学生）。最近，KD应用于基本对象检测任务，引起了研究人员的兴趣（Li，Jin和Yan2017;Weiet al. 2018;Wang et al.2019; Zhang et al.2020 b; Dai et al.2021; Guoetal.2021; Zhang and Ma2021; Yao et al.2021）。现存的作品取得了令人尊敬的成绩，但教师的选择是复杂的和不一致的。一个共同点是，它们都需要一个经过严格培训的教师，因为最近的研究发现了这一点（Zhang和Ma 2021; Yao et al. 2021年），蒸馏效率可以提高与更强大的教师。但追求一个*这些作者贡献相同。[2]通讯作者。Copyright © 2022，sociation for the Advancement of ArtificialIntelligence（www.aaai.org）. All rights reserved.图1：RetinaNet 2上的结果趋势MS背-骨R- 50、101、101 DCN。FGFI- 101，101 DCN表示分别使用R-101和R-101 DCN作为教师的RetinaNet 2ms的理想的教师在现实世界的应用中很难令人满意，因为它可能需要大量的尝试和错误的努力（Peng et al. 2020年）。相反，“没有经过培训的教师进行通用检测的KD”问题为了减轻预先训练的教师依赖性，提出了无教师方案，如（a）自蒸馏，（b）协作学习和（c）标签正则化，其中指导性知识可以是跨层特征（Zhanget al.2019），竞争对手（Zhang et al. 2018）和调制标签分布（Yuan et al. 然而，这些方法是为分类而设计的，并且不适用于检测，因为后者必须包含： DLE多个对象具有不同的位置和类别，但单一的图像分类。最近，LabelEnc（Hao et al. 2020）通过引入具有隔离网络的位置类别建模来扩展传统的标签正则化它产生了标签表示与学生的功能进行监督。虽然它获得了令人印象深刻的结果，但我们发现随着检测器变得更强，例如，改进饱和（图3）。骨干队伍规模大、培训规模多。我们推测这是因为标签本身只描述对象类别和位置，而不考虑-arXiv：COCO AP[cs.CV] 2022年4月+v：mala2255获取更多论文图2：建议的框架包含三个模块：（1）标签外观编码器，（2）对象间关系适配器和(3)对象内知识映射器。为简洁起见，我们省略了金字塔等级适应症，这将在第3节中详细说明。我detSdet 表示基于指导/学生表示的检测损失，L蒸馏是蒸馏损失。我们用由图像大小归一化的地面实况框位置表示（0.，0.，1.，1.一、）引用整个上下文框。（x1，y1，x2，y2）对象间关系也很重要（Huet al. 2018; Cai et al. 2019年）的报告。对于容量有限的检测器对于能够从默认监督中提取大量对象提示的更强的检测器，使用LabelEnc变得不那么有益甚至有害（参见图3中最左边的图）。这可能是由于异构输入（图像与标签）和孤立建模的语义差异造成的。受此启发，我们提出了Label-Guidedself-Distillation（LGD），这是一种用于对象检测的新的无教师方法，如图2所示。在LGD中，我们设计了一个对象间关系适配器和一个对象内知识映射器，以协同建模的关系，形成教学知识。关系适配器通过交叉注意交互来计算交互嵌入。具体地，通过首先测量其外观嵌入与每个标签嵌入之间的跨模态相似性来计算每个对象的交互嵌入，然后对每个知识映射器考虑对象内表示的一致性和局部化规则，将相互作用的嵌入映射到特征映射空间作为最终的指导性知识。由于上述关系建模，最终的指导性知识自然地适应于学生表示，促进了强学生检测器的有效提取和语义差异缓解。除了效率，我们的方法也是高效的，它不依赖于强卷积网络作为老师，因为我们采用了高效的实例嵌入设计。上述高效设计允许LGD与学生联合培训，简化管道并降低培训成本（表7）。在推理过程中，只保留学生检测器，不增加额外费用.简而言之，我们的贡献有三个方面：1. 我们提出了一个新的自蒸馏框架一般对象检测。与以前使用卷积网络作为教师的方法不同，LGD在没有预先训练的教师和即时训练的情况下实时证明了在有限的训练成本下的检测质量。2. 我们引入内部和内部的关系来塑造一种新的教学知识，而不是简单地从学生和教师那里提取存在的关系进行提炼。3. 所提出的方法优于以前的无教师SOTA具有较高的上限，是优于经典的教师为基础的方法FGFI在强大的学生设置。除了固有的学生学习，它节省了51%的培训时间对经典的教师为基础的蒸馏。2相关工作2.1通过经过培训的教师检测KD与分类不同，物体检测的知识转移更具挑战性。在检测中，要求模型预测分布在图像不同位置的具有多样化类别的多个（Li，Jin和Yan2017）提出Mimic在RPN预测的区域内提取激活（Ren等人，2015）。（Chen etal. 2017）引入了加权交叉熵和有界回归损失以增强性能。为了进一步开发对象周围的提取区域的上下文信息，（Wang et al. 2019年）通过锚分配的区域扩展了地面实况框区域。为了学习适应不同知识的采样权重，（Zhang et al. 2020b）提出了具有不确定性建模的PAD。除了中间特征提示之外，（Dai et al. 2021）涉及遵守分配规则的预测图蒸馏和基于其定义的一般实例的关系蒸馏（Park et al.2019）。而不是只关注前景区域，（Guo et al. 2021）解耦了前/后台知识转移。为了促进区域不可知的识别，（Zhang和Ma2021）提出了通过空间通道注意的基于特征的知识转移。为了解决跨层蒸馏中的特征分辨率失配并减轻未对准的标签分配，（Yao et al. 2021年推出G-DetKD。上述方法主要是进行基于特征的提取。而他们的设计，也是有着强烈的。对象间关系适配器对象内知识映射器共享探测头注释交叉注意交互LIdet外观编码器L蒸馏Lsdet具有功能金字塔的主干标签编码器（0. ，0.，1.，1.）+Context（x1，y1，x2，y2）+人（x1，y1，x2，y2）+狗（x1，y1，x2，y2）+山注释标签外观编码器Head警探L/升+v：mala2255获取更多论文∈L {∈ ≤ ≤}∈≤ ≤∈i=0{mi}Ni=0{m0}在输入级，总共N个对象和一个vir-类别向量以获得描述符。对象式的描述器被传递到标签编码模块中，在现实世界中可能无法获得或负担不起的预先培训的教师最近，（Huang et al.2020）提出了用于弱监督检测的自蒸馏，但其设置与通用对象检测有很大不同。2.2无教师教学法除了传统的KD与预先培训的教师，有教师免费计划，可分为三类：（1）自我升华（2）协作学习和(3)标签正则化(1)自升华是从模型本身中挖掘出有指导意义的知识。例如，（Yang等人，2019;Kim等人，2020）使用先前保存的快照作为教师。在（Zhang etal.2019）中，网络被划分为多个部分，较深的层用于教授较浅的层。在MetaDistiller（Liu et al. 2020年），知识来源于一步预测。(2)协作学习涉及多个学生相互促进。（ Zhang et al.2018 ）提出了深度相互学习（DML），其中具有相同架构的学生网络协作学习。（Lan，Zhu和Gong2018）通过考虑分支粒度的集成学习提出了ONE。在KDCL（Guo et al.2020）中，预测被融合在一起作为指导性知识。同样，在（Chen etal.2020 a）中，将多名学生的检索结果汇总以提取另一个。（ Furlanello et al. 2018 年）提出了重生网络（BAN），利用上一代的信息(3)对于标签正则化，（Yuanet al.2020）提出了tf-KD，用于标签平滑之外的正则化标签分布（Szegedy et al. 2016年）。然而，上述方法仅用于分类最近，出现了新的标签正则化方法（Mostajabi，Maire和Shakhnarovich2018;Hao2020）使用隔离网络显式建模对象索引，C= 256是中间特征尺寸，N是对象编号。i= 0索引上下文对象。为了在标签描述符之间引入基本关系建模并保持置换不变属性，我们采用经典的PointNet（Qi et al. 2017）作为标签编码模块。它通过多层感知器处理描述符（Friedman et al. 2001）与局部全局建模的空间Transformer网络（Jaderberg etal. 2015年）。此外，标签描述符类似于PointNet习惯的点集（边界框可以被视为四维笛卡尔空间中的点）。根据经验，使用PointNet作为编码器的表现略好于MLP或Transformer编码器（Vaswani et al. 2017年）（表 4 ）。我们进一步将 BatchNorm （ Ioffe 和Szegedy2015 ）替换为 LayerNorm （ Ba ， Kiros 和Hinton2016），以适应小批量检测设置。值得注意的是，上述1D逐对象标签编码方式比LabelEnc中的编码方式 LabelEnc构造一个ad-hoc颜色映射RH×W ×K来描述标签，其中（H，W）和K分别是输入分辨率和对象类别编号（HWKC）。色彩图由额外的CNN和金字塔网络处理，以实现2D像素表示′=利RHp×Wp×C，1pP. P是指金字塔的数量（Lin et al.2017a），（Hp，Wp）表示比例尺p下的特征图分辨率。（2）外观编码：在标签编码的基础上，从包含外观特征的学生检测器的特征金字塔中提取紧凑的外观嵌入感知的物体。我们采用了一个方便的掩码池从特征图中提取对象嵌入。具体地，我们预先计算逐对象掩码：i=1标签作为监督特征，w.r.t. 语义段和检测。他们取得了令人印象深刻的成果。在（Haoetal.2020）中，构建了具有类别和位置信息的密集彩色地图，并将其输入到一个类似自动编码器的网络中，以获取标签表示。然而，他们认为每个对象建模单独这是次优.相反，我们建议通过对象间和对象内的关系建模来生成指导性知识，以形成具有更高上限的自升华方案。3方法如图2，我们将LGD中的模块说明为具有位置（0.，0.，1.，1.一、）涵盖整个形象。对于每个对象i（0我N），miRH×W是一个二进制矩阵，其值在地面真实区域内设置为1，否则设置为0掩码池化对于所有金字塔等级同时进行，在每个金字塔等级处，输入等级处的逐对象掩码被缩小到对应的分辨率以变成尺度特定的掩码。在p尺度下，通过计算投影特征图Fproj（X p）∈RHp×Wp×C与信道广播Hadamard积，得到了外观嵌入ai R C 向下-缩放的对象掩码∈RHp×Wp，然后是全局和池化。 Fp roj（·）是一个3×3的单锥层。因此，我们将...（1）计算标签和外观的编码器选择外观嵌入：Ap={ai∈ RC}N为每个嵌入(2)一种对象间关系适配器，它在给定对象的标签和外观嵌入的情况下生成交互嵌入。(3)一个对象内知识映射器，将交互嵌入反向投影到特征映射空间，以获得用于蒸馏的指导性知识。3.1标签外观编码器（1）标签编码：对于每个对象，我们将其归一化的地面实况盒（x，y，x，y）和one-hot在级别p上的对象（对于其他级别也是如此）。3.2对象间关系适配器给定标签和外观嵌入，我们制定了一个交叉注意过程的对象间的关系适应。在图2中，在每个学生出现金字塔尺度上执行该过程以检索交互嵌入。为了简洁起见，我们省略了下面的金字塔标度下标。在交叉注意过程中，˜1˜1˜2˜2标号嵌入L={li∈RC}N ，其中i表示标签引导的信息自适应，我们利用AP-在计算用于聚集值的KQ-注意力关系中利用令牌为实现+v：mala2255获取更多论文L一∈NF F∈ ≤≤p=1ΣF·i=0ΣX≤≤蒸馏N个总pp将当前规模的标签嵌入作为查询，将规模不变的标签嵌入作为键和值。注意力机制测量对象之间的低层结构外观信息和高层标签语义之间的相关性，然后重新组装信息标签嵌入以进行动态适应。在进行关注之前，查询、键和值是在零初始化特征图上的对应的地面实况框区域。在实践中，对于每个对象i，我们通过计算矢量化的对象掩码miRHpWp×1与投影的交互嵌入ei之间的矩阵乘法来获得其第p尺度的特征图。所有这些逐对象映射被加起来成为一个统一的映射，然后是一个细化模块Fref（·），以形成指令知识：分别由线性层f、f和f然后，我们计算了相互作用eQd emKbeddinggVsui∈RC，XpI=Fref m0FT（e0）+G .中国 miFT （ei）通过对每个变换的标签嵌入进行加权，fV（lj）通过标签-外观相关因子wi j。ctxi=1inst（四）ui= j=0 wijfV（lj）（1）哪里cTtx（e0）和iTnst（ei）R1×C ，（1我N）是投影上下文和正常对象交互嵌入的转置。Fctx（·）和Finst（·）wij 通过第i个ap之间的缩放点积计算是单FC层。 G（·）是一个3×3连续层。Fref（·）首先是一个relu，然后是三个3×3的conv层。第i个和第j个标签嵌入因此，我们收集指导性知识XI={XpI∈通过softmax操作降低：RHp×Wp×C}P在所有的尺度上。w=exp（fQ（ai）·fK（lj）/τ）（二更）除了适用性考虑之外，上述映射ijNk=0 exp（fQ（ai）·fK（lk）/τ）√暗示了对象内正则化的精神（Yun et al. 2020; Law andDeng 2018; Chen et al. 2020b），其中，其中·是内积的表示法，τ=C是迫使同一前景区域方差校正的分母（Vaswani et al. 2017年）。具体地说，为了更健壮的注意力建模，该范例实际上涉及T组称为头部的并发操作，以获得部分交互嵌入。通过连接来自所有头部的部分交互嵌入并应用线性投影fP，我们得到在学生的外观表示接近（通过随后的蒸馏方程5）。此外，这些指导性表示将被监督，具有检测损失，以确保表示能力（等式6）。在蒸馏之前，在FitNet之后，使用adaption headadapt（）来调整学生表示电影我们所有对象的交互嵌入E={ei∈RC}N教学表征e=f （[u1; u2;. . . ; uT]）⑶XpI和适应的学生特征XpS=Fadapt（Xp）iPi i i i在每个特征尺度上。我们采用InstanceNorm（Ulyanov，其中[;]表示沿着通道维度组合部分嵌入结果嵌入也是尺度敏感的外观嵌入。如前所述，我们获得了相互作用的Vedaldi和Lempitsky2016），以消除两个特征图的外观和标签样式信息，然后是均方误差（MSE）：P通过迭代所有特征尺度来实现跨尺度嵌入从技术上讲，上述计算是通过多头自注意（MHSA）（Vaswani et al.L=1×S−XI×2（5）2017年）。请注意，我们的框架与特定其中，P是金字塔层级的总数，Ntotal=选择正如本文所示，LGD显示了有效性-Pp=1 Hp Wp C表示特征pyra的总大小即使是天真的Transformer。通过使用像焦点变换器这样的高级变体，它可能会表现得更好（Yang et al. 2021年，但这超出了范围。3.3对象内知识映射器为了使1D交互嵌入适用于广泛使用的中间特征提取（Li，Jin和Yan2017;Wang等人，2019）进行检测，我们将交互嵌入映射到2D特征映射空间中，以获取指导性信息。中张量作为梯度停止技术建议在以前的研究（郝等。2020; Hoffman，Gupta和Darrell2016），我们在计算蒸馏损失时分离指导性表示I以避免模型崩溃。除了优化学生检测器的蒸馏损失和检测损失外，通过共用检测头进行监控，进一步保证了教学再现质量和与学生再现的一致性。总体检测损失如下所示：知识自然地，对于每个金字塔比例p（1pP），所得到的地图的分辨率被限制为相同的。Ldet =LSdet （H（X），Y）+LIdet（H（XI），Y）（6）与相应的学生特征图。直观地说，由于空间拓扑结构在用于紧凑表示的标签编码中不被保持（Sec. 3.1），重要的是恢复每个对象的定位信息以实现几何透视中的对准。自然地，对象边界框区域充当良好的几何学。我们填充每个对象绑定交互嵌入在其p=1+v：mala2255获取更多论文YH·det其中，X/XI表示跨尺度的学生/指导性表示。LS/I表示它们的检测损失（分类和回归）（）指检测头。代表标签集（框和类别）。总之，培训的总目标是：Ltotal=Ldet+λLdistill（7）+v：mala2255获取更多论文×××→→× → ×→××♠†∼××其中λ是蒸馏项的折衷，我们在所有实验中简单地采用λ= 1。对于稳定的训练，蒸馏在30 k次迭代中开始，因为当指导性知识被充分优化时，它可能是有害的（Haoet al.2020;Liu et al.2020）。学生检测器主干在1×10k迭代的早期冻结2×训练计划为20k。4实验4.1实验设置所提出的框架建立在Detectron 2（Wu et al. 2019年）的报告。实验在8个GPU上以批量大小16运行调整输入的大小，使短边不超过800像素。我们使用SGD优化器0. 9动量和10−4重量衰减。对象间关系适配器中的多头注意力使用T= 8个头，实践为了简洁起见，我们用R-50、R-101和R-101具有可变形卷积v2的ResNet-50、ResNet-101和ResNet-101的DCN（Zhu et al. 2019年）的报告。主要实验在MS-COCO（Lin et al.2014）数据集上得到了验证，我们还在其他数据集上进行了验证： Pascal VOC（Everingham et al. 2010）和CrowdHuman（Shao et al.2018年）。MS-COCO是一个具有挑战性的目标检测数据集，包含80个类别。平均精度（AP）被用作主要指标。根据通用协议（He，Girshick和Dol la'r 2019），我们使用t ra n val-115 k和minival-5 k子集w.r.t. 培训和评估。我们用1表示90k次迭代的训练，其中学习率在60k和80k次迭代时除以10。通过类比，2表示180k次迭代，里程碑在120k和160k。我们将单尺度训练和多尺度训练简称为ss和msPascal VOC是一个包含20个类的数据集。trainval-2007和trainval-2012子集的联合用于训练，留下test-2007用于验证。我们报告了mAP和AP 50/75（AP与重叠阈值0。5/0。75）。模型经过24k次迭代训练，里程碑为18k和22k。CrowdHuman是最大的人群行人检测数据集，每张图像包含23人它包括15k和4370张图片w.r.t. 培训和验证。主要指标是每幅图像假阳性的平均对数缺失率（称为mMR，越低越好）。模型训练30具有学习率的epoch在第24和27epoch衰减。4.2与无教师方法的比较如图3和表1所示，我们将我们的LGD框架与基线和以前的无教师SOTA进行了比较，即：LabelEnc（Hao etal.2020）正则化方法。我们在三种流行的检测器上验证了 MS-COCO 的功效： FasterR-CNN （ Ren et al.2015）、RetinaNet（Lin et al. 2017b）和FCOS（Tian etal. 2019年）的报告。图3显示了随着学生检测器变得更强（更长的周期：1 2，比例尺增大：ssMS和更大的脊椎骨：R-50R-101R-101 DCN）。我们的模型-在早期设置中优于或略优于LabelEnc。对于RetinaNet或FCOS R-50在2ss设置，基线运行到过拟合，而我们的方法处理检测器骨干设置基线标签Enc我们FRCN转轴-501×ss1×ms2×ss2×ms37.637.938.039.638.138.438.939.638.338.639.240.4R-1012×ms41.741.442.3R-101 DCN2×ms44.144.044.9RetinaNet转轴-501×ss1×ms2×ss2×ms36.637.436.238.837.838.539.039.638.338.539.040.3R-1012×ms40.641.542.1R-101 DCN2×ms43.143.544.4FCOS转轴-501×ss1×ms2×ss2×ms38.839.438.141.039.640.041.041.839.740.140.942.3R-1012×ms42.943.644.1R-101 DCN2×ms44.945.646.3表1：与以前的SOTA的详细比较方法RetinaNetFRCN1×ss1×ms1×ss1×ms基线36.637.437.637.9DML†37.037.437.637.9tf-KD†––37.537.8BAN†，36.838.037.638.1我们38.338.538.338.6表2：与典型的无教师方法的比较。意味着我们被转移到侦查组了表示在BAN文献中报告第3代结果，其花费3个更长的训练时间表，远远超过常规的1。此外，tf-KD在具有焦点损失的RetinaNet上进行实验是并实现2.8%的mAP增益。值得注意的是，随着detec-tor设置变得更强，LabelEnc的增益迅速缩小，而我们的增益仍然不断提高性能。对于使用R-101和R-101DCN的更快的R-CNN，LabelEnc的性能低于基线（41.4vs. 41.7和44.0与44.1）。相反，我们的方法设法在约1%mAP下改进并超过Labe-lEnc，验证了更高的上限。同样，对于使用 R-101 和 R-101 DCN 的 RetinaNet 和FCOS，我们的方法可以稳定地实现1.2- 1.5%的增益。请注意，在传统的蒸馏方案中，仍然不知道如何为这样强的学生找到合适的老师。与典型方法比较。如前所述，除LabelEnc之外的无教师方案不是为检测而设计的。考虑到剩余问题，我们将主流检测 KD 文献（ tf-KD 除外）中的典型方法如DML、tf-KD和BAN等，通过用中间特征蒸馏代替其logits蒸馏，转移和实现到检测中如表2所示，这些方法获得轻微的改善或甚至是有害的（tf-KD）。其中，“最美的”就是“最美的”。它获得了0.6%的RetinaNet 1msR-50的实际3个训练周期的成本的改善。然而，它无法推广到其他设置。+v：mala2255获取更多论文×××基线44标签Enc42我们的4038Faster R-CNNR-101+DCN44基线标签42我们的4038RetinaNetR-101+DCN46基线标签44我们的4240FCOSR-101+DCN转轴-50361SS1MS2SS2MS2MS2ms36辆R-501SS1MS2SS2MS2MS2ms38辆R-501SS1MS2SS2MS2MS2 MS图3：LabelEnc和我们的三种典型检测器上检测器增强时的结果趋势在每个子图中，从左到右有六个设置：R-50-{1×ss，1×ms，2×ss，2×ms} →R-101-2×ms→R-101DCN-2×ms。4.3与经典教师型KD的比较方法老师学生骨干转轴-50R-101R-101 DCN基线N/A38.840.643.1标签EncN/A39.641.543.5FGFIR-10139.840.742.4R-101 DCN40.541.943.0我们N/A40.342.144.4表3：对应于图1的结果。我们的方法是有效的，较强的学生相比，其他人。我们还比较了拟议的无教师LGD与经典的基于教师的方法 FGFI （ Wang et al.2019 ）。实验在 RetinaNet2ms上分别以R-50、101和101 DCN为主干进行.如图1和表3所示，当学生变得更强时，我们的框架表现得更好。对于以R-101 DCN为骨架的强检测器，LGD比Labe-1 Enc和FGFI分别高出0.9%和1.4%FGFI的益处可能归因于缺乏更强的教师（Zhang和Ma 2021; Yao等人，2012年）。 2021年）。我们相信，具有更大的教师或其他更强的教师为基础的检测KD的FGFI可能会优于我们的，但这种教师假定的设置不是我们框架的设计目的。4.4消融研究方法APAPSAPMAPL中国农业大学N/A36.621.240.448.1–MLP37.921.541.949.7+1.3TransEnc37.921.741.650.2+1.3PointNet38.323.242.050.0+1.7表4：标签编码器消融标签编码。在这项工作中，我们采用PointNet（Qiet al.2017）作为标签编码模块。事实上，其他模块也是适用的。我们在三个方面进行比较基于ResNet-50主干网，在MS-COCO上使用Reti- naNet进行2ms具体来说，我们将PointNet与仅MLP网络以及由 6 个缩放的点积注意力头组成的编码器网络（Vaswani et al.2017），简称为与我们在PointNet上所做的处理类似，我们将标签描述符输入到这些网络中以获得标签嵌入。我们分别将这些标签嵌入输入到剩余的LGD模块并进行检查。所有变体都实现了如表4所示的良好结果，这证明了我们框架的鲁棒性。我们最终采用的PointNet是其中最好的，这可能是由于它在标签描述符之间的局部-全局关系建模。方法基线交互查询（我们的）标签学生RetinaNet36.637.6（+1.0）38.3（+1.7）FRCN37.637.8（+0.2）38.3（+0.7）FCOS38.839.6（+0.8）39.7（+0.9）表5：使用Reti- naNet、更快的R-CNN和FCOS以及R-501×ss的对象间关系自适应消融。对象间关系适配器。如第3.2节中所述，所提出的方法采用学生外观嵌入作为查询，并采用标签嵌入作为键和值以参与引导对象间关系建模（这里缩写为我们还尝试了相反的选择，使用标签嵌入作为查询（简称为如表5所示，对于以R-50为骨架的RetinaNet和FRCN1ss对象内知识映射器。如等式4中所指定的，指导性知识取决于实际对象和虚拟上下文两者的交互嵌入。我们在表6a中消除了它们的使用。正如预期的那样，单独的上下文是没有帮助的，因为仅仅上下文对对象检测没有任何帮助当与对象嵌入（+0.3%）相结合时，它设法增强了性能。COCO APCOCO APCOCO AP+v：mala2255获取更多论文××对象上下文AP36.6✓36.6✓38.0✓✓38.3方法模式APRetinaNet–36.6非共享37.8共享38.3FRCN–37.6非共享37.7共享38.3方法APAP50AP75FRCN+我们的55.156.8（+1.7）81.982.5（+0.6）61.063.3（+2.3）RetinaNet+我们的56.658.9（+2.3）81.482.6（+1.2）61.364.3（+3.0）(a) 嵌入式参与(b) 头部共享选择表8：帕斯卡VOC。表6：对象内知识适配器消融。头共享。此外，我们还检查了头部共享范例，如表6b所示。在学生和指导性代表之间共享头部始终是更好的。4.5训练效率方法预训练整体方法特定基线–12.1–FGFI17.035.523.4标签Enc14.924.512.4我们N/A23.511.4表7：培训成本（小时）比较虽然所有的蒸馏和正则化方法这在实际应用中是有关系的，但很少讨论.如表7所示，我们对（1）测试在8个Tesla V100 GPU上运行，基于RetinaNet 2ssR-50。我们用R-101为骨架的相应检测器作为FGFI的老师。与FGFI相比，我们节省了34%（23.5vs. 35.5小时）和51%（11.4与 23.4小时）。事实上，FGFI或其他现代教师为本的幼儿园可能会有更强的教师开发，但这可能会带来更重的培训负担，这超出了我们的讨论范围。类似于FGFI，La- belEnc引入了两个阶段的培训范式，尽管没有经过预先培训的教师。对于LabelEnc，我们的方法消耗少1小时，并且以一步方式进行训练实际上，LabelEnc消耗3。8G额外的GPU足迹除了固有的检测器，而我们的消耗2。5G额外（相对节省34%），但表现更好.4.6通用性扩展数据集(a) Pascal VOC：我们使用Faster R-CNN和RetinaNet在2 ms设置下使用R-50进行实验。如表8所示，我们的方法将结果提高了 1.7% （ Faster R-CNN ）和 2.3%（RetinaNet）。值得注意的是，RetinaNet的AP75指标提高了3.0%，显示了疗效。mMR探测器方法RetinaNetFRCN基线57.948.7我们56.4（↑1.5）46.4（↑2.3）表9：CrowdHuman。mMR：越低越好。(b) CrowdHuman：我们还在最大的拥挤检测数据集CrowdHuman上验证了我们的方法如表9所示，对于Faster R-CNN和Reti- naNet，我们的方法分别将mMR（越低越好）显著提高了2.3%和1.5%。它进一步证明了我们提出的LGD方法对现实世界的应用程序的通用性。方法AP髁间盒AP屏蔽掩码R-CNN（R-50）38.835.2+我们的39.8（+1.0）36.2（+1.0）掩码R-CNN（R-101）41.237.2+我们的42.0（+0.8）38.0（+0.8）表10：实例分段的比较。实例分段。为了进一步验证该方法的通用性，我们在MS-COCO中进行了实例分割实验.在这个任务中，检测器不仅需要定位每个实例，而且还需要预测细粒度的前期掩码。我们在Mask R-CNN上进行实验（He et al.2017年）。为了充分利用标签，我们用分割掩码替换了对象方面的框掩码（第3.1（2）节），作为更好的空间先验。如表10所示，我们的方法相对于掩码R-CNNR- 50和101提高了1%和0.8%的掩码框AP5结论在本文中，我们提出了一个全新的自蒸馏框架，称为LGD知识蒸馏一般目标检测。它吸收了对象间和对象内关系的精神，形成了有规律的标签和学生表征的指导性知识。LGD以在线方式运行，具有良好的性能和相对较低的培训成本。它优于以往的无教师方法和经典的基于教师的KD方法，特别是对于强学生检测器，显示出更高的潜力。我们希望LGD可以作为未来检测KD方法的基线，而无需预先培训的教师。+v：mala2255获取更多论文××××××确认本文是国家重点研究发展计划项目的资助北京人工智能研究院（ BAAI ）和国家科技部（项目编号2020AAA0104400）共同完成的。此外，作者还要感谢蔡宇轩和孔祥文的校对。附录蒸馏失重所提出的方法仅涉及方程中的蒸馏损失系数λ。7作为超参数。实际上，我们在RetinaNet上使用了权重为2{−2，−1，0，1，2}1ss，得到37.3、37.6、38.3、37.9、37.0。因此，我们认为，在所有实验中，铺层均采用权重λ= 20= 1标签外观编码器的B(a) 为什么LayerNorm不是BatchNorm标签编码器：尽管低维，标签描述符的处理与分类不同，COCO等检测数据集中的图像是高分辨率的，这导致最常见的每GPU 2个图像的协议。使用BatchNorm提供的统计数据很差，0.5% 低于 LN （ 37.8% vs.在 RetinaNet 1×ss 上为38.3%。检测器附表基线我们中国农业大学RetinaNet2×ms43.845.9+2.1FRCN45.146.1+1.0FCOS46.147.9+1.8表12：X-101 DCN作为骨架的结果：对于基于X-101DCN 的实验的 LGD ，我们提前停止蒸馏（方程式12）。5）在第130k次迭代时避免过拟合。检测器附表基线我们AP髁间盒AP屏蔽AP髁间盒AP屏蔽RetinaNetMRCN3×ms44.6–46.0（+1.4）–45.541.846.4（+0.9）42.4（+0.6）表13：Swin-T作为主干的结果：我们用MRCN表示掩码R-CNN，并报告AP框的结果（即，，AP）和AP掩码。如表12所示，LGD在RetinaNet和FCOS上使用X- 101DCN获得了2.1%和1.8%的显着改进，并且还将FasterR-CNN变体提高了1%。此外，建议的LGD推广到-(b) 外观编码器中的掩码池：我们还检查了RoIAlign的性能，它的性能相当好。因此，我们采用更简单的掩码池C常见的3×时间表检测器骨干基线我们中国农业大学RetinaNet转轴-5038.740.5+1.8R-10140.442.1+1.7FRCN转轴-5040.240.9+0.7R-10142.042.7+0.7X-10143.044.1+1.1表11：3×ms设置的结果上述实验部分主要包括两个设置，与以往的KD值检测方法进行比较在这里，我们还公布了结果，一般检测文献中的3ms设置。实验在Faster R-CNN和RetinaNet上进行如表11所示，拟定的LGD在改进方面仍具有稳健性。此外，表14和表13还显示了3×ms的实验项（POTO和Swin-T变体）。D其他学生变体(a) 骨干：除了强大的学生骨干如R-101和R-101 DC

下载后可阅读完整内容，剩余1页未读，立即下载