基于变换器的无骨架检测器WB-DETR：消除CNN主干的局部特征编码方法

31 浏览量更新于2023-10-15 收藏 1.68MB PDF 举报

NIST

中国科学院大学

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

2979WB-DETR：基于变压器的无主干Fanf anLiu1，2，3，4*，HaoranWei1，2，3，4*，WezheZhao1，2，3，4†，GuozhenLi5，Jingquan Peng1，2，3，4，Zihao Li1，2，3，41中国科学院航天信息研究所。2NIST，中国科学院航天信息研究所。3中国科学院大学，中国北京。4UCAS电子、电气与通信工程学院5大连理工大学，中国大连（liufanfan19，weihaoran18，pengjingquan19，lizihao191）@mails.ucas.ac.cn，lgzh@mail.dlut.edu.cn，zwz@mail.ie.ac.cn摘要基于变换器的检测器是目标检测中的一种新的范例，其目的在于实现良好的性能，同时消除先验知识驱动的组件，例如，锚、提案和NMS。其中最先进的模型DETR由三个子模块组成，即：基于CNN的主干和成对的变换器编码器-解码器。CNN被应用于提取局部特征，并且Transformer被用于捕获全局上下文。然而，这条管道不够简洁。在CNN图像特征（一）平坦曲面的线性投影Transformer编解码器（b）第（1）款框预测集框预测集在本文中，我们提出WB-DETR（基于DETR的无骨架检测器）来证明对于基于变换器的检测器，依赖于CNN特征提取是不必要的。与原来的DETR不同，WB-DETR仅由编码器和解码器组成，没有CNN主干。对于输入图像，WB-DETR将其直接序列化以将局部特征编码到每个单独的令牌中。为了弥补Transformer在局部信息建模方面的不足，设计了 LIE-T2 T （ localinformation enhancement token to token）模块，对展开后的 token 内部信息进行增强实验结果表明， WB-DETR，第一个纯变压器检测器没有CNN我们的知识，产量的准确性和更快的推理速度，只有一半数量的参数相比，与DETR基线。1. 介绍基于CNN的方法[18]多年来一直主导对象检测任务[20，32]。在这些方法中，常见的组件是骨干网络[12，13，14，35]。*同等贡献。†通讯作者是赵文哲。图1. DETR与WB-DETR。(a)DETR首先使用CNN网络来提取特征，然后利用Transformer结构进行对象检测。(b)WB-DETR对图像进行序列化处理，并利用Transformer直接检测目标。用作通过一系列卷积和池化层来提取图像特征。现代基于CNN的检测器[9，11，27，21，36，29，23，25，26，22]将检测器设计视为模块组合过程，其通常由主干、颈部[21]和多个检测头[3]组成。其中，骨干网已经成为提高性能的事实标准，各种骨干网的设计也是目标检测领域的研究热点。众所周知，骨干网的设备对于现有的基于CNN的探测器是必不可少的。为了摆脱基于CNN的设计的范例，Carion等人。提出了一种新的检测器DETR [4]。不像以前的基于CNN的作品，DETR是一种基于Transformer的检测器[4，40，5，33]，它消除了许多手工制作的操作[4]，例如，锚点生成、基于规则的对象分配、非最大抑制（NMS）后处理等。如图1（a）所示，DETRTransformer编解码器2980··×T2T LIE-T2T11重塑123456展开78922F（∙，35344123重塑4562展开419585789665F（∙）67Ti+1788FC9我9我Ti+1图2. T2 T与LIE-T2 T。T2T通过整形和展开操作聚合相邻令牌的信息。基于T2 T，LIE-T2 T可以通过以下方式实现重塑的Ti的：计算展开的Ti+1的信道注意。 F（，W）表示注意力计算，F（）表示逐元素乘法，FC表示FC层。应用一种简单的架构，该架构与CNN骨干和成对的Transformer[31]编码器-解码器相结合，以输出一组框预测，这在一定程度上简化了对象检测然而，DETR也受到模块化拼接设计的影响，仍然依赖于CNN来提取特征，这使得模型不够统一和整洁。Vision Transformer（ViT）[6]是第一个可以直接应用于图像分类的纯变换器模型。它将输入图像分成16个16块具有固定长度的补丁。然后，运行编码器子模块，对斑块进行序列建模，得到分类结果。不幸的是，与CNN[12，13，14，35]相比，ViT实现了较差的性能，因为输入图像的简单标记化未能对重要的局部结构（例如，边缘、线）。T2 T-ViT（令牌到令牌视觉Transformer）[37]通过递归地将相邻的- kens聚合到一个令牌中来解决以这种方式，不仅可以调制由周围令牌呈现的局部结构，还可以减少令牌长度T2 T-VIT的性能因此，一个自然问题是：DETR中的CNN主干是否冗余？本文证明上述答案是肯定的。受[37]的启发，我们试图摆脱DETR的支柱，并提出我们认为迄今为止最简洁的检测器（WB-DETR）。如图1（b）所示，WB-DETR不使用CNN的主干来提取特征。相反，它直接序列化图像，在每个独立的令牌中编码本地特征。众所周知，Transformer的自注意力具有很强的全局信息建模能力，能够很好地调节不同标记之间的上下文关系。然而，每个令牌中的本地信息和令牌之间的信息是不可见的。空间中的相邻令牌没有被很好地建模。换句话说，Transformer缺乏局部信息建模的能力。尽管T2T[37]模块可以聚合相邻令牌的上下文，但它不能单独对聚合的独立令牌的内部信息进行建模，如图2（a）所示。因此，随着WB-DETR，我们提出LIE-T2 T（本地信息增强-T2 T）模块。如图2（b）所示，LIE-T2 T不仅重组和展开相邻的标记，而且还计算展开后每个标记的通道维度上的注意力。因为令牌是通过展开操作从特征图中获得的，所以对令牌的通道之间的关系进行建模等同于对特征图中的像素之间的空间关系这就是为什么LIE-T2 T中的信道关注可以增强本地信息。总之，我们提出了 WB-DETR （ DETR-BasedDetector without Backbone），它只由一个编码器和一个解码器组成，而没有主干。WB-DETR不使用CNN来提取特征，而是直接序列化图像，将输入的本地特征编码到每个单独的令牌中。此外，为了使WB-DETR能够更好地弥补Transformer在局部信息建模方面的不足，我们设计了 LIE-T2 T （ Local InformationEncementTokens-to Token）模块，对展开后的每个令牌的内部（局部）信息进行调制与基线相比，无背骨WB-DETR更统一、更整齐。我们鼓励研究人员重新思考模块组合（脊柱-颈部-头部）设计范例的对象检测。2. 相关作品2.1. 对象检测目标检测是计算机视觉中的一项基本任务，其操作为定位和分类图像中的目标。在深度学习的帮助下，对象检测在当今时代取得了巨大的进步，直接或间接地促进了广泛的视觉任务，例如对象跟踪[2，15]，实例分割[11]，姿态估计[8，24]等。现代对象检测器在追求流水线简单性的过程中致力于保持高精度。两阶段检测器[28，3]预测框，w.r.t.，建议，而单阶段方法进行预测，w.r.t.，锚[22]或可能的对象中心的网格[39，29]。在过去的几年中，锚盒被用来匹配地面真值盒，并作为一个引导检测器回归对象边界盒。更快的R-CNN[28]在其区域建议网络（RPN）中推广了锚机制，该网络用于从一组候选框中生成建议。后来，锚箱被广泛应用于两级和锚基探测器。为了进一步探索模型2981LIE-T2 T Transformer编码器N ×K×展开Transformer编码层LIET2TTi+1我不是对象查询FFNFFNFFNFFN狗没有对象没有对象猫Transformer译码器Transformer编码器层位置编码图3.所提出的WB-DETR的架构首先将输入图像软分割为块，并展开为符号序列T0，然后将T0送入由N层LIE编码器和K层无LIE编码器组成的LIE-T2 T Transformer编码器，得到Ti。最后，WB-DETR利用解码器到共享前馈网络（FFN）的每个输出嵌入来预测“对象”（具有类和边界框）或“无对象”。此外，还出现了一些基于锚的单级探测器。他们删除RPN并直接回归和分类锚框。YOLOv2 [26]使用锚框来预测边界框，这比Y OLOv1[25]实现了更好的性能。近年来，针对锚固机制的缺陷，研究者们提出了许多无锚固方法。FCOS[29]将像素视为正样本并直接回归四个向量（从每个像素到相应框的边界的距离）。此外，基于关键点的检测器通常通过输出热图来预测关键点[30]。例如，Corner-Net[19]通过预测和分组角点对来检测对象。基于CornerNet ，Duan 等人设计了CenterNet[7]，它将每个对象作为一个三元组进行检测。最近的工作[38]表明，上述模型的最终性能在很大程度上取决于设置初始猜测的确切方式，例如，锚点的设置和正负样本的匹配规则。当这些检测器匹配正样本和负样本时，它们通常将多个预测与一个目标匹配，这导致一个对象连同多个边界框预测。它们需要先验知识（如NMS）来过滤掉多余的盒子。这就是为什么物体检测器不能被设计为完整的端到端。2.2. 视觉变形金刚转换器的概念首先在[31]中提出，用于序列到序列的机器翻译任务，并且从那时起，转换器已经成为大多数NLP（自然语言处理）任务中事实上的方法[1]。自注意作为转换器的核心机制，特别适合于对长距离依赖进行建模。近年来，变压器开始在计算机视觉任务中显示出前景DETR[4]构建了一个基于变压器的目标检测系统，大大简化了传统的检测流水线，与高度优化的基于CNN的检测器相比，其性能相当ViT[6]将Transformer引入图像识别，并将图像建模为一系列补丁，与最先进的CNN网络相比，它取得了优异的效果。上述两项工作显示了转换器在图像理解任务中的有效性。我们的工作受到DETR和ViT的启发。据我们所知，没有对象检测器在没有任何CNN模块的情况下使用纯变换器。仅使用Transformer是否可以完成目标检测任务？在本文中，我们介绍了WB-DETR，并提供了一个肯定的答案。3. 方法在本节中，我们首先介绍所提出的WB-DETR的整体流水线。接下来，我们将深入研究所提出的WB-DETR的每个模块，并展示LIE-T2 T如何最后介绍了损失函数的设计。2982××××∈∈S2× ××××××图像512×512×3切割斑块(32×32×3）×1024重塑1024×3072可训练线性投影令牌1024×256LIE-T2 T编码器图4. 图像到令牌的过程。以512 512 3的输入图像为例。首先，将图像分割成1024个大小为3232的块3 .第三章。然后，将每个面片重新整形为一维。最后，执行可训练的线性投影以产生所需的令牌。3.1. 图像到令牌我们遵循ViT来处理2D图像。首先，我们以（s，s）的步长将图像切割成（p，p）的大小。以这种方式，输入图像XRh X w X c被重新整形为一系列平坦化的2D补丁XpRl X cp，其中h和w是原始图像的高度和宽度，c是原始图像的高度和宽度。代币Ti令牌Ti+N通道的数量，并且L表示贴片的长度其中l=h×w，cp=p2C. L还用作Transformer编码器的有效输入序列长度我们的LIE-T2 T编码器在其所有层中采用恒定的潜在向量大小d因此，我们平坦化和映射的补丁到d维与一个可训练的线性projec-灰。更具体地，该线性投影分别具有输入和输出维度cp和d我们将该投影的输出命名为令牌T0。将图像转换为标记的过程如图4所示。3.2. LIE-T2 T编码器在图像到令牌的过程之后，我们向目标令牌添加位置编码[4]，使它们携带位置信息。位置编码是标准的可学习的1D版本[6，3]。然后，如图3所示，所得的嵌入向量序列用作编码器的输入。每个编码器层保持由多头自注意模块和前馈网络（FFN）组成的标准架构。在每个编码器层后面配备LIE-T2 T模块以构成LIE-T2 T编码器。LIE-T2 T模块可以逐步减少令牌的长度并变换图像的空间结构由于我们不使用任何基于CNN的主干来提取图像特征，而不是直接序列化图像，图像的本地信息被编码在每个独立的令牌中。虽然transformer中的自我注意子模块具有很强的全局信息建模能力，可以对不同token之间的信息进行建模，但每个token内部的局部信息和信息被图5. LIE-T2 T编码器详细结构图。每个编码器层保持一个标准的架构，其中包括一个多头自注意模块和前馈网络（FFN）。LIE-T2 T模块被配备在每个编码器层之后以构成LIE-T2 T编码器。空间中的相邻标记之间没有被很好地建模。为此，在设计LIE-T2 T模块时，我们不仅需要重新组织和拉伸相邻的令牌，还需要增强内部信息（即，本地信息）。具体地，LIE-T2 T模块计算每个令牌的通道维度上的注意力。注意力是为每个标记单独图5中示出了LIE-T2 T模块的更详细的迭代过程，其也可以公式化如下：T=展开（Reshape（Ti））（1）S=Sigmoid（W2·ReLU（W1·T））（2）Ti+1=W3·（T·S）（3）其中Reshape表示操作：reorganize（l1c1）标记到（h w c）特征图中。展开表示将（h wc）特征映射拉伸到（l2c2）标记。W1、W2和W3指示对应的全连接层的参数。我们使用ReLU激活来找到它的非线性映射，并采用Sigmoid函数来生成最终注意力。LIE-T2 T编码器的输入尺寸为（（h/s×w/s）×256）。N× K×LIE-T2T添加规范添加规范FFNFFN添加规范添加规范多手自注意多手自注意2983×−K1框N1我我I=N3.3. 解码器WB-DETR 的解码器遵循 Transformer 的标准架构[4]，使用多头自注意变换大小为d的N个嵌入，编码器-解码器机制。和DETR一样，我们的WB-DETR边界框丢失。边界框的回归损失由两部分组成：L1损失和IoU损失如下。L（（b，b）=1Σ[γ·L（（b，b）+i=1在每个解码器层处并行地解码所述N个对象由于解码器是置换不变的，N个输入嵌入必须是可区分的，以产生不同的结果。这些输入嵌入是我们引用对象查询的可学习嵌入。在编码端，我们在解码端的每个注意层的输入端加入了位置编码.最后，N个对象查询由解码器转换成输出嵌入，然后由前馈网络（FFN）独立地解码成框坐标和类标签，从而产生N个最终预测。3.4. 前馈网络前馈网络由具有ReLU激活函数和线性投影层的3层感知器计算。FFN的最终输出是归一化的中心坐标、框的高度和宽度w.r.t.输入图像，并且线性层经由Softmax函数预测类别标签。由于我们预测了一组固定大小的N个边界框，其中N通常比图像中感兴趣对象的实际数量大得多，因此使用附加的特殊类别标签该“无对象”类在传统对象检测方法中扮演与“背景”类类似的角色[11，23]。3.5. 损失函数WB-DETR的损失函数与DETR相同换句话说，所有监督都是在预测和地面实况之间匹配之后应用的匹配. 我们的损失函数产生预测和地面实况观测之间的最佳二分匹配。我们使用匈牙利算法来找到最佳匹配，匹配成本由预测类和边界框组成[4]。匹配后，我们可以得到一个新的顺序的地面实况对象，然后多分类损失和包围盒损失的基础上，新的匹配地面实况计算。多分类损失。WB-DETR采用权值均衡的交叉熵损失作为多分类损失函数。具体公式可以表示为：η·Liou（bi，bi）]其中γ和η是L1和L101的平衡权重。和b分别表示回归边界框和真实边界4. 实验4.1. 数据集我们在极具挑战性的MS COCO基准数据集上评估了所提出的WB-DETR [20，17]。我们在train2017分割上用大约115K注释的图像训练我们的模型，并在val2017分割上用5K图像验证我们的方法。COCO使用不同IoU的平均精度（AP）作为主要评估指标。4.2. 实现细节我们的WB- DETR的主要设置和训练策略主要遵循DETR[4]，以便更好地进行比较。所有Transformer权重都使用Xavier Init[10]初始化，并且我们的模型在任何外部数据集上都没有预训练过程默认情况下，模型训练500个epoch，在400epoch时学习率下降10我们通过Adam优化器[16]优化WB-DETR，基本学习率为1e4，权重衰减为0。001。我们使用32的批量大小，并在16个V100 GPU上训练网络，其中每GPU 4个图像。我们使用一些标准的数据扩充，如随机调整大小，颜色抖动，随机翻转等，以克服过拟合。Transformer使用默认dropout 0进行训练。1.一、我们将解码层的数量固定为6，并报告具有不同编码器层数量N和K的性能：当N和K为n和k时，对应的模型被命名为WB-DETRn。4.3. 与更快的R-CNN和DETR的我们通过将WB-DETR与最经典的检测器（Faster R-CNN和DETR）进行比较来验证WB-DETR的有效性。如表1所示，我们的WB-DETR（2-12）模型产生与DETR相当的AP，而我们的模型的参数的数量仅为DETR的大约一半是-Lc（y，y）=−iΣ=Nlo g（y（i）ifyclass没有对象（四）速度比DETR快8FPS。WB-DETR（2-8）实现了类似的AP（40.2）和大约两倍的推理速度，并且仅用参数的一半。Ni=1α·log（y（i）否则，其中α是损失权重，平衡对象和“无对象”样本，我们将其设置为0。1.一、与Faster R-CNN（带FPN）模型相比。上述结果证明，在没有基于CNN的主干的情况下，纯变换器能够完成目标检测任务的所有步骤，甚至比基于CNN的更好。（五）29842方法ParamsFLOPsFPSAPAP50AP75APSAPMAPLLIE-T2TT2t参数FLOPs FPS AP AP50 AP75C19M 79G 42 38.1 62.841.4C19M 80G 42 40.2 63.2 44.8表1. 在COCO验证集上与Faster R-CNN和DETR进行比较。我们模型的参数大大减少，推理速度比经典的Faster R-CNN和DETR快得多。更快的R-CNN w/FPN42M180G2640.261.043.824.243.552.0更快的R-CNN-DC 5166M320G1639.060.542.321.443.552.5更快的R-CNN-R101，带FPN60M246G2042.062.545.925.245.654.6DETR41M86G2842.062.444.220.545.861.1DETR-DC541M187G1243.363.145.922.547.361.1DETR-R10160M152G2043.563.846.421.948.061.8DETR-DC5-R10160M253G1044.964.747.723.749.562.3WB-DETR（2-4）14M62G5139.658.443.818.242.754.9WB-DETR（2-8）19M80G4240.260.143.919.344.158.8WB-DETR（2-12）24M98G3641.863.244.819.445.162.4表2. 我们通过改变LIE-T2 T编码器层数来评估我们提出的LIE-T2 T模块的有效性。我们的LIE-T2 T模块到原始编码器，AP将显著下降（从40. 3到30。7），特别是对于小目标，下降了近1AP（从19。2到10。（五）。层参数FLOPs FPS APAPS APM APL013M60G4930.7 10.535.256.5116M72G4538.5 17.140.857.6219M80G4240.2 19.344.158.8321M94G4040.3 19.244.358.7表3. 与LIE-T2 T和T2 T的比较。由LIE-T2 T和T2 T产生的AP50的值非常接近，并且由LIE-T2 T实现的AP75比T2 T高得多。4.4. 消融研究在Transformer解码器中，自注意是对不同预测的特征表示之间的关系建模的关键组件。在上述实验中，解码器层的数量默认固定为6在这一部分中，使用固定解码器，我们将探讨我们的架构和损失函数的其他组件如何影响最终性能。对于有限的计算资源，所有消融研究仅使用WB-DETR（2-8）。LIE-T2 T编码器层的数量。我们通过改变LIE-T2 T编码器层的数量来进一步评估所提出的LIE-T2 T模块的有效性。更具体地，当我们减少LIE-T2 T编码器层的数量时，我们还增加每个层的步长以确保后续维度是一致的。如表2所示，我们可以看到，如果不添加该结果可以充分证明我们的LIE-T2 T编码器层可以使Transformer处理局部信息更好。随着LIE-T2 T编码器层的数量继续增加（从1到2），Δ AP得到了更小2个LIE-T2 T编码器层实现了与AP（40.2vs.40.3）与3.这就是为什么我们选择2作为数字的LIE-T2 T编码器层。当然，从另一个角度来看，这个实验也表明，一个没有任何修改仍然可以执行粗略的对象检测。LIE-T2 T与T2T 我们比较我们提出的LIE-T2 T与原来的T2 T模块。 T2T模型虽然可以聚合相邻令牌的信息，但不能单独对聚合后的独立令牌的内部信息进行建模。在此基础上，设计了基于T2 T的LIE-T2T模块如上所述，LIE-T2 T不仅重新组织和拉伸相邻标记，而且还计算拉伸后每个标记的通道维度中的注意力由于令牌是由特征图通过展开获得的，因此对令牌通道之间的关系进行建模等效于对像素之间的空间关系进行我们在标记上添加通道维度注意力，这相当于添加局部空间注意力。从表3可以看出，通过LIE-T2 T和T2 T产生的AP50的值非常接近，但是通过LIE-T2T实现的AP 75比T2 T高得多。实验结果表明，对局部信息进行建模后，回归的包围盒更加准确。此外，LIE-T2 T的额外计算开销是最小的。LIE-T2T和T2 T的检测结果的可视化显示在图6中。我们可以看到，我们的LIE-T2 T得到的检测框非常准确。每个检测框都可以很好地与对象边界拟合，从而产生出色的AP 75。2985≥≤（c）第（1）款（b）第（1）款（一）图6. 检测结果的可视化。(a)纯变压器不加任何修改直接检测运行对象的检测结果。(b)使用纯变压器连同T2T模块进行的物体检测的检测结果。(c)使用纯变压器和LIE-T2 T模块进行物体检测的检测结果。我们可以看到，直接使用Transformer（a）的模型对于小目标的性能较差，并且回归的边界框不准确。加入T2T模块（b）后，对小目标的检测效果有了很大的提升，但包围框仍然不够准确。随着我们的LIE-T2 T模块（c）的加入，检测结果的质量显著提升。表4.通过改变分割的块大小和步长来评估重叠区域和每个标记中不同的信息量对检测结果的影响。贴片步骤ParamsFLOPsFPSAPAP50AP758419M184G3241.163.345.616819M80G4240.263.244.8241219M64G4838.863.043.0321619M42G5836.362.542.18819M79G4439.763.244.2161619M34G5935.462.341.8242419M18G6434.261.540.5323219M12G8033.961.037.6补片和步长。我们改变补丁和步长的切割，以评估的影响，重叠区域和不同数量的信息，在每个令牌上的检测结果。从表4中可以看出，步长与模型的准确度有重要关系。当步长太大时（例如， 16），模型无法有效输出高质量的包围盒。当步长太小时（例如，8），计算开销将呈指数级增加。在那里-因此，重要的是要选择正确的补丁和步长对。5. 结论总之，我们提出了第一个纯变压器检测器WB-DETR（基于DETR的检测器没有骨干）。该模型仅由编码器和解码器组成，没有任何基于CNN的骨干网。WB-DETR不利用CNN来提取特征，而是直接将图像序列化，并将输入的本地特征编码到每个单独的令牌中。此外，为了使 WB-DETR 能够更好地弥补Transformer在局部信息建模方面的不足，我们设计了LIE-T2 T （ Local Information Enhancement Tokens-toToken）模块，用于对展开后的每个令牌的内部（局部）信息进行调制。与其他传统的检测器不同，无骨干的WB-DETR更加统一和整洁。实验结果表明，WB-DETR，第一个纯变压器检测器没有CNN我们的知识，收益率在par accuracy和更快的推理速度，只有一半数量的参数相比，DETR基线。我们鼓励研究人员重新思考的模块组合（骨干-颈部-头部）的设计范式的对象检测。2986引用[1] Rami Al-Rfou、Dokook Choe、Noah Constant、MandyGuo和Llion Jones。具有更深自我关注的字符级语言建模。在第三十三届AAAI人工智能会议，AAAI 2019，第三十一届人工智能创新应用会议，IAAI 2019，第九届AAAI人工智能教育进展研讨会，EAAI 2019，檀香山，夏威夷，美国，2019年1月27日至2月1日，第3159-3166页[2] Mykhaylo Andriluka Stefan Roth和Bernt Schiele单目3d位姿估计与侦测追踪。在2010年IEEE计算机协会计算机视觉和模式识别会议上，第623-630页。IEEE，2010。[3] 赵伟蔡和努诺·瓦斯康塞洛斯。级联r-cnn：深入研究高质量的目标检测。在IEEE计算机视觉和模式识别会议论文集，第6154-6162页[4] 尼古拉斯·卡里昂、弗朗西斯科·马萨、加布里埃尔·辛纳夫、尼古拉斯·乌斯尼尔、亚历山大·基里洛夫和谢尔盖·扎戈鲁伊科。使用变压器进行端到端对象检测在European Conference on Computer Vision中，第213-229页Springer，2020年。[5] Zhigang Dai ， Bolun Cai ， Yugeng Lin ， and JunyingChen. Up-detr：使用变压器进行对象检测的无监督预训练arXiv预印本arXiv：2011.09094，2020。[6] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner ， Mostafa Dehghani ， Matthias Minderer ，Georg Heigold，Sylvain Gelly，et al.一张图片相当于16x16个单词：用于大规模图像识别的变换器. arXiv预印本arXiv：2010.11929，2020。[7] 段凯文，白松，谢灵犀，齐红刚，黄庆明，田奇.Centernet：用于对象检测的关键点三元组。在IEEE计算机视觉国际会议论文集，第6569-6578页[8] 方浩树，谢淑琴，戴玉荣，陆策武。区域多人姿态估计。在IEEE计算机视觉国际会议论文集，第2334-2343页，2017年[9] 罗斯·格希克。快速R-CNN。在Proceedings of the IEEEinternational conference on computer vision ，第 1440-1448页[10] 泽维尔·格洛特和约舒亚·本吉奥了解训练深度前馈神经网络的困难。在第十三届人工智能和统计集，第249JMLR Work-shop and Conference Proceedings，2010.[11] KaimingHe ， GeorgiaGkioxari ， PiotrDolla'r ，andRossGir-shick.面具R-CNN。在IEEE计算机视觉国际会议论文集，第2961-2969页[12] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在Proceedings ofthe IEEE conference on computer vision and patternrecognition，第770-778页[13] Andrew G. Howard，Menglong Zhu，Bo Chen，DmitryKalenichenko，Weijun Wang，Tobias Weyand，MarcoAn- dreetto，and Hartwig Adam. Mobilenets：高效卷积移动视觉应用的神经网络CoRR ， abs/1704.04861 ，2017。[14] Gao Huang，Zhuang Liu，and Kilian Q.温伯格密集连接的卷积网络。CoRR，abs/1608.06993，2016。[15] Zdenek Kalal，Krystian Mikolajczyk，and Jiri Matas.跟踪-学习-检测IEEE Transactions on Pattern Analysis andMachine Intelligence，34（7）：1409[16] Diederik P Kingma和Jimmy Ba。Adam：随机最佳化的方法。arXiv预印本arXiv：1412.6980，2014。[17] Alexander Kirillov ， Ross Girshick ， Kaiming He ， andPiotr Doll a'r. 光学特性金字塔网络工作。在IEEE/CVF计算机视觉和专利识别会议的论文集中，第6399-6408页，2019年[18] Alex Krizhevsky、Ilya Sutskever和Geoffrey E.辛顿使用深度卷积神经网络的图像网分类。Commun. ACM，60（6）：84 -90，2017.[19] 黑律和贾登。Cornernet：将对象检测为成对的关键点。在欧洲计算机视觉会议论文集（ECCV）中，第734-750页[20] 作者：Michael Maire，Serge J. Belongie，James Hays，PietroPerona，Dev aRamanan，PiotrDol la'r，andC.劳伦斯·齐尼克。Microsoft COCO：常见对象在context.InD a vidJ. Fleet ， Toma' sPajdla ， BerntSchiele ，andTinne Tuytelaars，editors，Computer Vision - ECCV2014 - 13th European Conference，Zurich，Switzerland，September 6-12，2014，Proceedings，Part V，volume8693 ofLecture Notes in Computer Science ， pages740Springer，2014.[21] 林宗义、彼得·多尔、罗斯·格希克、何启明、巴拉特·哈里哈兰和塞尔日·贝隆吉. 用于目标检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议论文集，第2117-2125页[22] 林宗义、普里亚·戈亚尔、罗斯·格希克、何开明和彼得·多尔·拉尔。密集目标检测的焦面损失。在IEEE计算机视觉国际会议的论文集，第2980-2988页，2017年[23] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，第21-37页。施普林格，2016年。[24] Alejandro Newell，Zhiao Huang，and Jia Deng.关联嵌入：用于联合检测和分组的端到端学习。神经信息处理系统进展，第2277-2287页，2017年[25] Joseph Redmon，Santosh Divvala，Ross Girshick，andAli Farhadi.你只看一次：统一的实时对象检测。在IEEE计算机视觉和模式识别集，第779-788页[26] 约瑟夫·雷德蒙和阿里·法哈迪Yolo9000：更好，更快，更强。在IEEE计算机视觉和模式识别会议论文集，第7263-7271页[27] 约瑟夫·雷德蒙和阿里·法哈迪Yolov3：一个渐进的改进。arXiv预印本arXiv：1804.02767，2018。[28] 任少卿，何开明，Ross B.Girshick和Jian Sun。更快的R-CNN：实时目标检测与再-2987gion proposal networks. IEEE传输模式分析马赫内特尔，39（6）：1137[29] Zhi Tian ， ChunhuaShen ， Hao Chen ， and Tong He.Fcos：完全卷积的一阶段对象检测。在IEEE计算机视觉国际会议论文集，第9627-9636页，2019年[30] Jonathan J Tompson ， Arjun Jain ， Yann LeCun ， andChristoph Bregler.用于人体姿势估计的卷积网络和图形模型的联合训练。神经信息处理系统的进展，第1799-1807页，2014年[31] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， LukaszKaiser，and Il- lia Polosukhin.注意力是你所需要的。arXiv预印本arXiv：1706.03762，2017。[32] Sara Vicente ， Joao Carreira ， Lourdes Agapito ， andJorge Batista.重构pascal voc。在Proceedings of the IEEEconference on computer vision and pattern recognition，pages 41[33] Yuqing Wang，Zhaoliang Xu，Xinlong Wang，ChunhuaShen，Baoshan Cheng，Hao Shen，and Huaxia Xia. 使用Transformers进行端到端视频实例分割。arXiv预印本arXiv：2011.14503，2020。[34] 吴宇新、亚历山大·基里洛夫、弗朗西斯科·马萨、罗万燕和罗斯·格希克。《侦探2》Detectron 2（2019）URLhttps：//github. com/facebookresearch/detectron2.[35] 谢赛宁，RossB. Girshick ，PiotrDolla'r， Zhuo wenTu，and Kaiming He.深度神经网络的聚合残差变换。在2017年IEEE计算机视觉和模式识别会议，CVPR 2017，Hon-olulu，HI，美国，2017年7月21-26日，第5987-5995页。IEEE计算机学会，2017年。[36] Ze Yang，Shaohui Liu，Han Hu，Liu，and Stephen Lin.Reppoints：用于对象检测的点集表示。在IEEE计算机视觉国际会议论文集，第9657-9666页[37] Li Yuan ， Yunpeng Ch

下载后可阅读完整内容，剩余1页未读，立即下载