基于Transformer的无监督对象发现方法

176 浏览量更新于2023-10-16 收藏 1.88MB PDF 举报

4043

FORMULA

身份认证购VIP最低享 7 折!

30元优惠券

4043基于Transformer的林志伟杨增宇王永涛王璇北京大学计算机技术研究所网址：zwlin@pku.edu.cn，yzyysj@gmail.com，网址：www.example.com，wyt@pku.edu.cn摘要无监督对象发现（ UOD ）最近随着预训练的Transformer特征的采用而显示出令人鼓舞的进展。然而，目前基于变压器的方法主要集中在设计本地化头（例如，种子选择-扩展和标准化切割），而忽略了改进Transformer特性的重要性在这项工作中，我们从特征增强的角度处理UOD任务，并提出了用于无监督对象发现的FOR地面引导和MUlti-LA首先，我们提出了一种前景指导策略，使用现成的UOD检测器来突出特征图上的前景区域，然后以迭代的方式细化对象位置此外，为了解决目标检测中的尺度变化问题，我们设计了一个多层特征融合模块，将不同尺度下的目标特征进行融合。在VOC07、VOC12和COCO 20k上的实验表明，所提出的FORMULA算法在无监督对象发现方面取得了新的该代码将在https://github.com/VDIGPKU/FORMULA上发布。1. 介绍目标检测是计算机视觉中的基本问题之一，其应用范围广泛，例如人脸识别[42]，姿态估计[57]和自动驾驶[44]。近年来，由于越来越多的注释训练数据，在该领域取得了重大成功[36，35]。然而，大规模数据集的标记[31，38]是相当昂贵的。虽然已经提出了多种技术，包括半监督学习[2]，弱监督学习[17]和自监督学习[19]来缓解这个问题，但仍然需要手动标记。在这里，我们集中在一个完全无监督的任务，对象检测，命名为无监督对象发现。预-*同等缴款。[2]在北京大学实习通讯作者。(a) LOST（b）TokenCut(c)（d）FORMULA-TC（我们的）图1.VOC 12的UOD结果示例。在（a）和（b）中，我们分别显示了LOST [40]和TokenCut [52]获得的结果，这是两种最先进的UOD方法。我们的方法的结果在（c）和（d）中给出。预测是红色的，地面实况框是黄色的。我们可以发现，所提出的公式能更准确地定位目标.最好用彩色观看。现有的基于CNN的方法[13，47，48，54]通过比较整个图像集合中每个图像的建议边界框来利用区域建议并定位对象。然而，由于比较过程带来的二次复杂性，这些方法难以扩展到大型数据集[49]。最近，DINO [6] 发现，用自监督学习预训练的视觉Transformer（ViT）[14]的注意力图显示了显著的前向区域。受DINO的启发，LOST [40]和To- kenCut [52]被提出来通过对高质量的ViT特征进行标记来发现对象。这两种方法首先使用ViT的最后一层的分片特征的相似性来构造无向图然后，分别采用两步种子选择扩展策略和归一化切割[39]来分割前景对象。虽然这两种方法都取得了优于以前的最先进的结果[48，49]，我们发现，他们4044主要集中在本地化头的构建上，而忽略了ViT特性的改进潜力。在本文中，我们提出了一个简单而有效的特征增强方法，现有的基于 ViT 的 UOD 框架，命名为FORMULA。我们的方法包括两个部分，即。、前景引导模块和多层特征融合模块。对于前景引导模块，我们利用由现成的UOD检测器预测的对象掩模来突出前景对象区域，然后通过迭代过程来细化对象位置具体来说，我们首先使用现有的UOD检测器从原始ViT特征图生成对象掩码（例如，LOST或TokenCut）。然后，我们构造一个概率图与二维高斯分布的掩模，这大致定位前景物体。之后，我们通过将概率图应用于原始ViT特征图来突出显示前景区域。最后，更新的特征图用于UOD检测器以获得细化的对象掩模。整个过程可以重复。在这种方式中，我们通过引入前景对象信息和抑制背景干扰来增强ViT特征图。我们的方法可以定位对象更准确地只有几次迭代。此外，我们注意到LOST和TokenCut只使用ViT最后一层的特征映射。然而，在非对象为中心的图像中，对象的比例，如COCO [31]中的那些，可以有很大的变化来自预训练的ViT的最后一层的特征主要捕获用于分类的关键区域，其通常在更大的尺度上。因此，对较小物体的感知受到伤害。为了解决这个问题，我们提出了多层特征融合模块。详细地说，我们只是通过加权求和来合并最后几层的特征，以聚合多尺度信息，用于无监督的对象发现。我们的主要贡献可概括如下：• 我们从现有的UOD检测器预测的对象掩模到原始ViT特征图引入前景指导，并提出了一个迭代过程来细化对象位置。• 我们进一步设计了一个多层特征融合模块来解决目标检测中的尺度变化问题，释放了ViT特征表示用于目标发现的潜力。• 所提出的方法可以很容易地纳入任何现有的UOD方法的基础上ViT和流行的PASCAL VOC和COCO基准上实现新的国家的最先进的结果2. 相关工作自我监督学习。学习功能强大最近，以无需人工注释的自监督方式进行表示已经取得了很大的进展。这是通过定义一个为特征学习提供代理监督的借口任务来执行的[34，59，19]。尽管没有标签，但用自我监督训练的模型在几个下游任务上的表现优于其监督的同行，例如图像分类[19，55，8，23，9，5，20，10，6，50，11，22]和对象检测[53，7]。虽然[55，8，23，5，20，10]已经采用CNN作为预-训练骨干，最近的作品[6，50，11，22，29，28]已经探索了变形金刚[46]用于自我监督的视觉学习，证明了它们优于传统CNN。我们的工作利用了自监督ViT的强大定位能力进行无监督对象发现。无监督对象发现。无监督对象发现的目标早期的作品通常依赖于CNN编码的图像特征[24，48，54，49，12]。这些方法需要将每个图像的提取特征与数据集中每个其他图像的提取特征进行比较，导致二次计算开销[49]。此外，依赖于图像间的相似性，导致这些方法无法运行在一个单一的图像。最近，LOST [40]和To- kenCut [52]已经被提出来通过利用从自监督ViT生成的高质量特征表示来他们的动机是，从预训练的ViT的最后一层提取的注意力图包含关于前景对象的明确信息。具体而言，这两种方法首先提出了使用从ViT主干中提取的特征来构造图像内相似性图[6，14]。然后，这两种方法分别采用启发式种子选择扩展策略和归一化切割[39]来分割图像中的单个前景对象这些方法虽然取得了很好的性能，但主要集中在局部化设计上，未能进一步改进无监督对象描述的ViT特征。相反，我们的工作从功能增强的角度出发。具体地说，我们引入了前景引导来突出ViT特征上的前景区域，并提出了一个多层特征融合模块来聚合多尺度特征。多层特征表示。目标检测中的主要挑战之一是在不同尺度上有效地表示多年来，人们已经提出了大量的工作来处理具有多层特征的多尺度问题。这些方法利用CNN的金字塔特征来计算多尺度特征表示。[33 21，26，1，37，18，30]将低分辨率和高分辨率特征与上采样或横向连接组合以聚合来自所有级别的语义信息。[32，4，30]从不同的层以不同的尺度进行预测，并使用后处理来过滤4045∈∈DD联系我们×∈-i−Oh×wm（x）我的H×W的一个序列N=HW/P2补丁的我ΣΣ的特征多个层引导①②保险丝③ViTUOD检测器民解图2. 公式的管道。为了增强用于无监督对象发现的ViT特征，我们提取多层特征以聚合来自不同尺度的信息，并将来自预测分割的前景指导引入到UOD检测器的输入。最终预测。除了CNN之外，最近有几项工作已经利用了Trans- former网络的多层表示。[51]聚合来自每个Transformer层的类标记，以收集对细粒度可视分类至关重要的本地、低级和在[56]中，作者将Transformer的编码器和解码器的多层表示这些工作启发我们探索ViT的多层特性，以更好地定位对象。本文提出了一种简单有效的融合方法，该方法将Transformer各层的特征用不同的权值进行求和，而不是设计复杂的融合模块。3. 方法在本节中，我们将介绍我们的方法，用于未监督的对象发现，即。，公式。FORMULA的整体流水线如图所示。2.首先，我们简要回顾了视觉变换器及其在UOD中的应用作为初步知识。然后，我们描述了FORMULA的两个模块，即前景引导和多层特征融合。3.1. 初步视觉变换器[14]接收一系列图像块，并使用堆叠的多头自注意块从图像中提取特征图它将输入图像固定分辨率然后，通过将展平的补丁映射到具有可训练线性投影的D 一个额外的可学习从自监督ViT的最后一层开始，指示突出的前景区域。根据这一观察，LOST和TokenCut建议使用最后一层的关键特征kRN×D分两步定位对象。首先，从片间相似性图构造中间特征映射FintRh×w，其中h=H/P且w=W/P。具体来说，对于LOST，它是逆度的映射;对于TokenCut，它是图的第二小其次，从Fint生成对象掩模m0，1h×w以分割前景对象。3.2. 具有自迭代的在前景引导模块中，将预测的目标掩模作为前景引导，突出前景区域，引导分割过程。具体地，给定现有的无监督对象检测器和从预训练的ViT提取的中间特征图Fint，对象的m∈ {0，1}h×w可以如下生成：m= D（F int）。（一）这里，可以是任何基于ViT的对象发现方法，例如，，LOST和TokenCut。此外，如果预测具有坐标xi的对应块i属于前景对象，则m（xi）利用前景掩模m，可以通过下式计算对象中心O的近似坐标：1小时×周m（x）x.（二）i=1我 i=1然后，我们使用2D高斯分布函数g构建概率图PRh×w：将[CLS]标记附加到补丁嵌入，并添加位置嵌入以形成标准TransformerP（i）=g（i|x0，σ2）=12πσ2eXX22σ2，（3）输入为R（N +1）×D。DINO [6]表明，提取的注意力地图其中σ是超参数。直觉上，P值表示图像中可能属于=OX4046D˜∈Σ^^您的位置：D（F）int^˜˜˜图3. 迭代过程的说明。 LOST [40]的初始预测（黄色框）和四次迭代后的最终预测（右）。每次迭代中的红点是从先前分割计算的对象中心。一个物体。概率图P可以被视为对象定位的前景指导，指导检测器在每个迭代步骤中细化最终预测。具体来说，我们通过将Hadamard乘积应用于P和Fint来实现这一点：Fint=FintP。（4）新的特征图F int可以被解释为F int的重新加权，并且F int的前景部分被强调。因此，在无监督对象发现期间，检测器将更多地关注前景部分而不是整个图像。最后，我们可以通过Eq. 1，并将整个过程迭代直到收敛，即。当两个连续迭代中的中心距小于τ时，两个连续迭代中的中心距小于τ。整个过程在算法1中给出。迭代过程的一个例子如图所示。3.值得注意的是，基于ViT的UOD方法的效率瓶颈在于特征提取过程而不是定位过程。因此，我们的迭代模块只带来边际额外的计算开销。更多细节见4.3。算法1具有自迭代输入的前景引导：无监督对象检测器D，中间特征图Fint，高斯分布的标准偏差σ。初始化：m=D（F int），xO= 0，xO= ∞。而<$xO−xO<$2<$τxO=xOxO=等式2（m）P=g（x0，σ2）Fint=Fintend while输出：mref=m。3.3. 多层特征融合Transformers的不同层以不同的尺度对特征进行编码。更深层倾向于收集全局和语义信息，并关注对象因此，其特征图中的激活区域较小（图1）。7（b）、7（c））。相比之下，较浅的层专注于局部信息，因此其特征图中的激活区域更宽（图1）。7（d）、7（e））。然而，在非对象中心图像中对象的比例可以变化很大。仅使用来自一个层的特征不足以处理尺度变化问题。为了解决这个问题，我们提出了多层特征融合模块，从不同的尺度聚合信息。详细地，从ViT的每个多头注意力层l中，我们可以提取关键特征klR（N+1）×D。然后，我们删除[CLS]令牌，以便与LOST和To- kenCut保持一致。通过对所有层的关键特征进行加权求和，获得无监督对象细化的聚合特征Lf=αl kl，（5）l=1其中αl是层l的权重。ViT不同层次的特征包含了不同尺度下的目标信息。聚合特征在不同尺度上包含了更全面的对象信息，以更好地局部化对象。4. 实验在本节中，我们在各种数据集上进行了大量的实验，以证明我们的方法的有效性。FORMULA在无监督的对象发现任务中取得了新的最先进的成果。此外，我们进行消融研究，讨论前景引导和多层特征融合模块的效果。4.1. 实验设置数据集。继LOST和TokenCut之后，我们在三个广泛采用的对象发现基准上评估了所提出的方法：VOC07[15] 、 VOC12 [16] 和 COCO [31] 。具体来说，对于VOC07和VOC12，我们使用训练集来评估我们的方法。对于COCO，我们只使用COCO2014训练值数据集的一个子集，名为COCO 20k [48]。评价指标。与[48，54，49，40，52]相同，我们使用正确定位（CorLoc）度量进行评估。在这4047D√方法骨干VOC07（↑）VOC 12（↑）COCO 20k（↑）选择性搜索[45]-18.820.916.0[60]第六十话-31.131.628.8Kim等人[25日]-43.946.435.1Zhange等[58个]VGG 16 [41]46.250.534.8滴滴涕+[54]VGG 19 [41]50.253.138.2ROSD [48]VGG 16 19 [41]54.555.348.5[第四十九话]VGG 16 [41]53.655.148.5DINO-seg [6，40]ViT-S/16 [6，14]45.846.242.1[40]第四十话ViT-S/16 [6，14]61.964.050.7TokenCut [52]ViT-B/1668.872.459.0配方-LViT-S/16 [6，14]64.467.754.0配方-TCViT-B/1669.473.259.7LOD + CAD [40]VGG 16 [41]56.361.652.7rOSD + CAD [40]VGG 16 19 [41]58.362.353.0[40]第四十话ViT-S/16 [6，14]65.770.457.5[40]第40话ViT-B/1671.475.562.7[40]第四十话ViT-S/16 [6，14]66.871.559.0[40]第四十话ViT-B/1672.276.263.7表1. 无监督的单对象发现。我们比较FORMULA与当前最先进的无监督对象发现方法。我们使用DINO预先培训的ViT [6]作为我们的骨干。这是我们的实现。‘-L/TC’ means to adopt LOST/TokenCut as the unsupervised方法主管Aero 自行车鸟船瓶总线车猫椅子牛表狗马姆比凯人植物羊沙发火车电视平均值（↑）WSDDN [3]弱39.4 50.1 31.5 16.3 12.6 64.5 42.8 42.6 10.1 35.7 24.9 38.2 34.455.69.414.730.2 40.7 54.7 46.934.8[43]第四十三话弱54.4 9.0 39.3 19.2 15.7 62.9 64.4 30.0 25.1 52.5 44.4 19.6 39.367.717.822.946.6 57.5 58.6 63.043.5rOSD [48]+ OD [40]-38.8 44.7 25.2 15.80.052.9 45.4 38.90.016.6 24.4 43.3 57.251.68.20.70.09.165.8 9.427.4损失[40]+ OD [40]-57.4 0.0 40.0 19.30.053.4 41.2 72.20.224.0 28.1 55.0 57.225.08.31.10.921.0 61.4 5.628.6[40]第四十话-62.8 3.2 45.6 23.90.053.3 41.2 74.30.118.9 32.7 60.7 59.827.211.40.00.038.5 39.8 2.329.8[40]第四十话-61.4 19.2 49.4 26.10.060.5 46.6 78.70.421.2 31.8 73.7 55.215.812.20.00.041.5 51.5 8.932.7表2. 无监督目标检测（OD）。我们使用AP@0.5在VOC 07测试中评估FORMULA。所有度量，如果预测的边界框与图像中的地面实况框之一的交集（IoU）得分大于0.5，则预测的边界框被认为是正确的实作详细数据。我们使用来自公开可用的DINO预训练ViT模型的权重[6]。我们采用LOST/TokenCut作为基本的无监督对象检测器，命名为FORMULA-L/FORMULA-TC。对于主干架构，我们采用ViT-S/16和ViT-B/16 [14]。对于公式L，我们设定σ=0.1，对于公式TC，我们设定σ在我们的实验中，τ被设置为2对于多层特征融合，我们只融合最后四层的特征。4.2. 主要结果4.2.1无监督单对象发现在表1中，我们展示了FORMULA在三个流行数据集上的无监督单对象发现性能。如表所示，我们的方法优于以前的方法4048最先进的LOST和TokenCut，在所有三个数据集上。具体来说，在VOC 07上，我们的方法分别超过LOST和TokenCut 2.5%和0.6%。在VOC 12上，FORMULA使用 ViT-S 获得 67.7% ，使用 ViT-B 获得 73.2% 在COCO 20k 数据集上， FORMULA 达到 54.0% 和59.7% ，分别显著超过 LOST 和 TokenCut 的 3.3% 和0.7%。在图4中，我们提供了通过我们的方法和两个基线获得的一些视觉结果，即，迷失和To- kenCut。可以看出，我们的方法提高了各种尺度上的检测性能。此外，在[40]之后，我们还训练了第二阶段的类不可知对象检测器（CAD），用于无监督的单对象发现。具体地说，我们使用FOR- MULA生成的边界框作为伪标签来训练Faster R-CNN [36]。从表1中可以看出，我们的方法平均优于最先进的方法4049(a) LOST（b）TokenCut（c）FORMULA-L（我们的）（d）FORMULA-TC（我们的）图4.VOC07和VOC12上的无监督单对象发现的示例结果。在（a）和（b）中，我们展示了LOST [40]和TokenCut [52]获得的结果。我们的结果如（c）和（d）所示红色和黄色边界框分别表示预测从上到下，对象的比例逐渐变小。在三个数据集上的比例为0.8%一致的增益超过基线方法显示了FORMULA的有效性无监督对象发现。4.2.2无监督目标检测继LOST [40]之后，我们还评估了我们的无监督对象检测方法。与训练CAD类似，更快的R-CNN检测器使用我们的方法生成的伪标签进行训练。具体地说，为了为类感知检测器生成伪标签，我们通过K-means算法对FORMULA产生的盒子进行值得注意的是，在训练过程中不涉及人工监督。我们使用平均精度指标，IoU的阈值为0.5，PASCAL VOC检测中的常见设置结果示于表2中。正如我们所看到的，我们将VOC 07测试中无监督对象检测的最新结果提高了4.1%。4.3. 分析与探讨在本节中，我们研究了前地制导和多层特征融合模块的有效性。我们用FORMULA-L并使用ViT-S/16作为骨架进行以下实验。4.3.1消融研究我们进行了一组消融实验，以显示公式中每个组件的有效性。消融结果如表3所示我们可以看到前-4050配方-L失去67 12661065864663462612600 1 2 3 4 5 6 78迭代次数（一）00 1 2 3 4 5 6 7 8迭代次数（b）第（1）款图5. 研究迭代过程。（a）结果随迭代次数的变化;（b）在不同迭代次数下的运行时间。两个实验均在VOC 07trainval上进行。ent骨干架构，展示了61.9✓63.7✓63.364.4分表3. 烧蚀实验。VOC 07训练结果。“地面引导模块可使模型性能提高1.8%，多层特征融合模块可使模型性能提高1.4%。当这两个模块都应用时，我们总共有2.5%的改进。实验结果验证了这两个模块的有效性。4.3.2主要性能我们在这里讨论了公式的一些性质。前台指导。为了更好地理解前景引导的效果，我们手动改变等式中的概率图P的x0三是在图像中的不同位置。效果如图所示。6.当xO落在背景中时，模型将错过对象的大部分区域相比之下，如果它位于前景对象内部并且更靠近对象的中心，则模型可以更好地捕获对象的语义布局并提高其性能。结果表明，我们的引导机制可以帮助模型更好地聚焦于感兴趣区域。主干架构。在表4中，我们示出了具有不同Transformer主链的FORMULA的结果。我们比较了ViT [14] small（ViT-S）和base（ViT-B）之间的结果，贴片大小为8或16。可以看出，FORMULA在不同的环境中始终优于LOST-以及FORMULA的体系结构通用性。图6. 前景制导研究。我们手动将中心xO（第一行中的红点）放置在方程中。3在不同的位置。中心x0被放置在前景对象的外部（左）、对象的角落部分（中）和对象的中心附近（左）。对象（右）。第一行和第二行是生成的对象遮罩和边界框。迭代编号。图5（a）示出了从1到8的迭代次数的影响。我们惊讶地发现，仅仅一次迭代就可以显著提高性能。我们的方法的最佳值是4，达到了63.7%的最佳性能。更多的迭代可能会稍微降低性能，我们将其分配给收敛后的随机运行时间。我们在图中给出了我们的方法在不同迭代次数下的运行时间。5（b）。 LOST和TokenCut的结果也显示出来了。我们使用单个GTX TITAN X GPU测量了VOC07tranaval所有图像的推理时间。可以看出，即使使用8次迭代，我们的方法也只会带来少量的额外计算开销。分析σ。我们在表5中报告了使用不同σ值的结果。可以观察到，当σ增加到0.1以上时，性能略有下降，这是因为，在σ值较高的情况下，更宽的2D高斯分布将使模型关注FORMULA-TCLOST TokenCut前台引导多层CorLoc（↑）CorLoc评分运行时间（分钟）4051方法[40]第四十话骨干ViT-S/8 [6，14]VOC 07（↑）55.5VOC 12（↑）57.0COCO 20k（↑）49.5配方-LViT-S/8 [6，14]57.961.349.6[40]第四十话ViT-S/16 [6，14]61.964.050.7配方-LViT-S/16 [6，14]64.467.754.0[40]第四十话ViT-B/1660.163.350.0配方-LViT-B/1662.866.553.4表4. 分析骨干。三种不同主链的CorLoc评分比较。σVOC 07（↑）VOC 12（↑）COCO 20k（↑）表5. 消融σ。三个数据集上不同σ的CorLoc评分。仅使用前景引导模块获得结果。数据集FORMULA-L FORMULA-TCVOC07【二、一、一、六】【三、五、一、一】VOC12【一、一、二、六】【一、六、一、二】COCO 20k[0，2，3，5]【2，7，0，1】表6. 层权重。层权重是每层的相对权重，总和为1。最后一层的重量在前面，其他的按以下顺序排列。layer−1✓layer−2layer−3layer−4✓✓✓CorLoc（↑）61.961.562.9表7.烧蚀各层的贡献。我们使用最后四层中的每一层的特征作为输入。‘结果在VOC 07trainval上获得。更大的区域，从而对小物体进行伤害检测。此外，我们的方法在σ之间保持一致0.01 和0.1。因此，我们在实验中简单地采用典型值0.1。多层融合权重。表6中呈现了我们在表1中的结果的多层融合权重的权重。带有LOST的FORMULA在捕获前景的局部信息方面更好，因此需要来自低层的更多全局知识才能更好地执行不同0.0163.766.652.80.0563.766.652.80.163.766.652.80.363.166.352.60.562.466.052.34052(a) 输入（b）层−1（c）层−2（d）层−3（e）层−4图7. 注意力地图的激活区域来自ViT的最后四层。（a）从VOC 07[15]中取样的图像;（b）-（e）是可视化的注意力Fint。更深的层收集全局信息并专注于对象的可区分部分。从 FORMULA-L 来看，来自最后两层的信息对于FORMULA-TC起着更重要的作用。此外，为了更好地理解每一层对整体性能的结果见表7.我们可以看到，低层，如第三和第四层，在收集不同尺度的特征方面发挥着更重要的作用我们还可视化了图中最后四层的注意力地图。7.注意力地图的激活区域对于不同的层在不同的尺度上变化。这些结果共同表明来自不同层的ViT特征可以帮助检测各种尺度的对象。5. 结论在这项工作中，我们提出了FORMULA，一个简单而有效的特征增强方法，用于无监督对象发现。我们利用现有UOD检测器获取的前景指导此外，通过融合来自自监督ViT的多层特征，我们进一步聚合多尺度信息用于特征表示。我们的方法可以与任何现有的基于ViT的无监督对象发现方法。此外，FORMULA在三个数据集上实现了无监督对象发现任务的最新结果。我们希望我们的工作可以激发未来更多关于增强无监督视觉学习的ViT功能的研究。4053引用[1] 肖恩·贝尔角劳伦斯·齐特尼克，卡维塔·巴拉，罗斯·B。娘娘腔。内外网：用跳跃池和递归神经网络检测上下文中的对象。在 IEEE 计算机视觉和模式识别会议（CVPR），2016年。[2] 放大图片作者：David Berthelot，Nicholas Carlini，Ian J.Goodfellow ， Nico- las Papernot ， Avital Oliver ， andColin Raffel. Mixmatch：半监督学习的整体方法。在神经信息处理系统（NeurIPS），2019年。[3] Hakan Bilen和Andrea Vedaldi。弱监督深度检测网络在IEEE计算机视觉和模式识别会议，2016年。[4] Zhao weiCai ， QuanfuFan ， Roge' rioSchmidtFeris ，andNunoVasconcelos.一个统一的多尺度深度卷积神经网络，用于快速目标检测。在欧洲计算机视觉会议（ECCV），2016年。[5] Mathilde Caron ， Ishan Misra ， Julien Mairal ， PriyaGoyal，Piotr Bojanowski，and Armand Joulin.无监督学习视觉特征对比聚类分配。在神经信息处理系统（NeurIPS），2020年。[6] Mathil deCaron ， HugoTouvron ， IshanMisra ， Herve'Je'gou ， Julien Mairal ， Piotr Bojanowski ， and ArmandJoulin. 自我监督视觉转换器中的新兴特性。IEEEInternationalConferenceonComputerVision（ICCV），2021年。[7] Kai Chen，Lanqing Hong，Hang Xu，Zhenguo Li，andDit-Yan Yeung. Multisiam：用于自动驾驶的自监督多实例连体表示学习。 IEEEInternational Conference onComputer Vision（ICCV），2021年。[8] 陈婷、西蒙·科恩布里斯、穆罕默德·诺鲁齐和葛offrey E.辛顿视觉表征对比学习的一个简单框架2020年，国际机器学习会议[9] 陈新蕾，范浩琪，Ross B. Girshick和Kaiming He。改进了动量对比学习的基线。 arXiv 预印本 arXiv ：2003.04297，2020。[10] Xinlei Chen，Kaiming He.探索简单的连体表示学习。在IEEE计算机视觉和模式识别会议（CVPR），2021年。[11] Xinlei Chen，Saining Xie，and Kaiming He. 训练自我监督视觉转换器的实验研究。 IEEEInternationalConference on Computer Vision（ICCV），2021年。[12] 陈云春，林燕玉，杨铭轩，黄家斌。显示、匹配和分段：语义匹配和对象共分割的联合学习。IEEE Trans-actions on Pattern Recognition and Machine Intelligence（PAMI），2020。[13] Minsu Cho ， Suha Kwak ， Cordelia Schmid ， and JeanPonce.野外无监督对象发现和定位：基于零件的匹配与自下而上的区域建议。在IEEE计算机视觉和模式识别会议，2015年。[14] AlexeyDosovitskiy，LucasBeyer，AlexanderKolesnikov，Dirk Weissenborn，Xiaohua Zhai，ThomasUnterthiner，Mostafa Dehghani，Matthias Minderer，Georg Heigold，Syl-vain Gelly，Jakob Uszkoreit，and Neil Houlsby.一张图片相当于16x16个单词：用于大规模图像识别的变压器在国际学习代表会议（ICLR），2021年。[15] Mark Everingham ， Luc Van Gool ， Christopher KIWilliams ， John Winn ， and Andrew Zisserman.2007 年PASCALVisualObjectClassesChallenge2007（VOC2007）结果。[16] 放大图片作者： Mark Everingham， Luc Van Gool，Christopher K. I. Williams ， John Winn ， and AndrewZisserman.2012年[17] 风小旭，姚希文，宫丞，韩俊伟。弱监督旋转不变空中目标检测网络。在IEEE计算机视觉和模式识别会议（CVPR），2022年。[18] Golnaz Ghiasi和Charless C.福克斯用于语义分割的拉普拉斯金字塔重构与精化。欧洲计算机视觉会议（ECCV），2016。[19] Spyros Gidaris，Praveer Singh和Nikos Komodakis。通过预测图像旋转的无监督表示学习。在国际学习代表会议（ICLR），2018年。[20] Jean-BastienGrill ， FlorianStrub ， FlorentAltche´ ，CorentinTallec，PierreH.Richemond，ElenaBuchatskaya ， CarlDoersch ， BernardoA'vilaPires ，ZhaohanGuo ， Moham-madGheshlaghiAzar， BilalPiot ，KorayKavukcuoglu ， Re'miMunos ， andMichalValko.Bootstrap Your Own Latent：一种新的自我监督学习方法。在神经信息处理系统（NeurIPS），2020年。[21] 巴布罗，巴哈尔·哈里哈兰，还有罗斯·B ，阿贝·拉伊兹。吉尔·希克和吉坦德拉·马利克。用于对象分割和细粒度定位的超列在IEEE计算机视觉和模式识别会议（CVPR），2015年。[22] Kaiming He，Xinlei Chen，Saining Xie，Yanghao Li，Piotr Doll a'r，andRossGirshick. Masked自动编码器是可扩展的视觉学习器。arXiv预印本arXiv：2111.06377，2021。[23] Kaiming He，Haoqi Fan，Yuxin Wu，Saying Xie，andRoss B.娘娘腔。无监督视觉表征学习的动量对比。在IEEE计算机视觉和模式识别会议（CVPR），2020年。[24] 许光瑞、林燕玉、庄永玉。用于无监督对象共分割的共注意cnn。国际人工智能联合会议（IJ-CAI），2018年。[25] 金君熙和安东尼奥·托拉尔巴使用迭代链接分析的感兴趣区域的无监督检测。神经信息处理系统（NeurIPS），2009年。[26] 孔涛、姚安邦、陈玉荣和孙富春。Hypernet：TowardsAccurate Region Proposal Generation and Joint ObjectDetection. 在 IEEE 计算机视觉和模式识别会议（CVPR），2016年。[27] H. W. 库恩指派问题的匈牙利方法海军研究后勤季刊，1955年。[28] Chunyuan Li ， Jianwei Yang ， Pengchuan Zhang ， MeiGao，Bin Xiao，Xiyang Dai，Lu Yuan，and JianfengGao.高效4054用于表示学习的自监督视觉变换器。国际学习代表大会（ICLR），2022年。[29] Zhaowen Li ， Zhiyang Chen ， Fan Yang ， Wei Li ，Yousson Zhu，Chaoyang Zhao，Rui Deng，Liwei Wu，Rui Zhao，Ming Tang，and Jinqiao Wang.MST：用于视觉表示的掩蔽自监督Transformer。神经信息处理系统（NeurIPS），2021。[30] 放大图片作者：林宗毅，彼得 · 多尔，罗斯 ·B.Girshick，KaimingHe，Bharath Hariharan，and Serge J.贝隆吉用于对象检测的特征金字塔网络。在IEEE计算机视觉和模式识别会议（CVPR），2017年。[31] 作者：Michael Maire，Serge J. Belongie，James Hays，PietroPerona，Dev aRamanan，PiotrDol la'r，andC.劳伦斯·齐尼克。Microsoft COCO：在上下文中常见的对象。欧洲计算机视觉会议（ECCV），2014。[32] 刘伟，Dragomir Anguelov，Dumitru Erhan，ChristianSzegedy ， Scott E. Reed ， Cheng-Yang Fu ， andAlexander C.伯格。SSD：单次触发多盒探测器。在欧洲计算机视觉会议（ECCV），2016年。[33] 乔纳森·朗埃文·谢尔哈默和特雷弗·达雷尔用于语义分段的全卷积网络。在IEEE计算机视觉和模式识别会议（CVPR），2015年。[34] Mehdi Noroozi和Paolo Favaro。通过解决拼图游戏进行视觉表示的无监督学习。2016年欧洲计算机视觉会议（ECCV）[35] 放大图片作者： Joseph Redmon ， Santosh KumarDivvala，Ross B.

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

基于Transformer的无监督对象发现方法

基于transformer的语义分割方法

swin transformer 无监督

基于Transformer 检测器 DINO

一种基于transformer的文本二分类方法与流程

基于transformer的图像复原方法

基于transformer的目标跟踪

基于transformer的目标检测

基于Transformer的目标检测

基于transformer的语音识别

基于Transformer的图像目标检测DEtection TRansformer（DETR）方法的原理

基于transformer的单目标追踪

基于transformer实现翻译

基于transformer的目标识别

基于transformer的时间序列预测 基于transformer的超表面光谱预测 基于NISQ计算的transformer模型 哪个更适合研究

基于transformer的gan

基于Transformer的低照度图像去噪方法

基于transformer的区域分割

基于transformer的车牌识别和传统的相比有什么区别

基于transformer的UNet

numexpr-2.8.3-cp38-cp38-win_amd64.whl

最新资源

基于transformer的时间序列预测基于transformer的超表面光谱预测基于NISQ计算的transformer模型哪个更适合研究