高效积分聚集的核化少镜头目标检测

59 浏览量更新于2023-10-25 收藏 1.29MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

19207基于高效积分聚集的核化少镜头目标检测Shan Zhang*，<$，Lei Wang，NailaMurray，Piotr Koniusz*，§，<$澳大利亚国立大学伍伦贡大学University of Wollongong§Data61/CSIRO关于Meta AI研究†firstname. anu.edu.au，leiw@uow.edu.au，murrayn@fb.com摘要我们设计了一个核化的少镜头对象检测器，利用多个pro-proximity区域计算的核化矩阵我们的管道包含几个模块。编码网络对支持和查询图像进行编码。我们的核自相关单元形成线性，多项式和RBF核表示支持图像的支持区域内提取的功能。然后，这些特征与查询图像的特征交叉相关以获得注意力权重，并通过注意力区域建议网络生成查询建议区域。由于查询建议区域很多，每个区域都由线性、多项式和RBF核化矩阵描述，它们的形成是昂贵的，但是我们提出的积分感兴趣区域聚合单元降低了该成本。最后，多头关系网将所有核化（二阶）表示与一阶特征图相结合，以学习支持查询类关系和位置。在PASCAL VOC 2007、FSOD和COCO上，我们在新课程上的表现优于最先进水平的3.8%、5.4%和5.7% mAP1. 介绍CNN对象检测器[8，29在适应新的类，如果样本很少，他们的性能下降相比之下，少镜头学习（FSL）方法快速适应新的视觉概念[39，41，43]，但现成的FSL方法执行分类，而不是少镜头对象检测（FSOD）。由于FSOD中的查询包含多个不同类别的对象，并且FSOD检测器必须预测查询图像中对象的类别标签和位置FSOD模型[2，6，11，12，52，58]使用包含常见ob-sample样本的所谓训练集*同等贡献。 PK是通讯作者。代码：https://github.com/ZS123-lang/KFSOD。（即基类）。测试集包含稀有物体的支持图像（即。新颖类）和查询图像，其中这些稀有对象必须被识别/本地化。Fan等人[6]在FSOD中引入了一个区域建议网络（RPN），称为Attention RPN（ARPN）1。ARPN将来自支持区域的平均池特征与查询图像的特征进行交叉相关，从而在查询图像的特征张量上产生注意力图然而，与高阶统计量相比，平均池化（一阶统计量）保留的信息较少。PNSD [58]通过二阶合并改进了[6]，但限于所谓的线性相关性（自相关矩阵）。为了解决这一限制，我们使用核化协方差矩阵[57]和再生核希尔伯特空间（RKHS）核[38]，它们捕获非线性模式。核引入正则化，具有小的（或大）半径捕获复杂（或简单）决策边界。然而，由于生成核矩阵在计算上是昂贵的，它们很少用于检测。我们提出了一种新的特征表示，它利用了内核的表达能力和正则化能力，同时实现了高效。这种效率的关键是一个新的积分区域的兴趣聚集（IRA）计划快速核化。我们通过计数草图[47]进一步加速IRA，这是一种无监督降维技术，具有隐式执行特征增强的有利特性。由于草绘引入的方差与其大小成反比，因此可提高精度和计算速度，如第4节所述。我们的管道如图1所示。我们的贡献如下：i. 我们提出了两种类型的核化表示联合用于FSOD，捕获非线性相关模式，从候选区域获得的计算高效的积分区域的兴趣聚集（IRA）。IRA的性能和速度都得到了提升，计数素描和它的逆，以促进核化在FSOD中的实际应用（生成数百个核/图像）。1PSND [58]称该模块为超注意力RPN（HARPN），但FSOD-ARPN [6]称其为ARPN。我们采用ARPN名称是为了简洁。19208不ii. 我们为我们的网络配备了MLP单元，这些单元可以在飞行中学习内核超参数，以调整内核化表示对数据的我们使用谱功率归一化[16]对矩阵进行部分重构，其超参数通过另一个MLP学习，以提取集中在核矩阵对角线上的信息量最大的特征。iii. 我们重新设计了一个多头关系网络，将支持和查询区域的一阶空间有序特征与包含高阶统计量的空间无序核化表示相结合FSOD中RKHS内核化的优势。我们注意到，（i）内核非常善于捕获每个候选边界框的特征通道之间的非线性关系，（ii）内核分解出空间顺序，同时保持关于每个区域的丰富统计，因此由于移位不变性，匹配在物理位置、取向、视点上变化的相似对象是容易的，（iii）内核控制模型复杂度w.r.t.区域大小和视觉复杂度，（iv）典型的FSOD头部使用移位变量或平均池化表示（我们将两者组合）。2. 相关作品下面，我们描述流行的对象检测和FSL出租和先决条件，如二阶池。物体检测。一级检测器对边界框注释执行回归[25，29，30]。两级检测器，例如通过R-CNN [31]，生成类不可知的区域建议，然后通过分类进行分类头[8，31]。SNIPER [37]使用多尺度训练。DETR[1]及其变体[3，59，61]是无锚管道。对象检测器使用大规模数据集和固定类。少拍学习。度量学习FSL[13，13，27，33，34，41]学习图像到图像的相似性以推广到新的类别。原型网络[39]计算距离是-在数据点和每个类的原型之间切换。MAML [7]执行元学习。其他人使用子空间[35，60]，梯度调制[36]和自我监督[55，56]。少镜头物体检测。在[11]中，单阶段FSOD检测器重新加权基本模型特征以适应新的类别。Meta R-CNN [52]是一种两阶段检测器，它对检测头中的RoI特征进行重新加权。基于平衡数据集，TFA [45]微调了两阶段模型。MPSR [49]通过在多个尺度的阳性样本上进行训练来提高TFA。NP-RepMet [53]通过引导分类器的三重损失使用负和正代表性学习。FSOD-ARPN [6]提出了一种具有注意力和多关系头的FSOD网络，PNSD [58]受FSOD-ARPN [6]的启发，使用二阶表示来描述建议区域。图1. KFSOD（Kernelized Few-Shot Object Detector）：我们将地面真值支持边界框X和查询图像X传递到编码网络（图1）。2a）。特征图（Φ↓和Φ具有低分辨率和高分辨率）被传递到内核化模块（图3a），利用注意区域建议网络（ARPN）来产生查询区域建议，核化自相关（KA）和加速核化的积分ROI聚合（IRA）单元。一阶和核化表示和“0”被馈送到图1中的多头关系网络（MRN）2b.SK-Net [22]基于SE-Net [9]，使用跨两个网络分支的特征映射。双线性池[32]将从两个区域提取的特征相关，而 Re-DRO [28] 对特征组进行采样（类似于dropout），以在所得子矩阵上应用矩阵平方根。二阶合并（SOP）。纹理识别[51]，区域协方差描述符[42]和对象分类[16]采用SOP。细粒度分类[19]和SoSNFSL [54]使用SOP和Power Normalization [16]。功率归一化（PN）。突发性“，一个给定的视觉元素在图像中出现的次数比一个统计独立的模型所预测的要多突发性可以通过PN [ 17 ]限制，PN [17]是一种使用二项分布的累积分布函数来分解特征计数的特征检测器 [16 ， 17 ， 19] 。快速谱MaxExp算子、MaxExp（F）[18]和张量幂欧几里德（TPE）度量[15]将二阶矩阵的隐式循环图的热扩散反转到所需的过去状态[38]。在这项工作中，我们使用MaxExp（F）2将核化矩阵解相关到所需的水平，并提取矩阵的对角线用作表示。3. 先决条件符号。设x∈Rd是d维特征向量.表示索引集合{1，2，· · ·，N}。我们定义1=[1，...，1]（即“全一”向量）。大写粗体符号（如Φ）表示矩阵，大写粗体符号（如φ）表示向量，常规字体表示标量，Φi ，j，Φi，n或Z。 Φi，j是Φ的第（i，j）个条目。Diag（·）将矩阵对角化为向量，Diag <$（·）嵌入向量形成对角矩阵，[x i]i∈IN 堆叠x1，· · ·，xN转化为向量，如果x= 0，则δ（x）= 1，如果x = 0，则δ（x）= 0，xi= 0，I是单位矩阵。（特征值）功率归一化（（E）PN）。MaxExp（F）是最先进的EPN [18]，定义为g（λ;η）= 1−（1−λ）η（1）多路径和功能组。ResNeXt [50]采用ResNet瓶颈块中的组卷积[20]2请注意，这是我们使用的先决条件工具，而不是贡献本身。19209Σ≥^G≥K→.Σ。Σ⊕∈∈∈∈∈∈∈∈1→K ，那么也可以写IJ我 JIJIJ我 J我J 2我2J 2我 Jη-是的Σ2美国4N⟨⟩⟨⟩≥在SVD（λi：=λi/（i'λi'+ε））的l1-范数归一化谱上，以及在对称半正定矩阵（PSD）上，G^MaxEx p（K;η）=I−（I−K）。（二）这里，K是迹归一化SPD矩阵，ε0是小常数，η1用于调整fea-图是不相关的。较大的η值导致较大的去相关。因此，更罕见和更独特的视觉特征较少被大面积的视觉重复刺激所掩盖。 MaxExp之后是元素式 PN，称为SigmE[18]：GSigmE（p;η′）=2/（1+e−η′p）−1，（3）其中p取Eq. （2），η′1控制检测特征出现vs.特征计数权衡。素描伯爵 [47]第47话：你是我的女人降维技术，它可以方便地减少我们的核表示的大小，在第4节中描述。设K和K′为输入和草图输出的大小。设向量h ∈ Id '包含K个从{1，···，K′}均匀抽取的整数，向量s ∈ {−1，1}K包含K个从{1，···，K′}均匀抽取的值{-1，1}。草图投影矩阵P∈{−1，0，1}K'×K是g iv en为Pij（h，s）=sj·δ（hj−i），sk蚀刻投影Proj：RKRK'是线性运算Projh，s（φ）=P（h，s）φ（或Proj（φ）=Pφ）. Weinberger等人[47]表明计数草图是内积Eh ，s（Projh， s（φ），Projh， s（φ′）− φ，φ′）的无偏估计=0，方差以1为界（φ，φ′<$φ<$2<$φ′<$2）。(a)（b）第（1）款图2.我们的编码网络（EN）在图中。图2a使用ResNet-50的层L1-4。块（Up 2x）执行上采样，即加法。为简单起见，Z-快照样本是按类按块平均的（Z- avg）.Φ↓和Φ是低分辨率和高分辨率特征图。图2b中的多头关系网接收一阶表示（支持的“”，查询的“”）和内核化表示（支持的“”，查询的“”）。ResNet-50的L5层从一阶地图生成要素2048个频道FC层映射1024到2048维空间的表示。这样的特征图被馈送到全局、局部和贴片头中。(See补充材料中的§D。）3. 图3a：注意力区域建议网络（ARPN）采用每个支持区域的核化特征向量，以将它们与图像查询卷积特征图交叉相关，以产生查询注意力图。区域建议网络输出查询RoI。4. 图图3a，3b4：积分ROI聚合（IRA）快速形成获得每个查询ROI的RKHS内核和k-自相关所需的内积矩阵。5. 图2b：多头关系网络（MRN）将一阶表示（空间线索）与空间不变的核化表示相结合，K'4. 该方法+22学习支持-查询区域对之间的关系，并预测查询图像中对象的类别和位置概况. 核化少镜头对象检测器（KFSOD）是用一组L向Z镜头片段训练的。每个情节包含一个查询图像与对象，和Z支持端口区域（对象作物）的每一个L采样类。训练协议确保查询对象通过标签匹配在测试过程中，KFSOD本地化和分类对象的查询图像注释支持作物的新的类。图中的KFSOD。1包含3：1. 图2a：编码网络（EN）产生conv.特征图（沿着通道模式的步幅是特征向量）。2. 图3a &4：核化自相关（KA）单元形成两种类型的核化表示：（i）RKHS核和（ii）所谓的核化自相关矩阵，称为k-自相关。在实践中，KA从支持裁剪和查询ROI计算线性、多项式和RBF核化非线性的两种类型的核化。由于每集只有几个支持对于具有更多ROI的查询图像，我们使用不同的方法（第4点）。我们现在详细描述这些组件编码网络（图2a）。支持裁剪和查询图像表示为XRW×H和X。假设Φ↓RK×N和Φ↓RK×N 是来自第4层的支持和查询映射。ARPN使用特征图Φ↓ <$RK×N<$。设ΦRK×4N和ΦRRK×4N是分辨率为Φ↓和Φ↓ ↓ 2倍的特征图。它们用于形成RKHS内核和k-自相关。（有关EN的详细信息，请参见补充材料的§ARKHS核函数和K-自相关。在我们生成我们的表示之前，我们对特征向量Φ RK×4N执行l2-范数归一化。然后可以将Φ上的自相关矩阵计算为K（lin）=1ΦΦT。设Φ<$=ΦTφ<$，···，φ<$K（lin）=φ<$，φ<$. 在实践中，我们首先获得表1中列出的RKHS内核，例如，k（poly）和k（rbf），通过将内积φ<$，φ<$代入表2中的非线性ρ：RR。此外，对于RBF核，应该分解欧几里德距离φ <$$>−φ<$2=φ<$2+φ<$2−2 φ <$，φ<$，3详细的KFSOD管线（所有模块）见附录§ B。材料在基于IRA的计算中变得方便。19210×M=RMRΔ，或者简单地说，M =LΔlLIJi'≤i，j'≤j左上角（x，y）的核化区域表示Σ Mli'j'。和右下（x′，y′）位置，x≤x′，y≤y′，是通过以下方式以可忽略的成本（一个加法/两个减法）提取K（ρ）（（x，y），（x′，y′））=Kρ（Kρ）其中（6）K= Depl o y（M3：，x'，y'−M3：，x'，y−1−M3：，x−1，3米JnnΣΣ¨我的天⊗ ≡∈⊗⊗ ∈·我们可以定义一个核化自相关函数族kij=线性多项式RBFIJ我 J我 J我J 2exp−φi−φj/2σ22Esclempφi，φj如果是，φiρ（z）z（z + λ）rexp.z/σ2Σ2λ2x4N Σ4N(a)（b）第（1）款图3.核化块（图（见第3a段）。特征图（Φ↓和Φ具有低分辨率和高分辨率）进入块。由于支持边界盒很少，RKHS核和k-自相关函数是一致的。由核自相关（KA）单元输出，并通过功率归一化（PN）传递到二阶谱对角相关（SOSD）单元。注意区域建议网络（ARPN）将支持表示与查询特征图进行匹配，以获得查询注意图并生成B查询区域建议。积分ROI聚合（IRA）单元为RKHS内核和k-自相关产生所谓的积分张量。ARPN将区域候选传递给IRA，其中以低成本为每个候选区域提取RKHS内核和k-自相关，并通过SOSD与PN传递积分ROI聚合4（IRA）。对于查询建议区域，我们可以访问表示整个查询图像的特征图Φn而不是从Φ中提取ROI（由RPN提出），然后单独形成数百个内核矩阵（例如，256 ROI 5内核化表示），我们提出了一个有效的IRA（图。4：蓝色块）。我们通过沿着Φ1的第一模式的克罗内克积形成相关性特征图，提取上三角δ，并将矩阵重塑为三模式特征图：重塑。上r（ΦΦ）∈R1K（K+1）×4N，（4）一阶和核化表示和将“M”传递给M21K（K+1）×2NW×2NH多头关系网络（MRN）图3b：计算其中M∈R2由于Reshape（·） re-Eq.中的积分张量（五）、纤维（紫色箭头）倍增相互之间的乘积。以此类推，蓝色纤维彼此相乘忽略计数草绘矩阵P通用IRA。事实上，张量可以通过两个CUDA BLAS广播式矩阵-矩阵乘法有效地获得。其次，我们定义并计算了一个k-将模式2（尺寸4N）整形为模式2和模式3（尺寸2NW和2NH2O）。然后形成所谓的整数张量自相关矩阵设Φ=[φ1，· · ·，φ4N]，则′1ρ。φ在 φT中，具有等价矩阵形式K′=n∈I4N1ρ。φnφT 根据表2代入ρ，n∈I4N我们得到k′（poly）和k′（rbf）。注意k′（lin）=k（lin）。图3b示出了积分张量的形成，ijijijij分别考虑M的每个信道。让M[Ml]l∈IK（K+1）/2 和m3 <$M3ll∈IK（K+1）/2. 然后k，。λφ<$，φ<$<$+λrexp. −φ<$−φ<$2/2σ2表1. 向量φ′上的K核。我们学习h型参数λ≥0且σ≥0，其中r∈I是多项式核的阶注意32.两分钟。 ¯ ¯Σ¨¯ ¨线性多项式RBFω（x）x[.r1r−i]2Ep. 2（x−qi）·ii=0，···，rσ2i∈Ir'Deploy（）在等式中（6）部署包含向上的向量-每个三角形（加对角线）返回到相应的表2.非线性ρ（z）可以形成RKHS核（替代z的内积）和/或核化自相关矩阵。对于近似，我们使用特征图，如果z = xy，则ρ（z）ω（x），ω（y），其中r是多项式阶，r′3de-定义了RBF近似的质量，c> 0是一个缩放常数，q1，···，qr'在c上等间隔分布。4Viola和Jones [44]解释了积分图像的基础。5注意φ φ = Vec（φφT）RK2，其中Vec（）将矩阵向量化。我们应用于等式中Φ的特征向量φ（四）、我们用Upper（φ）丢弃了多余的下三角形φ）上（φφT）RK（K+1）/2从矩阵中提取上三角形+对角线，将其向量化。RKHS内核与k-自相关对于核，内积先于非线性ρ：kij=ρ（φ φ）。非线性作用于和趋势ΣL¯ ¯利来杰元素间的相关性相反，对于k-自相关，ρ，应用于各个系数，在内积之前：k =ρ（φ φ）。它的作用IJ′ΣL¯ ¯利来杰作为各个元素相关对上的软最大值选择器。积分张量通过将M乘以模式2和模式3由下三角形和上三角形MA-如果i≥j，则RΔ，ij=1（否则为0），如果i≤j（否则为0），以获得积分张量其中符号×2和×3是张量-张量乘法。M3=M×2RΔ×3RΔ，（五）模式2和模式3 [14]。2 =1时。19211计算得到P<$PΦΦT（P<$P）T<$ΦΦT。计数草图隐式地执行特征级增强，类似于将高斯噪声注入特征[46]。（证据在附录C中。材料。）·公告 Pφ，Pφ=P Pφ，φ=P Pφ，φ。如果φ2=φ′2=1，则基于计数的性质在§3中，我们有.′Σ。不′Σ。K'K†′Σ. KK' P Pφ，φ=Pφ，Pφ <$Nφ，φ，σ，（13）†′其中φ，φ是特征的逐点卷积Σ。′Σ..′Σ†2Σ向量φ与卷积滤波器φ′。它遵循其方差σ=（φ，φ+1）≤..K'K†P Pφ，φ 实现逐点噪声卷积.′Σ′Σ†21K'.Σ′2K'·注入高斯噪声[46]可以表征为如. φ+<$φ，φ′<$其中<$φ<$N（0，σ<$2），这导致. φ+ φφ，φ′φφ N.. φ，φ′，σ′ ′ 2，σ ′ 2′ ′。××33××××MM× ××× ×ⓈKK'T.Σ- -我O2O2×图4. KA单元将支持和查询特征图Φ和Φm作为输入。运算符}将Φ和Φ2沿着通道模式分成5个组（在其上计算5个核化的1 256和4 192个组）。为了支持，KA计算3个RKHS线性核K（lin），其中两个用于通过应用相关非线性来形成K（poly）和K（rbf）。 KA还计算k-自相关K′（poly）和K′（rbf）。或查询特征图Φπ，IRA计算积分张量，′从中B3RKHS线性核，B多项式和BRBF k-对于B查询支持区域廉价地提取自相关矩阵。从BRKHS线性核计算BRKHS多项式和BRBF核。我们获得了（B+1）5个矩阵，这些矩阵通过SOSD（表3）进行内核合并，以形成签名（1256和4192），由并通过通过PN。KA的输出是′（一个向量）和′（B向量）。积分ROI聚合与计数素描。当量（4）和（8）在K维特征向量上应用代价高的克罗内克积。为了将其O（K2）复杂度降低到O（K′2），K′K，我们通过酉投影矩阵P ∈ {−1，0，1}K′×K应用计数草图[47]，一个简单的伪逆Pt=P。当量（4）和（8）变成M= 重塑。上面。（ PΦ ）（ PΦ ）和（10）M′=Reshape.上面。 Σ。Pωι（Φι）Pωι（Φι）π，i∈I'r其中通过以下步骤恢复核化区域表示：K（ρ）（（x，y），（x′，y′））ρP<$KP<$T，（11）K′（ρ）（（x，y），（x′，y′））<$$>P<$K <$′P <$T.（12）以上是真实的，因为ΦΦTP ΦΦTPT所以颠倒的草图-方阵，='1'是一种标准化，（xx +1）（y y +1）而张量的第一模式对于RBF核，我们归一化K*φ的l2范数：K：=Diag <$（Diag（K0. 5））KDiag <$（Diag（K0. 5））。（七）对于k-自相关矩阵，我们有：M′=Reshape（ Upper（ρ（Φ）<$ρ（Φ），（积分张量M′3=M′×2RΔ×3RΔ，所以K′(ρ)((x, y), (x′, y′))=ζKˆ ′where（九）K=展开Mˆ ′、'3：，x，y ：，x，y−1：，x−1，y“的一声−M'3 '−M'3'+M'：，3x−1，y−1，.在实验中，我们使用（i）基于RKHS的线性，多项式和RBF核，以及（ii）具有多项式和RBF非线性的k-自相关我们沿着通道模式将K个支持特征图Φ和查询6个特征图Φ分成5个相等大小的这样的设置限制了计算成本，并让每个内核专门化。6由于支持区域的数量较少，它们的核化表示由基本公式计算对于查询建议区域，我们使用基于IRA的计算，因为建议的数量大于等于256。IRA的计算复杂性单纯地计算基于点积的内核（从Φ开始）具有复杂的-ity（K2NN N NB），其中K是特征（通道）的数量，NN N N是B=256查询程序的平均面积装备通过IRA计算这些核具有复杂性（K2N3+K2B）（第一项和第二项涉及形成积分张量并从中提取B个核）。如果N为（N=B）3、通过IRA计算核是最快的。计算公式中的克罗内克积的成本（ 4 ）是 O（K2N），对于方程中的草图变体，其简化为O（ KK′N+K′2N ）。（ 10 ）（上）和 O（KK′N<$+r′K′2N<$）（下）。如果K′= 0. 5K，成本降低4倍。池化内核化表示。考虑到数百个ROI，使用维度为KK的矩阵K作为特征表示是非常昂贵的。因此，我们将K合并为K维表示。表3列出了我们考虑的三个池操作符：PN的一阶（平均值）合并，19212--·↓----{}{} S →{}S ∈ Y∼NK表示为 FO+PN 、与 PN 的二阶谱对角我们使用SOSD+PN（标准二阶池），并在第二节中删除其他算子。五、RKHS核函数和K-自相关函数的提取如图4所示，给定B个查询ROI以及支持裁剪（Φ）和查询图像（Φ）的特征图，我们从Φ生成5个核化矩阵，并将B×5个核化矩阵编码网络（Fig.2a）。我们计算了L的表示式和′。设X是一个查询图像，其查询特征映射（Φ↓，Φ ↓↓）nn∈IB是从ARPN的B个建议区域中获得的（图1）。（见第3a段）。表示（Φ↓，Φ）和（Φ↓，Φ）被传递到核化块（图11）。3）将其输出表示（k，k′）和（k，k′）传递到多头关系网以最小化损失：lsim（y<$l，yl）+lbox（x<$l，xl）+lH（矩阵从Φ 每一组5个核化矩阵对应-spond到3（线性，多项式和RBF）RKHS内核，和Bb（l，b）∈IL×IBb b rpn l2（多项式和RBF）k-自相关矩阵。每个核化矩阵都是在5组通道特征中的一组上计算的，其中这些组是通过将通道拆分（在图4中用}表示）为大小K= 1024来其中查询支持对属于子集C{c1，· · ·，c L}ICC中的L个类。损失函数lbox和lrHpn遵循[31]，lsim是二进制交叉entropy，H是ARPN的参数（与[31]相同），“×” 执行分为1个大小为256的组和4个大小为192的组通道间互相关为R′l×Φ↓<$∈R1024×14×14。为了设置多项式和RBF RKHS内核的超参数λ和σ2，我们使用训练层MLP（K（lin）1）来预测它们，其中MLP包含FC层，然后是sigmoid函数。对于k-自相关，我们首先取Φ和Φ的空间模式的平均值。如上所述，我们将得到的向量µ和µ分成几组，并将它们送入MLP以生成σ′2和λ′。表3中的PN的参数η'由使用SOSD的输出作为其输入的不同MLP预测。由于sig-moid输出在范围100，100内，对于RBF核、多项式核和PN，我们将它们缩放到100。1、2英寸、1英寸、10英寸和101，103米范围。图4显示了提取程序。多头关系网。MRN学习由（i）一阶空间-aware（i，i，i，b∈IB）表示的支持-查询对之间的相似性得分、左上和右下边界框坐标，其是R1024×14×14，和（ii）二阶空间不变合并k-化表示（k′，k′b）b∈IB），它们是R 1024中的矢量。注意，我们有B查询候选区域。图2b中的多头关系网包含3个子头：（i）全局头，（ii）局部头和（iii）补丁头。全局和局部头部结合一阶空间感知和二阶空间不变表示来学习相似性。贴片头采用一阶空间感知表示来执行边界框回归。更多详情请参见补充材料的§D设s（（n，n∈bb∈IB），（n′，n′b∈I B）b∈IB）;）（y<$，x<$）bb∈I. B.是网络参数，（y<$，x<$）包含相似性预测，以及candi的左上/右下坐标。日期区域b∈IB。对于L向Z-shot问题，我们有L×Z支持图像区域{Xn}n∈U，它们对应的描述符{（Φ，Φ）n}n∈U，5. 实验数据集和设置。对于PASCAL VOC 2007/12 [5]，我们采用15/5基本/新类别划分设置，并使用PASCAL VOC2007和2012的训练/验证集进行训练，并使用PASCALVOC 2007 的测试集进行测试[11]。对于 MS COCO[24]，我们遵循[52]，并采用与PASCAL VOC重叠的20个类别作为新类别（测试）。其余60个类别用于培训。对于FSOD数据集[6]，我们将1000个类别分为800/200进行训练/测试。我们报告标准FSOD指标：mAP、AP、AP50和AP75。实现细节在§H中，每个数据集的超参数在补充材料的§I中。5.1.与最新技术PASCAL VOC 2007/12 。我们将 KFSOD 与 FSODup[48]，CGDP+FRCN [23]，TIP [21]，FSCE [40]，TFA[45]进行比较，特征重新加权（FR）[11]，LSTD [2]，FRCN [31]，NP-[53 ][54][56][57][ 58][59] Ta-表4显示KFSOD的性能比FSOD高6.3对于1次和10次注射方案，我们的表现优于FSOD 2.2%。表9（补充材料§ E）显示了分类结果（5次注射方案）：KFSOD比FSOD提高了11.2%和6.5%的mAP（新类和基础类）。可可小姐。表 5a 比较了 KFSOD 与 FSOD上升 [48] ，CGDP+FRCN [23]，TIP [21]，FSCE [40]，TFA [45]，FR[11]、Meta R-CNN [52]、FSOD [6]和PNSD [6]对MS的影响COCO迷你套装（20种新型猫，10发）。 KFSOD比FSOD分别提高6.9%、2.4%、8.9%（AP、AP50、AP75）.FSOD。在表5b中，我们比较了KFSOD（5次注射方案）与PNSD [58]、FSOD [6]、LSTD [2]和LSTD(FRN[31]）。我们重新实现了BD TK，LSTD的模块，基于Faster-RCNN进行公平比较。KFSOD提供FO+PN SOSD+PN SOSC+PNGSigm E.Φ↓·1;η′-GSigm E.Diag.G^MaxEx p（K;η）;η′GSigm E.K·1;η33.4% AP50和29.6% AP75的SOTA结果。5.2.消融研究19213表3.池运算符（i）在ARPN中的互相关之前应用，以及（ii）表示支持和查询RoI。下面我们使用PASCAL VOC（新类，分割1，5次拍摄设置，在val上选择超参数。拆分）。19214∼表4. 在VOC 2007测试集的三个部分上比较不同方法的mAP（%）方法/注射分液1分液2分液3平均值±标准差1 3 5 10 1 3 5 10 1 3 5 10 1 3 5 10FRCNFRMetaFSODNP-RepMetPNSD MPSRTFAFSCECGDP+FRCNTIP滚开ICCV 12ICCV19ICCV19CVPR20NeurIPS20ACCV20 ECCV20 ICML20 CVPR21 CVPR21 CVPR21 ICCV2111.914.819.937.837.840.941.739.844.240.727.743.829.026.735.048.741.750.451.444.751.446.543.350.336.933.945.755.547.356.555.255.761.957.450.255.436.947.251.558.249.459.861.856.063.462.456.661.75.915.710.428.941.630.224.423.527.327.322.731.223.422.729.640.743.441.839.234.143.540.833.841.229.130.134.842.147.446.439.935.144.242.740.944.228.839.245.447.649.148.347.839.150.246.346.948.35.019.214.328.633.334.835.630.822.631.221.735.518.125.727.538.139.840.642.342.839.543.738.143.930.840.641.244.741.546.948.049.547.350.144.550.643.441.348.147.544.848.649.749.854.055.650.953.57.6±3.116.6± 1。914.9±3.929.5±1.037.6±3.435.3±4.433.9±7.231.4±6.731.4±9.333.1±5.624.0±2.636.8±5.223.5±4.525.0±1.730.7±3.240.9±5.641.6±1.544.3±4.444.3±5.240.5±4.644.8±4.943.67±2.338.4±4.045.1±3.832.3±3.334.9±4.340.6±4.545.5±3.245.4±2.848.6±2.847.7±6.246.8±8.651.1±7.750.0±6.045.2±4.350.1±4.636.4±6.042.6±3.448.3±2.547.8±5.047.8±2.152.2±5.453.1±6.248.3±7.055.9±5.654.8±6.652.47±5.354.5±5.5KFSOD（我们的）44.6 54.4 60.9 65.8 37.8 43.1 48.1 50.4 34.8 44.1 52.7 53.9 39.1± 3.847.2± 5.1 53.9± 3.6 56.7± 6.0(a)（b）（c）（d）图5.单个内核化表示的mAP%（PASCAL VOC 2007，新型类，分割1，5次拍摄设置），核超参数图图5a示出了基于RKHS的RBF核的消融（RBF/k的σ和RBF/k+MLP的κ，其中κ是可学习MLP模块中动态调整σ的S形缩放参数）。Lin/k是线性核（无超参数）。图5b示出了消融对于k-自相关（RBF/a的σ′和RBF/a+MLP的sigmoid标度参数κ′图图5c示出了RKHS多项式核的消融（Poly/k的阶数r，偏移量λ=1，以及Poly/k+MLP的阶数κ（r=5），其中κ是MLP的S形缩放，其动态地调整λ图5d：k-自相关（Poly/a的阶数r′（λ′=1）和Poly/a+MLP的S形标度κ′（r′=5））。表5.与SOTA在MS COCO微型套件和FSOD测试套件上的比较，见表5a和5b。表6. FSOD和COCO数据集（5/10-shot协议）上的内核化表示组合的结果见表发射方法APAP50AP75发射方法AP50AP756a. 表6b显示了PASCAL VOC 2007上的mAP（5次注射，新型类）的线性内核形成的低分辨率Φ↓vs.LSTD AAAI18 3.2 8.1 2.1高分辨率Φ特征图（图2a）。FR ICCV 12 5.612.34.6Meta ICCV 19 8.7 19.186.6LSTD（FRN）AAAI18 23.0十二点九B5-shot（小说）↓10MPSR ECCV 20 9.817.9九点七LSTD AAAI 18 24.213.5ΦΦFSOD CVPR 20 11.1 20.4 十点六PNSD ACCV 20 15.3 21.7 十二点五TFA ICML 20 9.610.09.3FSCE CVPR 21 10.7 11.9 十点五CGDP+FRCN CVPR 21 20.3十一点五FSODup ICCV 21 11.6 23.9九点八KFSOD（我们的） 18.5 26.3 十八点七（一）5FSOD CVPR 20 27.5十九点四PNSD ACCV 20 29.8 二十二点六KFSOD （我们的）33.429.6(a)（一）64 54.7 55.6128 55.9 57.4256 58.559.3512 56.6 57.3756 54.1 56.41024 53.4 55.2（b）第（1）款不同的脊椎。参见补充材料§G。单个内核的性能。首先，我们比较了RKHS内核与k-自相关在一个手动超，参数设置设SOSD+PN的η= 5，η′= 100内核池化我们将线性、RBF和多项式RKHS核表示为Lin/k、RBF/k和Poly/k。我们将RBF和多项式k-自相关函数称为RBF/a和Poly/a。图5a示出了RBF/k（σ=2. 0 ）在验证分割上优于 Lin/k 2.1% 。然而，RBF/k+MLP（κ = 1. 8）在验证和测试分割中均优于RBF/k 2%图5 b示出了RBF/a（σ′= 0. （2）比Lin/k高 0.2% 。然而，具有 S 形缩放参数 κ ′ = 1 的RBF/a+MLP。3的性能优于Link/k，在验证和测试拆分上均为2%。图5c示出内核5次射击（FSOD）10杆（COCO）林/k RBF/k+aPoly/k+aAP50AP75AP50AP75C30.6 23.8 21.3 12.4CC31.9 25.7 22.1 13.6CCC32.2 26.8 25.7 14.619215∼Poly/k （ r= 5 ）在验证和测试分割上都优于Link/k。最后图5d表明Poly/a+MLP（κ′= 8）优于Poly/a（r′= 5）和Lin/k。图5b和图5c示出了MLP以非常稳定的方式动态地调整内核的参数（在val上的最大值匹配）。测试分裂）。在FSOD和COCO（表6a）上，组合籽粒使结果比Lin/k提高3%。参见补充材料的§F，了解内核组合的消融。内核池化。我们从表3中评估了合并w.r.t. 谱功率归一化（SPN）的η和逐元素PN的η′，我们通过具有S形缩放κ′′的MLP来学习。图6显示，设置η= 1（SPN关闭）会导致所有内核的性能大幅下降（η= 1等于仅沿对角线19216'K⟨⟩∼∼∼×'K(a)（b）（c）图6.单个内核化表示的mAP %（PASCAL VOC 2007，新型类，分割1，5次拍摄设置），η或η′。图6a：RBF/k+MLP和RBF/a+MLP，以及图6 b：6b：Poly/k+MLP和Poly/a+MLP w.r.t. SOSD+PN内核池化参数η（η′是动态学习的）。图6c示出了所有5个内核化表示w.r.t. SOSD+PN的η。图6d比较了一阶（FO）、具有PN的一阶（FO+PN）、内核池化SOSC+PN和SOSD+PN，以及具有通过由κ“”缩放的MLP调整的η“的SOSD+PN。表7. 在选项卡中。7a是每1000张图像

下载后可阅读完整内容，剩余1页未读，立即下载