没有合适的资源?快使用搜索试试~ 我知道了~
少样本检测未见物种关键点的不确定性学习方法
Support image & keypointsPredicted keypoints FSKD with Outputperception is inferior to biological perception [51]. Inspiredby the progress in few-shot learning [25,26,41,45,49,58],we propose Few-shot Keypoint Detection (FSKD) whichcan learn from few keypoints and recognise previously un-seen keypoint types even for species unseen during training(Fig. 1).As keypoints provide crucial structural and semanticinformation, FSKD has numerous promising applicationssuch as semi-automatic labelling, face alignment [27, 44],Fine-Grained Visual Recognition (FGVR) [46], animal be-havior analysis [37], etc. The use of keypoints can also sim-plify the labor-intensive surveillance of wildlife [34,56].In this paper, we propose a versatile FSKD approachwhich copes with various levels of domain shift. Fig. 2shows that the categories of species used for training andtesting may be the same or different (top branches), and alsothe keypoint types of specific body parts may be the sameor disjoint (bottom branches). The easiest problem settingassumes the same kind of species and the same types ofkeypoints throughout training and testing. However, if thespecies as well as keypoint types used for training and test-ing are both disjoint, the problem is challenging due to highlevels of domain shift.We note that learning and generalizing based on a fewof samples is hard due to the limited number of annotationsand a large variability of samples. Moreover, there exist194160使用不确定性学习的少样本关键点检测用于未见过的物种0Changsheng Lu †,Piotr Koniusz *,§,†0† 澳大利亚国立大学 § Data61/CSIRO0ChangshengLuu@gmail.com,firstname.lastname@anu.edu.au0摘要0当前的非刚性物体关键点检测器在特定物种和身体部位上表现良好,并且需要大量标记的关键点进行训练。此外,它们的热图无法识别未见过物种上的新颖关键点(未在训练中标记的关键点)。我们提出了一个有趣但具有挑战性的问题:如何在给定少量已标注样本的情况下,检测未见过物种的基准(用于训练的已标注)和新颖关键点?因此,我们提出了一种多功能的少样本关键点检测(FSKD)流程,可以检测不同种类的不同数量的关键点。我们的FSKD提供了预测关键点的不确定性估计。具体而言,FSKD涉及主要和辅助关键点表示学习、相似性学习和带有不确定性建模的关键点定位,以应对定位噪声。此外,我们通过多变量高斯分布对关键点组之间的隐含相关性建模,来对关键点组的不确定性进行建模。我们展示了我们的FSKD在(i)未见过物种的新颖关键点检测,(ii)少样本细粒度视觉识别(FGVR)和(iii)语义对齐(SA)下游任务上的有效性。对于FGVR,检测到的关键点可以提高分类准确性。对于SA,我们展示了一种使用估计的关键点不确定性进行不完全关键点对应的新型薄板样条变形。01. 引言0深度全监督姿态估计在人体关键点检测方面表现出色[6, 14, 18, 35,47]。然而,这些关键点检测器专门针对它们训练的特定物种和身体部位。它们无法在未见过的物种上重复使用,并且需要大量标记的数据。相比之下,给定少量样本,一个孩子可以充分识别和推广兔子、猫、狗、袋鼠等不同姿势下的爪子上的关键点,例如跳跃、蹲下或行走。相比之下,机器的感知能力不如生物的感知能力[51]。受到少样本学习[25, 26, 41, 45, 49,58]的进展的启发,我们提出了少样本关键点检测(FSKD),它可以从少量关键点中学习,并识别以前未见过的关键点类型,即使是在训练过程中未见过的物种(图1)。由于关键点提供了关键的结构和语义信息,FSKD具有许多有前途的应用,如半自动标注、面部对齐[27,44]、细粒度视觉识别(FGVR)[46]、动物行为分析[37]等。关键点的使用还可以简化对野生动物的劳动密集型监视[34,56]。在本文中,我们提出了一种多功能的FSKD方法,可以应对各种程度的领域转移。图2显示了训练和测试中使用的物种类别可以相同或不同(顶部分支),以及特定身体部位的关键点类型可以相同或不相交(底部分支)。最简单的问题设置假设训练和测试中使用的物种种类和关键点类型相同。然而,如果用于训练和测试的物种以及关键点类型都不相交,由于领域转移的程度较高,问题就变得具有挑战性。我们注意到,由于注释数量有限且样本变异性大,基于少量样本的学习和推广是困难的。此外,存在着0* 通讯作者。0查询图像0使用不确定性0不确定性学习0图1.使用不确定性学习的少样本关键点检测(4路2样本协议)的示意图。我们的FSKD模型成功地在未见过的物种中,通过两个已标注实例,检测出四个新颖关键点并估计了定位的不确定性。194170基础0关键点0新的0关键点0基础0关键点0新的0关键点0相同 不同0关键点0联合0关键点0不相交0训练中的物种0& 测试0已见物种 未见物种0图2.FSKD的不同设置导致不同程度的领域转移。0TPS变形0(a)FGVR任务(b)语义对齐任务0?0喙0右眼0腹部0右翼0学习者0连接0O0家燕0P0树燕0TPS变形与0不确定性0对齐0身体部位特征0支持图像0查询图像0修正后的图像0图3.我们评估提出的FSKD的下游任务。(a)少样本细粒度视觉识别(FGVR);(b)语义对齐(SA)。0图像中存在大量干扰噪声和相似的局部模式,这可能对FSKD构成挑战,使其成为比少样本目标检测(FSOD)[13, 22,55]更难的问题。与通常具有明确边界的物体不同,关键点缺乏清晰的边界,对应于一些局部区域而不是精确的坐标。因此,关键点固有地具有模糊性和位置不确定性,这在地面真值关键点和预测中都有所体现。因此,我们开发了一种能够处理领域转移并模拟定位不确定性的FSKD方法。我们首先提取支持关键点的深度表示以构建关键点原型(每个关键点类型一个),然后将其与查询特征图进行相关计算,得到关键点特定的注意力特征。在提取描述符之后,将注意力特征转换为描述符,用于后续的关键点定位。为了解决基础训练关键点类型有限的问题,我们引入了生成的辅助关键点进行学习。尽管这些关键点在支持和查询图像之间显示出较差的匹配,但它们增加了关键点的多样性,并显著帮助推断出新的关键点。FSKD的困难导致对新关键点的预测不完美。为了弥补这种效果并处理关键点固有的模糊性和噪声,我们提出通过学习单个或多个关键点的协方差来模拟定位的不确定性,从而通过损失函数对这些噪声关键点具有更大的容忍度。我们的贡献总结如下:0i.我们提出了一种灵活的少样本关键点检测(FSKD)模型,可以在给定一个或多个注释样本的情况下检测不同类型和数量的关键点。0ii.我们的定位网络中建模了定位和语义的不确定性,提出了一种基于不确定性辅助的基于网格的定位器(UC-GBL)。此外,我们提出了多尺度UC-GBL以减少错误定位的风险。0iii.我们在学习过程中使用低质量的辅助关键点,并对耦合的主要关键点和辅助关键点建模协方差以改善泛化能力。0iv.令人信服的实验证明,我们的FSKD可以检测到未见物种上的新关键点。通过简单的修改,我们将我们的FSKD扩展为应用于少样本细粒度视觉识别和语义对齐的简单关键点检测器(图3)。0据我们所知,我们的工作是将关键点检测建模为少样本学习的首次尝试。02. 相关工作0小样本学习(FSL):最初,FSL致力于基于少量样本的图像分类[15,51]。当前的FSL流程基于深度骨干,并主要关注以下几个方面:i)度量学习[25, 42, 45, 49];ii)优化,例如MAML[16]可以快速适应新任务;iii)数据虚拟化[54,57]。FSL已经扩展到其他计算机视觉任务,包括小样本分割[28, 30]和目标检测[13, 22, 55,57]。关键点检测:与传统的关键点检测器[11,32]相比,深度学习方法更加通用,可以分为两种类型,第一种类型使用热图回归,然后通过后处理来搜索具有最大热值的关键点[6, 14, 18, 35,44],第二种类型直接对关键点位置进行回归[7,47],我们的工作也采用了这种方法。对于基于热图回归的方法,它们可以进一步分为自上而下的姿态估计器[14, 18,43]和自下而上的姿态估计器[6, 8, 35]。最近的一些工作[5,29]通过利用大规模源数据集进行跨域适应或形状变形。Novotny等人[36]使用自监督学习来学习一对经过变换的图像之间的匹配特征。尽管这些方法可以减少学习时的注释负担,但它们不能直接在少量样本上基于未见过的物种检测新的关键点。计算机视觉中的不确定性:不确定性通常由预测的高斯分布建模的aleatoric不确定性和将分布放置在模型权重上的epistemic不确定性[2,23]组成(即贝叶斯神经网络[2])。在本文中,我们主要关注异方差aleatoric不确定性。194180确定性,在许多应用中很受欢迎。Kendall等人[24]使用不确定性来相对加权深度回归和分割之间的多任务损失函数。He等人[20]和Choi等人[9]将不确定性纳入Faster R-CNN[39]和YOLOv3[38]的边界框回归中。然而,这些模型独立地处理多个变量,而我们通过协方差对不确定性进行建模,以捕捉变量之间的潜在关系。03. 少样本关键点检测03.1. 架构概述0给定采样的支持图像和关键点,FSKD旨在检测查询图像中对应的关键点,其中最困难的设置包括在训练和测试之间都不重叠的物种和关键点类型。对于N个支持关键点和K个支持图像,该问题被称为N-way-K-shot检测。我们FSKD流程的概述如图4所示,包括特征编码器F,特征调制器M,描述符提取器P和基于不确定性的基于网格的定位器G(UC-GBL)。此外,我们还通过添加一个辅助分支D(SDhead)来学习语义差异性(SD)。接下来,我们将详细描述每个模块。03.2. 关键点原型和描述符构建0关键点嵌入:将支持图像和查询图像Is和Iq映射到特征空间Rl×l×C中的F(Is)和F(Iq)使用共享权重的卷积编码器F。给定位置u =[x,y]�处的支持关键点,我们通过A提取关键点表示Φ =A(F(Is),u)。运算符A可以是整数索引[36],双线性插值[18,21]或高斯池化。特征表示Φ必须包含关键点的一些局部上下文,在匹配步骤中具有足够的区分度。因此,我们采用高斯池化。设uk,n为第k个支持图像Ik的第n个关键点,F(Ik)(x)为位置x∈R2处的特征向量。可以得到关键点表示Φk,n如下所示:0Φk,n = �0x exp(−∥x − uk,n∥^2/2ξ^2) ∙ F(Iks)(x),(1)0其中ξ是标准差。根据原型网络[42],每个支持关键点原型(SKP)Φn可以通过对支持图像中相同类型的关键点表示求平均得到0Φn = 10K0� K0k = 1 Φk,n,(2)0其中n = 1, ...,N。因此,在N路K-shot学习过程中生成了N个SKP。支持和查询相关性:为了引导FSKD发现查询图像中对应的关键点,需要将SKPΦn与查询特征进行相关性计算0图F(Iq)。为此,我们采用特征调制器M,它将Φn和F(Iq)作为输入,产生注意力特征An = M(F(Iq), Φn),n = 1, 2, ...,N。对于M,我们可以选择简单的相关性、空间注意力、通道注意力等。在本文中,我们选择简单的相关性以提高效率,即An(p) = F(Iq)(p) ⊙ Φn,其中p ∈R^2遍历尺寸为l×l的特征图,⊙表示逐通道乘法。特征相关性对支持集和查询图像之间的相似性进行学习,激活与SKP显著相关的查询特征图中的局部区域。关键点描述符提取:在进行特征相关性计算后,我们通过描述符提取器P将每个注意力特征An投影到关键点描述符Ψn中,以降低维度,即Ψn = P(An)。03.3. 关键点定位和不确定性学习03.3.1 基本的网格定位器(GBL)0我们将关键点定位视为网格分类和局部偏移回归,而不是对每个关键点描述符Ψn进行全局定位回归,使用网格分类器Gc和偏移回归器Go。设v ∈ R^2为网格的偏移量0成为关键点所在网格的中心的偏移量。预测的网格g ∈ {0,..., S-1}×{0, ..., S-1}是通过网格概率图P ∈RS×S中的最大值的2D索引获得的,其中P =Softmax(Gc(Ψn)),预测的偏移量v可以从网格g处的向量场Go(Ψn) ∈RS×S×2中检索出来(见图4)。此外,我们通过以下方式构建了真实偏移量GTv�0t = u�S/l0 z = �t� + 0.5 v� = 2(t - z),(3)0其中u� ∈R^2是GT关键点在边长为l0的方形填充查询图像中的坐标,t ∈R^2是在网格坐标系中的转换坐标,z是网格中心。此外,网格标签可以形成为g� = �ty�S + �tx�,v� ∈ [-1,1)^2。根据v�和g�,我们设计了交叉熵网格分类损失Lcls和使用均方误差(MSE)的偏移回归损失Los来最小化基本的GBL(Gc, Go)。03.3.2 定位和语义不确定性0与其他方法[9, 20, 24,33]不同,我们使用协方差Σ来建模单个或多个关键点的定位不确定性。设N(x; v�, Σ)为多元高斯分布,其中x, v� ∈R^k,k ≥ 2,Σ ∈Sk++。设x为关键点(或堆叠的多个关键点)的预测偏移量,v�为GT,则可以将负对数似然(NLL)损失写为0Los-nll = -E log N(x; v�, Σ)0≡ 02E[(x - v�)�Σ^(-1)(x - v�) + log det(Σ)],(4)2xNCoordinatesGrid ClassifierUC-GBL4xNCovar entriesSoftmaxExtract&ReshapeExtractUC-GBLS1UC-GBLS2UC-GBLS3Offset vectorvLatent matrixQOffset RegressorCovar. BranchClassification lossMax prob.−Inverse covarianceMultivariate GaussianRegression loss1q −1s −Grid probabilityP11( , ,)S−P v Σ21( , ,)S−P v Σ31( , ,)S−P v ΣLms = NSSi=1 L(Si),(7)u =1NS�NSi=1l0Si�g(Si) + 0.5 + 0.5v(Si)�,(8)194190查询图像0支持图像和关键点0关键点描述符0特征0调制器0多尺度 UC-GBL0多尺度融合0编码器0中间0特征0查询特征0支持特征0支持关键点0原型0注意力特征0关键点描述符0描述符提取器0语义区分性 (SD)0N 个描述符0输入0输出0辅助关键点训练0辅助关键点0描述符0辅助0预测的关键点0具有不确定性0图 4.少样本关键点检测流程。整个模型旨在在给定支持关键点的情况下,预测具有不确定性的查询图像中的关键点。原型引导查询特征生成关键点特定的注意力特征,通过多尺度 UC-GBL将其压缩为关键点定位的描述符。通过插值,将匹配质量较差的辅助关键点也纳入学习过程中,以提高 FSKD 的泛化能力。0然而,方程 4 中的 L os-nll 依赖于协方差矩阵 Σ的逆的计算,这在反向传播中是昂贵且不稳定的,特别是当k ≥ 4 时。因此,我们用精度矩阵 Ω = Σ − 1 替换 Σ ,得到0L os-nll 102 E [( x − v � ) � Ω ( x − v � ) − log det( Ω )] 。(5)0因此,只要 Ω � 0 ,L os-nll 可以很容易地计算。为了保证这一点,我们令 Ω = 1 d QQ �,其中 Q ∈ R k × d ( d ≥ k )是从我们的协方差分支网络学习到的潜在矩阵。在极端情况下,可以添加一个小的 ϵ → 0来确保 det( Ω ) > 0 。首先,我们通过向 GBL 添加一个协方差分支 G v (图 4)来研究每个关键点的协方差学习,其输出是潜在协方差场 G v ( Ψ n ) ∈ R S × S × 2 d。然后,从网格 g 中提取出编码给定关键点的协方差信息的 Q ∈ R 2 × d。其次,我们通过多关键点协方差分支 G mkv来研究组内多个关键点之间的关系(即每组 m 个关键点),其输出是 Q mkv ∈ R 2 m ×2 m 。除了反映关键点定位的 Σ 外,根据 [23, 36],我们还通过学习一个单通道的 SD图像 σ − 1 s ∈ R H × W × 1 来建模语义不确定性 σ 。其值范围在 (0, 1)之间,值越高,关键点越具有辨别力。设 σ − 1 s 和 σ − 1 q 分别为支持和查询 SD图像。因此,对于每个关键点描述符 Ψ n ,我们提取相应的 SD 标量作为 w n = 102 ( σ − 1 s , u n + σ − 1 q , u ′ n ) ,其中 σ − 1 s , u n 和 σ − 1 q , u′ n 是关键点位置 u n 和 u ′ n 处的支持和查询 SD 图像的值。0令 W = diag ([ w 1 , w 1 , ∙ ∙ ∙ , w m , w m ]) ∈ S 2 m ++为一个对角矩阵,其中 w n 是其对角元素。我们将 W 引入到方程 5 中:02 E [( x − v � ) � ( Ω + β W )( x − v � ) − log(det( ΩW β ))] ,(6) 其中 β 是一个权衡参数(我们设置 β = 1)。我们还使用 w n 对交叉熵网格分类损失 L cls-uc进行重新加权,其中 L cls-uc = − E [ √ w n � I ( g � ) , log(vec ( P )) � ],其中 vec ( ∙ ) 将矩阵向量化,I ( ∙ )是一个标量的独热编码。不确定性辅助的GBL(UC-GBL)同时使用 L uc 和 L cls-uc。与普通的 GBL相比,我们提出的 UC-GBL具有以下几个优点:1)模型对预测和标签噪声具有更大的容忍度,并且通过学习到的 Σ 和 W可以减少噪声的影响,从而降低学习性能的退化;2)Σ的特征值和特征向量提供了定位的不确定性。03.3.3 多尺度UC-GBL和不确定性融合0增加尺度 S会增加网格的精度,但也会导致更多的网格。为了减少误定位的风险,我们在流程中采用多尺度UC-GBL。令尺度 S上的损失函数为 L ( S ) = α 1 L uc + α 2 L cls-uc(我们设置 α 1 = α 2 = 1 )。然后,多尺度定位损失 L ms定义为0其中 N S 是在FSKD中使用的尺度数量。统一的关键点预测u 计算如下Pair descriptorsM1M2A1 A2A3Triplet descriptorsB A CKeypoint distinctiveness Negative-log-likelihoodRegression loss for tripletMainAuxiliaryABCMulti-keypointCovar. BranchMultivariate GaussainA1A2A3M1M2A1A2A3M1M2(b)(c)Auxiliary keypoints interpolationOffset vectors(d)(a)M1 A1A1 A2A2 A3A3 M2M1 A3 M2M1 A1 M2M1 A2 M2MainAuxiliaryΣ =14NS�NSi=1� l0Si�2Σ(Si),(9)L = γ1Lms + γ2 ˜Lms + γ3Lms-mk.(10)194200图5. 多个关键点的关键点分组策略和协方差建模。 (a)在身体部位之间进行插值; (b) 主要和辅助描述符; (c)使用对或三元组进行分组; (d) 多关键点协方差建模。0其中 g ( S i ) ∈ { 0 , ∙ ∙ ∙ , S i − 1 }×{ 0 , ∙ ∙ ∙ , S i − 1 } 且 v ( S i )0预测的2D网格索引和偏移量为 S i 。定位不确定性 Σ通过以下方式获得0其中 Σ ( S i ) 是尺度 S i 上的协方差,通过反转精度矩阵 Ω (S i ) 获得。图4展示了统一估计的关键点和不确定性。03.4. 辅助关键点学习0除了注释提供的主要训练关键点外,我们还采用辅助关键点进行学习,这些关键点是通过插值 T ( t ; [ u 1 , u 2 ])在以关键点 [ u 1 , u 2 ] 为端点的路径上生成的,其中 t ∈ (0 , 1) 是所谓的插值节点,如图5(a)所示。我们使用现成的显著性检测器 [ 52 ]来修剪不在前景上的辅助关键点。类似地,我们为查询图像的辅助关键点构建辅助描述符 ˜ Ψ n (图5 (b)) 和定位损失 ˜L ms(公式7)。即使支持和查询之间的辅助关键点匹配不好,它们也可以增加训练关键点外观的视觉多样性。我们还将主要和辅助关键点分组成对或三元组 (图5 (c)),并通过分支 G mkv (图5 (d)) 对多关键点协方差 Σ mkv进行建模。因此,我们提出了多关键点偏移回归损失 Lms-mk 。03.5. 目标函数0我们的流程有三个损失项,分别是主要关键点损失 L ms,辅助关键点损失 ˜ L ms 和多关键点偏移回归损失 Lms-mk 。默认情况下,L ms-mk使用三元组分组策略。整体损失 ( γ 1 = γ 2 = γ 3 = 1 )为04. 实验04.1. 实验设置0数据集:1) 动物姿势 [ 5 ]数据集有超过6000个带有5个物种(猫、狗、牛、马和羊)的标注实例。我们的实验中使用了17个身体部位;2) CUB [50 ] 包含200个物种和15个关键点标注;3) NABird [ 48 ]有555个类别,11个关键点标注和48,562张图像。对于每个数据集,我们选择以下关键点类型作为新关键点集:i)动物姿势数据集的两只眼睛和四个膝盖;ii)CUB的前额、两只眼睛和两只翅膀;iii)NABird的两只眼睛和两只翅膀。其余关键点由基础关键点集使用。参见附录B的表格进行划分。度量标准:我们使用正确关键点的百分比(PCK)作为评估指标[ 36 , 53]。关键点到GT的距离应小于 τ ∙ max( w bbx , h bbx ),其中 w bbx 和 h bbx 是物体边界框的边缘。我们设置 τ = 0 . 1 。比较方法:我们采用了Novotny等人的工作[ 36]中开发的概率内省匹配损失(ProbIntr)进行比较。此外,我们还建立了一个基准,使用尺度为 S = 8的普通GBL(不使用辅助关键点,不确定性等)。对于我们的FSKD方法,我们引入了两个变体进行比较,它们是FSKD(rand)和FSKD(default)。它们共享架构,但插值路径的类型不同。前者在每个episode中随机选择由任意两个身体部位形成的路径,而后者在肢体上插值辅助关键点。实现细节:特征编码器 F 使用修改后的ResNet50 [ 19]。三个尺度为 S = { 8 , 12 , 16 }的UC-GBL堆叠在一起形成多尺度UC-GBL。使用随机翻转和旋转进行数据增强,图像被调整大小并填充为 384 ×384。对于辅助关键点的生成,插值路径的数量设置为6,所谓的插值节点 t = { 0 . 25 , 0 . 5 , 0 . 75 }。所有模型在动物姿势数据集上训练了80k个episode,在CUB和NABird上训练了40k个episode。结果在测试中报告了1000个episode。04.2. 少样本关键点检测实验0首先,我们在未见物种上进行检测新颖关键点的实验(图2)。对于动物姿势数据集,我们交替选择一种动物作为未见物种进行测试,而将其余四种动物作为已见物种进行训练(五个留一法子问题)。对于 CUB 数据集,有 100 个物种用于训练,50 个用于验证,50个用于测试。对于 NABird 数据集,训练、验证和测试的划分分别为333、111 和 111。我们在所有任务上使用全方位 1-shot 协议。在每个episode中,有一个支持图像和所有基本(或新颖)关键点被用作支持关键点。使用相同物种的episode。其次,我们探索已见物种的检测新颖关键点,其中 70%的图像用于训练,30%用于测试(所有数据集)。第三,对于上述两种设置,我们还报告了基本关键点的测试结果(使用相同的训练模型)。表 1 显示了结果(95%置信区间为)。1 shot2 shot3 shot4 shot5 shotNumber of shots K3035404550556065PCKCatDogCowHorseSheepAvg1 shot2 shot3 shot4 shot5 shotNumber of shots K405060708090PCKCUBNABird345678910Number of training keypoints N35404550556065707580PCKCUBNABird0.000.050.100.150.200.250.30Normalized distance error0.140.160.180.200.220.240.26Loc. uncertainty strengthCatDog0.000.050.100.150.200.250.30Normalized distance error1.52.02.53.0DistinctivenessCatDog194210表 1. 在三个数据集上针对未见或已见物种的 1-shot 关键点检测结果。报告了 PCK 分数。0物种设置 方法 动物姿势数据集 CUB NABird0猫 狗 牛 马 羊 平均0未见0新颖 基线 ProbIntr FSKD (rand) FSKD (default) 27.30 28.54 46.05 52.36 24.40 23.20 40.66 47.9419.40 19.55 37.55 44.07 18.25 17.94 38.09 42.77 21.22 17.03 31.50 36.60 22.11 21.25 38.77 44.7566.12 68.07 77.90 77.89 39.14 48.70 54.01 56.040基线 ProbIntr FSKD (rand) FSKD (default) 51.08 45.96 57.12 56.38 40.44 42.49 51.12 51.29 45.2737.87 47.83 48.24 35.72 40.53 49.71 49.77 43.03 37.04 43.71 43.95 43.11 40.78 49.90 49.93 81.1673.46 87.94 87.71 75.74 70.56 87.84 86.990已见0新颖 基线 ProbIntr FSKD (rand) FSKD (default) 29.41 26.09 55.31 60.84 24.43 21.44 44.08 53.4419.95 19.71 39.80 47.78 19.59 16.95 41.52 49.21 21.95 17.83 32.32 38.47 23.07 20.40 42.61 49.9567.56 64.13 78.11 78.17 43.52 46.71 56.33 58.350基线 ProbIntr FSKD (rand) FSKD (default) 62.30 57.23 67.55 68.66 49.33 48.58 57.54 59.24 51.3342.65 53.47 52.70 42.98 48.70 57.40 58.53 44.18 36.15 44.80 45.04 50.02 46.66 56.15 56.83 84.0276.57 87.75 90.80 75.92 70.47 87.88 88.160(a)0(b)0(c)0图 6. 用于未见物种的 1-shot 关键点检测示例。角落的小图像是支持图像,大图像是查询图像。支持关键点和 GT查询关键点由圆点表示。我们的 FSKD 关键点预测由一个椭圆为中心的倾斜十字表示,椭圆代表具有 99.7%置信度的定位不确定性。并非所有支持关键点在查询图像中都有相应的关键点,因为 GT 可能不存在。从预测到 GT的连线段显示了定位误差。行 (a) � (b) 显示了检测新颖关键点的结果,而行 (c) 显示了基本关键点的结果。0(a)0(b)0(c)0(d)0(e)0图 7. 关于镜头、训练关键点数量和不确定性的研究。 (a) � (b) 镜头数量 K 的影响;(c) 训练关键点数量 N 的影响;(d) 和 (e)展示了定位不确定性强度 J ′ 和关键点区分度 w 与归一化距离误差 d ′ 的关系。0对于未见物种的检测新颖关键点和已见物种的检测新颖关键点,我们设置了实验。对于动物姿势数据集,我们将一种动物作为未见物种进行测试,其余四种动物作为已见物种进行训练(五个留一法子问题)。对于CUB 数据集,有 100 个物种用于训练,50 个用于验证,50 个用于测试。对于 NABird数据集,训练、验证和测试的划分分别为 333、111 和 111。在所有任务上使用全方位 1-shot协议。在每个 episode中,有一个支持图像和所有基本(或新颖)关键点被用作支持关键点。使用相同物种的 episode。表 1显示了结果(95% 置信区间为)。0在检测新颖的关键点方面,我们观察到以下情况:1)与 ProbIntr相比,基线具有竞争力,这可能是由于特征调制器和基本 GBL的成功;2)我们的 FSKD变体在检测新颖关键点方面显著提高了得分。random exhaustdefault363840424446SinglePairTriplet7576777879lePairTripletrandom exhaustdefault50515253545556PairTripletous194220表 2. 在几个骨干网络和 5 个数据集上进行的FSKD(新颖关键点,未见类别)实验。得分(�27.75)由基线实现。0使用FSKD的Animal CUB NABird DeepF.2 AwA0ResNet50 [19] 44.75 77.89 56.04 33.0490HRNet-W48 [43] 48.81 79.45 57.11 34.29 72.200表3. FSKD每个组件的消融研究。UC-GBL默认情况下为S =8,�表示不使用Lms-mk。Aux表示在训练中添加辅助关键点;MSUC-GBL表示多尺度UC-GBL涉及S = {8, 12,16}。Animal数据集上的结果是五个子问题的平均值。0一次拍摄,PCK@τ = 0.1 Animal CUB NABird01: 基线 22.11 66.12 39.1402: 基线+UC-GBL � 24.17 68.29 41.16 3: 基线+UC-GBL � +Aux.41.70 74.50 51.62 4: 基线+UC-GBL+Aux. 42.60 76.25 54.275: 基线+UC-GBL (12) +Aux. 42.65 76.90 54.17 6:基线+UC-GBL (16) +Aux. 42.61 75.86 54.15 7: 基线+MSUC-GBL+Aux. 44.75 77.89 56.040PCK0Animal的结果为800CUB的结果为800NABird的结果为570插值路径类型0图8.关键点分组策略对各种插值路径策略的影响,其中single表示不使用分组,exhaust表示使用穷举路径进行插值。0在三个数据集上,对于未见过的物种的关键点,FSKD(rand)的准确率分别为38.77%、77.90%、54.01%,FSKD(default)的准确率分别为44.75%、77.89%、56.04%。尽管FSKD(rand)使用了有噪声的辅助关键点,在CUB和NABird上表现非常好,甚至在CUB上超过了FSKD(default);3)基础关键点的结果高于新的关键点,这是由于领域偏移较小的原因。对于已见物种也观察到了类似的趋势。FSKD(default)的定性结果如图6所示。定位的不确定性由椭圆表示,其主/次轴为(3√λ1,3√λ2),其中λi是Σ的特征值,特征向量决定了方向。我们的FSKD能够很好地定位关键点并估计不确定性,这与GT相匹配并与身体部位的形状相关。FSKD在DeepFashion2和AwA上的结果如表2所示,包括3个主干网络/5个数据集,其中包括DeepFashion2[17](在上衣类别上训练/在下装类别上测试)和多样化的AwA Pose[1](新的关键点类型与Animal测试集相同,其余用于训练)。0表2显示FSKD+HRNet-W48在AwA姿势上的结果为72.20%(相对于Animal数据集的48.81%提高了约23%)。04.3. 消融研究0下面我们使用FSKD(默认)在新的关键点检测下验证每个组件的有效性。拍摄数量:通常情况下,少样本学习的得分随着拍摄数量的增加而增加。图7(a)和(b)显示,在5个样本的情况下,PCK得分在Animal数据集上平均提高了10.42%(在五个子问题上),在NABird上提高了7.50%,在CUB上提高了2.23%,与1个样本相比。训练关键点数量:我们从基础关键点集中改变训练关键点的数量,并在CUB和NABird中测试新的关键点。图7(c)表明,将更多的关键点包含到训练中增加了关键点的多样性,并帮助FSKD在新的关键点上进行泛化。定位和语义不确定性:图7(d)显示了定位不确定性和距离误差之间的统计趋势。我们使用J = 3(√λ1 +√λ2)来描述关键点预测的“不
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功