没有合适的资源?快使用搜索试试~ 我知道了~
+v:mala2255获取更多论文基于DETR的人机交互检测中的硬正查询挖掘钟旭斌1、丁长兴1、2、李子健1、黄少利31华南理工大学,广州,中国2琶洲实验室,广州,中国3腾讯AI实验室,深圳,中国eexubin@mail.scut.edu.cn,chxding@scut.edu.cn,eezijianli@mail.scut.edu.cn,shaolihuang@tencent.com抽象的。人-物交互检测是高层次图像理解的核心任务。近年来,基于检测Transformer(Detection Transformer,DETR)的HOI检测器由于其优越的性能和高效的结构而变得流行然而,这些方法通常对所有测试图像采用固定的HOI查询,这容易受到特定图像中对象的位置变化的影响因此,在这篇文章中,我们建议通过挖掘硬肯定查询来增强DETR首先,我们明确地组成硬积极的查询根据地面实况(GT)的位置标记的人-对象对每个训练图像。具体来说,我们移动每个标记的人-对象对的GT边界框,使得移动的框仅覆盖GT框的我们将每个标记的人-对象对的移位框的坐标其次,我们通过掩蔽解码器层的交叉注意力图中的最高分数来实现另一组硬肯定查询。掩蔽的注意地图只覆盖部分重要线索的HOI预测。最后,提出了一种替代策略,有效地组合这两种类型的硬查询。在每次迭代中,DETR的可学习查询和一种选定类型的硬肯定查询都实验结果表明,我们提出的方法可以广泛应用于现有的基于DETR的HOI检测器。此外,我们始终在三个基准上实现最先进的性能代码可在https://github.com/MuchHair/HQM上获得。关键词:人机交互,检测Transformer,硬例挖掘1介绍人-物体交互(HOI)检测是以人为中心的场景理解的基本任务[2,3,51,53,54]。它的目的是推断一组HOI三元组s通讯作者。arXiv:2207.05293v1 [cs.CV] 2022年7+v:mala2255获取更多论文2Xubin Zhong,Changxing Ding,Zijian Li,and Shaoli Huang(a)(b)(c)第(1)款图1.一、硬阳性查询的图示。(a)绿色区域表示用于一个人-物体对的HOI预测的重要视觉线索。(b)虚线框通过地面实况边界框移位(GBS)产生,其仅覆盖重要图像区域的一部分,然后被编码成硬肯定查询。(c)通过注意力图掩蔽(AMM)去除部分重要的视觉线索,这增加了一个肯定查询推断HOI三联体的预测难度最好用彩色看<人,交互,对象>从给定的图像[1,2]。换句话说,它不仅涉及识别单个图像中对象的类别和位置,而且涉及识别每个人-对象对之间的交互最近,基于检测变换器(DETR)的方法[4- 7,52 ]由于其优越的性能和高效的结构而在HOI检测领域中很受欢迎。这些方法通常采用一组可学习的查询,每个查询都采用交叉注意机制[33]来聚合图像范围的上下文信息,以便预测特定位置处的潜在HOI三元组。然而,可学习的查询通常在训练后是固定权重的[4,52]。由于每个查询都针对特定位置[5,8],因此基于DETR的方法通常对测试图像中对象位置的变化敏感。最近的作品提高DETR的鲁棒性,通过使用自适应查询。例如,CDN [7]在交互分类发生之前执行人-对象对检测,基于对象检测部分的输出生成自适应交互查询。然而,它对对象检测的查询仍然是固定的。此外,其他两个对象检测工作[39,43]选择根据每个解码器层的输出嵌入来更新每个对象查询。对象查询通常被公式化为一个潜在对象的单个参考点。值得注意的是,这种策略可能不容易应用于HOI检测的上下文中,因为一个人-物体对的交互区域通常更复杂,难以公式化[13,28,29]。因此,目前基于DETR的方法仍然遭受遭受低质量的查询。在本文中,我们提高了基于DETR的HOI检测方法的鲁棒性从一个新的角度来看,即硬阳性查询挖掘(HQM)。在我们的方法中,鲁棒性是指DETR模型即使使用具有有限视觉线索(或不准确位置)的低质量查询也能正确预测HOI实例的能力。因此,硬肯定查询是指对应于一个标记的人-对象对的查询,但是被限制为采用有限的视觉线索来进行正确的HOI预测。首先,如图所示1(b),我们通过Ground-truth Bounding-box Shifting(GBS)显式生成此类查询更详细地说,我们将两个地面实况(GT)边界+v:mala2255获取更多论文面向基于DETR的HOI检测的硬阳性查询挖掘3一个标记的人-对象对中的框,使得每个移位的框仅覆盖其GT框的特定部分然后,我们将两个移位框的坐标因此,结果查询仅包含关于该对的粗略位置信息该策略模拟了固定HOI查询的对象位置变化所导致的极端第二,如图所示1(c),我们通过注意图掩蔽(AMM)增加了正查询的预测难度AMM中的正查询是根据二分匹配与地面实况匹配的DETR更详细地,对于每个肯定查询,交叉注意力图中的最高分数的一部分以这种方式,肯定查询仅采用部分视觉线索用于预测目的。特别地,由于我们的目标是增强可学习查询的鲁棒性,我们根据可学习查询中对应元素的值来选择掩码元素。通过GBS和AMM生成的梯度不太容易受到过拟合的影响,并且能够为基于DETR的模型生成有价值的梯度。最后,基于DETR的模型的鲁棒性增强的测试图像。在训练阶段的每次迭代期间,DETR为了提高效率,在每次迭代中交替选择GBS和AMM。这种交替联合学习策略比其他联合学习策略效率更高,性能更好此外,在推理过程中,GBT和AMM都被删除;因此,我们的方法不会增加基于DETR的模型在测试阶段的复杂性。据我们所知,HQM是促进从硬实例挖掘的角度对基于DETR的模型的鲁棒性进行了研究。此外,HQM是即插即用的,并且可以容易地应用于许多基于DETR的HOI检测方法。在三个HOI基准上进行了详尽的实验,即HICO-DET [2],V-COCO [1]和HOI-A [13]。实验结果表明,HQM不仅取得了优越的性能,而且显著加快了训练收敛速度。2相关作品人机交互检测。 基于所采用的模型架构,现有的HOI检测方法可以分为两类:基于卷积神经网络(CNN)的方法[11,13,25]和基于变换器的方法[4- 7,30 ]。基于CNN的方法可以进一步分为两阶段方法[10,11,14,17,25,26]和一阶段方法[13,28,29]。一般来说,两阶段方法首先采用预先训练的对象检测器[9]来生成人和对象的建议,然后将人-对象对的特征输入到动词分类器中进行交互预测。可以利用各种类型的特征来改进交互分类,包括人类姿势[10,11],人类-对象空间信息[15,21,24]和语言特征[14,25,26]。+v:mala2255获取更多论文4 Xubin Zhong,Changxing Ding,Zijian Li,Shaoli Huang虽然两阶段方法是灵活的,包括不同的功能,他们通常是耗时的级联步骤。相比之下,单阶段方法通常更有效,因为它们并行执行对象检测和交互预测[13,28,29]。这些方法通常依赖于用于交互预测的预定义交互区域。例如,UnionDet [29]使用人-对象对的联合框作为交互区域,而PPDM [13]使用单个交互点来表示交互区域。最近,GGNet [28]利用一组动态点来覆盖更大的交互区域。然而,上述预定义交互区域可能无法完全探索图像范围的上下文信息。最近,Transformer架构已成为流行的HOI检测。大多数此类方法是基于DETR的[4 这些方法可以进一步分为两类:采用一组可学习查询进行对象检测和交互分类的方法[4,6,44,45],以及利用单独的查询集进行对象检测和交互的方法。预测[5,7,30]。上述方法通过将图像范围的上下文信息用于HOI预测而实现了优异的性能。然而,由于它们使用权重固定的查询,它们的性能通常对人或对象的位置变化敏感。基于DETR的目标检测。DETR模型通过将任务公式化为集合预测问题来实现端到端对象检测[8]。然而,由于其使用权重固定和语义模糊的HOI查询查询,其遭受低训练一致性[39- 43 ]。为了解决这个问题,最近的作品主要采用了两种主要策略之一。第一个是在解码器层中对注意力图施加空间先验,以减少语义模糊。例如,动态DETR [41]基于每个解码器层的嵌入来估计感兴趣区域(ROI),然后约束ROI区域内的下一个解码器层中的交叉注意操作。第二种策略涉及根据来自每个解码器层的输出解码器嵌入更新查询[39,43]。这些作品中的每个查询通常都是通过对象实例的单个引用点来公式化的然而,在HOI检测的背景下做出类似的公式可能并不简单这是因为HOI检测是一项更具挑战性的任务,不仅涉及单个对象的检测,还涉及人类实例和交互类别的检测。在本文中,我们从一个新的角度,即硬正查询挖掘的DETR为基础的模型的鲁棒性与现有的方法相比,我们的方法更容易实现,并不会增加模型的复杂性在推理。在实验部分,我们进一步证明了我们的方法比现有的方法实现了更好的性能。挖掘实例。 HQM可以被认为是一种基于变压器的HOI检测的硬示例挖掘(HEM)方法。HEM已经证明了其在提高基于CNN的对象检测模型的推理准确性方面的有效性[49,50]。然而,这种策略在HOI检测中很少被探索最近,Zhong et al.[28]一个很难的负面注意损失,+v:mala2255获取更多论文ETransformer解码器FFN× L骑自行车交叉注意积极因素参数共享FFN注意力地图掩蔽× L交替联合学习Ground-truth边界框移位参数共享FFN编码× L盒移位箱交叉注意HOI查询Transformer解码器层GT蒙版生成Transformer编码器位置编码变平CNNTowards Hard-Positive Query Mining for DETR-based HOIDetection 5图二、基于QPIC的训练阶段HQM概述[4]。为了简单起见,仅示出了一个可学习查询Q1和两个硬肯定查询硬肯定查询Qs由GBS产生,GBS将一个人-对象对的移位边界框的坐标编码成查询。根据与地面实况的二分匹配从可学习查询中选择另一个肯定查询QmQm的交叉注意图被部分掩盖以增加预测难度。在每次迭代中交替选择两种类型的硬肯定查询,并且所选择的查询类型与可学习查询一起使用计算损失。 矩阵乘法和阿达玛积,分别在推理阶段,HQM被移除,因此不会带来额外的计算成本最好用彩色看。克服基于关键点的HOI检测模型的正样本和负样本之间的类别不平衡问题[12,13]。相比之下,HQM在训练阶段修改了DETR3方法HQM是即插即用的,并且可以应用于许多现有的基于DETR的HOI检测模型。[4在本节中,我们以代表性工作QPIC [4]为例。配备HQM的QPIC [4]的总体框架如图所示二、在下文中,我们首先简要回顾了QPIC,然后描述了两种新的硬肯定查询挖掘方法,例如,GBS(3.2节)和AMM(A.2节)。最后,我们引入了一种交替的联合学习策略来有效地应用GBS和AMM(第3.4节)。3.1我们的方法重新访问QPIC。如图2所示,QPIC由基于CNN的主干、Transformer编码器 、 Transformer 解 码 器 和 前 馈 网 络 ( FFN ) 构 成 。 每 个 输 入 图 像I∈RH0×W0×3首先被送入CNNFFN移位+v:mala2255获取更多论文×∈∈HH·∈∈∈H6 Xubin Zhong,Changxing Ding,Zijian Li,Shaoli Huang主干和Transformer编码器提取平坦化的视觉特征ER( H× W ) ×D。然后,QPIC在Transformer解码器中执行可学习查询QlRNq×D和ENq是训练后固定的可学习查询的数量。H W和D分别表示图像块的数量和每个块的特征维数。此外,变压器解码器通常由多个堆叠层组成为了清楚起见,我们仅在一个解码器层中呈现交叉注意操作。第i个解码器层的输出嵌入Ci∈RNq×D可以用公式表示如下:Ci= Concat([AIEWV]T),(1)h h h h=1l= Softmax(Atth(Ql,Ci−1,E)),(2)其中T是交叉注意力头部的数量Al∈RNq×(H× W)是非线性的,第h个头的malized交叉注意力图WV是线性投影矩阵。Atth()是一个用于相似度计算的函数。最后,如图2所示,基于FFN将每个输出解码器嵌入发送到检测头,以获得对象类得分、交互类别得分以及人和对象实例的位置。硬正查询挖掘。大多数基于DETR的HOI检测方法,例如,QPIC,培训后采用低质量查询。如第1节中所分析的,权重固定查询的性能对测试图像中人和对象实例的位置变化敏感在下文中,我们建议通过硬肯定查询挖掘来提高基于DETR的模型的鲁棒性一个硬肯定查询指的是对应于一个标记的人-对象对的查询,但是被限制为采用有限的视觉线索来推断正确的HOI三元组(如图2所示)。①的人。如示于图2.提出了两种生成硬肯定查询的策略GBS和AMM。它们生成的查询表示为QsRNg×D和QmRNg×D。Ng是一个训练图像中标记的人-对象对的数量。类似于Q1,Qs和Qm被发送到Transformer解码器,并且它们的输出解码器嵌入被强制推断正确的HOI三元组。Ql、Qs和Qm共享所有模型层和损失函数。3.2Ground-truth边界框移位以前的工作表明,每个查询都涉及一个图像中的特定位置[5,8]。为了增强DETR如图1(b),我们移动标记的人-对象对的边界框具体来说,我们为一个标记的人编码一个硬阳性查询qsQs对象对如下:qs=Ln(Fp(Shift(ps),(3)一+v:mala2255获取更多论文∈··- -HTowards Hard-Positive Query Mining for DETR-based HOIDetection 7算法1每个注意力头部的注意力地图掩蔽1:输入:注意力映射Am,AlRH×W,用于硬肯定查询,K,γ2:获取Al中的前K个元素的索引IK3:初始化随机二进制掩码M∈RH×W:Mi,j<$Bernoulli(γ)4:对于Mi,j∈M do5:如果(i,j)∈/IK,则6:Mi,j= 17:如果结束8:结束9:输出:掩蔽注意力图Am=AmM哪里ps=[xh,yh,wh,hh,xo,yo,wo,ho,xh− xo,yh− yo,whhh,woho] T.(四)ps中的前八个元素分别是一个GT人-对象对的中心坐标、宽度和高度。[xhxo,yhyo]分别表示两个框之间的相对位置;而最后两个元素是两个框的面积。 Shift(·)表示对GT边界框的移位操作(如图1B所示)。2)。Fp()是具有两层的FFN,其维度都是D。它将p,s,投影到另一个D维空间.Ln()是一个双曲正切归一化函数,它确保qs中元素的振幅和E的位置嵌入是一致的[52]。与一个并发工作DN-DETR [55]相比,GBS专注于硬肯定查询挖掘。为了确保查询是积极的和困难的,我们控制每个移位框和它的地面真值之间的交集(IoU)。我们在实验中采用了从0.4到0.6的低IoU,发现GBS显著提高了基于DETR的模型的推理性能3.3注意力地图掩蔽增强模型鲁棒性的一种流行方法是Dropout [34]。然而,将Dropout直接应用于Ql的特征或注意力图可能会对二分匹配造成干扰[35],因为查询的特征质量被人为降低。为了解决这个问题,我们隐式地构造另一组硬肯定查询Qm后,通过AMM的二分匹配的Ql。根据二元匹配的结果,从Q1中的肯定查询中复制Qm中的查询如图2所示,为了增加Qm的预测难度,Qm中每个查询的交叉注意力图中的一些元素被屏蔽。以这种方式,Qm中的每个查询被迫从非掩蔽区域捕获更多的视觉线索。AMM的详细操作在算法1中给出。为了清楚起见,仅以一个硬肯定查询qm∈Qm为例,其注意力图表示为Am(1≤h≤T)。为了简单起见,我们去掉了Am和Al在下面。H H+v:mala2255获取更多论文L L L L ∈{}8 Xubin Zhong,Changxing Ding,Zijian Li,Shaoli HuangAMM具有两个参数,即,K和γ。由于我们的最终目标是增强Ql而不是Qm的鲁棒性,因此我们根据Al中对应元素的值来选择Am中丢弃的元素。具体来说,我们首先根据Al中的值选择前K个元素。然后,我们用γ的比率随机地掩蔽Am中所选择的K个元素。讨论 AMM与Dropout及其变体相关但不同[34,36]。它们的主要区别在于选择删除元素的方式。首先,AMM删除具有高值的元素,而Dropout随机删除元素。其次,AMM需要参考,即,Al,用于Am中的删除元素选择。辍学不需要推荐信。在实验部分,我们表明,AMM实现了显着更好的性能比天真的辍学。3.4交替联合学习两个硬肯定查询挖掘方法,即,GBS和AMM可以联合应用以生成各种硬查询。然而,由于基于DETR的HOI检测方法通常需要大量的训练时期来收敛,因此在每次迭代中一起采用两种方法是低效的。在这里,我们提出了交替联合学习(AJL)策略,其中GBS和AMM交替应用于每个训练迭代。具体地说,DETR的可学习查询和我们的硬查询被依次送入Transformer解码器。其主要原因在于AMM的设计硬查询的掩蔽注意力分数是根据可学习查询的掩蔽注意力分数来选择的(见第A.2节)。因此,可学习查询应该首先通过模型以提供注意力分数。在我们的实验中,AJL比GBS和AMM一起应用于每次迭代更有效,并且获得更好的性能。整体损失函数。 我们采用与QPIC[4]中相同的损失函数进行对象检测和交互预测。训练阶段的总损失函数可以表示如下:L=αL1+βLh,(5)哪里L1=λbL1b+λuL1u+λcL1c+λaL1a,(6)Lh= λbLhb + λuLhu + λcLhc + λaLha.(七)Ll和Lh分别表示可学习查询和硬肯定查询的损失。kb,ku,kc和ka(k l,h)分别表示边界框回归的L1损失,GIOU损失[47],对象分类的交叉熵损失和交互预测的焦点损失[48]。这些损失函数以与[4]中相同的方式实现。此外,为了简单起见,α和β都被设置为1;而λb,λu,λc和λa被设置为2.5,1,1,1,这与[4]中的那些相同+v:mala2255获取更多论文Towards Hard-Positive Query Mining for DETR-based HOIDetection 94实验装置4.1数据集和评估HICO-DET. HICO-DET [2]是最流行的大规模HOI检测数据集,它提供了超过150,000个注释实例。它包含38,118和9,658张图像,分别用于训练和测试。有80个对象类别,117个动词类别和600个HOI类别。维可可 V-COCO [1]基于MS-COCO数据库[31]构建。训练集和验证集总共包含5,400张图像,而其测试集包含4,946张图像。它涵盖了80个对象类别,26个交互类别和234个HOI类别。场景1角色(mAP角色)[1]的平均精度通常用于评估。喂HOI-A最近在[13]中提出。这些图像是从野外收集的;它由38,629张图像组成,其中29,842张用于训练,8,787张用于测试。HOI-A包含11个对象类别和10个交互类别。4.2实现细节我们采用ResNet-50 [32]作为我们的骨干模型。在QPIC [4]之后,我们使用在MS-COCO数据库上预先训练的DETR的参数初始化模型的参数作为对象检测任务。我们采用AdamW [46]优化器,并在8个GPU上以16个批次大小进行实验。初始学习率设置为1 e-4,然后在50个epoch后衰减到1 e-5;训练epoch的总数为80。Nq和D分别设为100和256。对于GBS,移位边界框和真实边界框之间的IoU范围为0.4到0.6;而对于AMM,K和γ分别设置为100和0.44.3消融研究我们对HICO-DET、V-COCO和HOI-A数据集进行消融研究,以证明每个拟议组件的有效性我们采用QPIC [4]作为基线,所有实验都使用ResNet-50作为主干进行实验结果列于表1中。GBS的有效性。GBS被设计为利用标记的人-对象对的边界框坐标显式地生成硬肯定查询。当引入GBS时,QPIC在HICO-DET、V-COCO和HOI-A数据集上的性能分别提高了1.50%、1.39%和1.13% mAP。此外,如图3(a)所示,GBS还显著加速了QPIC的训练收敛。证明了GBS在改进基于DETR的HOI检测器方面的优越性.我们进一步评估的最佳值的IoU,并提供实验结果的补充材料。AMM的有效性。AMM被提出来隐式地使用掩蔽到交叉注意映射来构造硬肯定查询。 如表1所示,QPIC的性能在HICO-DET、V-COCO和HOI-A数据集上分别显著提高了1.51%、1.48%和1.20% mAP。此外,委员会认为,+v:mala2255获取更多论文10 Xubin Zhong,Changxing Ding,Zijian Li,Shaoli Huang表1. 对HQM的每个关键组件进行消融研究。对于HICO-DET,采用DT模式进行评估。组件mAP# Epochs Method GBS AMM CJL PJL AJLHICO-DET V-COCO HOI-A HICO-DET基线-----29.0761.8074.10150C----30.5763.1975.2380增量-C---30.5863.2875.3080CCC--30.1163.0375.0180CC-C-30.8163.3975.5980我们的方法CC--C31.3463.6076.1380如图3(b)所示,AMM还显著地减少了HICO-DET数据集上所需的训练时期的数量。我们还对补充材料中的K和γGBS和AMM的组合 我们在这里研究了三种可能的策略,结合GBS和AMM更有效的DETR训练,即级联联合学习(CJL),并行联合学习(PJL)和交替联合学习(AJL)。级联联合学习。 在这个策略中,我们制定GBS和AMM作为两个连续的步骤,以产生一个单一的硬阳性查询集。更详细地说,我们首先应用GBS产生一组硬肯定查询。然后,我们将AMM应用于GBS生成的查询的交叉注意图。如表1所示,CJL实现了比单独使用GBS或AMM的模型更差的性能。这可能是因为由CJL生成的查询包含用于HOI预测的罕见线索,从而在优化基于DETR的模型中引入困难。并行联合学习。 在该策略中,GBS和AMM分别生成一组硬肯定查询。然后,两组硬肯定查询都用于HOI预测。为了在可学习查询和硬肯定查询的损失之间取得平衡,每种类型的硬肯定查询的损失权重减少一半。此外,它们是独立的,这意味着这两种类型的查询之间没有交互。如表1所示,PJL实现了比单独使用GBS或AMM的模型更好的性能。此外,它在HICO-DET,V-COCO和HOI-A数据集上分别比QPIC高出1.74%,1.59%和1.49% mAP。然而,PJL由于增加了硬肯定查询的数量而降低了计算效率。交替联合学习。 在这种策略中,GBS和AMM交替应用于每个训练迭代。DETR的可学习查询和我们的硬肯定查询被顺序地馈送到Transformer解码器中,这意味着彼此之间没有干扰。如表1所示,AJL优于其他联合学习策略。AJL与PJL相比在效率上也有明显的优势此外,它显着提高QPIC的性能,分别为2.27%,1.80%和2.03% mAP。上述实验结果证明了AJL的有效性。适用于其他基于DETR的模型。GBS和AMM都是即插即用的方法,可以很容易地应用于其他基于DETR的HOI+v:mala2255获取更多论文·Towards Hard-Positive Query Mining for DETR-based HOIDetection 11(一)(b)(c)图3. QPIC的mAP和训练收敛曲线以及我们的方法在CANO-DET上的收敛曲线。我们的方法显着提高QPIC在mAP精度和收敛速度。表2. GBS和AMM在HICO-DET DT模式下对HOTR和CDN的有效性。表3. 与变体的比较GBS在HICO-DET上。增量组件mAP基线GBS AMM AJL完整罕见非罕见---23.46 16.2125.62HOTRC--24.67 23.2925.34-C-24.73 23.5225.09CCC25.69 24.7025.98---31.44 27.3932.64CDNC--32.07 27.5233.43-C-32.05 27.1533.51CCC32.47 28.1533.76检测模型,例如,[5]《易经》云:“七。HOTR [5]和QPIC之间的主要区别是HOTR在具有独立查询的并行分支在这里,我们主要将HQM应用于其交互检测分支。如表2所示,对于全部HOI类别,在DT模式下,HOTR+GBS(AMM)的表现优于HOTR 1.21%(1.27%)mAP当采用AJL时,HOTR的性能在DT模式下对于全、稀有和非稀有HOI类别分别显著提高2.23%、8.49%和0.36%mAP。此外,通过将我们的方法应用于CDN,也可以观察到显着的改进令人印象深刻的是,当与我们的方法相结合时,CDN的性能对于整个HOI类别提升了1.03% mAP。4.4与GBS和AMM与GBS变体的比较 我们比较GBS的性能与它的两个可能的变种。实验结果列于表3中。首先,“w/o Shift()”意味着去除等式中的框移位操作。(四)、这指示一个人-对象对的地面实况位置被杠杆化以用于查询编码。因此,在该设置中获得的查询是容易肯定的而不是硬肯定的。结果表明,该变体的性能比我们的GBS低0.96%,1.97%和0.66%mAP在DT模式下的完整,罕见和非罕见的HOI类别分别。该实验结果为硬肯定查询的有效性提供了直接证据。全稀有非罕见QPIC [4]29.07 21.8531.23不带移位(·)w高斯噪声29.61 22.6730.05 24.0831.6831.82QPIC + GBS30.57 24.6432.34+v:mala2255获取更多论文·12 Xubin Zhong,Changxing Ding,Zijian Li,Shaoli Huang表4. 与HICO-DET上的AMM变体进行比较。表5. 性能比较HOI-A。D-based是DETR的缩写。全稀有非罕见QPIC [4]29.07 21.8531.23不带顶部-K30.06 24.1031.84不含Al30.11 24.2831.85不含Qm28.75 21.9730.78QPIC [4]+ AMM 30.58 25.4832.10方法骨干地图ICAN [25]ResNet-5044.23[第10话]ResNet-5048.64GMVM [38]ResNet-5060.26C-HOI [37]ResNet-5066.04PPDM [13]沙漏-10471.23AS-Net [30]ResNet-5072.19QPIC [4]ResNet-5074.10QPIC [4]+HQMResNet-5076.13第二,“w高斯噪声”表示在等式中我们去除e S hi f t()并将高斯噪声添加到q s。3.该变体提供了另一种生成硬肯定查询的策略。表3显示GBS比该变体的性能高0.52%mAP所有HOI类别。主要原因是GBS中的操作比添加随机高斯噪声更具有可解释性和物理意义,该实验证明了GBS在产生硬肯定查询方面的优越性。与AMM变体的比较。我们在这里比较AMM与一些可能的变量,namel y,“w/o top- K”,"w/o Al“和”w/o Q l“的 性能。 实验结果列于表9中。首先,“w/o top - K”是一个变量,它随机屏蔽了注意力地图中具有相同γ比率的元素,而不是大值元素。我们可以观察到,就全HOI类别的DTmAP而言,与这种变体相比,AMM更具挑战性,因为视觉线索被部分移除。因此,AMM迫使每个查询在未掩蔽的区域中探索更多的视觉线索,这避免了过拟合。该实验进一步证明了挖掘硬查询的必要性。其次,“w/o Al”意味着我们根据Am而不是算法1中的Al来选择屏蔽元素。与AMM相比,该变体的mAP对于完全、罕见和非罕见HOI类别分别下降0.47%、1.20%、0.25%。这可能是因为在推理期间采用因此,根据Al的掩蔽可以推动硬肯定查询以探索由可学习查询参与的那些特征的互补特征。通过这种方式,可以挖掘更多的视觉线索,并且可以在推理期间增强可学习查询的推理能力。最后,“w/o Q m”表示我们将与AMM相同的掩蔽操作应用于Q l而不是Q m的注意力图。在该变型中,Qm被移除,并且仅Ql被采用作为查询。结果表明,该装置的性能明显低于AMM装置.如第A.2节中所分析的,将dropout直接应用于Ql的注意力图可能会降低其解码器嵌入的质量,从而对二分匹配带来干扰,并因此导致优化整个模型的困难。4.5与最先进方法的比较比较HICO-DET。如表10所示,我们的方法在相当大的幅度上超过了所有最先进的方法令人印象深刻的是,QPIC+ HQM在完整、罕见的mAP中优于QPIC 2.27%、4.69%和1.55%基于D的CNN的+v:mala2255获取更多论文Towards Hard-Positive Query Mining for DETR-based HOIDetection 13表6. HICO-DET上的性能比较。表7.V-COCO的性能比较。方法骨干AP角色DRG [18]ResNet-50-FPN51.0PMFNet [24]ResNet-50-FPN52.0PD-Net [16]ResNet-15252.6机场班车[20]ResNet-15252.9FCMNet [22]ResNet-5053.1ConsNet [23]ResNet-50-FPN53.2[27]第二十七话 ResNet-50-FPN40.0UnionDet [29]ResNet-50-FPN47.5IP-Net [12]沙漏-10451.0GGNet [28]沙漏-10454.7HOI-Trans [6]ResNet-10152.9AS-Net [30]ResNet-5053.9HOTR [5]ResNet-5055.2QPIC [4]ResNet-5058.8CDN-S [7]ResNet-5061.7QPIC [4]+HQMResNet-5063.6和DT模式的非稀有HOI类别。当我们的方法应用于以ResNet-50为骨架的HOTR和CDN-S时,HOTR(CDN-S)+ HQM在DT模式下实现了2.23%(1.03%)的mAP性能增益,用于HOTR(CDN-S)基线上的全部HOI类别这些实验证明了HQM在增强DETR鲁棒性方面的有效性补充材料中介绍了KO模式下的比较此外,我们比较了HQM与条件DETR的性能[39]。条件DETR通过根据每个解码器层中的解码器嵌入更新查询来缓解权重固定的查询问题我们将这种方法扩展到HOI检测,通过使用交互点来表示一个潜在的人-对象对。为了便于公平比较,HQM和Conditional DETR的所有其他设置都保持不变。表10显示HQM实现了更好的性能。上述实验证明了HQM在提高基于DETR的模型在HOI检测中的鲁棒性方面的优越性。对比HOI-A。HOI-A数据库的比较结果总结见表5。与HICO-DET上的结果相同,我们的方法优于所有最先进的方法。特别是,QPIC+ HQM显着优于QPIC 2.03%的mAP时,采用相同的骨干对比V-COCO。V-COCO的比较见表7。据观察,我们的方法仍然优于所有其他方法,在AP角色方面达到63.6%。这些实验表明,HQM可以始终如一地提高基于DETR的模型在HICO-DET,VCOCO和HOI-A数据集上的鲁棒性4.6定性可视化结果如图4所示,我们可视化了来自QPIC(第一行)和QPIC + HQM(第二行)的一些HOI检测结果和交叉注意图。可以观察到,QPIC + HQM捕获更丰富的视觉线索。其中一个主要原因可能是QPIC + HQM是使用硬肯定查询进行训练的因此,QPIC + HQM在推理过程中被迫挖掘更多的视觉线索,以提高补充材料中提供了更多的定性比较结果。基于DETR基于cnn基于DETR方法骨干DT模式充分罕见非罕见[27]第二十七话ResNet-50-FPN9.947.1610.77UnionDet [29]ResNet-50-FPN 17.58 11.7219.33PD-Net [16]ResNet-15220.81 15.9022.28DJ-RN [15]ResNet-5021.34 18.5322.18PPDM [13]沙漏-10421.73 13.7824.10GGNet [28]沙漏-10423.47 16.4825.60VCL [19]ResNet-10123.63 17.2125.55HOTR [5]ResNet-5023.46 16.2125.62HOI-Trans [6]ResNet-5023.46 16.9125.41AS-Net [29]ResNet-5028.87 24.2530.25QPIC [4]ResNet-5029.07 21.8531.23条件DETR [39]ResNet-5029.65 22.6431.75CDN-S [7]ResNet-5031.44 27.3932.64HOTR [5]+HQMResNet-5025.69 24.7025.98QPIC [4]+HQMResNet-5031.34 26.5432.78CDN-S [7]+HQMResNet-5032.47 28.1533.76基于cnn+v:mala2255获取更多论文14 Xubin Zhong,Changxing Ding,Zijian Li,Shaoli Huang洗苹果操作微波洗车携带自行车舔勺见图4。HICO-DET上一个解码器层中HOI检测结果和交叉注意力图的可视化。第一行和第二行中的图像分别代表QPIC和QPIC+HQM的结果。最好用彩色看。5结论本文提出了现有的基于DETR的HOI检测模型的鲁棒性我们创造性地提出了HQM(Hard-Positive Problem Mining),从硬示例挖掘的角度增强了基于DETR的模型的鲁棒性HQM由三个关键组件组成:Ground-truthBounding-box Shifting ( GBS ) , Attention Map Masking ( AMM ) 和Alternate Joint Learning(AJL)。GBS显式编码硬肯定查询,利用标记的人-对象对的移位边界框的坐标。与此同时,AMM隐式地构造硬积极的查询,通过屏蔽高价值的元素在交叉注意分数。最后,采用AJL在每次迭代中交替选择一种类型的硬肯定查询进行效率训练。对三个HOI数据集进行了详尽的消融研究,以证明每个拟议组件的有效性。实验结果表明,我们提出的方法可以广泛应用于现有的基于DETR的HOI检测器。此外,我们始终在三个基准上实现最先进的性能:HICO-DET,V-COCO和HOI-A。确认本课题得到了国家自然科学基金项目62076101和61702193,广东省引进创新创业团队项目2017ZT07X183,广东省基础与应用基础研究基金项 目 2022A1515011549 , 广 东 省 人 类 数 字 孪 生 重 点 实 验 室 项 目2022B1212010004的资助。+v:mala2255获取更多论文Towards Hard-Positive Query Mining for DETR-based HOIDetection 15引用1. S.古普塔和J·马利克视觉语义角色标注。arXiv预印本arXiv:1505.04474(2015)2,3,92. Y.曹,Y. Liu,X. Liu,H. Zeng和J. Deng.学习检测人体目标交互. In:WACV(2018)1,2,3,9,183. J. 吉河,巴西-地克里希纳湖Fei-Fe
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高清艺术文字图标资源,PNG和ICO格式免费下载
- mui框架HTML5应用界面组件使用示例教程
- Vue.js开发利器:chrome-vue-devtools插件解析
- 掌握ElectronBrowserJS:打造跨平台电子应用
- 前端导师教程:构建与部署社交证明页面
- Java多线程与线程安全在断点续传中的实现
- 免Root一键卸载安卓预装应用教程
- 易语言实现高级表格滚动条完美控制技巧
- 超声波测距尺的源码实现
- 数据可视化与交互:构建易用的数据界面
- 实现Discourse外聘回复自动标记的简易插件
- 链表的头插法与尾插法实现及长度计算
- Playwright与Typescript及Mocha集成:自动化UI测试实践指南
- 128x128像素线性工具图标下载集合
- 易语言安装包程序增强版:智能导入与重复库过滤
- 利用AJAX与Spotify API在Google地图中探索世界音乐排行榜
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功