零样本学习中的人-物交互检测

92 浏览量更新于2023-10-25 收藏 14.78MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

man and object candidates, and then applied an interactionmodel to predict their relationships.However, the com-monly used object detectors [35, 22, 7] are designed fordetecting all objects in the given image. As a result, manynon-interacting human-object pairs are produced. Besides,those object detectors treat humans as an independent cate-gory like other object categories. In this way, the detectionof objects cannot exploit the information of human appear-ance.To alleviate the above limitations, we propose a detec-tor (as shown in Figure 2) speciﬁcally for the HOI detectiontask. Our main idea is to leverage human visual clues toﬁnd interacting objects. The proposed detector follows thepipeline of Faster RCNN [35], while we replace the orig-inal region proposal network (RPN) with a novel human-object region proposal network (HO-RPN). It scores regionproposals based on its interactiveness with the detected hu-mans, and generalizes well to novel objects if they are in-teracting with humans (e.g., the red box in Figure 1). Thisenables us to detect human interactions with unseen objectcategories.116520通过零样本学习发现与新对象的人际交互0Suchen Wang 1 Kim-Hui Yap 1 Junsong Yuan 2 Yap-Peng Tan 101 南洋理工大学 2 纽约州立大学布法罗分校0{ wang.sc, ekhyap, eyptan } @ntu.edu.sg, { jsyuan } @buffalo.edu0摘要0我们通过零样本学习来检测与新对象的人际交互。与以往的工作不同，我们使用语义词嵌入来允许未见过的对象类别。为此，我们设计了一个专门用于人-物交互检测任务的人-物区域提议网络。核心思想是利用人类的视觉线索来定位与人类交互的物体。我们展示了我们提出的模型在检测交互对象方面的优于现有方法的性能，并且对新对象具有很好的泛化能力。为了识别来自未见过类别的对象，我们在已见类别的分类器上设计了一个零样本分类模块。它利用已见类别的分类器logits来估计语义空间中的一个向量，然后执行最近搜索来找到最接近的未见类别。我们在V-COCO和HICO-DET数据集上验证了我们的方法，并获得了在检测已见和未见对象的人际交互方面的优越结果。01. 引言0人-物交互（HOI）检测[12, 5, 11,27]对于以人为中心的视觉理解非常重要。其目标是检测人与物体之间的交互，并使用动词描述它们的关系（例如坐在长凳上，拿着手提箱等）。尽管最近的研究[4, 21, 44, 48, 43, 40,39]取得了良好的进展，但当前的HOI方法仅限于与MS-COCO数据集[23]中定义的80个物体类别的交互。以前的尝试[17, 37, 1,30]仅关注检测人与已知物体的交互。它旨在将从已见交互（例如坐在椅子上，拿着手提箱）中获得的知识推广到未见交互（例如坐在手提箱上）。相比之下，如图1所示，我们的目标是检测与未见对象类别的人际交互（即在训练集中没有任何注释的视觉样本的类别）。大多数现有的HOI方法[4, 21, 44,48, 43, 40,39]首先应用现成的物体检测器生成人和物体候选区域，然后应用交互模型预测它们的关系。然而，常用的物体检测器[35, 22,7]设计用于检测给定图像中的所有物体。因此，会产生许多非交互的人-物对。此外，这些物体检测器将人类视为独立的类别，就像其他物体类别一样。这种方式下，物体的检测无法利用人类外观的信息。为了缓解上述限制，我们提出了一个专门用于HOI检测任务的检测器（如图2所示）。我们的主要思想是利用人类的视觉线索来找到交互的物体。所提出的检测器遵循FasterRCNN[35]的流程，但我们用新颖的人-物区域提议网络（HO-RPN）替换了原始的区域提议网络（RPN）。它根据与检测到的人类的交互性对区域提议进行评分，并且如果与人类交互，对于新颖的物体具有很好的泛化能力（例如图1中的红色框）。这使我们能够检测与未见对象类别的人际交互。0图1：我们通过零样本学习来扩展HOI检测中的对象空间。该图描述了我们模型的输出。除了在MS-COCO中定义的80个对象类别（绿色框），我们的模型还可以检测与未见过的对象类别进行人际交互，例如在这张图片中的玫瑰（红色框）。Carry (0.34)Eat (0.09)Hold (0.91)Jump (0.01)Sit on (0.23)...Person (0.03)Bench (0.02)Suitcase (0.01)......Rose (0.82)Camera (0.82)Pen (0.01)1https://github.com/scwangdyd/zero_shot_hoito describe the relationships. Existing HOI works [4, 10,44, 43, 40, 30] usually take advantage of pre-trained ob-ject detectors [35, 22], and focus their attention on improv-ing the verb predictions. In their frameworks, the verb pre-diction model needs to differentiate noninteracting human-object pairs since noninteracting objects are also detectedby object detectors. Gkioxari et al. [11] proposed to usehuman appearance to predict the potential location of inter-acting objects and then re-weight object candidates basedon their distances to the prediction. Li et al. [21] learneda binary classiﬁer to estimate the interactiveness of human-object pairs and ﬁlter out noninteracting ones. Qi et al. [32]proposed to build a graph network among all human andobject candidates and then parse their relationships. Humanbody language often includes strong clues for the interac-tion. Many recent works [48, 39, 13, 8] leveraged on humanpose to improve the robustness of verb predictions such thatthey can reduce the false positive predictions on noninter-acting human-object pairs.Instead of improving the verb prediction, our main goalis to detect more interactions by extending novel objects.Shen et al. [37] have scaled HOIs to 600 classes by in-creasing the number of verbs. However, current HOIs arestill limited to the 80 MS-COCO object categories [23].Previous attempts to scale HOIs using zero-shot learn-ing [17, 1, 37] mainly focus on the unseen interactions withknown objects. When scaling HOIs by adding new objectcategories, they require the bounding box annotations ofnew object categories to re-train their detector. In compari-son, we do not require annotations of new object categoriesexcept their semantic word embeddings learned from textcorpus [29, 26]. Hence, our method can scale HOIs moreeasily without the need of much human labor.116530人-物区域建议网络0零样本分类0动词预测0动词（分数）0已知类别（分数）0未知类别（分数）0图2：我们模型的概述。它由三个主要模块组成。(1)我们提出的人-物区域建议网络(HO-RPN)首先定位人和相互作用的物体。它为每个物体建议估计一个相互作用分数。(2)零样本分类模块对生成的区域建议进行分类。它可以识别已知和未知的物体类别。(3)然后它估计每个人-物对之间的动词概率。三个模块的分数将被聚合为交互的最终分数。0为了识别新颖的物体，我们假设每个物体类别都有一个对应的语义嵌入向量，该向量是从文本语料库中学习得到的[ 29 , 26]。我们在已知类别的softmax分类器基础上构建了一个零样本分类模块。根据分类器的逻辑输出，我们为输入的区域建议估计一个语义嵌入向量，然后在语义空间中搜索最近的未知类别。在V-COCO [ 12 ]和HICO-DET [ 4]数据集上进行了大量实验证明：(1)所提出的HO-RPN可以根据与人的相互作用来学习定位物体；(2)借助人类视觉线索，我们的模型在检测新颖物体方面显著优于零样本物体检测[ 2 ]；(3)我们的模型在检测人与已知和未知物体的相互作用方面优于现有的HOI方法。此外，我们从Visual Genome [ 18]构建了一个测试集，其中包含110个物体类别（80个MS-COCO +30个新类别），以展示我们的模型在检测人-新颖物体相互作用方面的能力。我们的贡献总结如下：(1)这是第一次尝试检测人与新颖物体的相互作用。(2)我们为HOI检测任务提出了一种新颖的人-物区域建议网络。(3) 我们设计了一个零样本分类模块来识别新颖物体。(4)我们的方法在V-COCO [ 12 ]和HICO-DET [ 2]数据集上取得了优越的HOI检测结果。02. 相关工作0零样本学习（ZSL）大多数ZSL工作关注零样本图像识别问题[41, 47, 42,49]，其目标是通过推广从已见类别中学到的知识来识别未见类别。对于ZSL，需要额外的辅助信息。早期的工作[9,19,24]利用属性来链接各种类别。这需要设计属性，尤其是对于大规模数据集来说需要大量的人力。一种更简单的方法是使用类别名称的语义词嵌入[3, 28,38]。基于语义空间中的距离，我们可以隐式地衡量类别之间的关系。除了零样本图像识别，最近还引起了零样本目标检测[33, 2,34]的广泛关注。它旨在使用已见对象类别的注释从给定图像中检测未见对象。现有方法[33, 2,34]通常选择语义嵌入向量作为辅助信息。与本文的重点不同，该任务旨在检测图像中的所有新对象，而我们专注于与人类的交互中的新对象。p(bh, v, bo, y|x) = p(v|bh, bo, y, x)p(bo, y|x)p(bh|x) (1)1165403. 方法03.1. 问题陈述0人-对象交互（HOI）检测的目标是从给定图像中找到一个或多个元组<人，动词，对象>。形式上，人-对象交互可以定义为，其中边界框b h，b o∈R4表示人和对象的位置，动词v∈V={V 1，...，Vm}表示人类执行的动作，y∈Y表示对象类别。在本文中，我们的主要关注点是通过零样本学习扩展对象类别空间来扩展HOIs。让Y S={1，...，c 1}和Y U={c 1+1，...，c 1+c2}分别表示已见和未见对象类别空间。我们的目标是开发一个模型，可以检测具有已见和未见对象类别的人类交互，即y∈Y=Y S∪YU。为了使这个任务可行，我们假设每个对象类别y∈Y都有一个语义嵌入向量q y∈Rp，这样我们就可以利用语义空间中的关系来检测与未见对象的人类交互。03.2. 表述0现有的HOI检测方法[12, 11, 44,13]由两个主要组件组成，即现成的对象检测器[35, 7, 20,22]和交互模型。给定输入图像x，对象检测器首先检测bh和b o，并预测盒子得分p(b h，y=“person”|x)和p(bo，y|x)。为了简洁表示，我们在以下讨论中用p(bh|x)替换p(b h，y=“person”|x)。给定b h和bo，交互模型然后估计由p(v|b h，bo，y，x)表示的动词的概率。交互的最终得分为0通过这种方式，原始问题被简化为3个任务，即人体检测、对象检测和动词预测。注意，等式（1）中的框架将对象的检测和人体的检测视为两个独立的过程，即p(b h，bo，y|x)=p(b o，y|x)p(bh|x)。这个假设导致了以下限制。首先，将对象的检测与人体分离使得只检测相互作用的对象成为不可能。在这个框架中，对象检测将检测到相互作用和非相互作用的对象作为候选。以前的方法[11, 32,21]通常执行后处理来抑制非相互作用的对象。相比之下，我们提出了一种更高效的方法，即在检测阶段只产生相互作用的对象。其次，等式（1）中的框架无法很好地处理新对象，即使使用零样本对象检测[2,34]，因为仅使用其视觉特征很难区分未见对象与背景。0主干特征图0（0（0得分0（，）0，）0，）0人类分支RPN中的特征图0前k个人类锚框0HO-RPN中的特征图0关系网络0卷积卷积0图3：HO-RPN概述。特征图中的每个单元格表示一个滑动窗口位置。前k个人类锚框的特征将用于使用关系网络对物体锚框进行评分。0然而，人体语言通常暗示了相互作用对象的位置。例如，如图1所示，我们可以依靠人类的视觉线索来定位未见过的新物体“玫瑰”。为了缓解上述限制，我们提出根据它与检测到的人类框的互动性对物体框进行评分，即p(bo,y|bh,x)。然后，互动得分p(bh,v,bo,y|x)可以表示为0p(v|bh,bo,y,x)p(bo,y|bh,x)p(bh|x) (2)0我们的模型如图2所示。它由一个新颖的人-物体区域建议网络、一个零样本分类模块和一个动词预测模块组成。我们将分别在第3.3节、第3.4节和第3.5节详细介绍它们。03.3. 人-物体区域建议网络0我们有两个独立的分支用于生成人类和物体的区域建议。我们使用原始的区域建议网络（RPN）[35]生成人类的区域建议。对于物体的区域建议，我们设计了一个新颖的人-物体区域建议网络（HO-RPN）。原始的RPN根据客观性评估锚框的得分。直观地说，如果一个锚框很好地覆盖了一个物体，它将被分配一个高分。然而，这个标准与HOI检测的目标不太匹配，因为我们只对相互作用的物体感兴趣。在我们的情况下，我们期望如果锚框很好地覆盖了一个物体，并且更重要的是，该物体与人类相互作用，那么它将被分配一个高分。为了实现这个目标，我们提出了一个人-物体区域建议网络（HO-RPN）。它根据它与人类的互动性对锚框进行评分。HO-RPN的架构如图3所示。除了来自主干网络的卷积特征图之外，HO-RPN还将来自RPN隐藏层的前K个检测到的人类锚框的特征作为输入。HO-RPN首先对主干特征图进行2D卷积，得到一个隐藏特征��...0.9730.0120.0050.001...�116550地图。然后，在每个滑动窗口位置，我们应用一个关系网络（RN）[36]来推理不同形状的n个锚框与其视觉特征和与检测到的人类的关系的互动得分，sr=[s(1)r,...,s(n)r]∈Rn。让x(j)o∈Rd表示HO-RPN中第j个滑动窗口位置的特征，x(k)h∈Rd表示来自人类RPN的第k个人类锚框的特征。具体来说，关系网络通过以下方式计算得分：0sr=σ�f�K0k =1 g(x(j)o,x(k)h) (3)0其中σ(∙)是一个sigmoid函数。这里g(∙):R2d→Rd0是一个简单的多层感知器（MLP），它处理x(j)o和x(k)h的连接特征。g(∙)的作用是推断物体和人类是否相互作用。这里的f(∙):Rd→Rn是另一个MLP，它聚合了与K个人类框的关系。这个预测得分将用于生成物体区域建议。03.4. 零样本物体分类0一旦HO-RPN生成了人类和物体的区域建议，就使用一个头网络来预测p(bh|x)和p(bo,y|x)，并回归盒子bh和bo。为了与新的物体类别兼容，我们在这里使用了一个类别不可知的边界框回归器，而不是类别特定的回归器。为了识别未见过的类别，我们遵循ConSE[28]的思想，并为我们的任务设计了一个零样本分类模块。我们模块背后的目标是它不应该改变检测器的架构，以便我们可以利用在已见类别上训练的权重。这样做的好处是，如果我们可以将新的物体类别添加到物体空间中，我们就不需要重新训练网络。我们的零样本分类模块如图4所示。它使用已见类别的softmax分类器的逻辑输出来估计未见类别的概率。假设fy(bo)∈R是由分类器预测的区域建议bo属于已见类别y∈YS的概率。给定{fy(bo)}y∈YS，我们将最可能的已见类别表示为ˆy1:=arg max y∈YS fy(bo)（4）0类似地，令 ˆ y j 表示第 j 个最可能的已见类别，即在 { f y(b o) } y ∈ Y S 中的值中第 j 大的类别。基于前 K个预测的已见类别和它们的语义词嵌入 { q ˆ y 1, ..., q ˆ y K}，我们通过以下方式估计输入区域提议 b o的语义嵌入向量 e ∈ R p：0e = 10Z0j = 1 f ˆ y j (b o) ∙ q ˆ y j (5)0背景0滑板0滑雪板0船0已见类别得分0视觉嵌入0x0x0x0已见类别的语义嵌入0分类器0未见类别的语义嵌入0预测的语义嵌入0搜索最近邻居0估计语义嵌入0手提箱（0.2）0冲浪板（0.6）0球拍（0.1）0图4：零样本分类的流程。首先，用于已见类别（包括背景）的softmax分类器对区域提议进行分类。如果背景类别有很高的响应，我们将确定它是否属于未见类别。我们使用公式（5）估计语义嵌入。在语义空间中选择最近的未见类别作为预测结果。0其中，Z = ∑ K j = 1 f ˆ y j (bo)，它是一个归一化因子。除了 Y S 中的类别，背景也是softmax 分类器中的一个类别。如果 softmax 分类器对 y= “background”的预测非常自信，它将不是一个已见物体。然后，我们估计它是否属于未见类别。为此，我们计算 e与未见类别的语义嵌入向量的相似度：0s y = cos(e, q y), y ∈ Y U (6)0其中，cos(∙, ∙) 是余弦相似度。如果对于任何 y ∈ Y U，s y< τ，区域提议 b o将被预测为背景。对于已见类别，我们将 softmax分类器的输出作为预测结果，即 s y = f y (b o)，y ∈ YS。通过这样做，我们提出的零样本分类模块使得检测器能够在不损失已见类别性能的情况下检测未见类别。最后，得到物体框的得分：0p(b o, y | b h, x) := s r × s y (7)03.5. 动词预测0一旦检测到人和物体，动词分支将为每个人-物体对预测动词的概率。除了 b o 和 b h 内的视觉外观，我们还将 b o和 b h的并集区域作为输入，因为可能存在额外的上下文信息。考虑到每个人可以同时对一个物体执行多个动作，例如看和拿，我们将动词预测形式化为多个二分类问题。对于一个动词类别 v ∈ V，我们通过以下方式预测其概率：0p(v | b h, b o, y, x) := σ(h v(x o, x h, x h,o)) (8)0其中，x o，x h，x h,o ∈ R d 是从 b o，b h和它们的并集区域中使用 RoIAlign [14] 提取的视觉特征。这里，hv(∙, ∙, ∙)：R 3d → R 是一个处理连接特征的多层感知机，σ(∙) 是一个sigmoid 函数。116560图5：HO-RPN（底部行）与RPN（上部行）在未见新物体上的定性比较。在这个图中，网球拍、手提箱、冲浪板、棒球手套和飞盘是根据我们的已见/未见划分模型而言未见的。对于 RPN（上部行），我们可视化了前 5 个物体区域提议（除了与人的 IoU > 0.5 的提议）。对于我们提出的 HO-RPN，前 2个物体区域提议足以捕捉到示例图像中的新物体。0图6：交互物体检测的定性结果。与Faster RCNN（上排）相比，我们的模型（下排）只检测交互物体。可视化了得分 > 0.7的边界框。04. 实验0我们主要使用V-COCO和HICO-DET数据集进行评估，这两个数据集对80个MS-COCO类别的人类交互进行了详尽的注释。V-COCO和HICO-DET分别有25个和117个动词来描述人-物交互。我们还从VisualGenome数据集中构建了一个测试集，其中包含80个MS-COCO类别之外的30个新类别，用于评估我们的方法。04.1. 评估协议已见/未见划分我们通过将80个物体类别划分为已见和未见集合，在V-COCO和HICO-DET上模拟了零样本情景。所有包含未见物体类别的图像将从训练集中删除。现有的已见/未见划分主要基于COCO的统计数据构建，不能应用于上述HOI数据集。例如，在先前的工作中，“花瓶”是一个已见类别，有4623个实例。0在COCOtrain2014数据集中，有43个已见类别和37个未见类别。我们根据V-COCO train数据集和HICO-DETtrain数据集中实例的总数，按照超类别对类别进行升序排序。对于每个超类别，我们选择20%的罕见类别作为未见类别（详见补充材料）。这样，我们构建了一个只包含已见物体类别的V-COCO数据集（1878张图像）和HICO-DET数据集（30854张图像）的训练集。0实现细节我们的模型基于带有特征金字塔网络（FPN）的ResNet50 [ 15]构建。我们在4个GPU上进行同步SGD训练，每个GPU上处理2张图像。学习率为0.005，权重衰减为0.0001，动量为0.9。我们首先在V-COCO验证集上搜索最佳超参数。然后在V-COCOtrainval集上训练我们的模型6k次迭代，在HICO-DETtrain集上训练2w次迭代，并在它们的测试集上报告结果。436.243.70.214842.745.70.2871242.845.90.356GloVe [29]10.49.1FastText [16]10.29.9GoogleNews [26]11.511.3116570召回率@ k 训练集 k = 100 k = 500 方法 COCO VCOCO 所有已见未见所有已见未见0RPN w/ FPN � 83.6 88.7 50.3 90.2 93.5 68.6 RPN w/ FPN � � 87.1 90.7 63.8 94.4 96.183.5 HO-RPN (我们的) � 89.8 92.2 74.6 95.5 96.6 88.50(a)生成的区域建议。结果是在V-COCO验证集上评估的。我们只使用已见类别的注释来训练网络。如果生成的区域建议与真实边界框的IoU > 0.5，则认为是真正的正样本。0方法 VCOCO HICO-DET0Faster RCNN 28.2 33.2 InteractNet [ 11 ]36.2 39.3 Interactiveness [ 21 ] 36.6 41.4HOID w/o s r 29.4 33.6 HOID (我们的)42.7 45.70(b)交互物体检测。结果是在79个物体类别（除“人”）中的AP@IoU=0.5。0#boxes VCOCO HICO-DET 时间 (s)0(c)#人类边界框的消融。结果是AP@IoU=0.5和每张图像的平均推理时间。0方法 VCOCO HICO-DET0ZSOD [ 2 ] 3.3 5.1 ZS-HOID w/o s r3.4 5.3 ZS-HOID (我们的) 11.5 11.30(d)新颖物体检测。结果是基于我们的已见/未见划分计算的所有未见类别的AP@IoU=0.5。0嵌入 VCOCO HICO-DET0(e)语义嵌入的消融。结果是在所有未见物体类别上的AP@IoU=0.5。0表1：我们提出的模型中各组件的消融研究。0集，并在HICO-DETtrain集上进行2w次迭代，然后在它们的测试集上报告结果。0评估指标我们的主要兴趣是检测元组。我们使用平均准确率（mAP）来评估检测性能，遵循之前的工作[11, 44, 37, 21]。首先，根据交互类别{v, y}v∈V,y∈Y计算平均准确率，然后取平均值。形式上，如果（1）预测的人体和物体边界框与真实值的交并比（IoU）大于等于0.5，（2）动词预测正确，（3）物体类别正确，则被认为是真正的正例。在消融研究中，我们使用COCO风格的平均准确率（AP@IoU=0.5）来评估交互对象检测的性能。04.2.消融分析0在接下来的实验中，我们将使用HO-RPN作为HOI检测模型，简称为HOID。当使用提出的零样本分类模块来检测新颖对象时，我们将其称为ZS-HOID。0生成的区域提议在表1a中，我们评估了我们提出的HO-RPN生成的区域提议的质量，使用前k个提议的召回率进行比较。我们与原始的RPN[35]（使用FPN[22]构建）进行比较，在这里没有使用人类线索生成物体提议。这里的真正例是指提议与真实值的IoU>0.5。表1a中的第一行是在COCO训练集（约37k张图像，不包括V-COCO验证集、测试集和包含未见类别的图像）上训练的模型。它显示了最差的性能，因为它捕捉到了许多非交互对象。为了公平比较，我们还对其进行了微调。0在V-COCO训练集上使用已见交互对象。如报告所述，我们的HO-RPN可以覆盖比FPN上的RPN多1.5％的已见对象和10.8％的未见对象。这个结果表明了使用人类视觉线索定位对象的好处。图5展示了一些未见对象类别的定性结果。如图所示，我们的HO-RPN可以比RPN更好地捕捉到新颖的对象。0交互对象检测在表1b中，我们研究了我们的模型HOID在检测交互对象方面的性能。我们与FasterRCNN[35]和两个竞争基线InteractNet[11]和Interactiveness[21]进行比较。给定FasterRCNN检测到的框，InteractNet和InteractivenessNet进行后处理以抑制非交互对象。在这个实验中，使用了所有80个MS-COCO物体类别来训练模型。为了研究交互性得分s r的影响，我们在Eq.(7)中将其从物体框得分中消去。我们使用AP@IoU=0.5在V-COCO测试集和HICO-DET测试集上评估检测到的框。请注意，这里非交互对象的检测将被视为假阳性。如图所示，我们的方法在V-COCO和HICO-DET上的表现优于最佳基线6.6和4.3个点。我们观察到，s r的消融使AP下降了13.3和12.1个点。这表明HO-RPN预测的交互性得分对我们的改进起到了主要贡献。在图6中，我们展示了我们方法的一些检测结果。0Eq.(3)中的人体框数量。在表1c中，我们改变了HO-RPN中的人体框数量（即Eq.(3)中的K）。我们观察到，随着涉及更多的人体框，检测交互对象的性能会提高。然而，这将增加推理时间。在性能和速度之间进行权衡，我们选择了8个人体框作为我们的实验结果。468101214116580每个已见类别的平均样本数0未见类别上的AP0划分A划分B0图7：在不同的已见/未见类别划分上的消融实验。每个点对应一个实验。x轴表示每个类别的平均训练样本数。y轴是未见类别上的AP@IoU=0.5（%）。0新颖物体检测在表1d中，我们评估了我们的模型ZS-HOID在检测未见过的新颖物体方面的性能。由于这个任务与零样本物体检测密切相关，我们与最先进的零样本物体检测器(ZSOD) [ 2]进行了比较。这里我们使用在GoogleNews语料库上训练的word2vec [ 26]作为语义词嵌入。如图所示，我们的方法相比于ZSOD可以提高8.2和6.2个点。这个改进主要是由于HO-RPN产生的交互得分，因为当我们从我们的模型中去除它时，AP下降到3.4和5.3。0语义嵌入在表1e中，我们测试了三种语义嵌入，GloVe [29 ]在维基百科2014年和Gigaword5语料库上训练，word2vec [ 26]在GoogleNews语料库上训练，以及FastText [ 16]在维基百科2017年和UMBC语料库上训练。结果显示，word2vec在GoogleNews上获得了最佳性能。因此，在后续的零样本分类实验中，我们使用word2vec在GoogleNews上作为语义嵌入。0不同已见/未见分割的比较在我们的实验中，我们观察到零样本分类的成功与相关的已见类别密切相关。例如，如果已见类别“滑板”、“滑雪板”和“船”的分类器相对于其他已见类别具有较高的响应，则可以识别出新颖类别“冲浪板”。为了研究已见/未见分割的影响，我们进行了两种不同的随机分割：Split-A和Split-B。Split-A按照超类别（例如动物、运动、车辆）进行分割。它确保每个未见类别至少可以有一个来自相同超类别的已见类别。相比之下，Split-B选择一个完整的超类别作为已见或未见。这样，已见和未见之间没有共同的超类别。图7显示了实验结果。如图所示，Split-B的结果通常比Split-A差，即使它有更多的训练样本。这表明，拥有相关的已见类别是检测新颖物体的关键因素。0方法无姿势 HICO-DET (默认)0估计器完整稀有非稀有0VSRL [ 12 ] � 9.09 7.02 9.71 InteractNet [ 11 ] � 9.94 7.16 10.77GPNN [ 32 ] � 13.11 9.34 14.23 iCAN [ 10 ] � 14.84 10.45 16.15Knowledge [ 44 ] � 14.70 13.26 15.13 Contextual Attention [ 40] � 16.24 11.16 17.75 No-Frills (无姿势) [ 13 ] � 16.96 11.95 18.46HOID (我们的方法) � 17.85 12.85 19.340No-Frills (带姿势) [ 13 ] 17.18 12.17 18.68 Interactiveness [ 21 ]17.22 13.51 18.32 PMFNet [ 39 ] 17.46 15.65 18.000表2:HOI检测。我们与最先进的HOI检测方法进行了比较。结果以mAP(%)在HICO-DET测试集上进行评估。在这个实验中，使用了所有80个MS-COCO类别进行训练。0方法已见未见全部0ZSOD + InteractNet [ 11 ] 38.64 10.97 27.88 ZSOD +Interactiveness [ 21 ] 39.70 13.67 29.58 ZS-HOID w/o s r(我们的基准) 37.53 10.61 27.06 ZS-HOID (我们的方法) 43.1319.88 34.09 表3:人类-新颖物体交互检测的实验比较。结果以mAP(%)在基于我们的已见/未见分割的V-COCO测试集上进行评估。0拥有相关的已见类别是检测新颖物体的关键因素。0在表2中，我们与最先进的HOI检测方法进行了比较。我们使用80个MS-COCO类别的所有注释样本来训练我们的模型。我们使用提供的评估协议在HICO-DET数据集上进行评估。结果显示，我们的方法在完整和非稀有交互上可以达到最先进的性能。我们认为这是由于我们的检测器的良好性能，它只产生相互作用的对象并间接减少了误报的交互检测。值得注意的是，我们没有使用额外的姿势估计器来提取人体骨架。但我们相信使用姿势估计器可以进一步提高我们的性能。04.3.人-新颖物体交互检测0在本节中，我们使用我们的已见/未见划分，评估了V-COCO和HICO-DET数据集上人-新颖物体交互检测的性能。为了与现有的HOI检测方法进行比较，我们将它们的物体检测器替换为一个训练有已见类别的零样本物体检测器（ZSOD）[2]。在这里，我们选择InteractNet [11]和Interactiveness[21]作为竞争对手，因为它们的模型可以利用人类的视觉信息来抑制物体检测器产生的非交互对象。我们使用已见类别的注释重新训练它们的交互模型，并在完整的测试集上进行评估。116590图8：我们模型在人-新颖物体交互检测上的结果。我们的模型是使用所有80个MS-COCO物体类别的注释进行训练的（绿色框），同时它可以检测到与未见物体类别的交互（红色框）。0方法配件动物电器食物家具室内厨房室外运动车辆全部0ZSOD+InteractNet [11] 9.55 16.09 4.82 8.88 5.54 6.12 9.67 6.30 11.02 12.93 14.64 12.310ZSOD+Interactiveness[21] 15.04 19.10 7.90 12.23 7.59 6.76 10.33 10.66 25.84 15.63 17.40 15.920ZS-HOID w/o s r （我们的基准）9.05 14.40 4.60 7.94 5.17 7.20 9.16 5.88 11.08 11.57 12.98 11.110ZS-

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

零样本学习中的人-物交互检测

什么是零样本学习？什么是广义零样本学习？什么是生成式零样本学习？

小样本学习中5-shot是什么意识

小样本学习(few-shot learning)综述

Few-shot目标检测综述

目前零样本学习的模型有哪些

可以帮我写一段零样本学习的代码吗

什么是WGAN？它和GAN的区别是什么？哪个更适合运用于零样本学习中？

零样本目标检测yolo

cognex vidi目标检测小样本学习原理

少量样本深度学习图片异常检测算法

R语言计算交互作用样本量

zero-shot是不是需要的样本少

递归神经网络和零化神经网络有什么区别？

小样本学习里的小样本学习损耗的作用

基于元学习的小样本目标检测

为什么VAE能够用于生成新的零样本学习的数据？

小样本数据集cifar-100

零样本实例分割什么意思

如何让艾滋病人送样本到检测机构

机器学习中适合小样本数据的方法

最新资源