没有合适的资源?快使用搜索试试~ 我知道了~
弱监督学习视频中人机交互的检测任务及其挑战
1845基于对比时空区域的李爽1 *杜一伦1安东尼奥·托拉尔巴1约瑟夫·西维奇2布莱恩·拉塞尔31MIT2 CIIRC CTU3 Adobehttps://shuangli-project.github.io/weakly-supervised-human-object-detection-video摘要我们介绍了弱监督学习的任务,用于检测视频中的人和物体的交互。我们的任务提出了独特的挑战,因为系统不知道什么类型的人与对象的交互存在于视频或人与对象的实际时空位置。为了解决这些挑战,我们引入了对比性弱监督训练损失,其目的是将视频中的时空区域与动作和对象词汇联合起来,并鼓励移动对象的视觉外观的时间为了训练我们的模型,我们引入了一个数据集,该数据集包括超过6.5k个带有人机交互注释的视频,这些注释是从与视频相关的句子标题中半自动策划的。我们证明了在弱监督基线上的改进性能,这些基线适应于我们在视频数据集上的任务1. 介绍在本文中,我们研究的问题,弱监督的人与物体的视频交互检测。给定一个视频序列,如图1所示,在没有边界框监督的情况下,除了识别人采取的动作(“清洗”)之外,系统必须在视频中的交互持续时间内正确地识别和定位场景中的人和交互对象(虽然最近在从数百万个带字幕的图像或视频中学习视觉语言表示[32,21,25我们的任务更具挑战性,因为它需要模型正确地检测视频的多个帧中的人和对象边界框。2布拉格捷克技术大学捷克信息学、机器人学和控制论研究所*SL暑期实习期间在Adobe Research完成的工作图1:我们试图检测视频中的人机交互。在这个例子中,我们的系统能够在给定的视频中检测到我们的方法学习以弱监督的方式检测这种交互,即,而不需要在训练时进行边界框注释(视频来源:Dude Chennai [6])人-对象交互检测已经主要在静止图像的背景下被研究[3,4,14,19,47,48,49]。31、50、60、46、40]。然而,它们是在一段时间内发生的自然时间事件。随着时间的推移,诸如“喝”或“推”之类的交互现有的基于视频的方法主要依赖于强大的边界框监督和访问完全注释的视频数据集。但是,依靠强大的超视有着明显的弊端。首先,在给定视频中的大量帧的情况下,详尽地标注视频中的对象的空间位置是耗时的。其次,由于对象和动作的潜在开放词汇以及人-对象交互的组合性质,缩放到大量可能的第三,交互通常遵循长尾分布,常见的人-物体交互比其他交互发生得更频繁[41,19]。虽然监督学习通常更喜欢常见的交互,但鲁棒的人机交互检测系统应该在常见和罕见的交互上表现同样出色。在这项工作中,我们试图利用来自自然语言句子标题的动词和名词短语注释的视频来学习以弱监督的方式检测视频这种做法1846是有利的,因为获得视频级注释的成本明显低于视频中的边界框利用这些数据可以将训练扩展到更大数量的视频以及对象和动作的词汇。我们的任务是具有挑战性的,因为我们不知道动词-对象查询和训练视频中的时空区域之间的对应关系。系统必须学会在没有空间边界框监督的情况下建立这些对应关系因此,我们提出了一个对比度损失的时空区域检测视频中的人-对象的相互作用。我们的损失共同关联候选的spatiotemporal区域的动作和对象词汇在弱监督的方式,并利用线索的时间连续性的对象在运动中作为一种形式的自我监督。这样的公式化允许我们处理语言查询的开放词汇,这在人-对象交互中是特别期望的,这是由于罕见的和看不见的动作和对象组合的高普遍性。我们的论文有三个主要贡献:(1)提出了一种结合人与物时空信息的弱监督视频人-物交互检测方法。我们的方法不需要手动边界框注释。(2)我们提出了一个对比损失的时空区域,利用弱动词-对象监督视频字幕和自我监督的时间连续性的视频。它允许以零拍摄的方式检测罕见的和看不见的人-对象交互(3)我们引入了一个包含超过6.5k个视频的新数据集来评估视频中的人与对象交互。我们证明了改进的性能,弱监督基线适应我们的任务。该数据集是公开的,以方便进一步的研究1。2. 相关工作最接近我们的方法是工作在建模视频和自然语言,视觉关系检测,和人-对象交互检测。视频和自然语言 先前的工作着眼于联合建模视频和自然语言的任务,如字幕[23],电影问答[42]和短片检索[34,51]。更相关的是旨在更精细地“研磨”或对齐视频中的自然语言的作品。示例包括从未修剪的视频中检索时刻[12,17],从具有对齐指令的视频中学习[26,25],以及将自然语言与视频中的(空间)时间区域对齐[20]。自然语言构成了艰巨的挑战,由于大的开放式词汇和复杂的相互作用,由于组成。视觉关系检测。以前的工作,例如 [2,8,13,14,15,24,29,30,35,50,53,55],研究了在单个图像1代码和数据集可在https:project.github.io/VHICO-Dataset获得。静止图像这条工作线已经扩展到视频与强有力的监督[37,44]。与我们的方法最接近的是弱监督视觉关系检测[28,56,49,52],其中模型经过训练以使用图像级别可用的三重与我们不同的是,佩尔等人。[28]利用预先训练的对象检测器的固定词汇表,并学习与判别聚类模型的关系。Peyre等人[27]模型开放语言,但在强监督设置和静态图像。人机交互检测。人机交互检测[4,47,48,31,60,46]是一种以人为中心的关系检测。HOI是深入场景理解的重要研究课题。已经为该领域提出了几个数据集,如HICO-DET [3]和V-COCO [14]。[39,50,19]将新的HOI检测公式化为零射击学习问题。然而,这些方法都是基于静态图像,在检测动态人-物体交互方面存在困难。它们要么依赖于边界框注释,要么依赖于预训练的对象检测器,这些对象检测器在视频中表现不佳[11]。3. 学习对比时空区域我们解决的问题,在视频中检测人与物体的相互作用(HOI)在弱监督的方式。由于获得用于监督学习的真实边界框是昂贵且耗时的,因此我们寻求从一组视频中学习,其中在训练期间仅为整个视频片段提供动词-对象短语注释。因此,我们提出了一个弱监督的框架,结合了空间和时间的信息来检测HOI的视频。整体培训设置如图2所示。给定一个视频剪辑和一个动词-对象查询,对于每一帧,我们首先提取一个银行的功能。这些特征包括用于片段中的动词-对象查询、帧和人/对象区域的特征该特征库通过区域关注模块,该区域关注模块输出帧的两个特征-关注的人类特征和关注的对象特征,其将注意力集中在与动词-对象查询更相关的区域上。这些特征,以及其他帧的动宾特征和对象区域特征被传递到我们的弱监督对比损失中。3.1. 弱监督对比损失以弱监督方式从语言标签学习是具有挑战性的,因为系统必须自动识别视频时空区域并将其与所提供的短语注释相关联。此外,HOI通常遵循长尾分布。应用经常使用的分类损失将是不够的,因为它需要具有用于每个类别的相似数量的样本的固定向量。此外,分类损失最大化概率-1847n=1NN--L不不t我EEt我不不不ΣE不不不n=1不n不i=1t,it,iHVV不Σ。Σ这会导致错误的类的唯一性,同时抑制所有其他类,这不允许不太常见或看不见的对象和动词。最后,具有相似含义的单词没有被解释性地映射到特征空间中的附近位置,从而导致分类损失。为了解决这些问题,我们引入了一个对比的spa-tiotemporal损失,用于学习共享的视觉语言嵌入,如图3所示。我们的损失利用了与每个训练视频相关联的短语注释和关于运动对象的时间连续性的线索。我们的训练损失包含三个见解。首先,我们学习映射的视觉表示可能的人类和对象区域的输入动词-对象查询和对比的嵌入式表示的词汇表中的其他不相关的话,对相应的嵌入式表示。其次,我们鼓励时空区域在视频中在时间上一致。第三,我们在我们的模型中应用对比损失,使其能够在测试过程中检测到新的看不见的人-对象交互。我们建立在对比损失[5,16,18]的基础上,其目的是鼓励单位长度特征的正对在特征空间中接近(通过点积测量),而负对在特征空间中远离。图2:培训概述。给定一个视频片段和一个动词-物体查询,对于每一帧,我们首先提取其人和物体区域特征。人/物体特征被聚集在区域注意模块中,以注意与查询更相关的区域。我们使用了被关注的人特征、被关注的对象特征、动词-对象查询特征以及来自其他帧的对象区域特征来计算我们的弱监督对比损失。(视频来源:最佳画廊工艺[7])L C.f,f′,{fn}NΣ=−fTf′+lognΣ=1 exp(fTfn),(1)注意力其中f是锚特征,f’是正特征,并且f nn=1是N个负特征。我们提出了一种弱监督的语言嵌入对齐损失,以将时空区域与输入动词-对象查询对齐,并提出了一种自监督的时间对比损失,以鼓励基于等式(1)的对象区域的时间连续性。弱监督语言嵌入对齐损失。给定视频帧It,我们提取其人和对象区域提议特征fh和fo。设e是对参与的特征贡献更多。我们将语言嵌入对齐损失L定义为帧中的关注特征与目标标签的对齐,同时与动词或宾语否定特征集进行对比遵循等式(1)中的对比度损失的一般表达式,我们将帧It中的语言嵌入对齐损失定义为给定关注的人/对象、语言和否定特征的对比度损失的总和。一种语言嵌入特征,用于地面真实动词-输入视频的对象标签我们寻求与相关LL=LC(Φt,e,E)+LC(Φo,eo,Eo)、(3)将人类/对象区域映射到地面实况动词-对象标签。由于只有帧级(或视频级)动词对象标签可用,因此我们还寻求在每个帧中学习全局人/对象特征,其与覆盖词汇表的语言嵌入特征E其中,ev和eo分别是目标动词和宾语特征,并且v和o分别是否定动词和否定宾语特征集合。更具体地,我们将目标项重写为等式(1):LC(Φo,e o,Eo)=-(Φo)Te o+ log Nlexp(Φo)TEo,不不包括基础事实动词-宾语标签。为了执行对齐,我们提出了一个区域atten-注意力评分模块,其分别针对每个人和对象区域提议计算注意力评分σh和σo,以测量它们与动词-对象查询的相关性我们通过将帧It中的人类区域特征fh聚合为它们的注意力得分σh来获得被NhΦh=σh fh,(2)其中Φ〇是具有类似的形成如等式(2)中所示的被关注的人的特征,是目标对象特征,并且Nl是负特征集合o中的负样本的数量。人类术语有类似的形式。我们在图3(a)中显示了这种损失(仅对象项)。“区域关注”模块输出视频帧的单个“关注的人/对象特征”。这个其中,Nh是候选人体区域的数量。关注对象特征Φ〇具有类似的形式。特征自我监督的时间对比损失。我们试图鼓励时间的连续性的移动对象。我们框架的规范注释1848不特特特不t我t我o oot我不t我不联系我们阙T特t,tt′LF不图3:弱监督对比损失。我们的损失联合地将视频中的时空区域的特征与(a)输入动词-对象查询的语言嵌入特征和(b)可能包含目标对象的其他时空区域对齐。该图仅示出了对象区域。同样的机制也适用于人类区域。(视频来源:[22]第二十二话还试图将我们学习的对象特征与对应于目标对象未出现的可能区域的视觉特征的负集合进行 令f〇是来自相同视频的另一帧的具有注意力得分σ(〇的特征集合。我们将时间对比度损失T定义为帧I t中的被关注对象特征Φ〇与帧It中的目标被关注对象特征Φ〇的对准。图2中使用的图形。有关不同类型特征的更多详细信息,请参见补充资料。人类引导的对象特征学习。为了获得候选对象区域的特征,我们首先使用Faster R-CNN [33]在每个视频帧中提取对象我们在Faster R-CNN特征金字塔网络(FPN)的所有层上应用ROI池来提取fea。其他帧,同时与用于对象区域建议的负特征描述符每个对象从帧It设置Fo。 在对比损失之后区域建议有一个特征描述符f≠o和限界在等式(1)中,我们将时间对比损失定义为:如图4中所示的方框b〇。LT=LC(Φt,Φt′,Ft).(四)注意,这里的注意力分数σ不同于用于语言嵌入对齐损失的软注意力分数σ。在时间对比度损失中,我们让σi是硬注意力分数,其中只有一个对象区域具有分数1,而同一帧中的其余区域具有分数0。在实践中,我们让具有最高软注意力分数的对象区域具有硬注意力分数σ=1,这是在动词-对象查询中描述的最可能的目标对象对于负特征集o,我们从frame中剩余的对象区域中随机选择人-物交互与人和物体的特征高度相关。我们假设人和对象区域的空间同现有助于消除交互对象的为了更有效地对人-对象交互进行编码,我们将来自由Dense-Pose [1]产生的人类分割掩模的知识合并到对象提议特征中。我们使用ROI池来从给定对象提议边界框bo的人类分割掩模中提取特征fh。我们对来自FPN特征图和人类特征图的对象区域特征应用最大池操作以获得最终的对象建议特征f o= max(fo,fh)。我那不是被选中的辛苦关注。直觉t我t我t我不来自不同帧的具有最高分数的所选目标对象应当在时间上一致地移动,但是应当与同一帧中的其他对象不同。我们在图3(b)中说明了这种损失。完全弱监督对比损失。我们将每个帧处的最终损失定义为语言嵌入对齐和时间对比损失之和,LST=LL+αLT,(5)上下文框架特征学习。人-对象交互是时间事件并且在一段时间内发生。为了利用来自整个视频的时间信息,我们使用软注意力模块[45]来学习每个帧的上下文特征表示xt。给定一个通过小网络传递该帧获得的帧特征xt,我们将xt发送到嵌入层以生成对于所有帧的特征x1,,xT在同一个视频中,我们使用两个不同的-输入嵌入层以获取其中α是超参数。当对应于软选择的人/对象区域Φt的特征与语言嵌入特征e对齐并且另一帧中的类似时空区域Φt′3.2. 特征学习在本节中,我们简要介绍对象特性,t′t′向量 我们计算“查询”的内积key=(x)x当前帧和同一视频中的每一帧。然后,将softmax层应用于相似性分数,以将每个帧与当前帧的相似性归一化。上下文帧特征是通过对上下文框架特征和参与的人/对象fea-框架=ΣTs′ x val.不t′=11849t我不不t我t我t我LLL不t我E不t,i,j不t我t,j不不区域参与的人/物体特征学习。区域注意力模块计算人/对象区域建议的注意力分数,以测量它们与给定动词-对象查询的相对 对于帧It中的每个人体区域,我们首先确定-将其特征表示FH与上下文帧特征和动宾查询特征,然后将它们通过小网络以获得分数。我们将softmax函数应用于该框架中所有人类区域的分数,并得到最终的人类注意力分数σh。类似地,在对所有对象区域应用softmax函数之后,每个对象区域具有对象注意力分数σ0。注意力分数用于使用等式(2)聚合人/对象特征。3.3. 培养目标图4:提取人/物体特征的图示。我们学习卷积滤波器来将Densepose分割掩码编码为中间特征。我们通过组合来自FPN的ROI池化特征来获得每个对象区域f〇的特征featuremaps特征图 和人类的cov特征图fh。(视频)除了弱监督的对比损失ST,我们提出了一个稀疏损失SPA,和分类损失CLS弱监督学习。一对帧的最终训练损失是所有损失的总和,Lθ(t,t′)= LST+ Lspa+ Lcls.(六)来源:TheOnDeckCircle [43])我们鼓励视频帧和动词-宾语查询的匹配对在训练期间具有更高的概率,scorepq能够评估动词-宾语查询在推断期间出现在给定帧接下来我们描述稀疏性和分类损失恩塞我们还有一个注意力得分σhot,j为稀疏性损失。 由于通常很少有人和物体经历输入查询中给出的动作和物体,因此我们寻求鼓励人 的注意力分数每个人或对象区域提议,代表他们的与给定动词-对象查询的相关性。因此,对于每个人-对象对,我们计算其置信度得分为c q= p q×(σ h+ σ o)/2。对于HOI检测,我们预测实例,并且对于每个帧中的所有其它提议为低。为了实现这种效果,我们引入了稀疏性损失,其被定义为人类和物体注意力分数的负logL2范数的总和Lspa=−log。|2 Σ − log(|σo|(2)(7)|2)(7)人和对象边界框及其HOI标签。对于每个视频帧,我们馈送出现在数据集中的所有可能的动词-对象标签,并选择具有最高置信度分数的动词-对象标签作为每对人和对象区域的HOI标签4.人机交互视频数据集分类损失。 弱监督对比损失和稀疏性损失使得我们的模型能够在给定动词-对象查询的情况下定位对象和人。为了使我们的模型检索和本地化跨视频的语言输入,我们添加了分类损失来预测当前视频是否包含动词-对象查询中描述的交互在训练阶段,每个视频都有一个真实的动词-宾语标签,我们给它们分配一个y=1的标签。我们从整个词汇表的语言特征中随机选择否定动词-宾语标签,并将标签y=0分配给视频和所选择的否定动词-宾语标签。帧It处的分类损失为:现有的人-对象交互数据集集中于分类[4]或静态图像中的检测[3,14]。然而,人-对象交互是一个时间过程,并且在视频数据中更自然地完成。当前的视频数据集,例如Charades [54]、EpicKitchens [9]、Vid-VRD[38]、VidOR [36]和YouCook [59,58]不适合用于人-对象交互检测。 首先,它们中的大多数没有人类边界框注释。第二,场景中的所有对象都被注释,其中被注释的对象不一定与人类交互。此外,EpicKitchens和YouCook 没有三 重人类动 作对象标签 。VidVRD 和VidOR用于Q QLcls=−(ytlog(pt)+(1−yt) log(1−pt)),(8)其中pq=p(yt|是输入视频的似然视觉关系检测和关系不是必需的。以人为中心。 因此,它们不能直接用于帧不It包含动词-宾语查询q。这里xt是评估基于视频的人-对象交互检测。而是去研究人与物体的交互问题框架的上下文框架特征3.4. 推理在推理期间,给定视频帧It,我们随机选择一个动词-对象查询q并且计算它们的二进制在视频中,我们收集了人类与公共对象交互(V-HICO)的大的、多样的视频数据集。我们的数据集有各种各样的动作和交互对象。我们的数据集比Epic-Kitchens有更多的视频(6,594)分类得分pq如等式(8)所示。以来(432)和YouCook(2,000),每个视频包含或σ和反对提案,每一个都是高的一个单一的建议1850表1:所提出的模型的每个组件的评价。短语(Phr)检测是指人类和对象边界框的联合的正确定位(0.3IoU),而关系(Rel)是指人类和对象边界框两者的正确定位(0.3IoU)模型最大平均接入点(%)召回@1(%)视频1召回@1(%)视频全部召回@1(%)Phr(ko) Phr(def) Rel(ko)相对(def)PHRRelPHRRelPHRRel基线(添加)40.590.456.950.1175.9819.0090.3033.2260.367.07基线(猫)41.860.3511.340.1175.9319.9188.4935.5361.685.92(cat)+Spa50.791.0216.230.4779.5224.2487.0138.4969.749.67(cat)+水疗+哼哼55.600.8915.910.2981.3522.9991.6138.8270.569.55(cat)+水疗+按摩+水疗54.421.2416.940.3081.0025.6191.1239.1469.7412.68(cat)+Spa+Hum+Tem+Con55.900.9018.560.2684.0830.1291.9444.9075.3315.95表2:与[28]、[57]、[49]中的方法和不同随机基线相比,对V-HICO的性能评价。短语(Phr)检测是指人类和对象边界框的联合的正确定位(0.3IoU),而关系(Rel)是指人类和对象边界框两者的正确定位(0.3IoU)。(ko)和(def)是已知对象设置和默认设置。模型最大平均接入点(%)召回@1(%) 视频1召回@1(%)视频全部召回@1(%)Phr(ko)Phr(def)Rel(ko)相对(def)PHRRelPHRRelPHRRel随机11.240.080.570.0022.424.0540.798.886.250.49随机预训练9.580.020.480.0012.263.5925.338.061.970.33[28日]32.420.142.060.0145.755.0271.3814.1420.720.16[五十七]21.880.604.830.0455.568.0471.0516.4538.491.97[49个]25.340.124.060.0543.075.3163.1612.5024.840.49我们55.900.9018.560.2684.0830.1291.9444.9075.3315.95人 机 交 互 此 外 , 新 的 数 据 集 更 具 挑 战 性 , 与Charades、EpicKitchens和YouCook相比,户外场景更加多样化,无论是家庭场景还是厨房场景。我们的V-HICO数据集包含5,297个训练视频,635个验证视频,608个测试视频和54个看不见的人-物体交互测试为了测试模型在常见的人-物体交互类和新的人-物体交互类的泛化上的性能,我们提供了两个测试分割,第一个在训练分割中具有相同的人-物体交互类,而第二个由看不见的新类组成。我们的训练集由193个对象类和94个动作类组成。在训练集中有653个动作对象对类未看到的测试集包含51个对象类和32个动作类,具有52个动作-对象对类。所有视频都用人类动作和关联对象的文本注释来标记。测试集和不可见测试集包含人类和对象边界框的注释。我们的我们使用在MSCOCO上预训练的对象检测器,指示在预训练期间仅看到2个对象类。此外,我们的整个数据集总共有244个对象类。其中156个不存在于MSCOCO或OpenImages中,“javelin”,并且因此不能使用在那些数据集上预先训练的检测器来检测。对象分布是长尾的,并且许多对象在公开可用的对象数据集中没有注释的训练数据我们的模型提供了一种方法来扩大到一个大的一组对象,而不依赖于边界框注释。5. 实验我们评估我们的方法和基线的能力,以检测人与物体的相互作用的V-HICO数据集。5.1. 评价标准我们评估所提出的方法和其他方法在两个设置当检测到的人和对象边界框的并集与地面实况人和对象框的并集匹配时,我们表示短语准确度我们表示当预测的人和对象边界框分别与地面实况人和对象边界框匹配时的关系准确度。关系准确度低于短语准确度,因为它对预测的人和对象边界框更严格。我们报告了这两种设置中的平均精度(mAP)和重新调用。对于mAP,我们遵循HICO-DET [3]提出的设置。他们提出了两种不同的评估设置:(1)已知对象设置(ko):给定人-对象交互类别,它们仅在包含目标对象类别的图像上评估人和对象检测。这里我们使用包含目标HOI类别的视频帧。(2)默认设置(def):给定一个HOI类别,他们评估整个测试集的检测。该设置更具挑战性,因为它需要模型区分图像/帧是否包含目标HOI类别并且同时定位目标HOI。请注意,我们使用的评估度量是针对HOI检测[3]设计的,这是比局域网更难的问题。1851t,i,jLLLL表3:我们提出的方法[28]的评估,以及V-HICO上看不见的测试集上的不同随机基线。看不见的测试集由51类在训练期间看不见的对象组成。在IoU阈值0.3下进行评估。模型最大平均接入点(%)召回@1(%) 视频1召回@1(%)视频全部召回@1(%)Phr(ko)Phr(def)Rel(ko)相对(def)PHRRelPHRRelPHRRel随机10.440.160.740.0314.792.1126.925.777.690.00随机预训练4.780.100.420.0214.792.8228.855.771.920.00Peyre 2017 [28]38.190.704.790.0743.245.4164.8112.9616.670.00我们67.212.7625.100.6691.8931.0894.4442.5985.1918.52压力表接地在语言基础中,查询输入出现在视频中,并且模型在测试期间返回其对应的边界框。然而,在def设置中,查询输入不一定出现在视频中。对于每一帧,我们基于它们的得分cq提取前10个预测的人-对象边界框对,如第3.4节所述。如果预测的人类和对象边界框与地面真实人类和对象边界框的交集(IoU)对于短语和关系准确度都大于0.3,则预测的人类和对象边界框被视为正确,类似于[28]。我们遵循HICO-DET[3]并计算所有动词-对象类上的mAP我们还报告了前1预测的帧召回。给定一个帧及其真实的动词-对象标签,我们测试前1个预测的人类-对象边界框对是否匹配地面真实边界框。Recall@1是预测正确的帧数除以所有帧数。我们还提出了两个视频召回设置。在Video One Recall中,如果检测到一个帧中的所有地面实况人-对象对,则视频被认为是正确的。Video One Recall是正确视频的数量除以所有视频的数量。在视频全部召回中,仅当检测到所有帧中的所有地面真实人-对象对5.2. V-HICO的消融研究为了研究我们的方法的每个组成部分的效果,我们对我们的V-HICO数据集进行了一系列消融研究。我们在表1中报告了结果。我们首先评估我们的方法时,没有时间的连续性是强制在模型中训练。为了实现该目标,我们在训练期间省略时间对比损失T和稀疏损失spa,并且不包括人类ROI池化特征作为对象提议特征的一部分我们研究了不同的方法来合并人/物体区域特征,动词-物体语言特征,和帧特征xt(在第3.2节中描述的时间软注意之前),当计算人/物体注意力分数时。我们发现特征添加(Baseline(add))和特征连接(Baseline(cat))具有类似的结果。接下来,我们评估稀疏损失SPA的功效。在没有稀疏性损失的情况下,根据经验,我们发现输出注意力分数通常均匀地分布在所有区域提案中。(猫)+水疗是使用后的结果基于特征级联基线的稀疏性损失;它显著地提高了性能。由于现有的人类检测器在视频中是相当稳健的,并且人类的空间位置可以帮助定位相互作用的对象,因此我们评估了包括来自人类分割特征图的ROI池化特征到对象区域特征((猫)+Spa+Hum)的效果。我们观察到,包括人类的信息时,学习对象的功能,提高了性能。接下来,我们评估包括我们的自我监督时间对比损失T的功效。(cat)+Spa+Hum+Tem通过鼓励移动对象的时间连续性来提高性能。我们调查的效果,使用软注意力在整个视频生成的上下文的帧特征。(cat)+Spa+Hum+Tem+Con是添加上下文框架特征的结果,并且用作所提出的模型的最终结果。为了进一步验证人类信息对对象检测结果的贡献,我们添加了一个基线,该基线仅基于人类空间先验来定位对象。我们首先使用我们的模型来生成候选人/对象propos- als和他们的信心分数。我们选择具有最高得分的人类提议作为目标人类。对于每个对象提案,我们将其置信度计算为其质心到人类提案的倒数距离。地图Phr(ko)为46。67,而我们的是55。九十请注意,该基线((cat)+Spa+Hum+Tem+Con),但它的表现明显不如我们的完整模型。5.3. 与基线的由于大多数现有的HOI方法在静态图像上使用监督学习,因此我们与三种最相关的方法[28,57,49]进行比较,并添加两个随机基线以与表2中的方法进行比较。“Random” is our由于没有现有的弱监督的人与物体的交互检测方法的视频,我们modify三个相关的弱监督基线使用其公开可用的代码。Peyre等人[28]是一种弱监督的方法,用于单1852图5:我们的模型的定性预测,具有顶部预测的人类边界框(黄色)和对象边界框(蓝色)。(视频来源:[10]第10话:你是谁?静止图像为了公平的比较,我们的实现Peyre等人。[28]分别使用与我们的方法相同的人类和对象绑定框以及由DensePose和Faster R-CNN生成的特征。对于每个人-对象边界框对,分类器预测其是每个人-对象交互类的概率得分。人-对象边界框对基于它们的置信度分数被排名以我们还与Zhouet al.[57]一种基于视频的文本对象接地方法我们使用相同的Faster R-CNN来生成对象边界框提案。使用由DensePose生成的人体建议添加人体检测分支。我们进一步修改了视频关系基础方法[49],该方法还使用Densepose和Faster R-CNN来生成人类和对象边界框以进行公平比较。表2显示了我们的方法和这些基线方法在我们的V-CAMO数据集上的比较。总的来说,我们的模型优于所有基线,因为[28]是一种基于图像的方法,而不利用视频信息,[57]分别优化对象和人的边界框和特征,而不明确考虑人与对象的交互,[49]使用时空可能随时间累积误差的区域图。5.4. 与未发现类别为了测试我们的模型对看不见的对象的泛化能力请注意,在评价Zhou等人的方法时存在困难。[57]和Xiaoet al.[49]在看不见的数据集上的基线,因为大多数对象标签不出现在训练集中。Zhou等[57]在训练期间优化对象和动作类的词嵌入;对于看不见的对象和动作,它们不具有优化的词嵌入。而Xiaoet al. [49]报告基于零触发关系的结果,它们考虑了在训练期间从未看到主谓宾三元组但知道单独的主谓或宾语然而,在我们看不见的测试集上,大多数对象标签不会出现在训练集中。因此Xiaoet al.[49]与Zhou等人有相同的问题。[57]因此,我们只比较我们的方法与Peyre等人。[28]、表3表明,我们的方法推广到新的对象类,并显着优于基线的短语和关系的准确性。我们的ap-在看不见的测试集上的方法比看不见的测试集更好,因为看不见的集比看不见的集(608个视频,具有多个人或模糊对象的更具挑战性的场景)更小且更容易(54个视频,大多数测试集的大小影响一些标准,例如,mAP是在来自所有视频的边界框上计算的,因此如果测试集中存在更多视频,则mAP倾向于较低。5.5. 定性结果人机交互检测结果。我们在图5中展示了我们模型的人类和物体边界框预测。我们仅示出前1个人-对象边界框对。黄色边界框表示预测的人类边界框,而蓝色边界框是预测的对象边界框。我们发现,所提出的弱监督的方法往往会产生大的对象边界框学习弱监督是具有挑战性的。系统必须在训练期间自动地识别视频时空区域并将其与所提供的短语注释相关联。失效案例分析。我们注意到模型预测中的三个主要失败:(1)当由于不正确的Densepose输出(例如,当只有小的人体部分可见时或者当多个人造成严重遮挡时的错过检测),(2)当由于对象小、移动、模糊或部分遮挡而导致对象预测不正确时,以及(3)当在有挑战性的场景中两个检测都不正确时,例如,晚上。6. 结论视频中的弱监督HOI检测是一个具有挑战性的问题,尚未受到太多关注。然而,这个问题是非常重要的,因为人-对象交互在现实生活中是常见的,具有重要的应用,诸如视频搜索和编辑、监视和人-机器人交互。在本文中,我们引入了一个对比损失学习检测人类和互动的对象在视频弱监督。我们展示了我们的方法在一个新的数据集的视频动词和宾语短语注释。我们的方法是理解视频中日常人与对象交互的一个步骤。我们希望所提出的数据集和方法可以促进未来在这方面的研究。致 谢 。 这 项 工 作 得 到 了 欧 洲 区 域 发 展 基 金 在IMPACT 项 目 下 的 部 分 支 持 。 CZ.02.1.01/0.0/0.0/15003/0000468)。1853引用[1] RızaAlpGuüler、Nat a liaN ev er ov a和IasonasKokkinos。密度:野外密集的人体姿势估计。在IEEE计算机视觉和模式识别会议论文集,第7297-7306页,2018年。4[2] Stephan Baier,Yunpu Ma,Volker Tresp.使用场景描述的语义建模改进视觉关系检测国际语义网会议,第53-68页。Springer,2017. 2[3] Yu-Wei Chao,Yunfan Liu,Xieyang Liu,Huayi Zeng,and Jia Deng.学习检测人机交互。2018年IEEE计算机视觉应用冬季会议(WACV),第381-389页IEEE,2018年。一、二、五、六、七[4] Yu-Wei Chao , Zhan Wang , Yugeng He , JiaxuanWang,and Jia Deng. Hico:识别图像中人与物体交互的基 准 。 在 ProceedingsoftheIEEEInternationalConference on Computer Vision,第1017一、二、五[5] 陈婷,西蒙·科恩布里斯,穆罕默德·诺鲁齐,和葛offrey Hinton.视觉表征对比学习的一个简单框架。arXiv预印本arXiv:2002.05709,2020。3[6] 钦奈兄弟 https://w youtube.com/watch?v=kcm4deypiu. 2017. 1、8[7] 最好的画廊工艺https:youtube.com/watch?v=vo07h1vpi54.2018年。3[8] Bo Dai,Yuqi Zhang,and Dahua Lin.用深层关系网络检测视觉关系。在IEEE计算机视觉和模式识别会议论文集,第3076-3086页,2017年。2[9] DimaDamen , HazelDoughty , GiovanniMariaFarinella , Sanja Fidler , Antonino Furnari , EvangelosKazakos , Davide Moltisanti , Jonathan Munro , TobyPerrett,Will Price,et al.缩放自我中心的愿景:epic-kitchens数据集。在欧洲计算机视觉会议(ECCV)的论文集,第720-736页5[10] 认真吃。 https://w youtube.com/watch?v=hm5cgwiqzu. 2011. 8[11] David F Fouhey,Wei-cheng Kuo,Alexei A Efros,andJi- tendra Malik.从生活方式到日常互动。在IEEE计算机视觉和模式识别会议论文集,第4991-5000页2[12] Jiyang Gao , Chen Sun , Zhenheng Yang , and RamNevatia. TALL : 通 过 语 言 查 询 的 时 间 活 动 定 位InICCV,2017. 2[13] GeorgiaGkioxari , RossGirshick , PiotrDolla'r ,andKaimingHe.检测和识别人机交互。在IEEE计算机视觉和模式识别会议论文集,第8359-8367页2[14] 索拉布·古普塔和吉坦德拉·马利克。视觉语义角色标注。arXiv预印本arXiv:1505.04474,2015。一、二、五[15] Yuping Han,Yajing Xu,Shishuo Liu,Sheng Gao,andSi Li.基于局部特征和上下文特征的视觉关系检测2018年网络基础设施和数字内容国际会议(IC-NIDC),第420- 424页。IEEE,2018年。2[16] Oli vi erJHe´ naf f,Ara vindSriniv as,Jef fre yDeFauw,AliRazavi,Carl Doersch,SM Eslami,and Aaron vanden Oord.使用对比预测编码的数据高效图像识别。arXiv预印本arXiv:1905.09272,2019。3[17] Lisa Anne Hendricks 、 Oliver Wang 、 Eli Shechtman 、Josef Sivic、Trevor Darrell和Bryan Russell。使用自然语言对视频中的时
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Fisher Iris Setosa数据的主成分分析及可视化- Matlab实现
- 深入理解JavaScript类与面向对象编程
- Argspect-0.0.1版本Python包发布与使用说明
- OpenNetAdmin v09.07.15 PHP项目源码下载
- 掌握Node.js: 构建高性能Web服务器与应用程序
- Matlab矢量绘图工具:polarG函数使用详解
- 实现Vue.js中PDF文件的签名显示功能
- 开源项目PSPSolver:资源约束调度问题求解器库
- 探索vwru系统:大众的虚拟现实招聘平台
- 深入理解cJSON:案例与源文件解析
- 多边形扩展算法在MATLAB中的应用与实现
- 用React类组件创建迷你待办事项列表指南
- Python库setuptools-58.5.3助力高效开发
- fmfiles工具:在MATLAB中查找丢失文件并列出错误
- 老枪二级域名系统PHP源码简易版发布
- 探索DOSGUI开源库:C/C++图形界面开发新篇章
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功