基于学习关系的静止图像中人物的重要性识别

35 浏览量更新于2023-10-18 收藏 1.78MB PDF 举报

静止图像

关系网络

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5003基于学习关系的静止图像Wei-Hong Li1，2， Fa-Ting Hong1，3，4，Wei-Shi Zheng1，41中山大学数据与计算机科学学院2英国爱丁堡大学信息学院VICO Group深圳市新世纪科技有限公司公司4机器智能与先进计算教育部重点实验室。w.h.li @ ed.ac.uk example.com，wwwhongft3@mail2.sysu.edu.cnexample.com，wwwwszheng@ieee.org摘要人类能够很容易地识别出社会事件图像中人物的重要性，并且他们总是关注最重要的个人。然而，学习了解图像中人与人之间的关系，并根据这种关系推断出最重要的人，仍然没有发展。在这项工作中，我们提出了一个深度重要关系网络（POINT），它结合了关系建模和特征学习。特别地，我们推断两种类型的相互作用（三）（+）（一）模块：人-人交互模块，其学习人之间的交互;以及事件-人交互模块，其学习描述人如何参与图像中发生的事件然后，我们估计人之间的重要性关系，从这两个互动和编码的重要性关系的关系特征。这样，POINT就自动并行地学习了几种类型的关系特征，并将这些关系特征与人物特征聚合，形成重要人物分类的重要大量的实验结果表明，我们的方法是有效的重要人物检测和学习的重要人物检测学习关系的有效性进行验证。1. 介绍在我们的日常生活中，我们经常会看到精彩的现场直播，因为摄像师可以很容易地识别出事件中人物的重要性，并对事件中的重要人物进行拍摄或录像，以呈现此时此刻正在发生的事情。另外，当呈现社交事件图像时，人类可以容易地识别事件中不同面部（人）的明显重要性，并且关注最重要的人（例如，当人们观看篮球比赛时，他们更可能关注投篮者或拿球的球员很自然地会问*同等缴款。在中山大学完成的工作†通讯作者图1.从图像中推断人物的重要性，由于其涉及不同的信息而固有地复杂和困难人的个体特征（图（a））、人与人之间的关系（图（b））和来自整个图像的事件信息（图（c））。巨大的视觉变化也会带来困难在第二行显示的所有图像中，红色边界框中的人是同一个人，但他在这些图像中扮演不同的角色。他是图（e）中最重要的人，(f)而他在两张照片中的外貌，位置和事件都是完全不同的。比较图（d）和图（e），他在两个图像中穿着相同的衣服，但他在这些图像中的重要性不同。是否可以建立计算机视觉模型来自动检测事件图像中的重要人物。还已知的是，正确地检测图像中最重要的人可以有益于其他视觉任务，诸如事件检测[13]、事件/活动识别[13，17]和图像识别[ 13，17 ]。标题[14]。重要人物检测只是最近才成为研究的焦点。为了检测静止图像中的重要人物，一种直接的方法是利用分类或回归模型直接从个人特征中推断人物的重要性[14]。另一种解决方案通过顺序地估计人与人之间的交互来考虑人与人之间的关系（即，序列关系模型[14，10]）。Solomon等[14]研究了一对面孔之间的相对重要性，无论是在同一张图像中还是在不同的图像中，并开发了一个回归模型来预测。一个n#$y&in（）n+i mpo/）#n0+o1p+op$+2 i）n3i11 +/+n）i n1o/m#）ion。（#（七）8 +9 m + p+op$+ in 3i11+/+n）im#（5004使用手动设计的特征来判定任何一对面之间的相对重要性Li等人[10]在混合交互图中对所有预先检测到的人进行建模，并开发了PersonRank，这是一种图形模型，用于对交互图中的人进行排名。尽管在重要人物检测方面做出了这些努力，但问题仍然具有挑战性，因为人物的重要性不仅与他们的外表有关，而且更重要的是与人与人之间的关系有关。仅仅依靠外观特征是没有效果的。例如，我们将无法确定图1（c）中红色边界框的女士是否重要，如果我们被给予红色边界框内的补丁，如图1（a）所示。然而，如果我们知道谁以及其他人如何与这位女士互动（图1），就更容易将这位女士与其他人分开。尽管关系建模是重要的，但是图像中的两个人之间的关系仍然由定制特征（例如，[14，10]）。自定义功能高度受姿势、外观和动作变化的影响。如何自动地开发出可靠、有效的关系特征来描述人与人之间的关系，是一个尚未解决的问题。在这项工作中，我们投重要的人检测问题，学习图像中检测到的人之间的关系网络，并推断出最活跃的人。因此，我们试图开发一个深度重要关系网络（POINT），以允许机器学习自动开发这些关系。在POINT中，我们主要介绍了关系模块，它包含了几个关系子模块，用于自动构造交互图，并从交互图中建模它们的重要性关系。在每个关系子模块中，我们形成两种类型的交互模块，人-人交互模块和事件-人交互模块。人-人交互模块描述成对的人交互，事件-人交互模块指示人参与事件的概率。然后，我们介绍了两种方法来估计的重要性关系的人之间的互动图和编码的基础上的重要性关系的关系特征。最后，将所有关系子模块的关系特征连接成一个关系特征，并利用剩余连接将连接的关系特征与人物特征聚合，得到重要性特征，用于最终的重要性分类。概括地说，POINT方法是由特征表示模块、关系模块和重要性分类模块组成的分类框架。据我们所知，POINT是第一个研究深度学习来探索和编码关系特征并将其用于重要人物检测的公司。在我们的实验中，我们研究和讨论了各种类型的基本相互作用函数（即，添加剂函数和标度点积函数）对成对人员交互的建模实验结果表明，我们的深度关系网络在两个公共数据集上实现了最先进的性能，并验证了其对重要人物检测的有效性。2. 相关工作人物和一般对象的重要性。近年来，类属客体范畴和人称的重要性日益受到关注，并被一些研究者研究[2，5，6，7，15，8，14，10]。Solomon等[14]专注于研究一对面孔之间的相对重要性，无论是在同一张图像还是不同的图像中，并开发了一个回归模型来预测面孔的重要性。作者设计了包含人脸空间和显著性信息的自定义特征此外，Ramanathan et al.[13]使用事件识别标签训练了一个基于注意力的模型，为所有检测到的个体分配注意力/重要性分数，以衡量它们与篮球比赛视频的相关程度。更具体地说，他们提出利用包括时间信息在内的人的空间和外观特征来推断所有检测到的人的重要性得分。最近，Li et al.[10]通过按顺序组织人与人之间的交互，在混合交互图中对所有检测到的人进行建模，并开发了PersonRank，这是一种图形模型，通过从基于四种类型的特征构建的人与人之间的交互中推断人的重要性得分来对人进行排名，这些特征已被预先训练用于其他任务。与上述方法不同的是，签名手工制作的关系以及功能，或那些预先训练的其他任务，据我们所知，我们的工作是第一个设计一个深层架构，结合学习的关系和功能的重要人物检测。关系模块学习构造交互图并自动编码关系特征。这样，我们的网络不仅可以从一个人的个人信息中编码出更有效的特征，而且可以有效地编码出其他人与图像中事件的关系。视觉任务的关系网络关系建模是不局限于重要人物的检测，具有广泛的应用，应用，如对象检测[4]，AI游戏[22]，图像字幕[20]，视频分类[19]和少镜头识别[21]。与我们的方法相关，Huet al.[4]提出通过嵌入新的几何权重来调整注意力模块，并将其应用于典型的对象检测CNN模型中，以增强对象分类和重复删除的特征。Zambaldi等人[22]利用注意力模块来迭代地识别场景中实体之间的关系，并在称为Box-World的新颖导航和规划任务中指导无模型策略5005i=1我我ℋ��1.00.26ℋ��{��1}下一页��...-�� -��=1=10.25图2.一个关于我们之间深刻的重要关系的例子。我们利用特征表示模块来提取人的人特征和整个图像的全局特征（图（a））。这些特征被馈送到关系模块中，关系模块包含r个关系子模块。在每个关系子模块中，我们构造两个交互图，并从两个图中估计重要性关系，用于编码关系特征。通过这种方式，POINT并行学习r个关系特征，并将这些特征连接到关系特征向量中。我们将这个连接关系特征添加到人物特征中，从而产生重要性特征。最后，利用重要性分类模块来推断人物的重要性点。在这项工作中，我们有不同的目的，建立一个关系网络的重要人物检测，而相关的关系模型是不适合我们的任务。特别地，在以前的工作中，它们学习描述两个对象/实体之间的外观和位置相似性的关系，以找到相似的对象。这些关系模型将使重要人物检测模型偏向于检测具有特定外观的人物或处于224×2242017年1月0gl$% l0（具体位置，但不是为了告诉人们如何相互作用，谁是最活跃的。在我们的实验中，我们已经表明，仅使用外观特征或特定位置对于重要人物检测是无效的（参见表1，仅使用外观和位置信息的SVR人物为了估计重要的关系，我们引入了两个相互作用模块（即，人-人和事件-人交互）来自动学习描述两个人之间的关系以及人们如何参与图像中发生的事件的交互。3. 方法在静止图像中检测重要人物是一个比传统的人物检测更具挑战性的任务，因为它需要提取比其他检测任务更高的语义信息在这项工作中，在与图3.特征表示模块。在详细说明三个特定模块和损失（第3.2节，第3.13.3和3.4节）。3.1. 概述图2显示了我们提出的模型的架构给定社交事件图像I和所有检测到的（N）个人{pi}N，为了分析这些人的重要性，我们将POINT构建为分类渠道.我们的模型并行处理任意数量的被检测人员（与顺序关系建模相反[14，10]），并且是完全可区分的（与使用自定义特征的先前关系模型相反[10]）。对于图像中的第i个人pi重要或不重要的人）si由以下公式估计：以前的作品[13，14，10]1，我们的目标是设计一个深关系-O O R OOORSIS这种关系网被称为深层重要关系网si=f（I;pi|θ）（f1，…，fN，f全局|θ）（fi|θ），（1）（POINT）（第3.1节），它学习建立关系，并将关系建模与特征学习相结合，用于重要人物检测。我们简要介绍了AR-1类似于上述工作[13，14，10]，我们假设图像中出现的所有人都被现有的最先进的人（人脸或行人）检测器成功检测到其中，f表示模块组合，f I是pi的重要性特征，f S（fI|θ S）是由θ S参数化的重要性分类模，它遵循由参数群θ R参数化的关系模fR（·）。此外，特征表示模块f O（I; pi|θ O）的参数化，提取人的fea.in01+i*+7/08Conv转换转换1分 01+i*+7/08Convƒƒ5006！# $2.51.5！# 13.5#！&！# $0.09！# 1！# &！！3i=1全球我我全球我13我第一百一十二章3 3（（）（*）第一百一十二章3 3该人使用的对象可以帮助区分重要人物和不重要人物。为此目的，对于每个人，我们裁剪外部补丁2，其是以人的边界框为中心的框内的图像补丁，并且是在这项工作中，我们使用ResNet-50从每个内部和外部补丁中提取特征，因为它具有恶魔-（一）（六）证明了其在重要人物检测方面的优越性图4.图（a）和（b）显示了Vp的输入人与人之间的相互作用和Vp的输出人与人之间的相互作用。我们[10]和其他视觉任务，如物体检测[11]。如图3所示，对于图像中的每个人，我们将1 3方法（即，当量（4）减弱了Vp相互作用的影响到Vp（红色链接），因为Vp有太多的输出（图（d））。的将内部和外部补丁转换为单独的Resnet-50，将它们转换为两个7×7 ×2048特征（即，的注意力模型[18]平等对待每个节点，从Vp到Vp有较大的影响（图（c））。内部特征和外部特征）。当coordi-nate是一个四维向量，我们生成一个热图3 1这是一个224×224的网格，其中一个或多个与人的坐标相对应的单元格pi的真fO和全局特征fO全体其他零。我们将卷积核应用于这个热图i global图像I和图像II是连接三个模块的操作符。关系模块fR（·）e利用人{pi}N的输入特征和全局特征fO自动构造交互图，并对有效的关系进行编码。特征。类似于现有的注意力模块[18]和关系模块[4，22]，我们采用残差连接来聚合人特征和关系特征，从而产生最终的重要性特征fI，其包括图像中的个体信息、来自其他人的关系信息和事件信息。每个模块的详细信息见第3.2节、第3.3节和第3.4节。来制作一个7×7×256的特征。然后，我们将内部、外部和位置特征，产生7×7×4352特征，并采用具有一个全连接（fc）层的两个卷积层将该连接特征变换为1024维向量f0，称为人特征。由于重要人物不可避免地与该人物所涉及的事件相关与内部和外部特征类似，整个图像（表示为全局补丁）被馈送到另一个深度网络中，该深度网络包括ResNet-50的卷积层、两个额外的卷积层和一个fc3.2. 特征表示模块用于编码1024维f0的层.我们称之由于特征表示是重要人物检测的第一步，因此我们要求特征表示模块（图3）能够从局部到全局信息中提取有效特征（即，人与大多数视觉作品一样[16，10，13，14]，很自然地使用检测到的人的边界框内的信息，在这项工作中称为内部补丁，以表示人位置也是一个人的个性特征中不可或缺的元素，它全球特征。3.3. 关系模块在给定人物特征和全局特征的情况下，设计一个关系模块，通过聚合关系特征和人物特征，对有效的更具体地说，我们聚集r个关系特征，由r个并行关系子模块3编码，并将它们连接成一个关系特征向量。然后，我们使用残差连接来合并关系特征和人物特征，从而产生每个人的重要性特征pi：fI=fO+Concat[fR1，···，fRr]，（i= 1，···N），图像中的图像包含在我们的功能中。原因是，从i i ii i（二）从摄影师其中，fR1是第一关系子模块计算出的人物p我们用这种平行结构人在图像的中心，和重要的人，人们通常看起来比图像中的其他人更清晰此外，必须考虑每个人周围的外部/背景信息以分析人的重要性，因为这种更全局的信息，例如，一些2在这项工作中，C是在验证集上训练的。提取外部贴片和C的详细信息见补充材料3.这些关系子模块的结构相同，但参数不共享，这使得POINT能够自动学习各种类型的关系。！# $0.31.5！#0.21#！&！# $0.19140.6354！0.17321！# &！！5007纪我纪纪纪我的天{}}{0}我的天 } =1来自具有太多重要性交互输出的节点的重要性交互不太重要，并且这削弱了重要性交互对重要性关系的影响（图4）。构建交互图。为了估计相互作用的重要性E_p，我们首先创建p_r_son，人交互图和事件- 人交互图，它们被定义为 Hp=（Vp，Ep）和Hg=（Vg，Eg）。这里，Vp={Vp}N是节点代表i i=1怨恨的人和Vg={Vp}N{Ve}是i i=1{}{}其中，Ve是表示发生在=1=1pp（二）（三）形象此外，E中的每个元素Eji建模图5.图（a）和（b）说明了在这项工作中引入的两种方法，将全局信息嵌入到人-人交互中（它们也是关系子模块的说明）。图（a）是使用Eq.（3）和方程（7）而图（b）是使用Eq.（八）、蓝色矩形框显示了我们的方法和注意力模型[18]和[4，22]中的关系模块，而绿色框说明了我们提出的两种方法之间的差异（颜色更好）。从pj到pi的人-人交互，指示pj如何与pi交互，并且Eg中的每个元素Eg表示事件-人交互，指示事件-人交互的概率参与事件的人在人-人交互图Hp中，成对人之间的交互由人-人交互模块计算，其是附加注意力函数[3，1]4：Ep=max{0，Wp·（WQf0+WKf0）}，（5）吉伊杰因为它允许POINT自动模拟各种类型的人际关系，并且已经被证明是更好的。其中WQ和WK都是将每个特征fO和fO投影到子空间中的矩阵，并且向量wP[4，18]i j关系子模块中的关系建模。我们现在描述我们在第二个（n=1，...，r）关系子模。对于每个给定的图像与N检测到的人，我们得到一个特征集用来测量pj如何在子空间中与pi此外，如果人是，则采用max{·}函数将人与人之间的交互修剪为零。不与他人互动。与此同时，我们估计了事件-人交互-{f 0，.， f O，f O}，然后关系特征fR与51N全球事件-人交互模块的操作：关于第i个人的计算方法如下：Eg=max{0，wG·（fO+fO）}，（6）ΣNfR=Eji·（WVfO）.（三）我其中fO+fOi globali jiglobal通过wG转换为标量权重j=1在这里，我们去掉fR的上标，使用fR来解-以指示人（pi）参与事件的概率。事件-人交互作用被修剪为0，i i充当ReLU非线性。零点微调操作书写方便。Eq.（3）聚集通过来自其他人的人特征的加权和来从其他人中提取人特征，并且通过WV线性变换。我们用公式表示Eji，表示来自其他人的影响的重要性关系：仅限制与事件无关的人的事件-人交互从两个图估计重要性交互。由于我们有两个交互图，人-人交互图和事件-人交互图，exp（Ep）重要性交互作用E_（？）p的估计方法从Eji=Nexp（Ep），（4）k=1jk其中，Ep是人与人之间的重要性交互，并在下文中引入，并且它是从人与人交互图和事件与人交互图两者中估计的。交互作用图这里，我们计算从人pj到人pi的重要性关系，作为通过人p j的输出重要性交互的总和缩放的从人pj到人pi的重要性交互。受PageRank算法[9]的启发，我们的模型反映了这样一个事实，4有两种常用的注意力功能/机制：加法注意函数[1]和较便宜的标度点积函数[12，18]。虽然两者在理论复杂度上相似，但加法运算略微且始终优于比例点乘积运算[3]。这一结果在我们的实验中也得到了验证，因此我们使用加性注意函数来建立人与人之间的交互模型。5当量6与Eq不同。事件-人交互不同于人-人交互（不对称），呈现一个人如何与另一个人交互：事件-人交互应该等于人-事件交互（对称），并且被估计以发现人是否涉及事件。好吧（四）好吧LL好吧（四）LL125008QKVPG ∈R}纪R我纪纪我1ji2！$！${W} ∈Rdf×d k，W ∈R d f × dk，W ∈ Rd f × d k，W∈ R d f × dk，W∈ R df × d k∈Rdf×d k，W ∈R d f × dk，W ∈ Rd f × d k，W∈ R d f × dk，W∈ R d f× d k∈Rdf×dv，w<$∈Rdf，wDf r=1，其中df=1024是尺寸（））（+）图6.我们介绍了两种方法来集成事件-人交互图和人-人交互图。首先，我们将事件-人交互视为优先重要性，作为调节器来调整人-人交互的权重（图（a））。其次，我们将事件-人的交互视为每个人的额外输入链接（图（b））。这两个图都可以显著地影响重要性关系计算，然后影响最终结果。在这项工作中，我们介绍了两种方法（图6）来估计多个图的重要性相互作用。直觉上，我们把事件-人的互动作为一个优先的重要性和估计，将重要性交互作用E*p匹配为：Ep=E p·E g。（七）dk = dv= df由于每个关系子模块的降维，总的计算代价与全维的单个关系子模块的计算代价相似.3.4. 用于端到端学习的分类模块在我们获得图像中每个人的重要性特征之后，我们利用两个完全连接的层（即，分类模fS（fI|θ S））将特征变换为两个标量值，表示属于重要人物或非重要人物阶层的人。在训练过程中，采用常用的交叉熵损失对模型进行惩罚，并采用SGD对模型进行优化，以进行后向计算。在测试过程中，使用重要人物类别的概率作为每个人物的重要性点。在每个图像中，具有最高重要性点的人将被选为最重要的人。吉吉这种策略的优点是，Eg充当调节器来调节人的效果4. 实验在本节中，我们对JP人际交往关系特征聚合通过在先验重要性大时增强效果并且在相反情况下减小影响。另一种策略是将事件-人交互视为人-人交互的附加图，图换句话说，我们将重要性交互定义为人与人的交互（即，并且关系特征被聚合为：ΣN两个公开可用的基于图像的重要人物检测数据集。我们遵循数据集中的标准评估方案[10]。报告了平均精密度（mAP）和一些目视比较补充材料中报告并分析了所有受试者的CMC4.1. 数据集fR=j=1Eji·（WVfO）+Eg·（WVfglobal），（8）对于静态图像中重要人物检测的评估，有两个公开可用的数据集[10]：1）其中，Eji由Eq.（四）、这里，关系特征通过来自其他人的人特征的加权和来聚合来自其他人的特征，所述人特征被WV1线性变换并且全局特征被WV2变换。通过这种方式，可以在执行过程中考虑全局信息在不影响人与人交互的效果的情况下对重要性特征进行编码。以上两种策略被验证是有效的结合了人与人的互动和事件与人的互动，并且它们具有可比性的结果。关系模块的参数。关系模Eq.（2）总结在图2中。使用基本运算符很容易实现，如图5所示。由于输出特征的维数与输入特征的维数相同，因此可以堆叠多个关系模块（Nr个关系模块）来细化重要性特征。在当量（2），由于我们在一个关系模中有r个关系子模，所以参数是5×r个投影：θR=多场景重要人物图像数据集（MS数据集）和2）NCAA篮球图像数据集（NCAA数据集）。1) MS数据集。MS数据集包含来自六种以上场景的2310张图像。该数据集包括三个子集：训练集（924个图像）、验证集（232个图像）和测试集（1154个图像）。提供检测到的2) NCAA数据集。NCAA数据集是通过提取9，736帧事件检测视频数据集[13]形成的，涵盖10种不同类型的事件。每个人的边界框和重要性的注释提供以及。4.2. 与其他方法我们首先将我们的方法与现有的重要人物检测模型进行了比较：1）VIP模型[14]，2）Ramanathan模型[ 1 3 ] 和 3 ） P e r s o n R a n k （ P R ）！# %！# &！# 1！# 4！# %！# &！# 1！# 45009我我我表1.两个数据集上不同方法的mAP（%）方法麦克斯脸麦克斯行人麦克斯显著性大多数-中心麦克斯规模SVR-人VIP拉马纳坦模型[13]PR我们（POINT）MS数据集35.730.740.350.973.975.976.1- -88.692.0NCAA数据集31.424.726.430.031.864.553.261.874.197.3表2. 在两个数据集上评价POINT不同组分的mAP（%）。数据集方法地图方法地图基础间72.6POINTInter76.5MS数据集基本Inter+Loca基本帧间+外部+本地79.589.2POINTInter+LocaPOINTInter+Exter+Loca85.692.0基础间89.1POINTInter90.3NCAA数据集基本Inter+Loca基本帧间+外部+本地89.995.8POINTInter+LocaPOINTInter+Exter+Loca93.997.3表3. 用于评估我们在两个数据集上整合全局信息的方法的mAP（%）。MS数据集NCAA数据集方法地图方法地图Hp点91.2Hp点96.0点方程式（八）91.3点方程式（八）96.7点方程式（3）+Eq.（七）92.0点方程式（3）+Eq.（七）97.3[10]《易经》中的“万物”，最大面部、最大行人、最大显著性、最中心、最大规模和SVR-人）。实验结果示于表16中。从表中可以清楚地看出，我们的POINT获得了最先进的结果。值得注意的是，我们的POINT在NCAA数据集上实现了23.2%的显著改进，74.1%）的比例。这验证了我们的POINT方法提取更高级别语义特征的有效性这也表明了将关系建模与特征学习相结合用于重要人物检测的有效性。有趣的是，MS数据集上的改进明显小于NCAA数据集上的改进（即，分别为3.4%和23.2%原因是存在有限数量的图像（即，总共2310张图像），这限制了我们深度模型的训练，即使训练数据的数据增强（例如RandomCrop）已经在MS数据集上使用。4.3. Our Point评估POINT的不同组件。由于缺乏用于重要人物检测的端到端可训练深度学习模型，我们形成了一个基线，该基线仅包括特征表示模块和重要人物识别模块。6在MS数据集上，我们没有比较Ramanathan其他方法的结果均来自[10]表4. 用于比较我们的方法和[18]中用于估计两个数据集的重要性关系的mAP（%）。MS数据集NCAA数据集方法地图方法地图[第18话]90.0[第18话]95.8我们的（点）92.0我们的（点）97.3表5.用于评价r对两个数据集影响的mAP（%）数据集基线我们的（点）r=1R=2R=4R=8r=16R=32MS数据集89.290.791.492.091.491.891.4NCAA数据集95.896.296.897.396.897.096.6表6. 用于评价Nr对两个数据集的影响的mAP（%）数据集基线我们的（点）Nr=1Nr=2Nr=4Nr=6MS数据集89.1891.9691.9790.9990.90NCAA数据集95.8497.2897.2497.2996.02表7.在两个数据集上评估不同类型注意力功能的mAP（%）。MS数据集NCAA数据集方法地图方法地图标度点积90.7标度点积96.2POINT添加剂92.0POINT添加剂97.3分类模块。这种方法预测人的重要性，而不考虑他们与他人的关系其定义为：s基线= f O（p |θO）<$f S（f O|θS）。（九）它被形成以评估关系模块的效果（即，我们的点）和特征的不同组件（即，内部特征、位置特征和外部/上下文特征）。结果在表2中报告，其中基础帧间指示仅使用内部特征的基线，并且点帧间+位置+外部是我们的完整模型。第3.2节描述了使用包含所有特征的特征的点。从表2中，值得注意的是，我们的POINT使用不同类型的特征（例如，92.0%对89.2%，分别在MS数据集上使用三种类型的线索）。这一结果表明，嵌入本文介绍的关系模块可以显着地帮助提取更多的判别，更高层次的语义信息，这大大提高了性能。此外，我们可以看到，基线和POINT都提高了mAP，5010595923、5678323、56783公司名称：$%i（o）o）（C）（i）（o）（o）23、567835923、5678359图7.检测重要人物的视觉结果以及与相关工作的比较（即，PersonRank（PR））。与使用较少信息或单一类型信息的那些相比通过使用更多线索的重要人物检测BaseIndi+Cont+Loca相对于BaseIndi具有16.6%mAP的改进，Base Indi在MS数据集上获得72.6%mAP）。整合额外的全局信息并估计重要性关系。在这项工作中，我们介绍了两种方法来集成事件-人交互图和人-人交互图。表3给出了我们的POINT在没有全局信息的情况下检测重要人物的结果（即，POINTHp），我们的POINT以不同的方式使用全局信息（即，点方程式（3）+Eq.（7）点方程。（8））。结果表明，这两种方法都成功地将全局信息融合到重要性特征中，提高了分类性能。通常，当使用全局信息作为先验重要性时的改进高于将事件交互图视为附加图（例如，在NCAA数据集上，分别为1.3%和0.7%）。我们还比较了我们估计重要性关系的方法与注意力权重的方法[18]（即，其他视觉任务中的关系模块[4，22]），两个数据集的结果报告在表4中。虽然由于不同的任务，整个关系网络与[18，4，22]完全不同，但很明显，我们的关系模块比[18，4，22]中使用的关系模型更有效，因为我们有一致的改进（例如，92.0%vs 90.0%，分别在MS数据集上）。该结果验证了Eq.（四）、目视检查结果和比较。在本节中，图7报告了选定的目视结果和比较，以进一步评估我们的POINT。如图7所示，很明显，我们的POINT可以在一些复杂的情况下检测到重要的人（例如，在第二排的两个图像中，防守者和射手非常接近，我们的POINT可以正确地将大多数分数分配给射手，而PersonRank（PR）通常会选择防守者或其他球员作为重要人物。r和N r对重要人物检测的影响。关系子模的个数r和堆叠关系模的个数Nr会稍微影响我们的POINT。为了评估这两个参数的影响，我们在表5中报告了我们的POINT的结果，r范围为1至32，并保持N r= 1。然后，我们选择r = 4，因为它产生最佳结果，并将N r设置为1到6。表6中报告了Nr的效果的评价结果。结果表明，在一个关系模块中使用r >1的关系子模块使我们的POINT能够获得更好的结果，因为使用多个关系子模块使我们的POINT能够建模各种类型的关系。此外，我们发现，当我们设置Nr>1时，POINT获得的结果略好（例如，在MS数据集上设置Nr=2，在NCAA数据集上设置Nr=4是最好的），因为添加的关系模块可以帮助细化重要性特征。注意力功能的评估。目前，有两种常用的注意力函数用于建模任何对实体之间的交互，加法和缩放点积注意力函数。与[3]类似，我们发现加性注意力函数的效果略好于表7中的缩放点积函数（例如，在NCAA数据集上，分别为97.3%和96.2%）。运行时间。我们使用PyTorch在CPU E5 2686 2.3 GHz，GTX 1080 Ti和256 GB RAM的机器上实现我们的模型。我们的POINT处理图像的运行时间对图像中的人数很敏感。平均而言， POINT 每秒可以处理10 帧（fps），这明显快于Person- Rank（0.2 fps）和VIP（0.06 fps）。这一结果表明，我们的POINT大大提高了重要人物检测模型的速度5. 结论我们提出了一个深度重要性关系网络来研究深度学习，以探索和编码关系特征，并将其用于重要人物的检测。更重要的是，我们已经表明，POINT完全集成了关系建模与特征学习，以学习关系建模的特征。此外，POINT可以学习编码和利用关系特征进行重要人物检测。结果表明，我们提出的POINT在两个公共数据集上可以获得最先进的性能。6. 确认这项工作得到了中国国家重点研究发展计划（ 2018YFB1004903 ），国家自然科学基金（61522115）和广东省的省科技创新领军人物（2016TX03X157）。5011引用[1] Dzmitry Bahdanau，Kyunhyun Cho，Yoshua Bengio.通过联合学习对齐和翻译的神经机器翻译。2014年国际机器学习会议。[2] Alexander C Berg，Tamara L Berg，Hal Daume，JesseDodge ， Amit Goyal ， Xufeng Han ， Alyssa Mensch ，Margaret Mitchell，Aneesh Sood，Karl Stratos，et al.理解和预测图像的重要性。在计算机视觉和模式识别，2012年。[3] Denny Britz、Anna Goldie、Minh-Thang Luong和QuocLe。对神经机器翻译架构的大量探索。在自然语言处理经验方法会议上，2017。[4] Han Hu，Jiayuan Gu，Zheng Zhang，Jifeng Dai，andYichen Wei.用于对象检测的关系网络。在计算机视觉和模式识别，2018年。[5] Sung Ju Hwang和Kristen Grauman从标记的图像中学习对象的相对重要性，以进行检索和跨模式搜索。国际计算机视觉杂志，100（2）：134[6] Duy-Dinh Le ，Shin'ichi Satoh，Michael E Houle，andDat Jioc Tat Nguyen.使用多模态和聚类分析在大型新闻视频数据库在2007年的国际数据工程会议[7] Yong Jae Lee，Joydeep Ghosh，and Kristen Grauman.覆盖重要的人和物体，用于以自我为中心的视频摘要。在计算机视觉和模式识别，2012年。[8] 李勇在和克里斯汀·格劳曼。自我中心视频摘要的重要对象预测。International Journal of Computer Vision，114（1）：38[9] 朱尔·莱斯科维奇，阿南德·拉贾拉曼，杰弗里·大卫·乌尔曼.挖掘海量数据集。剑桥大学出版社，2014年。[10] Wei-Hong Li ， Benchao Li ， and Wei-Shi Zheng.Personrank：检测图像中的重要人物在自动人脸手势识别国际会议上，2018年。[11] Wei Liu ， Dragomir Anguelov ， Dumitru Erhan ，Christian Szegedy ， Scott Reed ， Cheng-Yang Fu ， andAlexander C Berg. Ssd：单发多盒探测器。在欧洲计算机视觉会议上，2016年。[12] Minh-ThangLuong 、 HieuPham 和 ChristopherDManning。基于注意力的神经机器翻译的有效方法2015年自然语言处理经验方法会议[13] Vignesh Ramanathan ， Jonathan Huang ， Sami Abu-El-Haija，Alexander Gorban，Kevin Murphy，and Li Fei-Fei.在多人视频中检测事件和关键演员。计算机视觉与模式识别，2016。[14] Clint Solomon Mathialagan，Andrew C Gallagher和DhruvBatra。VIP：在图像中找到重要人物。在计算机视觉和模式识别，2015年。[15] 梅丽尔·西班牙和皮埃特罗·佩罗纳。测量和预测对象的重要性。International Journal of Computer Vision，91（1）：59[16] Christian Szegedy ， Scott Reed ， Dumitru Erhan ， andDragomir Anguelov.可扩展的高质量目标检测。arXiv，2014.[17] Yongyi Tang，Peizhen Zhang，Jian-Fang Hu，and Wei-Shi Zheng.集体活动识别的潜在嵌入。在2017年的高级视频和基于信号的监控中。[18] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的在神经信息处理系统的进展，2017年。[19] Limin Wang，Wei Li，Wen Li，and Luc Van Gool.用于视频分类的外观和关系网络。在计算机视觉和模式识别，2018年。[20] Kelvin Xu、Jimmy Ba、Ryan Kiros、Kyunghyun Cho、Aaron Courville 、 Ruslan Salakhudinov 、 Rich Zemel 和Yoshua Bengio。显示、出席和讲述：具有视觉注意的神经图像字幕生成。2015年国际机器学习会议[21] Flood Sung Yongxin Yang ， Li Zhang ， Tao Xiang ，Philip HS Torr，and Timothy M Hospedales.学习比较：用于少数学习的关系网络。在计算机视觉和模式识别，2018年。[22] Vinicius Zambaldi ， David Raposo ， Adam Santoro ，Victor Bapst，Yujia Li，Igor Babuschkin，Karl Tuyls，David Reichert，Timothy Lillicrap，Edward Lockhart，etal.关系型深度强化学习arXiv，2018年。

下载后可阅读完整内容，剩余1页未读，立即下载