没有合适的资源?快使用搜索试试~ 我知道了~
{liuxinchen1, zhangmeng1208}@jd.com, liuwu@live.cn{jingwenchen, cgyan}@hdu.edu.cn, lianli.gao@uestc.edu.cn, tmei@live.com135660通过多尺度时空推理从视频中识别社会关系0刘新辰†,刘武†,张萌†,陈静文§,高连丽¶,严成刚§,梅涛†0† 京东AI研究院,中国北京 ‡ 杭州电子科技大学,中国杭州 ¶中国电子科技大学,中国成都0摘要0从视频中通过多尺度时空推理识别社会关系01. 引言0社会关系是多个个体之间的紧密联系,构成了我们社会的基本结构。从图像或视频中识别社会关系可以使机器更好地理解人类的行为或情感。然而,与图像相比,从视觉内容中发现社会关系(例如亲属关系、友谊等)可以使机器更好地解释人类的行为和情感。现有的研究主要集中在从静态图像中识别社会关系,而忽视了另一种重要的媒体——视频。一方面,视频中的动作和故事情节提供了更重要的社会关系识别线索。另一方面,关键人物可能出现在任意的时空位置,甚至从开始到结束都不在同一张图像中。为了克服这些挑战,我们提出了一种多尺度时空推理(MSTR)框架,用于从视频中识别社会关系。在空间表示方面,我们不仅采用了时间段网络来学习全局动作和场景信息,还设计了三重图模型来捕捉人物和对象之间的视觉关系。在时间域上,我们提出了金字塔图卷积网络,通过多尺度感受野进行时间推理,可以获取视频中的长期和短期故事情节。通过这种方式,MSTR可以在时空维度上全面探索多尺度的动作和故事情节,用于视频中的社会关系推理。在一个新的大规模视频社会关系数据集上进行的大量实验证明了所提出框架的有效性。我们的数据集可在https://lxc86739795.github.io上获取。0夫妻0女性A 男性A0帽子 包0草地0男性A 女性A0帽子 树0割草机0女性A 男性A0草地0站立0微笑0拥抱0户外0同事0女性A0男性A0女性B0桌子0椅子0门0文件0杯子0男性A 女性B0门0女性A0男性A0女性B0门0文件0文件0站立0交谈0写作0会议室0图1.我们如何从视频中识别同事或夫妻?人的外貌、人与人之间的互动以及带有上下文对象的场景是社会关系识别的关键线索。0基于视频的社会关系识别[32],视频场景是一个重要但被社区忽视的前沿课题。它有许多潜在的应用,例如在手机上进行家庭视频搜索[27]和向商店中的客户群体推荐产品[21]。在过去的十年中,从视觉内容中进行社会学分析一直是一个热门领域[27,31]。现有的社会关系识别研究主要集中在基于图像的条件下,算法在单个图像中识别人与人之间的社会关系。人的外貌和面部属性以及上下文对象被用来区分不同的社会关系[26,30,33]。尽管已经发现了社交网络[5]、社区[6]、角色[23,24]等社会关系,但基于视频的场景仍然是一个重要但被忽视的领域。235670群体活动[1,2]在视频或电影中已经被广泛研究,但从视频片段中明确识别社交关系却引起了较少的关注。最近的方法只将基于视频的社交关系识别视为一种常规的视频分类任务[8],它以视频的RGB帧、光流或音频作为输入,并将视频片段分类为预定义的类型[20]。然而,这种常规模型显然过于简化,忽略了人物的外观、人物之间的互动以及带有上下文对象的场景,如图1所示。从视频中识别社交关系面临着独特的挑战。首先,与社交群体发现相比,社交关系在不同场景中更加细粒度和模糊。模型必须通过视觉内容来区分非常相似的社交关系,如朋友和同事,这对于人类来说可能非常困难。此外,与基于图像的社交关系识别相比,人物和对象可以出现在任意帧甚至分离的帧中。这使得连续帧中的人物和对象变化多样。因此,图像方法不能直接应用于基于视频的场景。此外,视频提供了人物或对象在时间域中的动态性,而不仅仅是静止图像。然而,用于区分社交关系的关键动作的位置和持续时间在视频中是不确定的。建模人物的多样动态和社交关系之间的潜在相关性仍然是一个巨大的挑战。为此,我们提出了一个用于视频中社交关系识别的多尺度空间-时间推理(MSTR)框架。多尺度推理是双重的。在空间域中,我们考虑全局线索和语义区域,如人物和上下文对象。特别地,我们采用了Temporal Segment Network (TSN)[28]来从场景和背景中学习全局特征。此外,我们还设计了一个三重图模型来表示人物和对象之间的视觉关系。多尺度空间特征可以为社交关系识别提供补充的视觉信息。在时间域中,我们提出了一个金字塔图卷积网络(PGCN)来对三重图进行时间推理。具体而言,我们在图卷积块中应用多尺度感受野,可以从视频中捕捉长期和短期动态的时间特征。最后,我们的MSTR框架通过空间-时间推理从视频中的全面信息实现了社交关系识别。总之,本文的贡献包括:0•我们提出了一个多尺度空间-时间推理框架,以在空间-时间域中识别视频中的社交关系,利用全局和局部信息。0• 我们设计了一个新颖的三重图模型来表示0人物和对象的视觉关系。通过与TSN结合使用全局特征,我们的框架可以从视频帧中学习多尺度空间特征。0•为了有效地捕捉视频中的长期和短期时间线索,我们提出了一个PGC-N,它使用多尺度时间感受野进行关系推理。0此外,为了验证我们的框架并促进研究,我们构建了一个大规模的视频社交关系数据集,名为ViSR。它不仅包含了超过8000个标有八种常见社交关系的日常生活视频片段,还具有多样的场景、环境和背景。对ViSR数据集的广泛实验表明了所提出框架的有效性。02. 相关工作0视觉内容中的社交关系发现。社会学和计算机视觉的跨学科研究在过去十年中一直是一个热门领域[5, 25, 26,27]。主要研究课题包括社交网络发现[6,31]、关键人物检测[23,24]、多人跟踪[1]和群体活动识别[2]。近年来,从视觉内容中明确识别社交关系引起了研究人员的关注[12, 26, 30,32]。现有方法主要集中在静态图像上。例如,张等人提出了通过卷积神经网络(CNN)从面部图像中学习社交关系特征的方法[32]。孙等人基于社交领域理论提出了一个社交关系数据集,并采用CNN来识别一组语义属性中的社交关系[26]。李等人提出了一个双重注视模型用于社交关系识别,其中第一次注视关注感兴趣的人物,第二次注视应用注意机制来发现上下文线索[12]。王等人提出了将图像中的人物和对象表示为图,并通过门控图神经网络进行社交关系推理[30]。对于基于视频的情况,社交关系识别只被视为一种视频分类任务。例如,吕等人利用时序段网络[28]对视频进行分类,使用视频的RGB帧、光流和音频[20]。他们还构建了一个包含约3000个视频片段的社交关系视频(S-RIV)数据集,具有多标签注释。然而,该方法只考虑了全局和粗糙特征,忽略了视频中的人物、对象和场景。因此,我们提出将人物和对象的空间和时间特征嵌入到三重图模型中,进行社交关系推理。计算机视觉中的图模型。在计算机视觉领域,像素、区域、概念和先验知识可以表示为图,以建模它们之间的关系。3.2. Triple Graphs Model335680视频剪辑0采样帧 三重图0IntraG InterG0POG0金字塔图卷积网络0金字塔图卷积网络0TSN0通过对节点进行池化得到的视频级特征0加权一致性0分类0同事0图2. 多尺度时空推理框架的整体架构。0近年来,机器学习的研究人员通过端到端可训练的网络研究了图中的信息传播,例如图卷积网络(GCN)[4,11]。最近,这些模型已被应用于计算机视觉任务[13, 22,29,30]。例如,Liang等人提出了一种基于超像素构建图的图长短期记忆来传播信息,用于语义对象解析[13]。Qi等人提出了一种3D图神经网络,用于在3D点云上构建k最近邻图,并预测RGBD数据中每个像素的语义类别[22]。Wang等人提出了将视频表示为由视频中的人物和对象构建的时空区域图,并采用GCN来学习动作识别的视频级特征[29]。受到以上研究的启发,我们提出将视频中的人物和对象的行为和互动表示为图,通过新颖的金字塔图卷积网络进行社会关系识别的推理。03. 提出的框架03.1. 概述0多尺度时空框架的整体架构主要包含两个部分,如图2所示。第一部分是三重图结构的构建。该框架以采样为F帧的一个视频剪辑作为输入,以提高效率。为了捕捉感兴趣区域的局部细节,首先使用在MS-COCO数据集[15]上预训练的Mask R-CNN[9]从帧中裁剪出人物和对象。为了建模人物和对象的空间和时间表示,我们为同一个人物建立了一个人内图(IntraG),0为不同的人物建立了一个人际图(InterG),并建立了一个人物-对象图(POG)来捕捉人物和上下文对象的共存关系。采用ResNet[10]来提取人物和对象的空间特征。第二个模块采用PGCN在每个图中进行信息传播进行关系推理。在PGCN中,探索了多尺度的时间感受野,以学习不同时间范围内的动态变化。将节点级特征融合成每个图的归一化图级表示。此外,还利用全局视频分类网络(如TSN [28]或T-C3D[16])来学习全局特征,以全帧作为输入。最后,通过整合TSN的全局特征和PGCN的推理特征来预测视频中的社会关系。接下来,我们将介绍三重图模型的构建细节和PGCN的关系推理。0通过观察视频中的人物行为、人物之间的互动以及人物与场景中的上下文对象的共存,我们可以识别出视频中的社会关系,如图1所示。图模型已被证明可以有效地表示视觉内容中对象的空间、时间、概念或相似关系[17, 18,29]。因此,我们设计了一个三重图模型,其中包括三种类型的图,用于建模视频中人物和对象的视觉关系,如图2所示。为了构建三重图,我们首先通过Mask R-CNN[9]从采样的F帧中检测出人物和对象的边界框,分别表示为P = {p1, p2, ..., pN}和O = {o1, o2, ...,oM}。通过置信度分数,我们保持每个视频中固定的N个人物和M个对象,以平衡准确性和效率。每个边界框的特征被提取出来。W(l)1W(l)2...W(l)kAdjacent Matrix ANodeFeatures X(l)Network Parameters W(l)NodeFeatures X(l+1)Stride S H WFigure 3. Pyramid Graph Convolution Block with multi-scale re-ceptive fields in the temporal domain. Here we use A to representthe normalized adjacent matrix ˜D− 12 ˜A ˜D−X(l+1) = σ( ˜D− 12 ˜A ˜D−is the output of the (l − 1)-th layer, W (l) ∈ Rd×d′ isthe learned parameters, and σ(·) is a non-linear activationfunction like ReLU. In particular, in our social relationreasoning framework, the adjacent matrixes of the TripleGraphs are As, Ad, and Ao as defined in Section 3.2. Theindexes of adjacent matrixes are arranged by the tempo-ral order of the nodes in a video, by which the tempo-ral information is implicitly embedded in the built graph-s. X(0) = [f(x1), f(x2), ..., f(xN)]T is the initial featurematrix, where f(xi) is the column vector extracted fromthe nodes {xi}N like persons or objects in videos. The finaloutputs of the GCNs are updated features of nodes, X(L),in the graphs, which can be aggregated into a video levelfeature vector for social relation prediction.Pyramid Graph Convolutional Network. GCN per-435690由主干网络f(∙),即ResNet[10]提取的边界框被采用作为构建图的节点,而每个节点的特征将在图卷积中用于社交关系推理。个人内部图。我们通过个人内部图(IntraG)来建模同一人物在视频中的外观变化。IntraG由一个邻接矩阵As∈RNp×NP表示,其中行和列的索引对应于视频中边界框的时间顺序。为了匹配不同帧中的同一人物,我们测量每对人物(pi,pj)在两个相邻帧中的视觉相似度。因此,邻接矩阵As由以下方式填充:0As(pi,pj)=1,如果dist(pi,pj)<τ,否则为0。(1)0||f(pi)||∙||f(pj)||是pi和pj的余弦距离,τ是一个超参数。人际图。为了捕捉视频中不同人物之间的交互作用,我们通过估计一个帧内和其相邻帧中的人物之间的距离来构建人际图(InterG)。对于InterG的邻接矩阵Ad∈RNp×NP,如果pi和pj是同一帧中的两个人物,则直接设置Ad(pi,pj)=1。对于相邻帧中的pi和pj,我们设置0Ad(pi,pj)=1,如果dist(pi,pj)≥τ,否则为0。(2)0其中dist(pi,pj)也是pi和pj的余弦距离。人物-物体图。场景中的上下文对象对于社交关系识别至关重要。然而,由于镜头变化,不同帧中的人物和上下文对象可能会发生变化,这使得通过一个视频捕捉人物和上下文对象之间的交互变得困难。因此,与IntraG和InterG不同,人物-物体图(POG)被设计为模拟人物和上下文对象的共存关系。POG的邻接矩阵Ao∈R(Np+No)×(NP+No)表示每个人物与存在于同一帧中的对象之间的关系。因此,如果pk和ol来自同一帧,则设置Ao(pk,ol)=1,否则设置Ao(pk,ol)=0。为此,建立三元图来表示视频中人物和物体的视觉关系,即每个人物的外观和动作,不同人物之间的相互作用以及人物和物体的共存。特别地,邻接矩阵的索引对应于视频中边界框的时间顺序,通过这种方式,时间信息隐含在图中。接下来,我们介绍如何通过金字塔图卷积网络从嵌入在图中的视觉特征进行社交关系推理。0尺度10尺度20尺度k0×0×0×0×0×0×0×0×0为了简单起见,取2。03.3.金字塔GCN推理0图卷积网络。传统的卷积神经网络通常在图像或视频上应用2D或3D滤波器,从低级空间抽象出视觉特征到高级空间[10]。相比之下,图卷积网络(GCN)通过在图中从节点到其邻居进行消息传播来执行关系推理[11]。因此,我们可以将GCN应用于三元图上以实现社交关系推理。如[11]所述,给定一个图,其中有N个节点,每个节点都有一个d维特征向量,一个图卷积层的操作可以表示为:02X(l)W(l)),(3)0535700表1. 基于领域理论[3]的ViSR数据集中社交关系的描述。0领域 关系 示例0依恋关系 父母-子女 祖父母-孙子女0交配夫妻 丈夫-妻子 男朋友-女朋友0层级权力 领导-下属 老师-学生 队长-队员0服务乘客-司机 顾客-服务员0互惠关系 兄弟姐妹0朋友一般场景中的朋友0联盟群体 同事 同学 队友0对手 敌人 竞争对手 争议方0GCN在时间域上对一个图中的所有节点进行操作,以及视频的完整时间范围,这意味着GCN可以捕捉到时间域中的全局视图。然而,社交关系识别的关键因素,例如一个人的特定动作可能出现在局部时间位置,这可能会被不重要的信息所淹没。因此,我们设计了金字塔图卷积网络(PGCN),通过金字塔形状的时间感受野来学习长期和短期信息。0图3显示了PGCN中一个金字塔图卷积块的结构。每个块包含多个具有不同感受野的并行分支。尺度1是标准的GCN,它对整个邻接矩阵进行图卷积,并覆盖图中的所有节点。尺度2是具有较小时间感受野的图卷积的示例,而尺度K是更一般的说明。对于每个尺度,所有滑动窗口的激活被聚合成一个具有与标准GCN输出相同形状的特征矩阵。通过沿着邻接矩阵的对角线滑动感受野,模型可以学习从视频开始到结束的相对短期特征。最后,多个尺度的输出通过平均池化合并,生成下一个PGCN层的特征矩阵X(l+1)。金字塔图卷积块是端到端可微分的,可以插入到其他基于视频的GCN模型中,用于动作识别或视频分类[29]。0在我们的实现中,我们堆叠了两个金字塔图卷积层,其中参数矩阵W(l)的尺度为2048×512和512×128。在每个金字塔图卷积块中,我们采用两个尺度的滤波器。第一个尺度有N×N个滤波器,而第二个尺度有N个滤波器。04.在PGCN的前向传播之后,最终的特征矩阵X(L)∈RN×128被聚合成一个128维的视频级特征向量。视频级特征被输入到一个全连接层中,用于将视频分类为一个社交关系类别。在我们的框架中,金字塔时间推理由PGCN分别在IntraG、InterG和POG上执行。三个分支在每个分支的softmax层之后生成加权一致性。此外,为了学习更多关于场景、环境和背景的全局视觉信息,我们采用了0TSN [ 28]直接将视频中的所有采样帧作为输入。最后,通过加权融合将PGCN和TSN的得分结合起来进行最终预测。04. 实验04.1. ViSR数据集0现有的社交关系识别数据集主要基于静态图像[ 12 , 26 , 32]。这些数据集中的社交关系是根据不同的心理学或社会学理论定义的。例如,[ 32]中的社交关系数据集主要关注心理或情感特征。因此,该数据集中的图像被注释为具有表情等面部属性。照片相册中的人(PIPA)数据集[ 26]和社交环境中的人(PISC)[ 12]数据集都是基于社会学理论定义的。PIPA的标签基于社会领域理论[ 3],其中社会生活被分为五个领域和16个社交关系。PISC数据集包含了日常生活中几种常见的社交关系,这些关系具有三个粗粒度关系和六个细粒度关系的层次结构。然而,用明确的社交关系标记的基于视频的数据集很少。其中最大的一个是社交关系视频(SRIV)数据集,其中包含从69部电影中收集的约3000个视频片段[ 20 ]。它被注释为与[ 32]中的社交关系特征类似的八个主观关系和从[ 3]中的基于领域的关系派生的八个客观关系。SRIV存在三个主要限制:1)数据集的容量相对较小,对于模型的可扩展性尤其是对于CNN而言;2)视频通过多个标签进行标记,使得视频中的关系模糊不清;3)社交关系非常不平衡,尤其是对于客观关系。为了促进相关研究并验证我们提出的框架,我们构建了一个大规模且高质量的基于视频的社交关系数据集,称为ViSR。对于我们的数据集,我们根据基于领域的理论[ 3]定义了八种类型的社交关系,如表 1所示。构建过程包括三个主要步骤:1)我们首先收集了200多部类型各异的电影,如冒险、家庭、喜剧、戏剧、犯罪、浪漫、动作、传记,但排除了幻想和科幻等超现实类型。2)然后,我们请十个标注员从这些电影中分割视频片段。每个片段的长度限制在10到30秒之间。一个片段中必须存在至少两个有互动的人物。一个片段中的场景应该是固定的。通过这种方式,我们获得了约10,000个候选视频片段进行注释。3)最后,每个候选视频片段由至少五个标注员进行最大投票标注以保证质量。如果一个片段的所有标签都少于三票,则该片段将被丢弃。通过精心的注释,ViSR具有几个特点。首先,数据集包含超过8,000个有效的视频片段,这使得算法比现有数据集更具可扩展性。此外,由于源电影的多样性,我们的数据集不仅涵盖了日常生活中大多数常见的社交关系,并且具有平衡的类分布,如图 4所示,还包含了各种场景、环境和背景,使得ViSR成为一个具有挑战性的数据集。此外,如图 5所示,大多数片段的长度限制在30秒内,以保持稳定的场景,从而减少视频中关系的模糊性。图 6显示了我们数据集中一些视频片段的示例。在实验中,我们按照比例7:1:2将数据集随机分为训练、验证和测试子集。计算每个关系类别的top-1准确率和所有类别的平均精确度(mAP)以评估方法的性能。 00.050.10.150.20.25mance, action, biography but exclude surreal types like fan-tasy and Sci-Fi. 2) We then ask ten annotators to segmentvideo clips from the movies. The length of each clip is lim-ited in 10 ∼ 30 seconds. At least two persons that haveinteractions must exist in one clip. The scene in one clipshould be fixed. By this means, we obtain about 10,000candidate video clips for annotation. 3) At last, each can-didate video clip is labeled by at least five annotators bymaximum voting to guarantee the quality. The clip will bediscarded if all its labels are less than three votes.Through elaborate annotation, the ViSR has several fea-tured properties. First of all, the dataset contains more than8,000 valid video clips, which can make the algorithmsmore scalable than existing datasets. Moreover, due to thevariety of source movies, our dataset not only covers mostcommon social relations in daily life with balanced classdistribution as shown in Figure 4, but also contains variousscenes, environments, and backgrounds, which makes ViS-R a challenging dataset. Furthermore, as shown in Figure 5,the length of most clips is limited in 30 seconds to keepthe stable scenes, which reduces the ambiguity of relation-s in videos. Figure 6 shows some examples of video clipsin our dataset. In the experiments, we randomly split thedataset into training, validation, and testing subsets by theratio 7 : 1 : 2. The top-1 accuracy on each relation classand the mean Average Precision (mAP) over all classes arecalculated to evaluate the performance of methods.Leader-subordinateColleagueServiceParent-offspringSiblingCoupleFriendOpponent635710图 4. ViSR数据集中视频片段长度的统计。0比例0类型0图 5. ViSR数据集中社交关系的分布。04.2. 实现细节0本节介绍了Triple Graphs的构建细节和网络的训练策略。0图6. ViSR数据集中的一些视频示例。0Triple Graphs Building.三重图模型的构建如3.2节所述。我们将输入视频均匀分割为20个片段,其中随机采样一帧以获取一个视频的20帧。从采样帧中,我们采用MaskR-CNN获取最多40个人的边界框和20个物体的边界框。对于IntraG和InterG的构建,人物相似度阈值τ在Equ.1和Equ.2中设置为0.2。网络训练。在我们的框架中,PGCN和TSN分别进行训练。在每个金字塔图卷积之后,构建了三个PGCN,分别是IntraG、InterG和POG,它们分别在训练集上进行预训练,学习率为lr =0.01。经过30个epoch后,这三个PGCN一起进行120个epoch的训练,其中学习率从0.001开始,每30个epoch乘以0.1。TSN的训练采用[28]中的标准策略。段数设置为20。基本学习率为0.001,每20个epoch乘以0.1,直到80个epoch。对于测试,PGCN和TSN的结果的融合权重分别为0.6和0.4。04.3. 与最先进的方法比较0为了验证所提出的金字塔时间推理框架的有效性,我们在ViSR数据集上将其与几种最先进的方法进行了比较。方法的详细信息如下:Top-1 AccuracyLeader-Sub.ColleagueServiceParent-offs.SiblingCoupleFriendOpponentmAPGRM [30]48.676.670.004.170.6730.1316.69TSN-Spatial [20]55.4842.9330.0035.2034.8339.7848.7537.0742.38TSN-ST [20]41.0533.3330.0032.8345.7829.1763.7632.8743.23GCN56.1649.4627.1436.8041.5734.4139.8050.0043.46PGCN54.1154.8925.7140.8034.8333.3345.2748.2844.73MSRT57.5351.0930.0045.6039.3338.7153.2347.4147.75ModuleTop-1 AccuracyIntraGInterGPOGLeader-Sub.ColleagueServiceParent-offs.SiblingCoupleFriendOpponentmAPGCN✓49.3244.5725.7138.4038.2026.8844.7843.9741.02✓✓52.7448.9125.7138.4042.7029.0342.2944.8342.48✓✓✓56.1649.4627.1436.8041.5734.4139.8050.0043.46PGCN✓52.7452.1725.7145.6040.4534.4138.8140.5243.07✓✓53.4251.6327.1443.2038.2039.7841.2940.5243.65✓✓✓54.1154.8925.7140.8034.8333.3345.2748.2844.73735720表2. 与最先进的方法比较。0表3. 对所提出框架的消融研究。01) Temporal Segment Network using Spatial features(TSN-Spatial) [ 20 ] .这种方法仅使用视频的RGB帧作为输入,并采用TSN学习社交关系识别的空间特征。我们使用[20]中的参数和训练策略。我们将其数据集上的原始多标签分类设置修改为我们数据集上的单标签分类任务。2) Temporal Segment Networkusing Spatial- Temporal features (TSN-ST) [ 20 ] .这种方法与TSN-Spatial使用相同的框架,只是光流也被用作TSN的输入,以从视频中学习空间和时间特征。实现与[20]中的相同。由于本文主要关注基于视觉的方法,我们不使用任何音频信息,如[20]中所述。因此,我们将此模型视为SRIV数据集上的最先进方法。3) Graph Reasoning Model(GRM) [ 30 ] . 这是在两个公共数据集PIPA [ 26 ]和PISC [12]上进行基于图像的社交关系识别的最先进模型。我们将GRM应用于视频中的每一帧。通过后期融合将所有采样帧的结果集成为基于视频的社交关系预测。4) Graph ConvolutionNetworks (GCN) .在这个模型中,我们只采用标准的GCN对TripleGraphs进行推理。5) Pyramid Graph ConvolutionNetworks (PGCN) . 在0在这个模型中,我们将时间金字塔分支插入到GCN的每个图卷积层中。6)多尺度时空推理(MSTR)。这是完整的金字塔时空推理框架,采用PGCN从三重图和TSN中学习人物的多尺度动态特征,最后通过PGCN和TSN的加权融合实现社交关系推理。这些方法的结果列在表2中。我们首先发现,基于图像的方法GRM在基于视频的数据集上获得了较差的结果。原因是基于图像的方法需要在一张图像中存在两个或多个人物,而在基于视频的情况下,一帧中可能只有一个人物。因此,图像方法不能直接应用于基于视频的场景。此外,通过比较基于全局特征的模型(如TSN-Spatial和TSN-ST)和基于图的方法(如GCN和PGCN),我们可以发现全局信息和局部区域对于社交关系识别都是有效的。总体上,GCN和PGCN更好,因为人物和对象的详细外观和动作可以提供更重要的特征。此外,TSN和PGCN的组合,即MSTR获得了最佳性能,这证明了多尺度空间和时间表示的互补效果。 30.0035.0040.0045.0050.000.100.120.140.160.180.20 35.0040.0045.0050.005101520835730mAP0τ0GCN PGCN0图7. 构建图时不同τ下的结果。0mAP0帧数0GCN PGCN MSTR0图8. MSTR在不同帧数下的结果。04.4. 消融研究0三重图的重要性本节我们探讨了每个图以及金字塔图卷积块在PGCN中的影响。表3列出了使用不同图组合的GCN和PGCN模型的结果。从结果可以看出,PGCN的整体准确率高于GCN,这表明多尺度感受野可以从长期和短期范围内捕捉到有用的特征。此外,对于每种网络架构,通过引入IntraG、InterG和POG,mAP都有所增加。这证实了行为、人际互动以及人物与上下文对象的共存对于社交关系识别的重要性。我们还观察到三个图对不同的社交关系有不同的影响。例如,POG对工作关系(如领导-下属和同事)有显著提升。这反映了办公室或会议室等工作场景中上下文对象的重要性。超参数分析我们探讨了两个超参数的影响,即采样帧数F和阈值τ(见第3.2节)。我们首先将τ设置为0.1到0.2,用于构建GCN和PGCN的图。结果如图7所示。曲线在不同的τ下保持稳定,表明我们的三重图模型具有鲁棒性。对于采样帧数,我们比较了F=5、10、15、20时GCN、PGCN和MSTR的结果。图8显示,mAP随着输入帧数的增加而增加。这表明我们的图不仅从更多帧中提取了更多有用信息,而且对于额外数据中的噪声也具有鲁棒性。0图9. MSTR框架的归一化融合矩阵。04.5. 讨论0从实验结果可以看出,从视频片段中明确识别社交关系是一项具有挑战性的任务。图9显示了我们MSTR框架的混淆矩阵。仅仅使用视觉内容很难区分非常相似的关系。例如,仅仅关注视频中的人物,朋友、兄弟姐妹和服务可能会非常模糊。在这种情况下,场景、背景和物体等上下文可能对于关系推理更加重要。目前,我们只是简单地采用标准的TSN模型来学习上下文线索。在未来的工作中,应进一步挖掘上下文信息以用于视频中的社交关系识别。05. 结论0在本文中,我们提出了一个多尺度时空推理框架来识别视频中的社交关系.MSTR可以学习到利用空间和时间域中的多尺度特征的鲁棒表示. 为了表示人和物体的外观和动作,我们提出了一个三重图模型来捕捉节点的视觉关系.通过结合TSN学习到的全局特征,我们的框架可以从视频帧中学习到多尺度的空间特征.为了学习视频中的长期和短期时间线索,我们提出了一个金字塔图卷积网络,它使用多尺度时间感受野进行关系推理.在一个大规模和高质量的视频社交关系数据集上进行了大量实验, 结果证明了所提出框架的有效性.935740参考文献0[1] Alexandre Alahi, Kratarth Goel, Vignesh Ramanathan,Alexandre Robicquet, Fei-Fei Li, 和 Silvio Savarese. SocialLSTM: 在拥挤空间中预测人类轨迹. 在CVPR上, 页961-971, 2016.20[2] Timur M. Bagautdinov, Alexandre Alahi, Franc¸ois Fleuret,Pascal Fua, 和 Silvio Savarese. 社交场景理解:端到端的多人动作定位和集体活动识别. 在CVPR上, 页3425-3434,2017. 20[3] Daphne Blunt Bugental. 社交生活算法的获取:一种基于领域的方法. Psychological Bulletin, 126(2):187, 2000.2, 50[4] Micha¨el Defferrard, Xavier Bresson, 和 PierreVanderheynst. 具有快速局部化谱滤波的图卷积神经网络.在NIPS上, 页3837-3845, 2016. 30[5] Lei Ding 和 Alper Yilmaz. 学习电影角色之间的关系:一种社交网络视角. 在ECCV上, 页410-423, 2010. 1, 20[6] Lei Ding 和 Alper Yilmaz. 从视觉概念中推断社交关系.在ICCV上, 页699-706, 2011. 1, 20[7] Pedro F. Felzenszwalb 和 Daniel P. Huttenlocher.高效基于图的图像分割. International Journal of ComputerVision, 59(2):167-181, 2004. 30[8] Chuang Gan, Boqing Gong, Kun Liu, Hao Su, 和 LeonidasJ. Guibas. 用于自我监督视频表示学习的几何引导卷积神经网络.在CVPR上, 页5589-5597, 2018. 20[9] Kaiming He, Georgia Gkioxari, Piotr Doll´ar, 和 Ross B.Girshick. Mask R-CNN. 在ICCV上, 页2980-2988, 2017. 30[10] Kaiming He, Xiangyu Zhang, Shaoqing Ren, 和 Jian Sun.用于图像识别的深度残差学习. 在CVPR上, 页770-778, 2016. 3, 40[11] Thomas N. Kipf 和 Max Welling.带有图卷积网络的半监督分类. CoRR, abs/1609.0
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 基于Python和Opencv的车牌识别系统实现
- 我的代码小部件库:统计、MySQL操作与树结构功能
- React初学者入门指南:快速构建并部署你的第一个应用
- Oddish:夜潜CSGO皮肤,智能爬虫技术解析
- 利用REST HaProxy实现haproxy.cfg配置的HTTP接口化
- LeetCode用例构造实践:CMake和GoogleTest的应用
- 快速搭建vulhub靶场:简化docker-compose与vulhub-master下载
- 天秤座术语表:glossariolibras项目安装与使用指南
- 从Vercel到Firebase的全栈Amazon克隆项目指南
- ANU PK大楼Studio 1的3D声效和Ambisonic技术体验
- C#实现的鼠标事件功能演示
- 掌握DP-10:LeetCode超级掉蛋与爆破气球
- C与SDL开发的游戏如何编译至WebAssembly平台
- CastorDOC开源应用程序:文档管理功能与Alfresco集成
- LeetCode用例构造与计算机科学基础:数据结构与设计模式
- 通过travis-nightly-builder实现自动化API与Rake任务构建
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功