动作识别中基于对象关系推理图的建模与推理方法

149 浏览量更新于2023-10-25 收藏 2.04MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

20133→→→面向动作识别的对象关系推理图欧阳军，李密，陈振中武汉大学遥感与信息工程学院{欧阳军，milirs，zzchen} @ whu.edu.cn摘要由于视频中对象的属性以及它们之间的关系是不断变化的，因此现有的方法主要采用对象级图或场景图来表示动态但是忽略了直接对细粒度的关系转换进行建模。在本文中，我们提出了一个对象关系推理图（OR2 G）的推理视频中的动作。通过结合对象级图（OG）和关系级图（RG），OR2G能够同时捕捉对象的属性变迁和推理对象之间的关系变迁.此外，一个图聚集模块（GAM）的研究，通过应用多头边到节点的消息传递操作。GAM将关系节点的信息反馈到对象节点，增强了对象级图和关系级图之间的耦合视频动作识别实验表明，我们的方法相比，国家的最先进的方法的有效性。1. 介绍动作识别是视频理解领域的基本任务之一[8]，它仍然是视觉研究界的一个活跃话题。动作识别的目标是根据对象的状态识别视频中的活动由于难以通过视频的全局表示来捕获对象过渡[2，25]，因此基于对象的动作识别引起了越来越多的关注。基于对象的方法[30]主要将对象表示为图的节点，通过对象级的图推理然而，这些方法往往不能显式地对对象之间的交互进行建模。为了在动作识别中考虑对象交互，当前的努力[14]根据事件分割理论[18]分解视频中的对象和关系，其中事件可以被划分为一致的* 通讯作者：陈振中。图1.视频中细粒度关系转换的插图。两个例子，不同的动作标签相同的主体-客体对，但不同的关系转换。组或表示为分层结构。然而，这些方法表示动态的对象和关系的聚集他们从场景图，并忽略了建模和推理细粒度的关系转换。细粒度的关系转换在区分动作类别，特别是具有相似特征的动作方面起着重要作用。图1示出了类似视频内容的两个示例。在这两种情况下，主体是人，客体是椅子和枕头。但是，主体与客体之间的关系转换存在着细微的差异，从而导致了不同的行为。对于人-椅>对之间的视觉关系，当过渡是但是，当过渡是对于人-枕头>对之间的视觉关系，当过渡是不过，在'控股'转型中20134→→‘‘因此，建模跨关键帧的独立主体-客体对的关系转换它帮助网络以类似人类的方式对视频动作进行推理，从而增强网络的可解释性，并获得更精确的动作类别。在本文中，我们提出了一个对象 - 关系推理图（OR2G）来建模视频中对象和关系的细粒度过渡，如图2所示。在此基础上，我们将多个对象和关系分解为独立的项，并进一步对动作进行了详细的分解。首先，针对对象属性迁移的细粒度建模，提出了一种以参与者为中心的对象级图（OG）。通过以参与者为中心的方式对主体和对象之间的依赖关系进行建模，对象级图捕获了关于对象交互的更多关键信息。其次，考虑到主体与客体之间关系转换的影响，提出了一种关系级图（Relation-Level Graph，RG）模型来描述时间维上细粒度关系之间的依赖关系。最后，为了增强两个图之间的耦合，我们提出了一个图聚集模块（GAM）。通过多头注意边到节点的消息传递操作，将关系级图的信息反馈到空间维的对象级图。我们的贡献可归纳如下：针对区分具有相似特征的行为这一挑战性问题，提出了一种基于OR2G的细粒度属性和关系迁移模型。通过对象级图和关系级图的推理，OR2G通过属性和关系的细微变化更清楚地解释了动作的发生，并为各种复杂动作创建了可解释的表示。提出了一种采用多头注意边到节点消息传递操作的图聚集模块，使两个图之间的耦合性更强。关系层图的信息在空间维度上反馈到对象层图，使得关系迁移信息得到更合理的利用。本文其余部分的结构如下。第二节概述了相关工作。第3节介绍了我们提出的方法。第4节提供了在公共行动识别数据集上的实现细节和实验结果，随后是第5节中的结论。2. 相关工作在过去的几十年里，动作识别在计算机视觉界引起了广泛的关注。在这图2.提出了对象关系推理图（OR2G），通过细粒度的属性和关系迁移建模来区分具有相似特征的行为。第二部分主要研究了动作识别、图结构和视觉推理。2.1. 动作识别大多数早期的动作识别工作都集中在设计手工制作的功能上，例如改进的密集轨迹（IDT）[27]。这些策略仍然被广泛使用，并且在不同的视频相关任务中显示出非常有竞争力的结果。近年来，由于深度学习的巨大进步，大量基于CNN的方法被提出并超越了这些传统方法。现有的用于动作识别的深度学习方法可以分为两种类型。第一个是基于在双流网络[6，7，23，28，32]上，它将RGB帧和光流作为每个流的输入Simonyan等人[23]首先提出了用于动作识别的双流ConvNet架构。Wang等人[28]提出了一种用于双流结构的稀疏时间采样策略，第二种类型是基于3D卷积神经网络（3DCNN）[2，25，35]，其设计用于联合捕获时空特征用于动作识别的第一个3D CNN是C3D [25]，它将空间和时间特征一起建模。通过将非常深的图像分类Con-vNets的过滤器和池化内核膨胀到3D，Carreira等人。[2]提出了I3 D网络来学习无缝时空特征。最近，Kon-dratyuk et al.[16]使用神经结构搜索来获得具有最佳动作识别性能的网络结构。2.2. 视频中的图结构当用于识别动作时，利用两种类型的图结构：基于对象的图和基于对象的图。构造基于骨架的图，以基于固定的图结构来对骨架信息进行建模。Yan等人[36]将图卷积操作引入到基于骨架的动作识别中，并提出了一种新的时空图卷积网络，用于自动从骨架数据中学习空间和时间模式。Cheng等人[4]提出了一种移位图，··20135图3. OR2G的整体架构首先，从关键帧中的对象位置、对象类别和视觉关系类别中提取视觉、空间和语义特征，构建图中的节点。其次，分别在对象级和关系级细化两个图的节点特征。然后，反馈关系级图的信息通过图聚集模块将所述对象级图映射到所述对象级图。最后，将三个模块的节点信息连接起来，以学习视频的表示，用于动作识别任务。卷积网络将新颖的移位图操作与轻量级逐点卷积相结合，用于基于骨架的动作识别。基于对象的图用于非基于骨架的动作识别，其中节点表示视觉场景中的对象或区域。 Wang et [30]通过将视频表示为时空区域图来捕获重要线索，然后使用图卷积网络（GCN）[15]来执行人-对象和对象-对象关系的长距离Herzig等人[10]通过从具有空间和时间层次的几个对象间图导出的分解图嵌入来对视频上下文进行建模。2.3. 视觉推理对于视频中的视觉推理，方法可以分为两类，框架级推理和对象级推理。帧级推理在视频帧之间进行关系推理。例如，Zhou et al.[38]引入了一个可解释的模块来学习和推理视频帧之间的时间依赖性。Huang等人[12]提出了一个基于图的时态推理模块来学习动作片段之间的关系。 Zhang等人[37]提出了一种可学习的时间关系推理图，用于同时捕捉区域间的外观特征和视频序列间的时间关系。与帧级推理不同，对象级推理依赖于对象级图来建模视频中对象或区域之间的交互。巴拉德尔等[1]将对象关系网络引入动作识别任务，并提出了一种新的模型，在视频中实现对象级推理。Sun等人。[24]提出了一种弱监督的以行动者为中心的关系网络，以积累行动分类的成对关系信息。 Chen等人[3]提出了一种通过全连通图在区域之间进行推理的方法，并将节点特征投影到坐标空间。Zhuo等人[39]将场景图生成方法集成到视频动作识别框架中。Wu等人。[34]构建了一个对象级图，通过图卷积网络捕获演员之间的外观和Materzynska等人[20]提出了一种时空交互网络，该网络对以对象为中心的特征进行操作，并执行空间交互推理，以获得组合动作识别中的分类决策。3. 方法为了对视频中的属性转换和关系转换进行推理，我们根据事件分割理论将动作分解为一系列的对象和关系，并提出了一种用于动作识别的对象-关系推理图（Object-RelationReasoningGraph，OR 2G）。整体架构的建议OR2 G显示在图3.它主要由对象级图、关系级图和图聚集模块三部分组成3.1. 对象级图推理对象级图中的节点表示视频帧中的人或对象，我们将其称为人20136我我我.−.−Sij0，否则RRR不我我我不我我我不11节点或对象节点。通过构建对象级图，得到人节点和对象节点之间的关系，以及对象节点的属性为了获得关于对象的足够信息，使用各种高级特征。第一个是ResNet [9]提取的视觉特征vO，第二个是3.2. 层次图推理关系级图中的节点表示主体和对象之间的关系，我们将它们称为关系节点。关系级图的功能是获取关系节点的细粒度关系变迁iO与对象级图类似，我们也使用了两种通过将对象类别嵌入到语义特征空间中而获得语义特征si的位置和对象的类别信息由数据集提供或由微调的Faster R-CNN提取[21]。对象节点的属性通过将两个特征连接为x O= [v O，s O]来获得。在提取节点信息之后，在节点之间添加边以构建图。考虑到信息-关系级图的高级特征。一种是使用相对空间位置描述符提取的主体和对象的空间特征spR与视觉特征和语义特征不同，空间特征是一种相对特征，表示两个包围盒的相对位置为了获得包围盒的相对空间特征，我们采用盒回归的思想[11]，其中相对空间特征spR为在空间和时间维度上，我们增加了两个图中的边首先，在同一帧中的人节点和物节点之间添加空间边，空间邻接矩阵可以公式化为：定义为：spR=[n（bi，bip）;n（bi，bip）; n（bi，bi p）;n（bip，bip）;iou（bi，bp）; dis（bi，bp）]我（四）AO =.1，oi/oj=（一）其中bp是对象的边界框。bi是边界-物体的盒子bip是bi和bp的并集。（bi，bp）是回归边界框b的框delta我到BP。其中oi和oj分别表示节点i和j的对象类别。 t i和t j表示对象所属的视频关键帧。由于动作是基于动作主体的，我们构建了一个以角色为中心的对象级图，其中心节点是人节点。在每个相同的关键帧中，对象节点仅连接到人节点，而在不同的关键帧之间，人节点和对象节点仅通过时间边连接到它们自己。时间邻接矩阵可以公式化为：dis（bi，bp）和iou（bi，bp）是归一化距离，我和你之间的爱，我尊重你。另一个是语义特征smR，它是将主体和客体之间的视觉关系范畴嵌入到语义特征空间中得到的。视觉关系类别标签由数据集或微调的视觉关系检测网络提供[11，19]，如第4.1节所述。通过将两个特征连接为xR=[spR，smR]来获得关系节点的特征。OTij =1，oi=oj且titjT10，否则（二）我们在关系节点之间添加时间边，在相邻帧处的相同主体-对象对以评估关系转变，其可以被公式化为：其中T1是相邻帧之间的距离的阈值。我们将空间和时间边缘通过直线RTij =1，ri=rj且ti tjT20，否则（五）组合以生成对象级图的总体邻接矩阵直接组合的计算公式为：AO=AO其中Ri和Rj表示构成视觉关系的主体-客体对。关系级图的计算公式22ij Sij1Tij1（三）ˆ−ˆˆ−GO=σ（D<$O−2A<$OD<$O−2XOWO）G=σ（DTATDTX WT）（6）其中AR是时间邻接矩阵AR，其中，OR表示OR运算。AO是整体广告连接IN。DR是AR的度矩阵。XR是联系我们对象级图的雅可比矩阵，A是具有添加的自连接IN的邻接矩阵AO。DO是AO的度矩阵。XO是图中对象节点的输入特征WO是层的权重矩阵。一旦图被构造，节点信息通过图卷积操作来更新。图中关系节点的输入特征。WR是层的权重矩阵。3.3. 图形聚合模块对象级图负责对象节点信息的传递和推理，关系级图负责对象节点信息的传递和推理。一一ORRR20137pppE我×我我我我1ppp我我Σ×VK对关系节点的信息进行查询和推理然而，这两个图仍然是相对独立的，不相互影响.为了使这两个图更耦合，我们提出了一个具有多头注意边到节点消息传递操作的图聚集模块。通过这种方式，关系级图的信息在空间维度上反馈到对象级图。在关系级图中，每个节点的信息对应于对象级图中每条边的信息，因此我们将关系级图的节点嵌入图聚合模块实际上是根据关系级图更新对象级图在一般的图卷积网络中，边到节点的消息传递操作[11]可以公式化为：其中h是头的数量，GA是中心节点的更新嵌入，GR是连接到节点p的所有边的特征矩阵，dp是边的数量连接到人节点，WA是输出嵌入更新的中心节点、更新的对象节点和对象级图的输出被连接和映射以生成图聚合模块的整个输出该过程可以被公式化为：GA=fe（[GA，GR，GO]）（10）3.4. 多类动作识别在执行时空图卷积之后，所有更新特征被重新排列成三个x′=f（1iedi（7）eij∈E3D特征，即，对象级特征、关系级特征和聚合特征。两个要素的高度和通道数等于其中x′i是更新后的节点嵌入。表示边集。 eij是对象节点i和j之间的边嵌入。di是连接到节点i的边的数量。是边和节点之间的映射。该方法在更新每帧边嵌入的中心节点（人节点）时，针对对象级图中特殊的以角色为中心的结构，提出了一种多头注意边到节点的消息传递操作.在以角色为中心的图中，每个对象节点只有一条边连接到它，而每个子节点有多条边连接到它。根据等式7、每个对象节点只被一个连通的边嵌入更新，而有多个边嵌入帧和更新特征的尺寸。对象级特征的宽度等于每帧中对象节点的数量，而关系级特征的宽度等于每帧中关系节点的数量。重新排列的特征由若干卷积层和池化层处理以获得1维表示gO、gR和gA，它们分别包含OG、RG和GAM的信息此外，视频由预训练的具有非局部块的I3 D（I3D-NL）网络处理，以获得另一个1d维全局特征gG.然后将这些特征连接在一起，如gi=[gO，gR，gA，gG]用于动作识别。的信心我我我反馈给具有相同权重的人节点嵌入。然而，在多标签动作识别任务中，每个主体-对象对的重要性对于不同的动作而变化。因此，在本节中，我们基于多头注意机制[26]优化了边缘到节点的消息传递操作，该机制受到自注意机制的启发，并且也被描述为从Query（Q）到Key（K）-V值（V）的映射。多头注意力机制中的每个头部通过参数矩阵WQ、WK、WV线性地变换Q、K和V。该过程可以被公式化为：QWQ（KWK）T头i（Q，K，V）=softmax（ kd）VW（8）其中i是头的索引，并且每个头的参数矩阵不被共享。dk是K的维数。根据等式如图7和图8所示，每个帧中的个人节点的更新可以公式化为：每个类是yi= sigmoid（Wfg i），其中Wf是映射交互嵌入以匹配动作类别的嵌入矩阵。在训练中使用二进制交叉熵损失4. 实验4.1. 实施细节数据集。Charades数据集包含9，848个视频，平均长度为30秒。有157个动作类，多个动作可以同时发生。Action Genome数据集[14]基于Charades数据集进行注释。该数据集分解动作并关注动作发生的视频剪辑。它包含了234K的关键帧，其中476K对象边界框和1.72M关系注释。对象范畴共35个，关系范畴共25个，其中关系范畴又分为三类，即三类GA=1头（GR，GR，GR），...，注意力关系，6类空间关系（九）和16类接触关系。多类头h（GR，GR，GR）]WA动作识别任务提供视频序列作为输入P P PpDp20138−(a) 具有详细结构的I3D、OG、OR2 G* 和OR2（b）I3D和OR2 G图4.不同结构的可视化结果。列出了Top-K结果。正确的预测用绿色标记，不正确的预测用红色标记。（a）对象和帧编号（b）T1和T2阈值图5.超参数实验并期望多个动作标签作为输出。性能通过平均精度（mAP）来衡量。骨干我们使用ResNet-152网络作为视频帧中边界框区域的视觉特征提取器ResNet-152网络在ImageNet数据集上进行了预训练[17]，并将从每个边界框中裁剪的对象图像作为输入。与用于比较的现有技术I3 D-NL网络的主干是ResNet-101。I3 D-NL网络在Kinetics-400数据集上进行了预训练[2]，并将RGB视频帧作为输入。评估模式。根据标准评估在[14]中，我们对所有消融研究实验使用了两种标准评价模式：（1）Oracle（OR 2 G Ora- cle）：对象位置、对象类别和人-对象关系（注意力、空间和接触关系）由动作基因组的基础事实提供数据集[14]。(2)预测（OR2 G）：使用ResNet-101的更快R-CNN [21]用作区域预测和对象检测的骨干。然后，网络根据Action Genome数据集中的对象位置和对象类别进行微调。具有FC层的图卷积网络[11，19]用于视觉关系检测。然后，该网络在Action Genome数据集中的人-对象关系类别上进行微调。为了进行公平的比较，我们使用了与Cha- rades数据集相同的train/val分割[22]。实验设置。所有的实验都在相同的设计下进行。网络的输入包含每个视频的Nf个关键帧。对于训练集，在整个视频上随机提取帧，而对于验证集，在整个视频上均匀提取帧。帧按时间顺序发送到网络中，当帧的总数小于Nf时，丢失的帧用零填充。为每个视频选择N0个对象，其中演员节点排名第一。为了选择其他对象，对所有帧中对象的出现次数进行计数和排序。对于训练集，选择前No/2- 1个最频繁的对象，并且从剩余对象中随机选择其他No/2个对象。对于验证集，选择前N或1个最频繁的对象。当对象的总数小于No或当对象不出现在当前帧中时，缺失的对象用零填充。20139··评价模式方法OG组合边缘类型OG RG GAM mAP评价模式方法物体特征关系特征地图表1.结构分析。表2.特征分析4.2. 超参数对象和帧编号。Action Genome数据集中的视频包含不同数量的关键帧和对象。我们改变采样帧Nf和对象No到对象级图中的数量，并在图5a中显示结果。Nf分别取为4、8、16和32帧。分别从每个视频片段中取4、8和16个对象。实验结果表明，当No取16时，系统性能最佳。验证集的mAP随着输入视频帧的数目Nf的增加而先增加后减小，并且当Nf被设置为16时获得最优实验结果。T1和T2阈值。我们比较了不同的距离阈值的性能T1的对象级图和T2的关系级图，分别。如图5b所示，从实验结果可以看出，当T1设置为7.对于T2的阈值，验证集的mAP随着T2阈值的增大先增大后减小，当T2设为7时获得了最优的实验结果。4.3. 消融研究结构分析OR2 G的组成部分表1探讨了拟议的OR2G的每个模块的有效性。基线对应于通过对象级原因图（OG）获得的性能此基准中不存在关系级别信息OR2 G* 在基线上添加了一个关系级图，与Oracle评估模式下的基线相比，它获得了2.9分。这表明细粒度关系转换的建模能够提取用于区分不同动作的代表性特征。OR2G是本文提出的方法，在Oracle评估模式下与OR2G *获得了0.4分的比较，证明了图聚集模块改善了两个图的耦合，并且在不引入附加信息的情况下更好地利用关系为了更直观地显示我们提出的模块的效果，我们给出了一些示例并在图4中将其可视化。如图4a所示，I3D倾向于提取视频的全局表示，其结果仅集中于与“衣服”相关的动作在OG的结果中，与“图片”相关的动作（即，‘但由于缺乏关系线索，OG未能识别“某人在穿衣”的动作这个问题通过使用附加的关系转换信息的OR2G * 来解决.只有提出的OR2 G识别'整理货架或货架上的东西'的动作person-picture> pair和 pair）。Construction of OG. 此外，我们还比较了对象级图中两类相邻边的性质。OG-S是具有由方程给出的空间边缘的方法。1，而OG-T是具有由等式1给出的时间边缘的方法。二、这两种相邻边代表了不同的消息传递方式，因此我们比较了具有不同空间和时间边组合类型的图的性能。OG-w示出了两个图的加权组合的结果，而OG示出了等式（1）中的直接组合的结果。3 .第三章。与空间边和时间边的结果相比，两种组合图都有更好的性能，证明了两种边之间的互补性当比较两个组合图时，可以发现直接组合略优于加权组合。OG-SSpa-！%的百分比57.95OG-TTem-！%的百分比58.94OracleOG-wOGS+TS+T加权直！%的百分比！%的百分比59.5359.77或2G*S+T直！！%62.81或2gS+T直！！！63.28OG-SSpa-！%的百分比31.30OGV-34.56OGS-58.78OracleOG或2G*V + m的V + m的-SP59.7760.28或2G*V + m的SM62.65或2G*V + m的Sm+Sp62.81OGV-25.51OGS-32.36预测OGV + m的-32.6520140··我我我我表3.两种评估模式下的主干分析表4.在mAP（%）中的Charades验证集上的动作识别。评价模式骨干mAPOracleResnet 63.28Resnet+I3D67.51预测Resnet 34.24Resnet+I3D44.91特征分析对象特征。我们比较了不同对象特征的性能，以评估表2中的有效性。V代表视觉特征，S代表语义特征。通过比较三种不同目标特征的OG，可以看出S+V的性能最好，验证了两种特征类型之间的互补性。关系特征。关系特征的实验也在表2中示出。Sm和Sp分别是关系级图的语义特征和空间特征通过比较三种具有不同关系特征的OR2 G*主干分析拟议的 OR2 G 的主干是 ResNet 和 I3D 。 When thebackbone is ResNet, only gO, gR and gA are concatenatedfor classification.当骨架是I3D时，这动作主体和背景之间的速度差这些方法很难捕捉到物体的过渡。STRG [30]和SVAG [31]分别基于对象和体素对动作进行建模，忽略了对象之间的显式建模。虽然SGFB [14]考虑了视觉关系，但它忽略了对细粒度关系转换的建模和推理在预测评估模式的情况下，我们提出的OR 2 G优于这些方法，并达到了最先进的性能与44。9%mAP。为了公平比较，我们还在Oracle评估模式下评估了我们的方法，并将其与SGFB方法进行了比较。OR2G的mAP比SGFB高7%，表明我们的方法能够更准确地我我我与I3D特征gG连接用于分类。从表3中可以看出，OR2G的精度随着I3D功能的加入而大大提高。预测评价模式在烧蚀研究实验中，Prediction评价模式与Oracle评价模式的总体趋势一致，得出了相似的结论。比较两种评估模式的结果，我们发现，与地面真相对象位置，对象类别和人-对象关系提供的行动基因组，在mAP的改善可以高达23%。这意味着，所提出的OR2 G的性能可以进一步提高与对象信息或视觉关系信息的改进。4.4. 与最新方法的为了证明所提出的OR2 G的有效性表4显示了我们提出的方法与Charades数据集中现有方法的比较结果。Timeception [13]和LFB [33]使用长距离时间信息对动作进行建模，而SlowFast [5]基于在被提供有对象的有效注释和视觉关系。5. 结论提出了一种用于动作识别的对象关系推理图（OR2G）. OR2 G在对象级和关系级使用图卷积网络，通过视频中对象和视觉关系的视觉、空间和语义特征，推理出细粒度的对象和关系转换具体地说，提出了图聚集模块，以更合理地利用关系转换信息。消融实验验证了对象级图、关系级图和图聚集模块的有效性。在Charades数据集上的实验表明，该方法在Oracle和Prediction两种评估模式下都提高了最先进的性能。致谢本工作得到国家自然科学基金（批准号：62036005）的部分资助方法骨干预训练地图I3D + NL [2，29]R101-I3D-NL动力学-40037.5STRG [30]R101-I3D-NL动力学-40039.7时间感受[13]R101动力学-40041.1慢快[5]R101动力学-40042.1SlowFast+NL [5，29]R101-NL动力学-40042.5LFB [33]R101-I3D-NL动力学-40042.5SVAG[31]R101-NL动力学-40044.1[14]R101-I3D-NL动力学-40044.3或2G（我们的）R101-I3D-NL动力学-40044.9[14]第十四话R101-I3D-NL动力学-40060.3或2G Oracle（我们的）R101-I3D-NL动力学-40067.520141引用[1] Fabien Baradel 、 Natalia Neverova 、 Christian Wolf 、Julien Mille和Greg Mori。视频中的对象级视觉推理。欧洲计算机视觉会议论文集，2018年。3[2] Joao Carreira和Andrew Zisserman。你好，动作识别？新模型和动力学数据集。在IEEE计算机视觉和模式识别会议上，2017年。一、二、六、八[3] Yunpeng Chen，Marcus Rohrbach，Zhicheng Yan，YanShuicheng，Jiashi Feng，and Yannis Kalantidis.基于图的全局推理网络。在IEEE计算机视觉和模式识别会议论文集，2019年。3[4] Ke Cheng，Yifan Zhang，Xiangyu He，Weihan Chen，Jian Cheng，and Hanqing Lu.使用移位图卷积网络进行基于动作的动作识别。在IEEE计算机视觉和模式识别会议上，2020年。2[5] Christoph Feichtenhofer ， Haoqi Fan ， Jitendra Malik ，and Kaiming He. 用于视频识别的慢速网络。 IEEEInternational Conference on Computer Vision，2019。8[6] Christoph Feichtenhofer ， Axel Pinz ， and Richard PWildes.用于视频动作识别的时空倍增器网络。在IEEE计算机视觉和模式识别会议论文集，2017年。2[7] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。卷积双流网络融合视频动作识别。IEEE计算机视觉与模式识别会议论文集，2016年。2[8] 塔尔·哈斯纳行动识别基准的批判性评论. IEEE计算机视觉与模式识别研讨会论文集，2013年。1[9] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在IEEE计算机视觉和模式识别会议上，2016年。4[10] Roei Herzig，Elad Levi，Huijuan Xu，Hang Gao，EliBrosh ，Xiaolong Wang ，Amir Globerson， and TrevorDarrell.时空动作图网络。在IEEE计算机视觉研讨会国际会议论文集，2019年。3[11] 岳虎，陈四恒，陈旭，张雅，顾晓。用于视觉关系检测的神经消息传递。在2019年机器学习研讨会国际会议上。四五六[12] Yifei Huang，Yusuke Sugano，Yoichi Sato.通过基于图的时间推理改进动作分割。在IEEE计算机视觉和模式识别会议论文集，2020年。3[13] Noureldien Hussein，Efstratios Gavves，and Arnold WMSmeulders.复杂动作识别的时间感受。在IEEE计算机视觉和模式识别会议论文集，2019。8[14] Jingwei Ji，Ranjay Krishna，Li Fei-Fei，and Juan CarlosNiebles.动作基因组：作为空间组合物的作用时间场景图。在IEEE计算机视觉和模式识别会议论文集，2020年。一、五、六、八[15] Thomas N Kipf和Max Welling图卷积网络的半监督分类在2017年学习代表国际会议的会议记录中3[16] Dan Kondratyuk ， Liangzhe Yuan ， Yandong Li ， LiZhang ， Mingxing Tan ， Matthew Brown ， and BoqingGong.移动：移动视频网络，用于高效的视频识别。在IEEE计算机视觉和模式识别会议论文集，2021年。2[17] 亚历克斯·克里热夫斯基、伊利亚·萨茨克弗和杰弗里·E·辛顿。使用深度卷积神经网络的图像网分类。神经信息处理系统的进展，2012年。6[18] Christopher A Kurby和Jeffrey M Zacks.事件的感知和记忆中的分割。Trends in Cognitive Sciences，12（2）：72-79，2008. 1[19] 卢策武，兰杰·克里希纳，迈克尔·伯恩斯坦，李菲菲.具有语言先验的视觉关系检测。在欧洲计算机视觉会议论文集，2016年。四、六[20] Joanna Materzynska，Tete Xiao，Roei Herzig，HuijuanXu，Xiaolong Wang，and Trevor Darrell.其他东西：利用时空交互网络进行组合动作识别。在IEEE计算机视觉和模式识别会议论文集，2020年。3[21] 任少卿、何开明、罗斯·格尔希克、孙健。更快的r-cnn：利用区域建议网络进行实时目标检测。在神经信息处理系统的进展，2015年。四、六[22] GunnarASigurdsson、Gu¨lVarol、XiaolongWang 、AliFarhadi、 Ivan Laptev 和 Abhinav Gupta 。好莱坞之家：众包数据收集活动的理解. 2016年欧洲计算机视觉会议论文集。五、六[23] Karen Simonyan和Andrew Zisserman双流卷积网络用于视频中的动作识别。神经信息处理系统的优势，2014年。2[24] Chen Sun，Abhinav Shrivastava，Carl Vondrick，KevinMurphy，Rahul Sukthankar，and Cordelia Schmid.以演员为中心的关系网络。在欧洲计算机视觉会议论文集，2018年。3[25] Du Tran 、 Lubomir Bourdev 、 Rob Fergus 、 LorenzoTorresani和Manohar Paluri。用3d卷积网络学习时空特征。在2015年IEEE国际计算机视觉会议论文集中。一、二[26] Ashish Vaswani， Noam Shazeer ， Niki Parmar ， JakobUszko-reit ， Llion Jones ， Aidan N Gomez ， ukaszKaiser，and Illia Polosukhin.注意力是你所需要的在神经信息处理系统的进展，2017年。5[27] Heng Wang和Cordelia Schmid.具有改进轨迹的动作识别。在2013年IEEE国际计算机视觉会议论文集中。2[28] Limin Wang，Yuanjun Xiong，Zheng Wang，Yu Qiao，Dahua Lin，Xiaoou Tang，and Luc Van Gool.时间片段20142网络：为深度行动识别提供良好实践。欧洲计算机视觉会议论文集，2016年。2[29] 王晓龙，Ross Girshick，Abhinav Gupta，和Kaiming He.非局部神经网络。在IEEE计算机视觉和模式识别会议集，2018年。五、八[30] 王小龙和阿比纳夫古普塔。视频作为时空区域图。在2018年欧洲计算机视觉会议论文集。一、三、八[31] Yang Wang，Gedas Bertasius，Tae-Hyun Oh，AbhinavGupta，Minh Hoai，and Lorenzo Torresani.用于长距离视频建模的超体素注意图。在IEEE计算机视觉应用冬季会议上，2021年。8[32] Yunbo Wang ， Mingsheng Long ， Jianmin Wang ， andPhilip S Yu.用于视频动作识别的时空金字塔网络在IEEE计算机视觉和模式识别会议论文集，2017年。2[33] Chao-Yuan Wu，Christoph Feichtenhofer，Haoqi Fan，Kaiming He，Philipp Krahenbuhl，and Ross Girshick.用于详细视频理解的长期特征库。在IEEE计算机视觉和模式识别会议上，2019年。8[34] Jianchao Wu ，Limin Wang，Li Wang ，Jie Guo，andGangshan Wu.学习组活动识别的演员关系图。在IEEE计算机视觉和模式识别会议论文集，2019。3[35] Saining Xie ， Chen Sun ， Jonathan Huang ， ZhuowenTu，and Kevin Murphy.重新思考时空特征学习：视频分类中的速度-准确度权衡。在2018年欧洲计算机视觉会议上。2[36] 严思杰，熊元军，林大华。用于基于骨架的动作识别的空间时间图卷积网络。AAAI人工智能会议论文集，2018年。2[37] Jingran Zhang，Fumin Shen，Xing Xu，and Heng TaoShen.用于活动识别的时间推理图。IEEE Transactionson Image Processing，29：5491-5506，2020。3[38] Bolei Zhou，Alex Andonian，Aude Oliva，and AntonioTorralba.视频中的时间关系推理。在2018年欧洲计算机视觉会议上3[39] Zhao Zhuo ， Zhiyong Cheng ， Peng Zhang ， YongkangWong和Mohan Kankanhalli。基于先验知识和状态转换的可解释视频动作 ACM International Conference onMultimedia，2019。3

下载后可阅读完整内容，剩余1页未读，立即下载