没有合适的资源?快使用搜索试试~ 我知道了~
14024不………………主干模型Y表示更新关系推理图构建基于图的时态推理黄一飞、菅野裕介、佐藤洋一东京大学产业科学{hyf,sugano,ysato}@ iis.u-tokyo.ac.jp摘要多个动作片段之间的时间关系在动作分割中起着重要作用,特别是当观察有限时(例如,动作被其他对象遮挡或发生在视场之外在本文中,我们提出了一个网 络 模 块 , 称 为 基 于 图 形 的 时 间 推 理 模 块(GTRM),可以建立在顶部的ex-actionsegmentation模型,学习在不同的时间跨度的多个动作段的关系。我们通过使用两个图卷积网络(GCN)对关系进行建模,其中每个节点代表一个动作段。这两个图具有不同的边缘属性,分别用于边界回归和分类任务。通过应用图卷积,我们可以根据每个节点与相邻节点的关系更新每个节点更新后的表示,然后用于改进的动作分割。我们评估了我们的模型上的concerning自我中心的数据集,即EGTEA和EPIC-Kitchild,其中的行动可能会部分观察到由于观点的限制。结果表明,我们提出的GTRM优于国家的最先进的动作分割模型的大幅度提高。我们还证明了我们的模型在两个第三人称视频数据集上的有效性,50Salads数据集和Breakfast数据集。1. 介绍视频动作分割在各种应用中起着至关重要的作用,例如机器人[31],异常检测[7]和人类行为分析[56]。动作分割的任务是知道在给定视频中这通过在时间上定位视频中的每个动作片段并对片段的动作类别进行分类来完成动作分割的主题已经被计算机视觉社区研究了很长时间。早期的方法通过在低级视频特征之上应用时间分类器来解决这个问题,例如。I3D [6]功能。它们包括1)滑动窗口方法[29,51],通常具有非常有限的时间感受野; 2)分段拿瓶倒水背景?把玻璃“Y字图1.请考虑此图中的示例视频主干模型修剪以检测在将水倒为背景之后的片段,因为没有动作可以从视频中直接观察到。通过在上面添加我们提出的GTRM,我们可以通过学习动作之间的时间关系来成功地检测这段是饮用水多个动作之间的关系也可以帮助调整段边界。模型[36,46],难以捕捉长距离动作模式,因为动作仅以其前一段为条件;和3)循环网络[23,53],注意力范围有限[53]。最近,时间卷积网络[37]证明了捕获视频帧之间的长距离依赖关系的能力[14,16,35],从而在从固定视点观看的第三人称视频上获得了良好的效果。然而,现有的方法在只有有限的观测数据时仍然很难很好地工作(例如,由于被不相关的物体遮挡或视野有限)[68]。考虑图1所示的简单示例序列。1来自EPIC-Kitchens数据集[11]。虽然这是一个视角有限的第一人称视频,但作为人类,我们可以很容易地推断出拿起瓶子并倒水后的动作是喝水,即使没有直接观察到喝水的这是因为我们的大脑可以推理动作之间的关系:应该发生饮水动作,因为我们首先看到照相机佩戴者拿起瓶子,将玻璃杯装满水,然后观察到他/她放下空玻璃杯。由于有限的观察,基于卷积神经网络的现有方法很难表现良好[68]。拿瓶e倒水喝水把玻璃14025在这项工作中,我们使用图卷积网络(GCN)[12,30]作为关键工具,并提出了一种称为基于图的时间推理模块(GTRM)的新模型,该模型可以建立在现有的动作分割模型(骨干模型)之上,通过学习动作之间的时间关系来预测更好的动作分割。给定主干模型的初始动作分割结果,我们将每个段映射到图节点,然后构建两个图来细化每个节点的分类和时间边界。通过联合优化主干模型和所提出的模型,我们可以明确地对相邻动作的关系进行建模,从而改进分割结果。此外,由于节点表示任意长度的动作片段,GCN在灵活的时间感受野上操作,这使得更容易捕获短期和长期的时间关系。我们的模型的有效性在两个数据集上进行评估:[11]《易经》云:“君子之道,焉可诬也?有始有卒者,其惟圣人乎。我们选择这些数据集有两个原因。首先,两个数据集的自我中心视频中的动作分割这是因为许多动作可能由于有限的视场和由相机佩戴者的手或其他物体引起的严重遮挡而无法直接观察到。其次,数据集包含长视频(例如,>10分钟),有许多动作实例(例如#21030;,使现有的技术难以?站模型正常工作两个人的实验数据集表明,我们的GTRM可以大大提高骨干模型的性能。此外,我们还通过实验表明,我们的模型与使用递归网络的骨干模型更好地工作。此外,我们证明了我们提出的模型也可以提高骨干性能一般第三人称数据集的动作分割,即。50.第54章吃早餐总之,这项工作的主要贡献是:• 据我们所知,这项工作的第一步,明确利用两个以上的动作动作分割之间的关系。• 我们使用初始动作片段构建图,并建立边缘来模拟片段之间的关系。通过在图上应用GCN,节点表示-可以基于与其邻居的关系来更新站,以预测更好的动作分割。• 多个数据集上的实验表明,我们的GTRM的有效性,提高多个国家的最先进的骨干模型的动作分割。2. 相关工作动作分割与输出稀疏的动作片段集的动作检测方法不同,动作分割-分段方法预测视频中的每一帧处正在发生什么动作[35]。由于其广泛的潜在应用,动作分割长期以来一直受到许多研究人员的研究[4,13,21,35]。例如,Fathiet al.通过被操纵的对象的状态变化来建模动作,并使用分段模型来学习一组时间一致的动作[17Cheng等人[10]使用视觉词袋作为视频的表示,并使用分层贝叶斯非参数模型来分割视频中的事件。然而,这些作品的优化通常是缓慢的,特别是对于长视频。工作线[14,34,50,52]专注于弱监督动作分割的任务,而假设存在严格的动作排序,这在一般情况下不为了确保动作片段的时间平滑性,许多方法在逐帧特征上应用时间分类器。一些著作[33,55,57]使用概率模型来预测最可能的行动顺序。Lea等人[35]首次提出使用时间卷积网络(TCN)进行动作分割。他们已经证明,TCN可以优于传统的基于滑动窗口的方法[29,51]。Lei等人[37]进一步配备具有可变形卷积和剩余流的TCN。然而,这两个模型[35,37]只适用于低时间分辨率。最近,Farhaet al.[16]建议使用具有多阶段细化的扩张TCN来从大的时间感受野捕获信息。扩张卷积避免了使用时间池来捕获长范围依赖性,因此可以在全时间分辨率上操作并实现最先进的性能。然而,现有的方法中没有一个明确地利用两个以上的动作之间的关系来增强动作分割。由于缺乏关系推理能力,现有方法仍然很难捕获未直接观察到的动作[68]。为了解决这个问题,我们的模型通过将片段构造为节点并应用图卷积网络来学习动作之间的关系。每个节点的表示通过图的边从其他节点聚合,从而利用动作之间的关系来实现更好的动作分割结果。图卷积网络在[30]中提出后,图卷积网络(GCN)已被证明可以有效地建模具有非网格结构的数据关系[39,41]。从那时起,GCN在建模关系方面取得了令人信服的成功[2,15,22],因此广泛应用于多个研究任务,如半监督学习[38],图像字幕[63],基于骨架的动作识别[62]和视频动作识别[58,60,65,66]。例如,Panet al. [44]应用GCN对人体关节的关系进行建模,14026图2.说明我们提出的基于图的时间关系模块(GTRM)建立在一个3层GRU骨干模型之上。我们的GTRM将初始分割中每个片段的编码表示映射到图中的节点。这两个图具有不同的边,并且对应于段边界回归和段分类两个目标任务。由GCN更新的节点表示被映射回逐帧表示,以进行更精细的动作分割。行动评估。Zeng等人[64]提出了一个模型来考虑多个行动建议的关系,以实现更准确的行动定位。我们的GTRM的灵感来自于这些作品,我们利用GCN的能力,明确建模的时间关系的视频动作分割的行动。3. 基于图的时态推理模块给定一个总共T帧的视频,我们的目标是推断出每帧的动作类标签,其基础事实是由Ygt={ygt,···,ygt}给出,其中ygt∈ {0,1}C是d维隐表示H={h1,···,hT}由主干模型编码。受最近关系推理[9,25,27,64]成功的启发,我们使用GCN构建了我们的模型,用于学习动作的时间关系。我们首先构造两个图,称为R-GCN和C-GCN,通过将隐藏表示H从骨干模型映射到图节点。图中的每个节点表示每个动作段(即在Y中具有相同动作类别上的最高可能性的连续预测),并且图边缘表示两个对应动作段之间的关系1吨one-hot vector,其中真类为1,其他类均为0。C是类的数量,包括表示没有动作的背景类。我们的GTRM是建立在一个骨干模型的动作分割,并通过基于图的推理细化在下文中,我们解释了我们的GTRM及其培训过程的细节。我们用G(V,E)表示一个图,其中V是N个结点的集合,e(i,j)∈ E表示连接结点i和j的边的权。的在本节末尾给出了实施细节。3.1. 概述我们的GTRM的架构如图所示二、我们示出了3层GRU作为骨干模型的示例,但是它可以被推广为采用 使 用 一 些 特 征 提 取 器 提 取 的 输 入 逐 帧 特 征F={f1,···,fT}的模型,例如,I3 D [6]并输出初始动作类似然Y={y1,···,yT},其中yt∈[0,1]C。我们的GTRM将Y作为输入,以及帧方式在训练过程中,每个图都与不同的损失函数相关联,即。用于R-GCN的段边界分别对R-GCN和C-GCN执行图卷积,以通过聚集来自相邻节点的信息来更新节点表示。我们将更新后的节点表示映射回以形成更新后的逐帧表示H* ,并与骨干表示H组合以预测更好的逐帧分割。分割输出上的损失函数和每个GCN的损失函数用于联合训练骨干模型和GTRM。拟议的GTRM的细节将在以下章节中给出3.2. 表示到图(R2G)映射在我们提出的模型中,关键步骤是根据动作类可能性Y和隐藏的⊕阿勒特输入Layer1C-GCNLayer2拉塞格基于图的时态关系模型段分类企^^^1^T电子邮件ℎ3ℎ1ℎ2123电子邮件骨干分段边界回归R-GCN输入第1层第2层G2R映射R2G映射GRUGRUGRUGRUGRUGRUGRUGRUGRUGRUGRUGRU拉14027我我表示H 的骨干模 型。我们将该 步骤称为表示 到图(R2G)映射,因为图节点表示是从主干模型的输出表示H映射的。假设我们在Y中总共有N个按时间排序的片段。第i个动作片段-互相影响因此,我们基于两个节点之间的时间接近度将C-GCN中的边ec(i,j)p(i,j)|j−i|≤1,ci<$cj=bg片段可以被表示为(ti,s,ti,e),其中ti,s和ti,e是动作片段的开始帧和结束帧,re-time。R-GCN和C-GCN的每个节点对应于ec(i,j)=p(i,j)|j−i|≤k,ci否则,bg,cj bg(二)并且通过在对应于动作段的隐藏表示的集合{hti ,s,···,hti,e}上应用最大池化来获得每个节点的隐藏表示。此外,由于每个片段的时间位置包含有用的信息,作为排序,我们还通过将时间向量(ti,s,ti,e)馈送到多层感知器来将时间信息编码为d,t维向量ui。第i个节点的表示xi通过以信道方式连接ai和ui来获得。定义完全连接的图边来建模所有动作段的时间关系[60]可能会其中bg表示没有动作发生的后台类。换句话说,每个背景节点仅链接到其最近的邻居,而每个其他节点也链接到k个相邻节点。3.2.1图的推理在这两种GCN中,所有的边权都构成了N×N维的邻接矩阵Ac或Ar在[60]之后,我们通过使用softmax函数将邻接矩阵归一化为导致在不相关的操作之间传递嘈杂的消息A(i,j)= expg(i,j).(三)在时间上相隔很远为了更好地解决分割任务,基本上可以被视为查找-Nj=1 expg(i,j)利用所有动作实例(包括背景(无动作))的类标签和时间边界,我们为两个图构造了不同类型的边,其中R-GCN的边对应于边界回归任务,C-GCN的边对应于分类任务。R-GCN的目标任务是分段边界回归,并且其边缘被定义为对直接确定时间边界(即,时间边界)的相邻分段之间的关系进行建模。开始帧和结束帧)。为此,我们只通过计算两个片段之间的时间接近度来连接每个片段与它旁边的片段将p(i,j)定义为由视频的长度归一化的第i段和第j段的中间帧之间的时间接近度(距离的倒数),R-GCN中的第i节点和第j节点之间的边er(i,j)对于图的推理,我们执行M层图,卷积用于细化节点表示。图卷积基于图结构实现消息传递,多个GCN层进一步实现非连接节点之间的消息传递[30]。 在M层中GCN,第m层(1≤m≤M)的图卷积运算可以表示为X(m)=σ(AX(m−1)W(m)),(4)其中X(m)是第m层所有N×dm维W(m)是第m层的权矩阵,σ表示激活函数.根据以前的工作[60],我们应用两个动作-vation函数,即每个GCN层之后的层归一化[1]和在图卷积操作之后,我们分别获得C-GCN和R-GCN中的节点的更新的节点表示xc和xr罚款为er(i,j)=.p(i,j)|i −j|≤ 10否则。(一)在最后的GCN层之后,我们在每个节点上应用FC层,以在C-GCN上执行段分类,并在R-GCN上执行段边界回归。该操作也称为读出操作[48,59],因为它映射C-GCN相比之下,C-GCN的目标任务是分段分类,并且边必须考虑多个动作之间的关系,因为它们相互影响或相互制约。例如,如果我们看到一把刀行动,然后采取土豆行动,这是很有可能的,将细化的节点表示转换为所需的输出。 每个C-GCN节点的输出是对应段的类li kci。 根据先前关于边界回归的工作[20,49],R-GCN中的每个节点的输出是与输入相关的集合向量o=(oi,c,oi,l)。接下来的几个环节会有切土豆的动作片段其中,i,c是分段中心的偏移(正常的,我们可以推断出切土豆的动作,即使土豆是通过利用这种时间关系来遮挡。然而,如果两个动作有很长的时间间隔,由片段的长度表示),并且Oi,l是在对数尺度中一段的长度。给定这些偏移,计算预测的边界ti,s,ti,e是很容易的。Σ14028我我3.3. 图到表示(G2R)映射在图卷积操作之后,每个节点的表示通过来自其相邻节点的信息传播来更新。为了基于更新的表示执行动作分割,我们逆映射更新的图形节点表示为逐帧表示H={h1,···,hT}。我们通过节点求和融合来自两个GCN的表示,然后通过将节点表示映射到所有对应的帧:ht=xc+xr,t∈{ti,s,···,ti,e},(5)16020140120151008010604052000我我其中,t_i,s、t_i,e是由R-GCN预测的第i个片段的时间开始帧和结束与先前的工作类似[64,67],我们将h与来自主干模型的原始潜在表示h连接起来,得到最终的动作分割结果。我们在级联表示上应用1×1卷积层,然后将softmax作为激活函数,以获得最终的逐帧动作。3.4. 训练和损失函数我们使用多个损失函数的组合来训练整个网络,包括骨干模型和我们的GTRM。至于动作分段输出yt,yt,我们应用与[16]相同的损失函数,其是交叉熵损失Lcls和截断均方er的errorLt-mse旨在通过鼓励来惩罚本地不一致性,将相邻预测老化为相似:L seg =L cls + λtL t-mse。(六)对于C-GCN,我们使用相同的交叉熵损失Lcls。段的地面实况动作类别由通过时间交并(tIoU)测量的最接近的地面实况片段的类别。对于R-GCN,我们使用平滑L1损失作为回归损失Lreg。 与C-GCN类似,节点的地面实况时间信息由与该节点在时间上最接近的段定义。将ti,c=(ti,s+ti,e)/2和ti,l=ti,e−ti,s表示为线段re的中心和长度。因此,地面实况偏移ogt=(ogt,ogt)可以是图3.按每个视频的平均动作实例(蓝色)和平均视频长度(橙色,右轴)进行的数据集比较。3.5. 实现细节我们使用Pytorch [45]库实现我们的模型。我们选择使用d=64作为隐藏表示的维数。用于编码时间表示ut的多层感知器是具有sigmoid激活和16个输出通道的全连接层。我们在所有实验中使用2层GCN,因为我们没有观察到添加更多层时明显的性能提高。培训详情见补充材料。4. 实验我们比较了我们的动作分割模型与最先进的模型在具有挑战性的大规模数据集上的性能我们还进行了消融研究,以检查我们模型的每个部分的影响,并且我们检查了我们的GTRM在更一般的第三人称数据集上构建在现有骨干模型之上时的性能。数据集图3根据每个视频的平均动作实例和平均视频长度(分钟)比较了不同的常用视频数据集,我们将它们分为三组。最左边的一组是THU-表示为:i i,c我,我MOS 14 [28]和ActivityNet [5]数据集。这些数据集包含每个视频的一个或两个动作实例,通常是ogt=(ti,c-tgt)/ti,l,ogt= log(ti,l/tgt),(7)[42]第四十二章:我的天i,ci,c我,我我,我[47]或检测[43,61]。 早餐[32]因此,组合损失函数可以定义为:50Salads [54]数据集包含每个视频不到20个动作,并且是用于评估动作片段的标准数据集ΣTL=i=1Lseg(ygt,yi)+ΣNΣTi=1Lseg(ygt,yi)ΣN(八)心理学方法[37]。最右边的一组包含两个最近的大规模数据集,其中包含从自我中心的角度来看的自然日常生活活动,EGTEA [40]和14029我我+λ1i=1Lcls(cgt,ci)+λ2i=1Lr eg(ogt,oi).[11]第十一话 由于自我的独特视角-中心记录,行动有时发生在外面的14030照相机在图1中),或者关键的信息区域被手遮挡。这些特征使得EGTEA和EPIC-Kitchenos中的许多动作不能直接观察,它们必须从时间关系中推断出来在接下来的部分中,我们主要在这两个数据集上进行实验,稍后我们还将展示在Breakfast和50Salads数据集上的实验结果为了评估我们的模型,我们采用了几个常用于动作分割的评估指标[16,35,37]:逐帧准确度,分段编辑评分和重叠阈值τ/100处的分段F1评分(由F1@τ表示)。逐帧精度是用于评估动作分割的最广泛使用的度量之一。然而,长动作往往对该指标有更大的影响,而对过度分割没有强烈的惩罚。相比之下,分段编辑评分和F1评分是[35,36]中提供的评估指标,并将过度分段错误进行了归一化。分段编辑分数惩罚过度分段的情况,分段F1分数测量预测的质量。4.1. 与最新技术水平的比较在本节中,我们将我们的模型与EGTEA和EPIC-Kitchenet数据集上的几个最先进的模型进行了比较(表1)。EGTEA数据集包含86个视频,总长度为29小时。我们专注于19个动作类的分割(即。动词)。对于EGTEA数据集,我们通过将视频随机分为四个分区来执行四重交叉验证。EPIC-Kitterfly数据集包含55个小时的日常生活非脚本活动,包括125类动作。由于测试集的地面真实标签不是公开的,我们遵循[3]将训练集的一部分分割通过使用在Kinetics数据集上预训练的I3 D来提取EGTEA和EPIC-Kitterfly的视频特征 [6]。我们将视频采样到15 fps。我们使用四种密切相关的方法作为基线模型。FC是一个简单的基线,它直接在I3D提取的特征上添加逐帧分类器。 Bi-LSTM[53]是用于动作分割的双向时间LSTM。EDTCN[35]和MSTCN[16]是最近使用时间卷积网络捕获长期帧依赖性的两个竞争模型。我们还包括我们自己的骨干使用多层GRU(m-GRU)的比较。我们报告我们的GTRM的性能通过添加“+GTRM“作为标记,构建在不同的骨干网络之上。由于EGTEA和EPIC-Kitchen数据集上没有先前的结果可用于基线模型,因此所有报告的结果都是基于我们的实现。从表1中可以看出,将我们的模型与主干模型(没有添加GTRM)进行比较,EGTEA F1@{ 10,25,50}编辑访问FC [6]8.76.73.19.465.4Bi-LSTM [53]27.023.115.128.570.0EDTCN [35]31.127.719.628.670.1MSTCN [16]32.128.318.932.269.2m-GRU32.627.717.636.067.1Bi-LSTM+GTRM33.329.219.932.170.7EDTCN+GTRM34.631.220.734.870.1MSTCN+GTRM36.629.718.632.268.4m-GRU+GTRM41.637.525.941.869.5EPIC F1@{ 10,25,50}编辑访问FC9.35.62.220.042.2Bi-LSTM [53]19.011.75.029.143.3EDTCN [35]21.813.86.527.342.9MSTCN [16]19.412.35.725.343.6m-GRU20.215.27.730.540.3Bi-LSTM+GTRM25.117.38.835.943.5EDTCN+GTRM24.215.97.233.142.8MSTCN+GTRM24.415.47.232.543.7m-GRU+GTRM31.922.810.742.143.4表1.与EGTEA数据集(上图)和EPIC-Kitterfly数据集(下图)上的最新模型进行定量比较。模型在F1得分和编辑得分上远远优于骨干模型,同时在帧准确性度量方面表现良好。表1的下半部分总结了我们提出的GTRM在构建于不同主干之上时的性能可以看出,除了EGTEA数据集中的F1@50和MSTCN的准确性之外,所有骨架模型的性能大多通过添加GTRM而增加。这表明我们的GTRM能够在大多数情况下细化主干结果。有趣的是,我们发现添加我们的GTRM的收益是使用递归骨干模型(Bi-LSTM和m-GRU)的最大收益。这可能是因为再流骨干具有较小的注意跨度,而我们的GTRM可以互补地工作,因为推理是用较大的时间感受野执行的。从图中的定性比较4(a),我们可以看到,特别地,由于视点限制,在视频中几乎观察不到“关闭(冰箱)”动作(因为相机佩戴者迅速地将他的注意力转向下一步的位置)。这个动作被我们的模型正确检测到的事实强烈支持我们的主张,即我们的GTRM可以捕获动作的关系(因为之前发生了另一方面,我们也可以看到我们的模型的弱点,在图。4(b)是我们的GTRM取决于初始骨干输出。主干模型不能检测在这个产量的条件下,我们仍然很难14031图4.在(a)EGTEA和(b)EPIC数据集上对动作分割任务的结果进行定性比较为了清晰起见,只显示了整个视频的一部分我们可以在(a)中看到,通过添加GTRM,take,put和closeGTRM正确识别这些操作。补充材料中有更多4.2. 消融研究为了充分了解我们模型中每个组成部分的效果,我们通过改变或删除我们模型的一部分来对EGTEA数据集进行消融研究,并比较它们的性能。我们首先检查模型中每个图的影响。为了公平比较,我们用一个小的2层全连接网络(用FCN表示)替换C-GCN和R-GCN。在这种情况下,每个图节点由FCN单独处理,而不考虑由图边缘带来的关系。我们还检验了时间矢量ut的有用性.表2显示了与单独使用m-GRU主干相比的相对性能增益在表中,C-GCN + FCN是R-GCN被完全连接的网络取代的情况,其他网络遵循相同的规则。我们可以看到,使用GCN的性能总体上优于没有GCN的性能此外,我们发现,时间向量UT提供必要的信息,网络作为添加UT提高性能,而没有UT的边界回归的任务不能收敛。我们还研究了参数k的选择,这与每个片段的邻居数量有关,以聚合信息。我们改变了k的值,并在图中显示了EGTEA数据集上的实验结果五、总体而言,k=8时实现最佳性能,而性能增益从k=16开始降低。我们增益F1@{10,25,50}编辑访问权限C-GCN + FCN(不含)4.64.41.84.42.5仅限FCN6.26.14.74.53.3R-GCN + FCN6.86.84.86.02.1C-GCN + FCN6.46.04.73.52.7C-GCN + R-GCN10.09.86.87.52.8表2.我们模型的消融研究我们用全连接网络(FCN)代替GCN,并报告了相对于m-GRU骨干模型的绝对值的性能增益。我怀疑这是因为通过连接时间上太不同的动作段而通过边缘传播的不相关信息。进一步的烧蚀研究的影响,边缘权重和工具的建模关系(如。节点上的1D卷积)可以在柔软的材料中找到。4.3. 其他数据集的结果为了测试我们提出的模型在其他一般情况下的有效性,我们还在50Salads [54]和Breakfast [32]数据集上测试了我们的模型性能。50Salads数据集包含50个沙拉制作活动的视频,包含17个动作类。我们遵循[54]使用5倍交叉验证并报告平均性能。早餐数据集包含1712个视频,总长度为65小时。有48个不同的动作,平均每个视频6个动作我们使用标准的4次分裂[32]并报告平均值。为了公平比较,我们在下面的实验中采用了[16我们在当前最先进的基础上构建GTRM1403210早餐F1@{ 10,25,50}编辑访问86420���=2图5.与具有不同k值的m-GRU骨干模型相比的性能增益。k=∞表示所有节点连接的情况。50沙拉F1@{ 10,25,50}编辑ACCMSTCN [16]76.374.064.567.980.7MSTCN(我们的实施)73.471.061.567.280.2MSTCN+GTRM75.472.863.967.582.6增益2.01.81.40.32.4Bi-LSTM [53]62.658.347.055.655.7Bi-LSTM(输出实现)62.261.353.753.570.1Bi-LSTM+GTRM70.468.962.759.481.6增益8.27.69.05.911.5表 3. 50 Salads 数 据 集 的 结 果 。 通 过 在 顶 部 添 加 我 们 的GTRM,绝对值的性能增益显示在黑色行中。方法MSTCN [16]。由于MSTCN基于时间卷积网络,因此我们进一步测试了与循环骨干Bi-LSTM相结合的模型性能[53]。50Salads数据集的性能比较如表3所示,包括[16]中报告的结果和我们实现的结果。由于每个视频平均有20个动作,我们将参数k调整为4。可以看出,通过添加我们的GTRM,两种骨干模型的性能都得到了改善。虽然MSTCN骨干网的性能增益相对较小,但Bi-LSTM骨干网的增益仍然很大。这种现象与EGTEA数据集中观察到的相同,这表明我们的GTRM在循环骨架上工作得更好。由于之前没有Bi-LSTM的报告结果,我们只使用MSTCN作为Breakfast数据集的主干模型。性能总结在表4中。早餐数据集每个视频只包含6个动作实例,远远少于50Salads数据集。与50Salads数据集类似,性能增益相对较小。此外,通过增加k来对更多邻居之间的关系进行建模不会提高分割性能。表4.早餐数据集的结果。通过在顶部添加我们的GTRM,绝对值的性能增益显示在黑色行中。我们的GTRM的好处在这两个数据集上受到限制,主要有两个原因。首先,由于50Salads and Breakfast数据集是从捕获大部分人类活动的固定视图相机中获取的,因此由于例如,闭塞。其次,动作实例的数量相对较少,因此仅使用主干模型就可以在一定程度上捕获时间模式。4.4. 局限性和未来工作正如在4.1节中所讨论的,我们的模型的局限性之一如果骨干模型输出的结果不好,我们的模型只能稍微提高分割性能。另一个限制是,如果主干输出严重碎片化,则构造的图将很大,并且优化变得非常低效。这也阻止了我们在FC基线之上建立模型虽然可以在图构建步骤中过滤动作片段并忽略小片段,但研究以更有效的方式处理图卷积的方法仍然是未来的重要工作。使用额外的信息,如凝视[26]或自适应采样[24]或随机训练[8]等技术将是未来研究的有希望的候选者。5. 结论在本文中,我们提出了一种新的方法来建模的动作关系,针对的任务,动作分割,它可以建立在大多数现有的神经网络的动作分割。为了对时间关系进行建模,我们构造了两个图,并使用GCN基于两个不同的标准对图进行推理。在更新节点表示之后,它们被映射回各个帧,作为用于最终动作分割的更新表示。大量的实验表明,我们的模型可以有效地学习使用关系更好的动作分割,并证明了我们的模型带来的性能鸣谢本研究得到了JST CREST项目和东京大学GCL项目的支持。MSTCN [16]52.648.137.961.766.3MSTCN(我们的实施)57.353.441.458.860.0MSTCN+GTRM(k=2)57.554.043.358.765.0增益0.20.61.9-0.15.0MSTCN+GTRM(k=4)57.353.642.958.563.814033引用[1] 吉米·雷·巴,杰米·瑞安·基罗斯,杰弗里·E·辛顿.层归一化。arXiv预印本arXiv:1607.06450,2016。4[2] Mohit巴贾杰蓝郡小王,和列昂尼德·西加尔G3raphground:基于图形的语言基础。在IEEE计算机视觉国际会议(ICCV)的会议记录中,2019年。2[3] Fabien Baradel , Natalia Neverova , Christian Wolf ,JulienMille和Greg Mori视频中的对象级视觉推理。欧洲计算机视觉会议,2018年。6[4] Subhabrata Bhattacharya,Mahdi M Kalayeh,Rahul Suk-Thankar和Mubarak Shah复杂事件的识别:利用底层概念之间的时间动态在2014年IEEE计算机视觉和模式识别会议(CVPR)上。2[5] Fabian Caba Heilbron Victor Escorcia Bernard Ghanem和胡安·卡洛斯·尼布尔斯Activitynet:人类活动理解的大规模视频基准。IEEE计算机视觉与模式识别会议,2015年。5[6] Joao Carreira和Andrew Zisserman。Quo vadis,开拍认可?新模型和动力学数据集。在IEEE计算机视觉和模式识别会议(CVPR)上,2017年。一、三、六[7] 瓦伦·德克拉, Arindam Banerjee, 和维平·库马尔异常检测:一个调查。ACM计算调查,2009年。1[8] 陈剑飞,朱军,宋乐。随机训练图卷积网络与方差减少。arXiv预印本arXiv:1710.10568,2017。8[9] 陈云鹏, 马库斯·罗尔巴赫 严志诚,严水成,贾世峰,Yannis Kalantidis。基于图的全局推理网络。在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,2019年。3[10] 余成、范全福、沙拉斯·潘坎蒂、阿洛克·乔德-哈里用于视频事件检测的时间序列建模在IEEE计算机视觉和模式识别会议(CVPR)的会议记录中,2014年。2[11] 迪玛·达曼黑兹尔·道蒂乔瓦尼·玛丽亚·法里内拉Sanja Fidler , Antonino Furnari , Evangelos Kazakos ,Davide Moltisanti,Jonathan Munro,Toby Perrett,WillPrice,et al.缩放自我中心的愿景:epic-kitchens数据集。在2018年欧洲计算机视觉会议(ECCV)上一、二、五[12] 我的朋友德菲拉德,Xa vierBresson,和PierreVan-dergheynst。具有快速局部谱滤波的图上卷积神经网络。神经信息处理系统进展(NeurIPS),2016年。2[13] 李丁和徐晨良。 Tricornet:一个混合时态用于视频动作分割的卷积和递归网络。arXiv预印本arXiv:1705.07818,2017。2[14] 李丁和徐晨良。 弱监督动作段-迭代软边界分配的分段。在IEEE计算机视觉和模式识别会议(CVPR)上,2018年。一、二[15] 范立峰,王文冠,黄思远,唐新宇,和朱松春通过时空图推理理解人类注视通信在IEEE计算机视觉国际会议(ICCV)的会议记录中,2019年。2[16] Yazan Abu Farha和Jurgen Gall。Ms-tcn:多阶段TEM-poral卷积网络用于动作分割。在IEEE计算机视觉和模式识别会议(CVPR)上,2019年。一、二、五、六、七、八[17] Alireza Fathi,Ali Farhadi,and James M Rehg. 你要明白-以 自 我 为 中 心 的 活 动 IEEE 国 际 计 算 机 视 觉 会 议(ICCV),2011年。2[18] Alireza Fathi和James M Rehg.通过以下方式建模操作状态变化。IEEE计算机视觉与模式识别会议(CVPR),2013年。[19] Alireza Fathi,Xiaofeng Ren,and James M Rehg. 学习-在以自我为中心的活动中识别物体。IEEE计算机视觉与模式识别会议,2011年。2[20] Jiyang Gao,Zhenheng Yang,and Ram Nevatia. 级联用于时间动作检测的边界回归。2017年英国机器视觉会议(BMVC)的开幕式上。4[21] Pallabi Ghosh,Yi Yao,Larry S Davis和Ajay Divakaran。用于动作分割的堆叠时空图卷积网络。arXiv预印本arXiv:1811.10575,2018。2[22] Ronghang Hu,Anna Rohrbach,Trevor Darrell,and 凯特萨恩科用于关系推理的语言条件图网络arXiv预印本arXiv:1905.04405,2019。2[23] 黄德安,李飞飞,胡安·卡洛斯·尼布尔斯。连接-弱监督动作标记的时间模型。欧洲计算机视觉会议,2016年。1[24] 黄文兵,张彤,于蓉,黄俊洲自适应采样实现快速图形表示学习。神经信息处理系统进展(NeurIPS),2018。8[25] Yifei Huang,Minjie Cai,Hiroshi Kera,Ryo Yonetani,KeitaHiguchi和Yoichi Sato。多个第一人称视频中联合注意的时间定位和空间分割。在IEEE国际计算机视觉研讨会(CVPRW)会议记录中,2017年。3[26] Yifei Huang,Minjie Cai,Zhenqiang Li,and Yoichi Sato.通过学习任务依赖注意转移预测自我中心视频中的注视。在欧洲计算机视觉会议(ECCV)的会议记录中,2018年。8[27] Noureldien Hussein,Efstratios Gavves,and Arnold W. M.史默德斯Videograph:识别视频中长达几分钟的人类活动。arXiv预印本arXiv:1905.05143,2019。3[28] Haroon Idrees , Amir R Zamir , Yu-Gang Jiang , AlexGorban,伊凡·拉普捷夫、拉胡尔·苏克坦卡尔和穆巴拉克·沙阿。“野外”视频动作识别的thu- mos挑战计算机视觉和图像理解,2017年。5[29] 什韦博尔卡拉曼洛伦佐赛德纳里和阿尔贝托·德尔·宾博基于Fisher编码的密集轨迹的快速显著性池化。在ECCV THUMOS研讨会,2014年。一、二[30] Thomas N Kipf和Max Welling 半监督类14034图卷积网络。ICLR,2017年。二、四[31] Volk erK ruger、DanicaKragic、AlesEugude和ChristopherGeib. 动作的意义:动作识别与映射研究综述2007年,高级机器人。1[32] Hilde Kuehne,Ali Arslan,and Thomas Serre. 语言动作的恢复:恢复目标导向的人类活动的语法和语义。在I
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功