没有合适的资源?快使用搜索试试~ 我知道了~
建议关系建模在动作定位中的应用
7094用于时间动作定位的曾润浩1黄文兵2,5谭明奎1,4 <$于荣2赵培林2黄 俊洲2甘创31华南理工大学软件工程学院2腾讯人工智能实验室3麻省理工-IBM沃森人工智能实验室4深圳鹏程实验室5清华大学计算机科学与技术系国家重点实验室。清华大学智能技术与系统国家实验室。信息科学与技术(TNList){runhaozeng.cs,ganchuang1990}@ gmail.com,hwenbing@126.com,mingkuitan@scut.edu.cn摘要动作实例大多数最先进的动作本地化系统单独处理每个动作建议,而没有明确地利用它们在学习过程中的关系。然而,提案之间的关系实际上在行动定位中起着重要作用,因为有意义的行动总是由以下内容组成:视频中的多个提案。在本文中,我们提出了利用图卷积网络(GCN)的建议,建议的关系。首先,我们构造一个行动建议图,其中每个建议被表示为一个节点和两个建议之间的关系作为一个边缘。图卷积分类回归在这里,我们使用两种类型的关系,一种用于捕获每个建议的上下文信息,另一种用于表征不同动作之间的相关性然后,我们在图上应用GCN来建模不同建议之间的关系,并学习用于动作分类和定位的强大表示。实验结果表明,我们的方法在THUMOS 14上的性能明显优于最先进的方法(49.1%对42.8%)。此外,在Activi- tyNet上的增强实验也验证了行动建议关系建模的有效性.1. 介绍理解视频中的人类行为已经成为计算机视觉的一个重要研究课题,因为它在安全监控,人类行为分析和许多其他领域中有各种应用[10,35,38,12,13,14,15,16,42]。尽管在这方面取得了丰硕的进展,但仍有一些具有挑战性的任务需要进一步探索。*表示平等缴款。这项工作是在黄文兵指导下,曾润浩在腾讯人工智能实验室担任研究实习生时完成的†通讯作者图1.我们接近的示意图我们应用图卷积网络来对提议-提议交互进行建模,并提高时间动作定位性能。定量-时间动作定位就是这样一个例子。为了处理未经修剪并且通常包含不相关活动背景的真实视频,时间动作定位要求机器不仅对感兴趣的动作进行考虑如图1所示的体育视频,检测器应该找出动作事件发生的帧并识别事件的类别。在过去的几年里,时间动作定位引起了越来越多的关注[6,18,26,33,34]。受对象检测成功的启发,大多数当前的动作检测方法采用两阶段流水线:它们首先生成一组1D时间建议,然后分别对每个建议执行分类和时间边界回归。然而,在预测阶段单独处理每个建议将不可避免地忽略建议之间的语义关系我们认为,利用视频域中的提案-提案关系提供了更多的线索,以促进每个提案实例的识别。为了说明这一点,213421347095我们重新审视图1中的示例,其中我们生成了四个提议。 一方面,彼此重叠的提议p1、p2和p3描述同一动作实例的不同部分(即, 起始期、主体期和结束期)。传统的方法通过单独使用其特征对p1进行预测,我们认为这不足以提供完整的检测知识。 如果我们另外考虑p2和p3的特征,我们将获得p1周围的更多上下文信息,这特别有利于p1的时间边界回归。另一方面,p4描述了背景(即, 运动场),并且它的内容也有助于识别P1的动作标签,因为在运动场上发生的事情很可能是运动动作(例如,“掷铁饼”),但不是一个发生在其他地方(例如, 换句话说,p1的分类可以部分地由p4的内容指导,即使它们在时间上是不相交的。为了对提议-提议交互进行建模,可以采用自我注意机制[39] -正如之前在语言翻译[39]和对象检测[22]中所进行的那样-来捕获提议之间的成对相似性。自我关注模块可以通过用自动学习的聚合权重聚合来自所有其他建议的信息来影响单个建议。然而,该方法在计算上是昂贵的,因为查询所有提议对具有提议数的二次复杂度(注意,每个视频可以包含超过数千个提议)。相反,图卷积网络(GCN),它从网格状数据(例如,图像)到非网格结构(例如,社交网络),在机器学习领域受到越来越多的关注[25,47]。GCN可以通过聚合来自相邻节点的信息来影响每个节点,因此非常适合利用提案之间的关系。更重要的是,与自注意策略不同,应用GCN使我们能够为每个建议仅聚集来自局部邻域的信息,从而可以帮助显着降低计算复杂度在本文中,我们把提案看作是一个特定图的节点,并利用GCN来建模的建议关系。受上述讨论的启发,我们通过研究提案之间的两种边来构建图,包括用于为每个提案实例合并上下文信息的上下文边(例如,通过访问图1中的P2和P3来检测P1)和周围的边以从附近但不同的提议中查询知识(例如,在图1中为p1查询p4)。然后,我们对构造的图执行图卷积。虽然信息是从每一层的本地邻居聚集的,但如果GCN的深度增加,则远距离节点之间的消息传递仍然是可能的。另外,我们进行了两种不同的GCN来执行分类-实验证明,该方法是有效的。此外,为了避免过多的计算成本,我们进一步设计了一种采样策略来有效地训练GCN,同时仍然保持期望的检测性能。我们评估我们提出的方法在两个流行的基准时间动作检测,即,THUMOS 14 [24]和ActivityNet1.3 [4]。总而言之,我们的贡献如下:• 据我们所知,我们是第一个利用提议-提议关系在视频中进行时间动作本地化的人。• 为了对提案之间的交互进行建模,我们通过建立边来构造提案图基于我们有价值的观察,然后应用GCN进行建议之间的消息聚合。• 我们已经验证了我们提出的方法的有效性在两个基准。特别是在THUMOS 14上,我们的方法获得了49. tIoU=0时为1%。5,其显著优于现有技术,即,四十二8%[6]。在ActivityNet上的增强实验也验证了改进的有效性。平衡行动建议关系。2. 相关工作时间动作定位。最近,深度学习取得了很大进展[5,9,19,53],这促进了时间动作本地化的发展。此任务的AP方法可分为三类:(1)执行帧或片段级分类的方法,其中需要平滑和合并步骤来获得时间边界[33,28,51];(2)采用涉及建议生成、分类和边界细化的两阶段框架的方法[34,46,52];(3)方法开发端到端架构集成的建议生成和分类[48,1,26]。我们的工作是建立在第二类,其中的行动建议,首先产生,然后用于执行-形式分类和边界回归。按照这种模式,Shouet al.[34]建议从滑动窗口生成提案并对其进行分类。Xu等[46]开发3D ConvNet并提出一个受Faster R-CNN启发的框架[30]。上述方法忽略了提案的上下文信息,因此已经开发了一些尝试来结合上下文以增强提案特征[8,17,18,52,6]。他们通过提取扩展感受野上的特征(即,边界)的建议。尽管他们取得了成功,但他们都单独处理每一项提案相反,我们的方法考虑了提案之间的相互作用,并利用了提案之间的关系。7096i=1i=1}i=1GCN1提案特征建议图构建原提案行动类别预测输入边界延伸层1GCN2层2完整性预测扩展提案特征扩展提案输入层1层2边界回归t开始t结束图2.我们的P-GCN模型示意图。给定来自输入未修剪视频的一组建议,我们通过每个建议实例化图中的节点。然后,在节点之间建立边来模拟建议之间的关系。我们在具有不同输入特征的同一构造图上使用两个单独的GCN(即,原始特征和扩展特征)。最后,P-GCN模型同时输出所有提案的预测行动类别、完整性和边界回归结果图 卷 积 网 络 。 Kipf 等 人[25] 提 出 了 图 卷 积 网 络(GCN)来定义非网格结构上的卷积[37]。由于其有效性,GCN已成功应用于计算机视觉的几个研究领域,例如基于信标的动作识别[47],人员重新识别[32]和视频分类[45]。对于现实世界的应用程序,图可能很大,直接使用GCN是低效的。因此,通过采样策略进行了几次有效训练的尝试,例如节点方法SAGE[20],分层模型FastGCN [7]及其层相关变体AS-GCN[23]。考虑到系统的灵活性和可实现性,本文采用SAGE方法作为系统的采样策略。3. 我们的方法3.1. 符号和预备在E中,用于表示提案之间的关系。3.2. 我们的方法的总体方案在本文中,我们使用一个建议图G(P,E)来表示建议之间的关系,然后将GCN应用于图利用关系和学习强大的代表性的建议。应用GCN背后的直觉是,当执行图卷积时,每个节点聚集来自其邻域的信息。通过这种方式,每个建议的特征被其他建议增强,这最终有助于提高检测性能。不失一般性,我们假设行动建议已经通过某些方法预先获得(例如,[52]中的TAG方法在本文中,给定一个输入视频V,我们试图预测动作类别和时间位置(ti,s,ti,e)为每个建议pi通过e利用亲,关系紧张。形式上,我们计算我们将未修剪的视频表示为V={It∈{(yi,(ti,s,ti,e))}N=F(GCN({xi}N、G(P,E))、(1)RH×W ×3Tt=1其中,It表示时隙处的帧其中F表示要学习的任何映射函数。到t,高H,宽W。 在每个视频V中,让利用GCN进行动作本地化,P={pi|pi=(xi,(t i,s,t i,e))}N成为行动的支持者建议图和建议特征都作为输入兴趣点,其中ti,s和ti,e是开始和结束一个提案的时间。另外,给定建议pi,设xi∈Rd是由某些特征提取器提取的特征向量(例如, I3D网络[5])从Iti,s和Iti,e之间的帧中。设G(V,E)是一个N个结点的图,其中结点vi∈V,边eij=(vi,vj)∈ E.进一步,设A∈RN×N为G的邻接矩阵.在本文中,我们试图利用图G(P,E)在P中的行动建议,以更好地模拟视频中的建议-建议交互。在这里,每个行动建议被视为一个节点,并在该图上执行图卷积以利用亲关系。增强的提案特征(即,GCN的输出)然后用于联合预测类别标签和时间边界框。我们的方法示意图如图2所示。为了简单起见,我们将我们的模型记为P-GCN。在接下来的章节中,我们将回答两个问题-问题:(1)如何构造一个图来表示提案之间的关系;(2)如何利用GCN学习基于图的提案表示,促进行动定位。7097i=12i=122 ii=13.3. 建议图构建对于每个视频的图G(P,E),节点被表示为动作建议,而建议之间的边E需要被表征为特定的特征。以更好地模拟提案关系。构建边的一种方法是将所有建议相互链接,但这将为遍历所有建议对带来压倒性的计算。它也会产生冗余或嘈杂的信息,为行动定位,因为一些不相关的建议不应该连接。在本文中,我们设计了一种更聪明的方法,利用时间相关性/建议之间的距离。具体地说,我们引入了两种类型的边缘,上下文边缘和周围的边缘,分别。上下文边缘。 如果r(pi,pj)> θ ctx,则在建议pi和pj之间建立一条边,其中θ ctx是某个阈值。在此,r(pi,pj)表示pro-proc之间的相关性,并且由tIoU度量定义,即、r(p,p)=tIoU(p,p)=I(pi,pj),(2)i j i jU(p,p)使消息能够通过不同的动作实例,从而为检测提供更多的时间线索。3.4. 基于图卷积的动作定位给定构造的图,我们应用GCN进行动作定位。在我们的实现中,我们构建了K层图卷积。特别是对于第k层(1≤k≤K),图卷积通过以下方式实现:X(k)= AX(k− 1)W(k)。(四)这里,A是邻接矩阵;W(k)∈Rdk× dk是待学习的参数矩阵;X(k)∈RN× dk是第k层所有建议的隐藏特征;X(0)∈ RN× d是输入特征。我们应用激活函数(即,ReLU)在每个卷积层之后,在特征被转发到下一层之前。此外,我们的实验发现,通过进一步将隐藏特征与最后一层的输入特征连接起来,即,ijX(K)=X(K)<$X(0),(5)其中I(pi,pj)和U(pi,pj)分别计算两个提议的时间交叉和联合 如果我们专注于建议pi,通过计算r(pi,pj)> θ ctx来建立边将选择其邻域,因为这些邻域与它有很高的重叠。显然,高度重叠的邻域的非重叠部分能够为P1提供丰富的上下文信息。如已经其中,n表示级联操作。结合以前的工作[52],我们发现它是有益的-通过两个GCN分别预测动作标签和时间边界,一个GCN基于原始建议特征xi,另一个基于扩展建议特征x′i. 第一个GCN被公式化为在[8,6]中展示,探索上下文信息,该方法有助于细化检测边界,最终提高检测精度。 在这里,由我们的{yi}=softmax(FC1(GCN1({xi}N,G(P,E))),(六)上下文边缘,所有重叠的建议自动地彼此共享上下文信息,并且这些信息通过图卷积进一步处理其中,我们应用具有软连接的全连接(FC)层,在GCN1之上进行max操作,以预测操作标签是的。第二GCN可以公式化为:周围的边缘。 上下文边缘将重叠的建议,通常对应于相同{(ti,s,ti,eNi=1 =FC(GCN({x′}N、G(P,E)、(7){c}N=FC(GCN({x′}N、G(P,E)、(8)动作实例。 实际上,不同但邻近的行动(在-ii=13 2ii=1包括背景项)也可以是相关的,并且在它们之间传递的消息将有助于彼此的检测例如在图1中,背景提议p4将提供关于识别提议p1的动作类的指导(例如,更有可能是运动动作)。 为了处理这种相关性,我们首先利用r(p,p)= 0来查询不同的提议,然后com-其中,图结构G(P,E)与等式(1)中的图结构相同。(6)但输入建议功能不同。扩展特征x′i是通过先将pi的时间边界在左右两侧各扩展1倍长度,然后提取扩展边界内的特征得到的。在这里,我们采用两个FC层,ijGCN2,一个用于预测边界(ti,s,ti,e),计算以下距离d(p,p)=|ci− cj|、(3)ijU(pi,pj)如果d(pi,pj)<θsur,则添加相邻提议之间的边,其中θsur是某个阈值。由方程式(3),ci(或cj)表示pi(或pj)的中心坐标。作为上下文边缘的补充,周围边缘实现了)}7098另一个用于预测完整性标签c_i,其指示提议是否完整。[ 52 ]已经证明,与地面真实值具有低tIoU的不完整提案可能具有高分类分数,因此当单独使用分类分数对mAP测试的提案进行排名时会出错;进一步应用完整性分数使我们能够避免这个问题。7099i=1Ji=1i=1我邻接矩阵。由方程式(4)、我们需要计算邻接矩阵A。在这里,我们通过为边分配特定的权重来比如我们可以算法1P-GCN模型的训练过程输入:建议集P={p,i|pi=(xi,(ti,s,ti,e))}N;原始建议功能{x(0)}N;扩展建议应用余弦相似度估计边缘的权值eijby特征{x′(0)Ni=1i i=1;图深度K;采样大小Ns参数:权重矩阵W(k),k ∈ {1,. . . ,K}xTxA ij=i.(九)xi在上面的计算中,我们依赖于特征向量xi来计算Aij。我们还可以在余弦计算之前使用[44]中的可学习线性映射函数将特征向量映射到嵌入空间我们把讨论留在实验中。3.5. 有效的抽样典型的建议生成方法通常为每个视频生成数千个建议。应用上述的图形卷积(Eq.(4))在所有建议上都需要大量的计算和存储器占用。为了加速GCN的训练,已经提出了几种基于邻域采样的方法[7,23,20在这里,我们在我们的方法中采用SAGE方法[20],因为它的灵活性。SAGE方法在自上而下的通道中对每个节点的固定大小的邻域逐层均匀采样。换句话说,第(k-1)层的节点被公式化为节点的采样邻域在第k层中。在对所有层的所有节点进行采样之后,SAGE以自底向上的方式执行信息聚合在这里,我们指定聚合函数为等式的采样形式。(4)即,1:通过建议pi,pi∈P实例化节点第二章: 在节点第三章: 得到建议图G(P,E)4:使用等式2计算相邻矩阵。(九)5 : 当 不 收 敛 时 做 6 :对 于 k=1 。 . . Kdo 7 :对于p∈ P do8:采样p的Ns个邻域9:使用等式9汇总信息(十)10:结束十一:端十二:predictactioncat egories{yi}N使用等式(六)13:使用等式14执行边界回归。(七)十四:预测完备性{c<$i}N使用等式(8)15:结束时,输出:经过训练的P-GCN模型由于每个视频具有超过15个动作实例,并且其71%的帧被背景项占据,因此具有挑战性。根据[24]中的常见设置,我们在验证集中应用200个视频进行训练,并对测试集中的213个注释视频进行ActivityNet [4]是另一个流行的基准,用于在未经修剪的视频上进行动作本地化。我们在ActivityNet v1.3上评估我们的方法,其中包含大约10K的训练1ΣNs视频和5K验证视频对应于200个不同的活动。每个视频平均有1.65个动作x(k)=Ax(k−1)+x(k−1)<$W(k), (10)iNsj=1ijj i实例. 按照标准做法,我们培训我们的方法的训练视频和测试它的验证其中节点j是从节点i的邻域采样的,即,j∈ N(i);Ns是抽 样大小 ,远小于 总数 N。等 式中的 求和公式(10)进一步由Ns归一化,这在经验上使得训练更稳定。此外,我们还加强了自加性其特征为节点i在方程。(十)、我们在测试时不进行任何取样。为了更好的可读性,算法1描述了我们方法的算法流程。4. 实验4.1. 数据集THUMOS 14 [24]是行动本地化的标准基准。它的训练集被称为UCF-101数据集,由13320个视频组成。验证集、测试集和背景集分别包含1010、1574和2500个未修剪的对此数据集视 频 . 在 我 们 的 实 验 中 , 我 们 将 我 们 的 方 法 与THUMOS 14和Activi- tyNet v1.3上的最新方法进行对比,并在THUMOS 14上进行消融研究。4.2. 实现细节评估指标。我们使用平均精度(mAP)作为评估指标。如果提案与地面实况实例的时间IoU大于某个阈值并且预测的类别与该地面实况实例相同,则提案被认为是正确的。在THUMOS 14上,从{0. 1,0。2,0。3,0。四,零。在ActivityNet v1.3上,IoU阈值来自{0. 5,0。75,0。95},我们还报告了IoU阈值的平均mAP在0.5和0.95步长为0。05.特点和建议。我们的模型在双流策略下实现[35]:RGB帧和光流}7100领域的我们首先将每个输入视频均匀地划分为64帧片段。然后,我们使用在Kinetics [5]上预训练的双流膨胀3D Con- vNet(I3 D)模型来提取片段特征。详细地说,I3 D模型将RGB/光流段作为输入,并为每个段输出在I3D特征上,我们进一步跨段应用最大池化,以获得通过BSN方法获得的每个建议的一个1024维特征向量[27]。请注意,我们在训练阶段并没有除了I3D功能和BSN提案外,我们的消融第5节中的研究还探索了其他类型的特征(例如,2-D特 征 [27] ) 和 提 议 ( 例 如 , 技 术 咨 询 小 组 的 建 议[52])。建议图构建。我们通过将两个流的θctx的值固定为0.7,θsur的值固定补充资料中对θctx和θsur的取值作了进一步的讨论我们采用了2层GCN,因为我们没有观察到明显的改善与超过2层,但模型的复杂性增加。为了更有效,我们在等式中选择Ns=4(10)除另有规定外,用于邻域采样训练RGB流的初始学习速率为0.001,Flow流的初始学习速率为0.01。在训练期间,学习率将每15个epoch除以10。辍学率为0.8。分类和完备性利用交叉入口损失和铰链损失来训练训练cassi。 回归项(ti,s,ti,e)用平滑的L1损失训练。更多培训详情请参见补充材料。试验. 我们不执行邻域采样(即等式(10)测试。RGB和Flow流的预测使用2:3的比率融合我们将分类分数与完整性分数相乘作为计算mAP的最终分数然后,我们使用非最大抑制(NMS),以获得最终预测的时间分别为每个动作类的建议。我们使用600和100个pro的视频计算mAP的THUMOS 14和ActivityNet v1.3,分别。4.3. 与最新技术水平结果的THUMOS 14. 我们的P-GCN模型与表1中的最新方法进行 了比 较。 P-GCN 模 型在 所有 阈值 上达 到 最高 的mAP,这意味着我们的方法可以比任何其他方法更准确地识别和定位动作。特别是,当tIoU = 0时,我们的P-GCN模型比以前最好的方法(即TAL- Net [6])的绝对改善率高出6.3%,第二好的结果[27]超过12.2%。五、ActivityNet v1.3. 表2报告了各种方法的动作定位结果。关于平均mAP,P-GCN优于SSN [52],CDC [33]和TAL-Net [6]分别增长3.01%、3.19%和6.77%我们观察到表1. THUMOS 14上的动作定位结果,通过不同tIoU阈值α下的mAP(%)测量。朝声0.10.20.30.40.5Oneata等人[29日]36.633.627.020.814.4Wang等人[第四十届]18.217.014.011.78.3Caba等人[3]第一章----13.5Richard等人[三十一]39.735.730.023.215.2Shou等人[34个]47.743.536.328.719.0Yeung等人[48个]48.944.036.026.417.1Yuan等[49个]51.442.633.626.118.8Escorcia等人[第十一届]----13.9Buch等人[二]《中国日报》--37.8-23.0Shou等人[33个]--40.129.423.3Yuan等[50个]51.045.236.527.817.8Buch等人[1]第一章--45.7-29.2Gao等人[18个国家]60.156.750.141.331.0Hou等人[21日]51.3-43.7-22.0Dai等人[八]《中国日报》---33.325.6Gao等人[17个]54.050.944.134.925.6Xu等[46个]54.551.544.835.628.9Zhao等人[五十二]66.059.451.941.029.8Lin等[27日]--53.545.036.9Chao等人[6]美国59.857.153.248.542.8P-GCN69.567.863.657.849.1表2.ActivityNet v1.3(val)上的动作定位结果,通过不同tIoU阈值下的mAP(%)和IoU阈值的平均mAP(0.5 - 0.95)进行测量。(*)表示使用UntrimmedNet [41]中的外部视频标签的方法。朝声0.50.750.95平均Singh等人[36个] 34.47---Wang等人[四十三]43.65---Shou等人[33个]45.3026.000.2023.80Dai等人[八]《中国日报》36.4421.153.90-Xu等[46个]26.80---Zhao等人[五十二]39.1223.485.4923.98Chao等人[6]美国38.2318.301.3020.22P-GCN42.9028.142.4726.99Lin等[27]*46.4529.968.0230.03P-GCN*48.2633.163.2731.11Lin等人的方法。[27](下文称为LIN)在此数据集上表现良好。请注意,LIN最初设计用于生成类不可知的建议,因此依赖于外部视频级动作标签(来自Untrimmed- Net [41])进行动作本地化。相比之下,我7101们的方法是自包含的,并且能够在没有任何外部标签的情况下执行动作本地化。实际上,P-GCN仍然可以修改以考虑外部标签。为了实现这一点,我们将UntrimmedNet预测的前2个视频级别类分配给该视频中的所有建议。我们在补充材料中提供了有关如何在P-GCN中涉及外部标签的更多详细信息。总结见7102流46.53MLP43.68P-GCN36.85 38.2429.6430.8620.1921.56RGB37.27MLPP-GCN34.7531.1728.9421.0619.1516.3614.5450表3。我们的P-GCN模型与THUMOS 14上的MLP之间的比较,通过mAP(%)测量。4030202D+标签4030202D+BSNI3D+TAGI3D+BSN表4.我们的P-GCN模型和THUMOS 14上的平均池(MP)之间的比较,通过mAP(%)测量。102D+TAG 2D+BSN I3D+TAG I3D+BSN图3.在具有不同主链的THUMOS 14上的动作定位结果,通过mAP@tIoU=0.5测量。表2中,我们的增强版本P-GCN* 始终优于LIN,因此证明了我们的方法在相同设置下的有效性5. 消融研究在本节中,我们将进行完整和深入的消融研究,以评估模型中每个组件的影响。关于基线方法(如MLP和MP)结构的更多细节可以在柔软的材料中找到5.1. 提案关系如何提供帮助?如§3.4所示,我们分别将两个GCN应用于动作分类和边界回归。在这里,我们使用2层MultiLayer实现基线-感知器(MLP)。MLP基线与GCN共享相同的结构,除了我们在等式中移除相邻矩阵A(四)、具体 地 说 , 对 于 第 k 层 , 方 程 中 的 ( 4 ) 变 为Xk=Xk−1Wk,其中Wk是可训练参数。在不使用A的情况下,MLP独立地处理每个提议特征。 通过比较MLP和GCN的性能,我们可以证明消息传递的重要性。 为此,我们将每个GCN替换为MLP,并具有以下模型变体,包括:(1)MLP 1 + GCN 2,其中GCN1被替换;(2)GCN 1 + MLP 2,其中GCN 2被替换;以及(3) MLP1 + MLP2,其中两个GCN都被替换。表3显示,所有这些变体都会降低性能我们的模型,从而验证了GCN的有效性的动作分类和边界回归。总的来说,我们的模型P-GCN显着优于MLP协议(即。MLP1 + MLP2),验证了在时间动作本地化中考虑提议-提议关系的重要性。表5.THU-MOS 14上 不同 类 型 边缘 函 数的 比 较 ,用 mAP(%)测量。mAP@tIoU=0.5RGB流MLP34.7543.68P-GCN(cos-sim)35.5544.83P-GCN(cos-sim,自添加)37.2746.53P-GCN(嵌入式cos sim,自添加)36.8146.895.2. 图卷积有什么帮助?除了图卷积之外,在提案特征之间执行均值池化是实现提案之间的信息传播因此,我们首先对提案特征采用MLP,然后对相邻提案的MLP输出进行平均池化,从而进行其他基线。相邻连接是通过使用与GCN相同的图来表示的我们称这一基线作为下文的MP与5.1节中的设置类似,我们有三个模型变体,包括:(1)MP1 + MP2;(2)MP1 + GCN2;(3)GCN1 + MP2。 我们-将结果输入表4。我们的P-GCN性能优于所有MP变体,证明了图卷积在捕获提案间连接方面优于均值池。表4中的协议MP 1+ MP 2比表3中的MLP 1 + MLP2表现得更好,这再次揭示了对提议-提议关系建模的益处,即使我们使用朴素平均池来追求它。5.3. 不同主链我们的框架是通用的并且与不同的主干兼容(即,建议和特点)。除了上面应用的骨干之外,我们还对TAG建议[52]和2D特征[27]进行了实验。我们尝试不同的 组 合 : ( 1 ) BSN+I3D; ( 2 ) BSN+2D; ( 3 )TAG+I3D;(4) TAG+2D,并在图3中报告MLP和P-GCN的结果。与MLP相比,我们的P-GCN在所有类型的功能方面都有显著和一致的改进最大平均最大平均mAP@tIoU=0.5RGB增益流量增益MLP1+MLP234.75-43.68-MLP1 +GCN235.94 1.1944.59 0.91GCN1 +MLP235.82 1.0745.26 1.58P-GCN(GCN1 +GCN2)37.27 2.5246.53 2.85mAP@tIoU=0.5RGB增益流量增益MP1 + MP235.32-43.97MP1 + GCN236.50 1.1845.78 1.81GCN1 + MP236.22 0.9044.42 0.45P-GCN(GCN1 +GCN2)37.27 1.9546.53 2.567103地面实况P-GCN(Ours)7MLP掷铁饼80.3秒79.4s铅球0.6s80.2s铅球71.8s表6. THUMOS 14上两种类型边缘的比较,通过mAP(%)测量。mAP@tIoU=0.5RGB增益流量增益w/两个边缘(P-GCN)37.27-46.53-无周围边缘35.84-1.4345.89-0.64无上下文边缘36.81-0.4645.57-0.96无两边(MLP)三十四点七五至二点五二43.68-2.85表7. THUMOS 14上每次迭代的不同采样大小和训练时间的比较,通过mAP@tIoU=0.5测量。Ns1234510RGB36.036.9235.6837.2736.1136.37流46.1545.0645.1346.5346.2846.14时间(s)0.100.230.330.410.481.72和建议。这些结果表明,我们的方法通常是有效的,并不限于特定的功能或建议类型。5.4. 边权和自加我们已经定义了方程中的边的权重。其中应用余弦相似性(cos-sim)。这种相似性可以通过在余弦计算之前首先嵌入特征来进一步扩展。我们将嵌入式版本称为embed-cos-sim,并将其与表5中的cos-sim进行比较。将cos-sim替换为embed-cos-sim后,性能没有明显改 善 ( 两 者之 间 的 mAP 差 异 小 于 0。 4% ) 。 当 量(10)考虑了节点特征的自添加。我们还在表5中研究了这个术语的重要性。它表明,自添加导致RGB和Flow流至少1.7%的绝对改进。5.5. 有必要考虑两种类型的边缘吗?为了评估制定两种类型的边缘的必要性,我们对我们的P-GCN的两个变体进行实验,每个变体在图构造阶段只考虑一种类型的边缘。如所预期的,当去除任一种边缘时,表6中的结果显著下降另一个关键点是,我们的P-GCN仍然提高MLP时,只有周围的边缘被保留。这背后的基本原理可能是,同一视频中的动作是相关的,并且利用周围关系将使得能够进行更准确的动作分类。5.6. 我们抽样策略的效率我们有效地训练P-GCN的基础上的邻域采样方程。(十)、在这里,我们感兴趣的是采样大小Ns如何影响最终性能。表7报告了测试mAP对应于从1到5(以及10)变化的不同N表7中还添加了每次迭代的训练时间。我们观察到,当Ns=4时,模型实现比完整模型更高的mAP(即,时间地面实况P-GCN(Ours)MLP65.8s跳高70.6s70.8s跳高65.8s66.6s跳高72.5s图4. THUMOS 14数据集上的定性结果。Ns=10 ) , 同 时 减 少 76% 的 培 训 时 间 , 为 每 一 个iteration。这很有趣,因为采样较少的节点甚至会产生更好的结果。我们推测,邻域采样可以带来更多的随机性,并引导我们的模型在训练过程中逃离局部极小值,从而提供更好的结果。5.7. 定性结果鉴于这些显著的改进,我们还试图找出在哪些情况下我们的P-GCN模型比MLP更好。我们在图4中可视化了THUMOS 14上的定性结果。在上面的例子中,MLP和我们的P-GCN模型都能够正确地预测动作类别,而P-GCN预测更精确的时间边界。在下面的示例中,由于相似的动作特征和上下文,MLP将“Shotput”的动作预测尽管有这样的挑战,P-GCN仍然正确地预测了动作类别,证明了我们的方法的有效性在补充材料中可以找到更多的定性结果。6. 结论在本文中,我们已经利用了建议,建议互动,以解决时间的行动本地化的任务通过构建一个建议图并将GCN应用于消息传递,我们的P-GCN模型在两个基准测 试 中 的 性 能 大 大 优 于 现 有 技 术 的 方 法 , 即 ,THUMOS 14和ActivithNet v1.3。将P-GCN扩展到图像中的目标检测将是有益的,我们将其留给我们未来的工作。鸣谢。本工作得到国家自然科学基金项目61602185、61836003(重点项目)、广东省引进创新创业团队项目2017ZT07X183、广东省科技基金资助项目2018B010107001、腾讯人工智能实验室犀牛鸟重点研究项目(编号:JR201902)。7104引用[1] 夏马尔·布赫,维克多·埃斯科西亚,伯纳德·加尼姆,李飞飞,胡安·卡洛斯·尼布尔斯.端到端,单流时间- poral动作检测未修剪的视频。在2017年英国机器视觉会议上。二、六[2] Shyamal Buch、Victor Escorcia、Chuanqi Shen、BernardGhanem和Juan Carlos Niebles。单流临时行动建议。在IEEE计算机视觉和模式识别会议论文集,第6373-6382页IEEE,2017年。6[3] Fabian Caba Heilbron , Juan Carlos Niebles 和 BernardGhanem。快速时间活动的建议,有效地检测人类的行动,在未经修剪的视频。在IEEE计算机视觉和模式识别会议论文集,第1914-1923页,2016年。6[4] Fabian Caba Heilbron、Victor Escorcia、Bernard Ghanem和Juan Carlos Niebles。Activitynet:人类活动理解的大规模视频基准。在Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition中,第961-970页,2015年。二、五[5] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和动力学数据集。在IEEE计算机视觉和模式识别会议的论文集,第6299-6308页,2017年。二、三、六[6] 放 大 图 片 作 者 : 赵 玉 伟 , SudheendraVijayanarasimhan,Bryan Sey- bold,David A. Ross,JiaDeng,and Rahul Sukthankar.重新思考更快的r-cnn架构用于时间动作本地化。在IEEE计算机视觉和模式识别会议上,2018年6月。一、二、四、六[7] 陈杰、马腾飞、曹啸。Fastgcn:通过重要性采样使用图卷积网络进行快速学习。2018年学习代表国际会议。三、五[8] 戴希阳,巴拉特·辛格,张古月,Larry S.戴维斯和严秋晨。用于视频中活动定位的时间上下文网络。在IEEE国际计算机视觉会议论文集,2017年10月。二、四、六[9] Chaorui Deng,Qi Wu,Qingyao Wu,Fuyuan Hu,FanLyu,and Mingkui Tan.通过累积注意力的视觉基础。在IEEE计算机视觉和模式识别会议论文集,第7746-7755页,2018年。2[10] 段旭光,黄文兵,甘闯,王敬东,朱文武,黄俊洲视频中的弱神经信息处理系统进展,第3059-3069页,2018年。1[11] Victor Escorcia , Fabian Caba Heilbron , Juan CarlosNiebles和Bernard Ghanem。Daps:用于行动理解的深度行动建议。欧洲计算机视觉会议集,第768-784页,2016年。6[12] Lijie Fan , Wenbing Huang , Chuang Gan , StefanoErmon,Boqing Gong,and Junzhou Huang.用于视频理解的运动表示的端到端学习。在IEEE计算机视觉和模式识别上,2018年6月。1[13] Chuang Gan , Boqing Gong ,Kun Liu , Hao Su, andLeonidas J Guibas.几何引导卷积神经网络用于自监督视频表示学习的网络在CVPR中,第5589-5597页,2018年。1
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功