没有合适的资源?快使用搜索试试~ 我知道了~
12005用于细粒度动作解析的Yan Zhang1,2,Siyu Tang2,3,KrikwanMuandet2,Christian Jarvers1,HeikoNeumann11德国乌尔姆大学神经信息处理研究所2德国图宾根马克斯·普朗克智能系统研究所3德国图宾根大学摘要细粒度的时间动作解析在许多应用中是重要的,例如日常活动理解、人类运动分析、外科手术机器人和其他需要长期精细和精确操作的应用。在本文中,我们提出了一种新的双线性池操作,这是用于中间层的时间卷积编码器-解码器网络。与以前的工作相比,我们提出的双线性池是可学习的,因此可以捕获比常规对应物更复杂的局部统计数据。此外,我们引入精确的低维表示我们的双线性形式,使维数减少,而不遭受非正式的损失,也不需要额外的计算。我们进行了广泛的实验,定量分析我们的模型,并显示出优越的性能,其他国家的最先进的池化工作的各种数据集。1介绍在许多应用中,随着时间的推移解析细粒度的动作是很重要的,这需要理解长期的微妙和精确的操作,例如。日常活动[1]、手术机器人[2]、人体运动分析[3]和实验室中的动物行为分析[4]。给定视频或特征向量的通用时间序列,动作解析算法的目的在于为每个帧分配动作标签,使得整个序列被划分成若干不相交的语义动作基元。因此,动作识别,时间语义分割和未修剪视频中的动作检测的任务可以在一个框架中解决。最近,基于深度卷积网络的细粒度动作解析算法非常有效。例如,[5]和[6]中提出的方法首先通过空间卷积网络提取逐帧特征向量,然后通过时间卷积编码器-解码器(TCED)架构将动作标签分配给各个帧。据报道,这样的TCED网络优于其他方法在challening各种场景的细粒度动作数据集。虽然简单明了,但[6]中的TCED架构的一个值得注意的警告是,编码器中卷积层之间嵌入的最大池化操作忽略了高阶时间结构,因此无法区分具有相同一阶统计但不同二阶统计的两个细粒度动作以用手抓取物体为例,当每个帧的特征向量是指尖的3D位置的级联时,在几个连续帧上的最大池化产生手的位置,并且因此告诉在哪里抓取物体。同时,二阶信息可以指示手指的分散,从而告诉如何抓住物体。因此,不同的信息顺序是相当独立和互补的,以精确地描述一个动作。在没有二阶信息的情况下,很难区分在同一位置是抓硬币还是抓书受这个例子的启发,以及最近的几项研究表明,双线性池在细粒度任务(例如,[7-我们指的是Sec。4.3详细分析二阶信息的好处。然而,组合这两种方法是非常重要的,这需要克服常规双线性池化的缺点:(1)传统的双线性池是为视觉分类而设计的。因此,它在全局范围内聚合所有特征,破坏了对语义分割很重要(2)传统的双线性池通过平均来聚集特征向量的外积,因此当真实数据分布复杂时失去代表性。(3)传统的双线性池将特征尺寸从d提升到d2,导致12006神经网络和昂贵的计算成本。在这项工作中,我们从几个方面扩展了传统的双线性具体而言,我们做出以下贡献:(1)为了丰富代表性,我们从双耳形式中解耦一阶和二阶分量,并通过可学习滤波器的卷积来代替平均。在这种情况下,所提出的双线性形式是自适应的数据和指导的训练目标。(2)为了降低维数,而不遭受信息损失或需要额外的计算,我们提出了低维的特征映射比显式双耳组合。这样的特征映射等价于双线性形式,在这个意义上,相关的核函数,因此再生核希尔伯特空间(RKHS),是相同的。(3)通过大量的实验研究了我们的新的双线性池化方法,并表明所提出的方法在不同的数据集上一致地提高了或据我们所知,我们是第一个在卷积编码器-解码器架构中采用双线性池的公司,用于随着时间的推移进行细粒度动作解析。2相关工作细粒度时态动作解析。[10]提出学习对象和材料状态,并通过检测状态转换来划分动作。[11]应用统计语言模型来捕获动作时间动态。[12]提出了一种包含两个流的Ego-ConvNet,用于分别从预定义的视频片段中提取空间特征和时空特征当结合来自空间和光流描述符[14]的Fisher向量[13]时,结果得到了[15]提出了一种多模态双向LSTM模型,用于生成视频的标签序列,以结合前向和后向时间动态。[16]提出了一种在时域中具有跳过连接的条件随机场以及起始和结束帧先验,其通过结构化支持向量机学习。[5]提出了一种多模态深度神经网络,其结构与VGG网络相似。在训练和提取逐帧特征之后,应用时间卷积网络和半马尔可夫条件随机场来产生最终分割结果。基于[5]的空间特征,[6]提出了两种具有编码器-解码器结构的时间卷积网络第一网络包括卷积层和最大池化层;第二个网络使用扩展的时间卷积和跳过的连接来捕获长范围的时间结构。我们的工作使用[6]提出的时间编码器-解码器架构。为了捕获二阶统计量,我们替换了[6]通过我们提出的双线性池操作。我们比较我们的方法与其他人在第二节。4.第一章虽然更复杂的架构,例如,[17][18],也可以提高性能,我们的工作重点是池化操作,因此研究更高级的架构不在我们的范围内。双线性池。双线性池(或二阶池)广泛用于细粒度视觉分类[7-真融合与解缠[22,23,37-在深度神经网络中,双线性池在分类层之前通常只使用一次,例如。 在[8,9,22,23,25,26,31,33,38,39]中,或者嵌入在分类器内,例如,在[27,29]中。关于双线性池有三个主要的研究方向:(1)降维同时减少信息损失。[8,32,41]使用张量草图[45]来减少向量化双线性形式的维数。[9,23]的研究使用参数降维方法,可以通过反向传播学习。[35] [30]中的工作找到了双线性形式的低秩近似,从而将向量外积转换为Hadamard乘法以降低计算量。[19,24,29]利用奇异值分解(SVD),可用于选择主分量并以更高的计算成本提高性能(2)深度神经网络中的多个双线性池化层。[40]将双线性复合分解为沿着不同维度的连续矩阵乘法。[30]使用[35]中的低秩近似,并分层聚合特征。[46]跨层融合一阶和二阶信息以改进纹理识别。(3)方法来捕获更丰富的特征统计信息,以便可以表示更复杂的分布。[47]提出了一种高阶池方案,以基于高阶多项式核的线性化来提取视觉词的特征同现。[48]应用张量草图生成高达p阶的紧凑显式特征图。尽管增加了代表性,但引起了更多的计算负荷[44]线性化高斯内核,以从用于动作识别的CNN分类器分数的后期融合中导出高阶描述符我们的双线性池方法的新颖性有助于所有三个研究方向。首先,我们证明了我们提出的双线性型对应于某些具有多项式核的再生核Hilbert空间的特征然后,我们找到确切的低维替代功能表示,保留在这些RKHS的内核评价。因此,可以在不损失信息和不增加计算量的情况下减小维数。其次,我们的双线性形式被用于时间卷积编码器-解码器架构中的多个层中,而不是仅用于网络顶部。第三,一阶和二阶分量12007NN--∈ XB∈·C不τττ的双线性形式可以被解耦,并且它们中的每一个具有不同的可学习权重。尽管保持在二阶,但可学习的权重使得能够创建自适应的局部B(x)=vec1·C t(2)第一次见面。统计数据,因此可以捕获更复杂的统计比传统的双线性池。|N(t)|τ ττ∈N(t)3方法3.1预赛时间卷积编码解码器。 TCED网络采用特征向量的时间序列,并为每个输入特征向量指定动作标签。它包括一个堆栈的编码器和解码器,以及一个完全连接的模块来生成帧明智的行动标签。每个编码器包括具有激活函数的1D时间卷积层和用于提取局部统计量的池化层在每个编码器之后,时间分辨率减半。解码器具有与编码器对称的结构其中(t)表示以时间t为中心的局部时间邻域集。由于平均操作忽略了(t)中的真实分布,我们从以下两个角度丰富了双线性池的代表性。3.2.1一阶和二阶信息解耦受运动物体的位置和速度可以独立互补地表示其动态的物理事实的启发假设特征时间序列x1,...,xT,一阶分量,nentμ、二阶分量ω和解耦双线性形式Bd(·)由下式给出:由1D时间卷积层和上采样层组成,以执行最近邻插值。在每个解码器之后,时间分辨率加倍。完全1µt=| N(t)|·Στ∈N(t)xτ,(3)连接模块采用了时间分布的完全控制,1Σ=·(x不-µ)(x-µ)和(4)连接层,每次执行线性变换瞬间然后将每个输出传递给softmax函数,以适应地面实况one-hot编码的动作标签。 我们指|N(t)|.τ∈N(t)T.τ t τ tΣΣT详情请参阅[6,图1]Bd(xt)=µt,vect、(五)双线性池。给定一组通用特征向量,x,传统的双线性池化[7,21其中可以记为d(xt)Rd(d+1)。 由于一阶分量等价于均值,二阶分量等价于协方差,因此,B( X)=vec.1|X|Σx∈XΣxx、(1)复合双线性形式可以精确地描述高斯分布。3.2.2根据数据调整本地统计数据其中λ表示向量外积,| · |表示所 述特征集的基数,vec()表示张量向量化。在这种情况下,双线性组合给出了结合特征通道相关性的特征集的描述。3.2局部时态双线性合成与许多研究相比,当局部统计量比高斯分布更复杂时,仅使用均值和协方差是不够的。而不是应用高阶统计(例如,[47,48]),我们考虑统计到二阶保持低计算负荷。由于平均运算在方程。(2)和Eq。(3)可以看作是用一个箱式滤波器进行因此,局部统计量适应于数据和网络目标。具体来说,对于耦合双线性形式,可学习版本由下式给出:视觉分类,我们定义的Eq.(1)作为局部时间邻域集,以保持时间结构 具体地说,给定一个时间序列的fea-ΣB(x)=vecωxx,(6)tures X ={x1,., xT},其中xt∈ Rd,其中t ∈ 1,2,...,Tτ∈N(t)耦合一阶和二阶信息的局部时间双线性合成由下式给出:其中滤波器权重{ωτ}由所有时间相邻集合共享,即, N(t),其中t = 1,2,..., T.12008不联系我们BBB B2→R2ΣΣ对于解耦双线性形式,可学习版本由下式给出:Σ优于其他激活功能。公式由下式给出µt=t=τ∈N(t)Στ∈N(t)pτxτ,(7)qτ(xτ−µt)<$(xτ−µt)和(8)σ(x)= NReLU(x)=ReLU(x)max( ReLU(x))+ max、(11)Bd(xt)=..µt,vectΣΣT、(9)其中,NReLU代表归一化ReLU,NReLU是小的正常数,并且max(·)操作选择最大值。其中滤波器权重pτ和qτ由所有时间相邻集合共享。3.3正常化我们的双线性形式应用于神经网络的几个中间由于向量外积,随着数据从网络底部流向顶部,小值变得更小,大值变得更大,导致双线性形式的发散谱和最终分类层之前的非常稀疏的特征在这里,我们提出了三个规范化的方法,可以限制双线性形式的频谱或致密的功能。每个特征向量中的中值由于Frobenius范数受矩阵的最大范数限制[50],NReLU也能够约束矩阵奇异值,从而消除发散谱问题。然而,它可能导致稀疏特征。3.4低维表示给定任意特征向量序列,双线性形式c和d可以捕获自适应于数据的局部时间统计。然而,特征尺寸显著增加。 具体来说,给定xt∈Rd,我们有B(x)∈Rd2 且B(x)∈Rd(d+1).解决l2归一化。 我们可以在每个ctdt之后应用l2归一化双线性池由于向量化矩阵的l2范数等价于其Frobenius范数,也等价于奇异值矩阵奇异值分解后的Frobenius范数,因此向量化双线性型的l2规范化可以将矩阵谱约束在0和1之间,从而消除了谱发散问题.功率正常化。当使用逐元素功率归一化时,例如,在[7,19,24]或神经网络中间层的高阶张量[19,24]或高阶张量[19]谱功率归一化中,当遇到小值或零值时,梯度在反向传播期间趋于爆炸。我们提出了一个正则化的版本,并使用它作为激活函数后,每个一维卷积层,使网络中的功能始终是致密的。公式由下式给出这样的问题,我们提出了替代的低维代表-表达式的显式双线性形式定义在方程。(6)和等式(九)、与文献[1]中介绍的其他降维方法相比,本文提出了一种新的降维2,我们的方法是精确的,这意味着它既不引入近似方法中的信息损失,也不引入SVD中的额外计算成本。我们首先证明c()和d()是与再生核希尔伯特空间(RKHS)相关的特征映射[51],其中核分别是二阶这种性质可以推广到任意p阶多项式.我们可以在[52]中看到更多的细节。1.提案 给定{x1,...,xT},我们有Σ Σ<$Bc(xi),Bc(xj)<$Rd2 =ωτωτ′<$xτ,xτ′<$Rd,σ(x)=RPN(x)=sign(x)·. √|X|+θ2 −Σθ2 、(10)和τ∈N(i)τ′∈N(j)(十二)其中RPN代表正则化功率归一化,θ是一个可学习的参数。当θ0时,RPN函数收敛于标准幂标准化。有许多研究使功率归一化行为良好,不过,详细讨论这方面的问题,已超出我们的范围。人们可以看到[49]为深度神经网络提出的其他平滑功率归一化方法。规范化的ReLU。[6]提出了一个归一化的ReLU激活函数,它允许快速收敛并产生<$Bd(xi), Bd(xj)<$Rd(d+1)= <$µi,µj<$Rd+qτqτ′xτ−µi,xτ′−µjd2,(13)τ∈N(i)τ′∈N(j)其中的符号是指在方程的定义。(6)和等式 (九)、√120092B·C→ H··B·B∈我的B2R′′证据对于耦合双线性复合,我们有<$Bc(xi), Bc(xj)<$Rd2更低的维度。例如,如果输入序列中的每个特征向量是128维,则Bc是16384维,Bd是16512维。另. Σ=τ∈N(i)vec.Σωτxτxτ,Στ′∈N(j)vec.ωτ′xτ′xτ′另一方面,替代特征表示φc为8256-φd是8384维,在不丢失信息的情况下大约将维数减半,Σ Σ=ωτωτ′.vec.Σxτxτ,vec.xτ′xτ′不引入额外的计算。τ∈N(i)τ′∈N(j)Σ Σ=ωτωτ′<$xτ,xτ′<$Rd.τ∈N(i)τ′∈N(j)对于解耦双线性复合,我们有<$Bd(xi), Bd(xj)<$Rd(d+1)=<$µi,µj<$Rd(十四)4实验4.1数据集在我们的实验中,TCED网络的输入特征时间序列是使用预训练的VGG类网络从RGB视频中提取的[5],并进行下采样以实现与[6]相同的时间分辨率,以进行公平比较。+vec(veci),vec(vecj)=Rd2,(15)因 此 可 以 得 到 Eq. ( 13 ) 在 等 式 中 的 推 导 之 后 ,(14)。从命题1中可以看出,内在的刺激--定义的w.r.t. c()可以用2次齐次多项式核k(x,x′)表示:x,x′2。一般来说,c()增加博览会-多项式核的次数,使得当在深度神经网络中显式使用时,它不太实用。其动机是,对于特定的核k(,),相关特征映射φ:X不是唯一的,我们导出一个对应于与c()相同的内核但具有较低维度的特征映射。所提出的方法减少了要学习的参数的数量,而不牺牲代表性。特别是,我们表明:第二个提案。 让(x)Rd2 是双线性合成的d(d+1)而φ c(x)∈2一个特征映射,φ(x)=(x2,.,x2,x2x x,x2x x,...,√2xx)T.[53]第五十三话这个多模态数据集收集了25个人准备2份混合沙拉的50个录音,每个录音持续5-10分钟。RGB视频具有640x480像素的空间分辨率和30 fps的帧速率。注释在两个级别执行:(1)包含9个动作(例如“切”、“剥”和“加敷料”)的评估级,以及(2)包含17个细粒度动作的中级,这些细粒度动作源自高级动作。因此,我们从50份沙拉中得到两组,即50份沙拉- eval和50份沙拉-mid。将记录平均分成5份进行交叉验证。佐治亚理工学院自我中心活动数据集(GTEA)[54][1]。该数据集包含4个子组的7种日常生活活动。 这些视频是以15 fps的速度从自我中心视图中捕获的,分辨率为1280x720像素,数据集中有31,222帧。 我们遵循[5] [6]中的设置:对于每个视频,注释来自11个动作类的逐帧标签。评价基于留一受试者方案,即对4倍分割进行交叉验证。c`1d项dx`12 1˛¸3C(d,2)项′d−1Dx(十六)JHU-ISI 手 势 和 技 能 评 估 工 作 集 ( JIGSAWS )[55][2]。在我们的研究中,我们只使用“训练”的视频,因为它比其他任务有更多的试验。“然后,它遵循对任何x,x∈Rd,<$Bc(x),Bc(x)<$Rd2=<$φ c(x),φc(x)<$Rd(d+1).Equivalent,在Eq.中定义的二阶分量(9)有一个低维的选择,使得Bd(x)∈“打领带每一个视频都是接近的。2分钟,包含15至37个动作,不同外科医生的发生顺序有类似于GTEA,在我们的实验中,我们在以下方面进行评估:Rd(d+1)可以用φd(x)∈d(d+3)二、“外科医生留一”计划R12010B··由于张量积的交换性质,上述命题可以通过展开方程中的多项式来证明。(14)并结合等效术语。命题2表明c()和φc()是等价的,因为对应的核是相同的。使用φc(·)代替Bc(·)的优点是它具有4.2评估指标全帧精确度。逐帧准确度定义为正确分类的帧除以所有帧的数量。直观地说,这种措施从逐帧分类的角度评估准确性但12011CDBBBB|N|联系我们图1.我们使用来自TCED的第一个编码器的特征来显示50Salads-mid [ 53 ]中“rgb-01-1.avi”的帧相似性两个帧特征xi和xj的相似性 被定义为|.|. 两个(独热)帧标签的相似性,作为地面实况,以相同的方式计算双线性池输出被功率和L2归一化。相似性矩阵的范围在0(蓝色)和1(黄色)之间。红色矩形包含一些细粒度的操作。可以看出,双线性池在识别细粒度操作方面更好,但可以分解粗粒度操作。忽略标签序列中的时间规律性和动作发生顺序。编辑评分[5]。编辑分数评估动作发生的时间顺序,忽略动作时间持续时间,仅考虑片段插入、删除和替换。因此,这种度量对于动作顺序至关重要的场景是有用的,例如,烹饪、制造、手术等等。然而,编辑分数可以被微小的预测片段强烈地惩罚,并且因此被过度分割结果高度降级。F1评分[6]。F1分数用于在动作检测方面进行评估,其中真阳性由动作标签与地面实况相同的片段定义,并且与地面实况的重叠的交集大于并集因此,它对检测和地面实况之间然而,F1分数也会受到过度分割的影响,因为大量的微小片段会导致低精度率。4.3双线性形式我们使用50 Salads-mid数据集来执行模型分析,因为它比其他提到的数据集具有更细粒度的动作类型和二阶信息的好处。图1显示了池化方法之间的比较,其中紧凑双线性池化[8]输出具有与最大池化相同的维度:(1)图中的第一行1清楚地表明,双线性池可以捕获比最大池更好的细粒度动作,其输出特性倾向于将细粒度动作合并到粗粒度动作中。我们提出的具有完整二阶信息的解耦双线性池在识别细粒度动作方面表现更好,抑制非对角元素。但是,它可以将粗粒度的操作分成几个部分。紧凑双线性池在对角元素上优于最大池,这可以清楚地表明双线性池的优势是由于二阶信息而不是更高的维数。然而,大的非对角值表明了近似降维方法的缺点。(2)图中的第二行。1说明了双线性池通过反向传播改进了卷积层。使用最大池化,许多非对角元素类似于对角元素,这与地面实况模式考虑不同。然而,使用双线性池,矩阵模式更类似于地面实况。此外,我们进行了定量比较的第一分裂50沙拉中。在准确度/编辑分数/F1分数的格式中,最大池化产生71.03/71.8/73.09 , 紧 凑 双 线 性 池 化 产 生75.41/73.75/78.96 , 耦 合 双 线 性 池 化 产 生76.56/75.32/79.84 , 解 耦 双 线 性 池 化 产 生75.11/71.06/75.79。可以看出,双线性池始终优于最大池。最大池和紧凑双线性池之间的比较也表明了二阶信息的重要性。不同双线性形式的比较。 在这里,我们分析了所提出的双线性形式c和d中的可学习权重的影响。我们表示相应的不可学习的双线性形式方程。(2)和Eq。(3)分别为O和O如图1的顶行所示。2,对于耦合和解耦双线性形式,在评价指标和对邻域大小的鲁棒性方面,具有可学习权重的双线性形式始终优于不可学习的双线性形式。.当邻居大小较大时,这种结果更加明显。这个结果可以表明,可学习的权重,即与标准平均聚集相比,等式(6)和(9)中的{ω τ}、p τ和q τ使得导出的双线性形式能够捕获更复杂的局部时间统计。因此,在下面的实验中,我们只使用可学习的双线性形式。此外,解耦的双耳形式在所有三个指标上都优于耦合版本。具体而言,解耦双线性形式以准确度/编辑得分/F1得分的格式实现了66.3/64.63/70.74,而耦合双线性形式的最佳性能为64.73/62.15/68.89,基线模型(TCNmax [6])达到了64.7/59.8/68.0。在图的底行中。2.给出了解耦双线性型的一阶分量和二阶分量的性能。可以观察到,使用单个分量导出的结果劣于使用组合双线性形式的结果。这符合我们的猜想,即一阶和二阶分量倾向于描述数据中独立和互补的模式。1201224.4低维表示图2.表演w.r.t.邻居大小|N|以及权重的可学习性。从上到下:(1)耦合双线性型B_c和解耦双线性型B_d的性质。(2)在解耦双线性形式Bd中的每个成分的性能,其中一阶分量和二阶分量在Eq. 9 .第九条。正常化和激活。在这里,我们调查的影响,正常化和比较不同的激活功能。在每个单独的实验中,两个双线性形式的邻域大小是相同的。首先,在Tab中比较不同的归一化方法。1.一、可以看到,l2归一化和l1归一化的性能几乎相同,而归一化的ReLU激活函数始终优于其他函数。这一结果表明,在中间层的最大归一化比其他更适合约束双线性形式的频谱。第二,我们在Tab中显示激活函数的影响二、除了NReLU的情况之外,双线性形式是l2归一化的。在我们的实验中,使用其他没有l2归一化的激活函数进行训练几乎不会收敛,这表明了约束双线性形式的频谱的重要性。选项卡. 2表示NReLU函数始终产生更好的结果,这表明我们的任务受益于稀疏特征。BcBdNReLU65.82/61.89/68.566.28/62.46/68.93NReLU+1264.92/60.01/67.3366.09/60.02/67.38NReLU+1164.22/60.04/65.8666.48/63.04/68.71ReLU+1264.87/59.88/66.3164.7/61.45/68.04ReLU+1163.05/58.29/65.6259.76/58.68/64.39表1.不同标准化方法的比较,其中性能以准确性/编辑得分/F1得分表示,每个模型的最佳方法以粗体突出显示我们的主要贡献之一是得到低维的替代显式双线性组合。与其他降维方法相比,该方法既不损失信息,也不增加计算量。我们在表3、4、5和6的下半部分比较了不同的低维表示。张量草图技术[8]将每个特征的外积从d2减少到d (d+1 ),以进行公平的比较。此外,LearnableProjection[23]由内核大小为1的时间卷积层实现,并且对于公平的计算,减少的维度分别等于φc和φd请注意,在我们的试验中,在我们的局部时间池中使用的其他降维方法(特别是采用SVD的方法)会导致非常高的计算成本,因此没有进行比较。对于每个列出的方法,我们测试了不同的邻域大小5,11和25,并提出了最佳性能。我们的结果表明,所提出的低维表示一致优于其他降维方法。特别是关于在 50 Salads-mid 数 据 集 上 , φ d 的 性 能 明 显 优 于LearnableProjection,其精度提高了5。6%,编辑评分提高了6. 2%,F1评分提高了6。百分之一。4.5与最新技术水平的表3、4、5和6分别示出了不同方法在数据集50 Salads-mid、50 Salads-eval、GTEA和JIGSAWS上的性能,其中TCEDX表示具有池化方法X的时间卷积编码器-解码器。 对于每一种局部时间池方法,我们在邻域集5,11和25上进行网格搜索,并给出最好的一个。从表中,我们可以看到,我们提出的方法可以很好地推广到不同的数据集,并产生优于或可比的性能比其他方法。在50 Salads- mid中,具有比其他数据集更细粒度的动作类型和更长视频的数据集,解耦的双线性形式及其低维表示在所有评估指标上都优于其他方法。在50 Salads-eval中,我们的方法的性能与其他方法相当,而编辑分数较低,可能是因为该数据集中的操作不够细粒度,但我们的双线性池比其他方法产生更多的片段。此外,与最大池基线模型相比,更多的训练时期可以提高准确性,但降低我们的双线性池模型的编辑得分和F1得分。例如,对于GTEA数据集,300个历元之 后 , TCEDBd 产 生 74.7/59.2/66.7 , TCEDmax 产 生63.6/71.9/75.212013TCEDTensorSketch [8]TCEDBc,LearnableProjectionTCEDBd,LearnableProjectionTCEDφcTCEDφd63.4/62.6/68.561.8/58.2/64.460.1/56.6/62.964.7/61.3/66.865.7/62.8/69.0TCEDBdTCEDTensorSketch[8]TCEDBc,LearnableProjectionTCEDBd,LearnableProjectionTCEDφcTCEDφd63.4/70.9/76.859.8/71.2/75.258.4/68.2/71.958.8/70.5/74.964.5/71.8/75.064.4/73.9/76.3ReLU[56][57]第五十七话[58]第五十八话NReLU(公式[6]RPN(公式10)、线性Max61.13/53.13/59.7854.97/48.51/55.5856.51/47.06/52.3963.55/60.37/64.8862.65/54.89/63.0512.59/11.51/8.63BC65.5/61.14/68.466.4/61.72/69.0866.77/59.16/67.4964.01/61.26/67.7764.05/56.48/64.7763.47/48.34/55.87BD64.7/61.45/68.0465.56/53.55/61.4562.51/49.26/56.6466.8/62.38/69.1263.18/50.41/58.3965.51/48.31/56.96表2.不同池化方法和激活函数的性能以准确度/编辑分数/F1的格式呈现分数,其中每个模型的最佳结果以粗体突出显示方法结果方法结果空间CNN [5]54.9/24.8/32.3EgoNet+TDD [12]64.4/-/-时空CNN [5]59.4/45.9/55.9空间CNN [5]54.8/28.7/38.3IDT+LM [11]48.7/45.8/44.4时空CNN [5]57.6/49.1/56.7TCN扩张[6]59.3/43.1/52.2时空CNN+Seg [5]52.6/53.0/57.7双向LSTM [6]55.7/55.6/62.6TCN扩张[6]58.0/40.7/51.3TCEDmax [6]64.7/59.8/68.0双向LSTM [6]56.2/41.3/50.2TCEDBc65.8/61.9/68.5TCEDmax [6]63.5/71.9/75.2TCEDBd66.3/62.5/68.9TCEDBc63.6/71.7/76.4表3.在50个Salads-mid中进行比较,其中结果以准确性/编辑评分/F1评分的格式显示。上半部分是与其他动作句法分析方法的比较,下半部分是不同降维方法的比较表5. GTEA中的比较,其中符号处理方法最佳结果以粗体突出显示。方法结果方法结果表4.在50沙拉评估比较。5结论据我们所知,我们是第一个使用双线性池的时间卷积编码器-解码器的动作解析。为了丰富的代表性,我们解耦的第一和第二阶信息从传统的bilin-耳形式和修改的平均操作卷积与一个可学习的过滤器。为了降低维数,我们引入了低维表示的双线性形式,既没有信息损失,也没有额外的计算。表6.在JIGSAWS中比较。我们进行了几个详细的实验来分析的双线性形式,并表现出优越的性能,以国家的最先进的池化方法的动作解析。未来的工作是研究高阶池的信息损失少的降维方法。鸣谢。Y. Z.和H. N.感谢BMBF项目SenseEmotion的资助。S. T. 由德国研究基金会(DFG,德国研究基金会)资助,项目编号276693517 SFB1233。我们真诚地感谢博士。Colin Lea(Face-book)提供数据集的逐帧特征。空间CNN [5]74.1/37.7/51.6时空CNN [5]77.9/67.1/77.7时空CNN+Seg [5]74.4/73.7/82.2TCN扩张[6]78.0/56.8/69.7双向LSTM [6]74.4/73.7/82.2TCEDmax [6]81.2/85.6/90.3TCEDBc82.6/85.6/90.4TCEDBd82.2/87.7/91.4TCEDTensorSketch [8]80.8/85.4/90.1TCEDBc,Learnable Projection79.7/82.8/88.1TCEDBd,LearnableProjection81.6/83.0/89.0TCEDφc81.8/85.1/90.0TCEDφd81.7/85.1/90.5空间CNN [5]68.0/25.5/35.0时空CNN [5]71.3/52.8/61.7TCN扩张[6]71.1/46.9/55.8双向LSTM [6]70.9/67.7/72.2TCEDmax [6]73.4/72.2/TCEDBc74.2/71.2/75.5TCEDBd75.9/71.3/76.2TCEDTensorSketch [8]71.9/70.9/75.1TCEDBc,LearnableProjection72.0/68.8/73.4TCEDBd,LearnableProjection71.3/68.9/72.6TCEDφc74.0/71.0/76.512014引用[1] Yin Li,Zhefan Ye,and James M Rehg.以自我为中心的行为。在IEEE计算机视觉和模式识别会议论文集,第287-295页,2015年。一、五[2] Narges Ahmidi , Lingling Tao , Shahin Sefati , YixinGao,Colin Lea,Benjamin Bejar Haro,Luca Zappella,Sanjeev Khudanpur,Rene 'Vidal和Gregory D Hager。机器人手术中手势分割和识别的数据集IEEE生物医学工程学报,64(9):2025-2041,2017。一、五[3] Yan Zhang,He Sun,Siyu Tang,and Heiko Neumann.基于动 态聚类的动态 人体动作分 割。arXiv预印本arXiv:1803.05790,2018。1[4] Alexander Mathis,Pranav Mamidanna,Kevin M Cury,Taiga Abe,Venkatesh N Murthy,Mackenzie WeygandtMathis,and Matthias Bethge.Deeplabcut:使用深度学习对用户定义的身体部位进行无标记姿势估计。NatureNeuroscience,第1281 - 1289页,2018年9月。1[5] 科林·李,奥斯汀·赖特,雷内·维达尔和格雷戈里·D·哈格。用于细粒度动作分割的分段时空cnn。欧洲计算机视觉会议,第36-52页。施普林格,2016年。一、二、五、六、八[6] 主演:Michael D. Flynn,Rene Vidal,Austin Reiter,and Gregory D.海格用于动作分割和检测的时间卷积网络。在IEEE计算机视觉和模式识别会议(CVPR),第1003-1012页一二三四五六八[7] 若昂·卡雷拉,鲁伊·卡塞罗,豪尔赫·巴蒂斯塔,克里斯蒂安·斯敏-奇塞斯库。使用二阶池的语义分割欧洲计算机视觉会议,第430- 443页。Springer,2012. 一、二、三、四[8] 杨高、奥斯卡·贝博姆、张宁和特雷弗·达雷尔。紧凑的双 线 性 池 。 在 Proceedings of the IEEE conference oncomputer vision and pattern recognition,pages 317-326,2016中。一二六七八[9] Kaicheng Yu和Mathieu Salzmann。统计激励的二阶合并。欧洲计算机视觉会议,2018年9月。一、二[10] Alireza Fathi和James M Rehg.通过状态更改对操作进行建 模 。 在 Proceedings of the IEEE Conference onComputer Vision and Pattern Recognition , pages 2579-2586,2013中。2[11] 亚历山大·理查德和尤尔根·加尔。使用统计语言模型的时 间 动 作 在 IEEE 计 算 机 视 觉 和 模 式 识 别 会 议(CVPR),第3131-3140页二、八[12] Suriya Singh、Chetan Arora和CV Jawahar。使用深度学习描述符的第一人称动作识别。在IEEE计算机视觉和模式识别会议的论文集,第2620-2628页,2016年。二、八[13] D. Oneata,J. Verbeek,and C.施密特基于精简特征集的fisher向量动作和事件识别。在2013年IEEE计算机视觉国际会议,第1817-1824页,2013年12月。2[14] 王利民,乔宇,唐晓鸥。使用轨迹池深度卷积描述符进行动作识别。在IEEE计算机视觉和模式识别会议论文集,第4305-4314页,2015年。2[15] Bharat Singh , Tim K Marks , Michael Jones , OncelTuzel和Ming Shao。一种用于细粒度动作检测的多流双向递归神经网络。在IEEE计算机视觉和模式识别会议(CVPR)上,1961-1970页。IEEE,2016. 2[16] 科林·李、雷内·维达尔和格雷戈里·D·哈格。学习卷积动作原语以实现细粒度动作识别。在机器人与自动化(ICRA),2016年IEEE国际会议上,第1642-1649页。IEEE,2016. 2[17] 彭蕾和托多罗维奇。用于视频中动作分割的时间可变形在IEEE计算机视觉和模式识别会议(CVPR)上,2018年6月。2[18] Khoi-Nguyen C Mac,Dhiraj Joshi,Raymond A Yeh,Jinjun Xiong,Rogerio R Feris,and Minh N Do. 用于细粒度动作检测的局部一致性可变形卷积网络arXiv预印本arXiv:1811.08815,2018。2[19] P. Koniusz,F.Yan,P.Gosselin和K.米科莱奇克中级和低级特征上的高阶发生率合并:视觉概念检测技术报告,2013年。二、四[20] Mohammad Moghimi,Serge J Belongie,Mohammad JSaberian,Jian Yang,Nuno Vasconcelos,and Li-Jia Li.增强型卷积神经网络。在BMVC,2016年。2[21] Peihua Li,Jiangtao Xie,Qilong Wang,and WangmengZuo. 二 阶 信 息 是 否 有 助 于 大 规 模 视 觉 识 别 。 IEEEInternational Conference on
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Haskell编写的C-Minus编译器针对TM架构实现
- 水电模拟工具HydroElectric开发使用Matlab
- Vue与antd结合的后台管理系统分模块打包技术解析
- 微信小游戏开发新框架:SFramework_LayaAir
- AFO算法与GA/PSO在多式联运路径优化中的应用研究
- MapleLeaflet:Ruby中构建Leaflet.js地图的简易工具
- FontForge安装包下载指南
- 个人博客系统开发:设计、安全与管理功能解析
- SmartWiki-AmazeUI风格:自定义Markdown Wiki系统
- USB虚拟串口驱动助力刻字机高效运行
- 加拿大早期种子投资通用条款清单详解
- SSM与Layui结合的汽车租赁系统
- 探索混沌与精英引导结合的鲸鱼优化算法
- Scala教程详解:代码实例与实践操作指南
- Rails 4.0+ 资产管道集成 Handlebars.js 实例解析
- Python实现Spark计算矩阵向量的余弦相似度
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功