没有合适的资源?快使用搜索试试~ 我知道了~
+……155230CERN:置信度能量循环网络用于群体活动识别0Tianmin Shu 1,Sinisa Todorovic 2和Song-Chun Zhu 101 加州大学洛杉矶分校 2 俄勒冈州立大学0tianmin.shu@ucla.edu sinisa@onid.orst.edu sczhu@stat.ucla.edu0摘要0本文关于在视频中识别发生的人类活动,包括个体动作、交互和群体活动。我们使用两级LSTM网络的层次结构来实现识别,形成一个可以端到端训练的前馈深度架构。与现有的LSTM架构相比,我们做出了两个关键贡献,为我们的方法命名为置信度能量循环网络(CERN)。首先,我们使用新颖的能量层(EL)来估计预测的能量,而不是使用常见的softmax层进行预测。其次,我们指定EL还计算解的p值,从而估计最有信心的能量最小值,而不是找到常见的最小能量类别分配,在不确定性下可能不稳定。在集体活动和排球数据集上的评估表明:(i)我们的两个贡献相对于常见的softmax和能量最小化公式具有优势;(ii)相对于现有技术,性能更好。01. 引言0本文解决了视频中的活动识别问题,每个视频显示一个整体的群体活动或事件(例如,排球中的扣球),这些活动由一些个体动作(例如,跳跃)和人类交互(例如,传球)组成。我们的目标是识别事件、交互和个体动作,对于所有这些类别的训练示例都有注释。当训练数据中没有提供交互的真实注释时,我们只追求事件和动作的识别。最近的深度架构[14,22],代表了一种多级级联的长短期记忆(LSTM)网络[13],在识别视频事件方面显示出巨大的潜力。在这些方法中,底层的LSTM被接地到个体人类轨迹上,最初从跟踪中获得。这些LSTM旨在0y 10y 20y 30y 12 y 230y 130最小化0最大化置信度0c0交互:{y ij}0CERN0时间!0图1:我们的CERN代表了一个两级LSTM层次结构,接地到人类轨迹上,其中LSTM预测给定视频中的个体动作{y i}、人类交互{yij}或事件类别c。CERN输出一个最优的LSTM预测配置,同时最小化预测的能量并最大化它们的置信度,以解决级联预测在不确定性下的脆弱性。这通过将两级层次结构扩展一个额外的能量层来实现,该层可以进行端到端训练。0提取深度视觉表示并预测相应人类轨迹的个体动作。底层LSTM的输出被传递到更高层的LSTM以预测事件。所有预测都是通过在每个LSTM上使用softmax层进行前馈的方式进行的。这样的LSTM层次结构使用通过时间的交叉熵损失的反向传播进行端到端训练。受到这些方法的成功启发,我们从类似的两级LSTM层次结构开始,用于识别个体动作、交互和事件。我们通过在视觉输入不确定性的情况下产生更可靠和准确的预测来扩展这个层次结构。理想情况下,上述级联应该被学习用于克服给定领域(例如,遮挡、动态背景杂乱)中的不确定性。然而,我们的实证评估表明,现有的基准数据集(例如,集体活动数据集[6]和排球数据集[14])相对较小,无法进行稳健的训练。y1y2y3y12y23y13cˆG1 = arg minG E(G)E( ˆG1)E( ˆG2)55240在级联中的所有LSTM。因此,在训练数据中没有见过的情况下,我们观察到预测的前馈通常过于脆弱,因为底层的错误直接传播到更高的层级。解决这个挑战的一种方法是增加训练集。但是由于收集和注释群体活动通常很困难,这可能不切实际。如图1所示,我们采取另一种双管齐下的策略,以实现更强大的活动识别,包括:1.在考虑的不同语义层面上最小化所有预测的能量,2.最大化预测的置信度。因此,我们的方法被称为置信度能量循环网络(CERN)。我们的第一个贡献旨在减轻以前工作中预测的直接级联的脆弱性。我们指定一个能量函数来捕捉CERN内所有LSTM预测之间的依赖关系,并通过能量最小化实现识别。具体而言,我们在两层LSTM的层次结构中添加了一个额外的能量层(EL),用于估计我们预测的能量。EL取代了LSTMs输出处的常见softmax层。重要的是,这种扩展允许在CERN中的所有LSTMs之上对EL层进行稳健的、基于能量的端到端训练。我们的第二个贡献旨在提高CERN在输入扰动和具有多个类似值的模糊情况下的预测的数值稳定性。我们不直接最小化能量,而是考虑更可靠的解决方案,如图2所示。解决方案的可靠性或置信度使用统计假设检验的经典工具[11]来形式化,即相应LSTM的假设(即类别预测)的p-值。因此,我们通过在p-值上施加约束来寻求更有信心的解决方案,这实际上相当于同时最大化置信度和最小化CERN输出的能量。因此,我们指定EL来估计具有一定置信度约束的最小能量,而不仅仅是能量。我们还使用由p-值正则化的能量进行稳健的深度学习。具体而言,我们制定了一个基于能量的损失,该损失不仅考虑能量,还考虑CERN在训练数据上的p-值。我们在Collective Activity[6]和Volleyball[14]数据集上的评估表明:(i)与常见的softmax和基于能量的公式相比,上述贡献的优势,(ii)相对于最先进的方法具有更好的性能。接下来,第2节回顾了以前的工作,第3节指定了CERN,第4节和第5节制定了能量和置信度,第6节描述了能量层,第7节指定了我们的学习,最后第8节呈现了我们的结果。0能量最小化0受P-值限制的推理0最小化能量和最大化置信度0ˆ G 2 = arg min G E ( G ) − log p-值( G)0损失 = L ( E ( G � ) , E ( ˆ G ) , p-值( ˆ G ))0受P-值正则化的学习0时间反向传播0CERN0解决方案空间0图2:(顶部)解决方案空间的想象插图,其中每个圆表示一个候选解。圆的颜色和大小表示能量(红色:高,蓝色:低)和CERN中能量层计算的置信度(半径越大,置信度越高)。候选解 ˆ G 1具有最小能量,但对输入的小扰动似乎在数值上不稳定。置信度和能量的联合最大化给出了另一个不同但更有信心的解决方案 ˆ G 2。置信度以能量潜力的p-值来指定。(底部)我们制定了一个基于能量的损失,用于对CERN进行端到端学习。该损失考虑了能量和p-值。02. 相关工作0群体活动识别。群体活动识别通常需要明确表示以个别动作和成对交互为基础定义的群体活动的时空结构。先前的工作通常使用图模型[18, 17, 23, 1, 5]或AND-OR语法模型[2,25]来学习基于手工特征的结构。最近的方法使用循环神经网络(RNN)学习图模型,通常是MRF[4, 29]或CRF[31,15, 21]。此外,群体活动识别的工作[14,10]已经证明了使用RNN的深度架构相对于上述非深度方法的许多优势。我们的方法通过用新的能量层替换RNN的softmax层,并指定一个考虑网络预测的p值的新的基于能量的模型来扩展这项工作。能量学习。虽然能量公式在非深度群体活动识别[23, 1, 5,25]中的推理和学习中很常见,但在深度架构中很少使用。最近,一些方法尝试使用深度神经网络[3,30]学习能量模型[20,19]。它们证明了能量目标在改善结构化预测性能方面具有巨大潜力,特别是在训练数据有限的情况下。我们的方法通过正则化基于能量的目标,使其额外考虑预测的置信度。识别的可靠性。计算机视觉中的大多数基于能量的模型仅关注各种识别问题的能量最小化。我们的方法通过在推理和学习中估计和规范化p值来扩展这项工作。p值在符合性预测框架[24]中指定。这允许选择更可靠和数值稳定的预测。Network layersValuesCERN-1 outputEvent classCERN-2 outputEvent classˆG = arg minG E(G) − log p-val(G).(1)E(G) ∝+(2)55250节点 边缘0节点潜力0边缘p值0节点p值0边缘潜力0能量层0LSTM i LSTM ij i ∈ V h i, j i 2 E0节点标签 边缘标签 y i y ij0事件类别c c0Walking0(a)CERN-10节点 边缘0节点潜力0边缘p值0节点p值0边缘潜力0LSTM i LSTM ij i ∈ V h i, j i 2 E0节点标签 边缘标签 y i y ij0最大池化最大池化0事件p值0事件潜力LSTM0Crossing0能量层0事件类别c c0(b)CERN-20图3:我们指定和评估了CERN的两个版本。CERN是一个深度的LSTM架构,通过CNN与底部的视频帧相连接。LSTM将其类别预测转发到顶部的能量层(EL)。CERN-1只在底层具有LSTM,计算个别动作类别(彩色框)或交互类别(绿色框之间的彩色链接)的分布。CERN-2还有一个额外的LSTM用于计算事件(或群体活动)类别的分布。EL接收LSTM的输出,并推断出具有最大置信度的能量最小值。图中显示,CERN-1和CERN-2对于群体活动crossing给出了不同的结果。CERN-1错误地预测为walking。CERN-2通常对于不能仅通过个别动作来定义的群体活动产生更好的结果。0此外,该方法还估计和规范化了具有p值的推理。p值在符合性预测[24]框架内指定。这允许选择更可靠和数值稳定的预测。03. CERN架构的组成部分0为了识别事件、交互和个别动作,我们使用了一个名为CERN的LSTM深度架构,如图3所示。CERN类似于[14,15]中提出的深度网络,并且可以被视为一个图G = �V, E, c,Y�,其中V = {i}是对应于个别人类轨迹的节点集合,E = {(i,j)}是对应于人类轨迹对的边集合。这些人类轨迹是使用现成的跟踪器[8]提取的。此外,c ∈ {1, ∙ ∙ ∙ ,C}表示事件类别(或群体活动),Y = YV ∪YE是与节点和边相关联的个别动作类别YV = {yi : yi ∈YV}和人类交互类别YE = {yij : yij ∈YE}的并集集合。在CERN中,我们为G中的每个节点和边分配一个LSTM。所有节点LSTM共享相同的权重,所有边LSTM也共享相同的权重。这些LSTM使用卷积神经网络(CNN)计算相应人类轨迹的深度特征,并输出个别动作类别的softmax分布ψV(xi, yi),或人类交互的softmax分布。0交互类别ψE(xij,yij)。然后,LSTM的输出被转发到CERN中的能量层(EL)以计算能量E(G)。最后,CERN输出一个具有高置信度的结构化预测ˆG:0如图3所示,我们指定并评估了CERN的两个版本。CERN-1使用LSTMs预测个别动作和交互,而事件类别则像(1)中那样由EL预测。CERN-2有一个额外的事件LSTM,它接收从节点和边LSTMs的输出中最大池化的特征,然后计算事件类别的分布ψ(c)。CERN-2中的EL将所有三种类别分布作为输入- 具体来说,{ψV(xi,yi)}i∈V,{ψE(xij,yij)}(i,j)∈E和ψ(c) -并像(1)中那样预测最佳类别分配。接下来,我们指定E(G)和p-val(G)。04. 能量的制定0对于CERN-1,G的能量定义为0i ∈ V w V c,y i ψ V ( x i , y i ) 节点潜力0( i,j ) ∈ E w E c,y ij ψ E ( x ij , y ij )边潜力,αV (1)αV (2)αE(G) ∝+αV (yi) = 1 −ψV (xi, yi)�y∈YV ψV (xi, y) = 1 − ψV (xi, yi), (4)pVi (c, yi) =�i′∈V0(c) 1(yi′ = yi)1(αV (yi′) ≥ αV (yi))i′∈V0(c) 1(yi′ = yi).αEij(yij) = 1 −ψE(xij, yij)y∈YE ψE(xij, y) = 1 − ψE(xij, yij),pEij(c, yij)=�(i′,j′)∈E0(c) 1(yi′j′ = yij)1(αEi′j′(yi′j′) ≥ αEij(yij))(i′,j′)∈E0(c) 1(yi′j′ = yij),α(c) = 1 −ψ(x, c)�c∈C ψ(x, c) = 1 − ψ(x, c),(8)55260V0(c)中的类别10V0(c)中的类别20图4:个别动作的非一致性度量α与p值之间关系的简单示例,虚线区域与曲线下整个区域的比例表示p值。显然,对于给定的实例,动作类别2具有较大的softmax输出,但动作类别1具有更高的置信度。V0(c)是显示事件c的视频的训练集。0其中wVc,yi和wEc,yij是参数,ψV(xi,yi)表示相应节点LSTM的softmax输出,ψE(xij,yij)表示相应边LSTM的softmax输出(参见第3节),xi和xij表示从CNN中提取的相应人类轨迹的视觉线索[10,14]。对于CERN-2,(2)中的能量由事件LSTM的softmax输出增强,即0i ∈ V w V c,y i ψ V ( x i , y i ) 节点潜力0( i,j ) ∈ E w E c,y ij ψ E ( x ij , y ij )边潜力0+ w c ψ ( x, c ) 事件潜力,(3)其中ψ(x,c)中的x是从节点LSTMs和边LSTMs的输出中最大池化的所有动作和交互的视觉表示。05. 置信度的制定0有几种已经研究过的定义p值的方法[11]。在本文中,我们遵循了符合预测[24]的框架。符合预测使用非一致性(不相似度)度量来估计新预测与训练期间系统预测的差异程度。因此,它提供了一种形式来根据对训练数据的过去经验来估计新预测的置信度。下面,我们定义了非一致性度量,用于计算LSTMs对个别动作、交互和事件的预测的p值。05.1. 非一致性度量和p值0给定节点潜力ψV(xi,yi),我们定义了一个用于动作预测的非一致性度量。0上述推导步骤成立是因为ψV(xi,yi)是在动作类别上进行归一化的softmax输出。αV(yi)0用于估计在事件类别c的上下文中预测动作类别yi的p值的方法。0(5) 其中 1 ( ∙ ) 是指示函数,V 0 ( c )表示训练视频中所有具有真实标签 y i ′ 且属于真实事件类别c 的人类轨迹的集合。从 ( 5 ) 可以得知,LSTM 预测 ψ V (x i , y i ) 是可靠的,即具有较高的 p值,当许多同类别的训练样本 i ′具有较大的非一致性度量时。为了更好地理解非一致性度量和 p 值之间的关系,让我们考虑一个简单的情况,如图 4所示。图中绘制了训练样本中两个动作类别的非一致性度量的两个分布(绿色:类别 1,红色:类别2)。假设我们观察到一个新实例,其 softmax输出表明动作类别 2 更有可能是真实标签,即 ψ V ( x i ,1) < ψ V ( x i , 2) ,且 α V (1) > α V (2)。然而,从两条曲线可以看出,这个 softmax输出很可能是错误的。这是因为从图 4 中我们可以得知 p值 p V i ( c, 1) > p V i ( c, 2) ,因为具有类别 1标签的大多数训练样本的非一致性度量大于 α V (1),因此类别 1 是一个更有信心的解决方案。类似地,给定边LSTM 的 softmax 输出 ψ E ( x ij , y ij ),我们指定了预测交互类别的非一致性度量:0(6) 然后用于估计在事件类别 c 的上下文中预测交互类别 yij 的 p 值:0(7) 其中 E 0 ( c ) 表示训练视频中所有具有真实标签 y i ′ j′ 且属于真实事件类别 c 的人类轨迹对的集合。从 ( 7 )可以得知,LSTM 预测 ψ E ( x ij , y ij ) 具有较高的 p值,当许多训练样本 ( i ′ , j ′ ) 在 E 0 ( c )中具有较大的非一致性度量时。最后,在 CERN-2中,我们还有 LSTM 的 softmax 输出 ψ ( x, c ),用于定义事件预测的非一致性度量:p(c) =�v∈V0 1(cv = c)1(α(cv) ≥ α(c))�v∈V0 1(cv = c).(9)χ22N = −2Nminc,YE(G)s.t.− �i∈V ′ log pVi (c, yi) ≤ τ V ,− �(i,j)∈E′ log pEij(c, yij) ≤ τ E,− log p(c) < τ c,(11)wEcλEpVcpEc+ψEλV >pVcψVwVcλVwVc>ψV + λV >pVc+wEc>ψE + λE>pEc++wcψc + λpcwcλpcwVc>ψVwEc>ψEλE>pEcλpcψcwcψcψV pV1pV2pVCψEpE1pE2pECψVψEψVψEpCp2p1ψ2ψ1ψC˜E(X, Y, c) =�i∈VwVc,yiψV (xi, yi)−λV �i∈Vlog pVi (c, yi)+�(i,j)∈EwEc,yijψE(xij, yij)−λE�(i,j)∈Elog pEij(c, yij)˜E(X, Y, c) = wVc⊤ψV − λV ⊤ log pVc+wEc⊤ψE − λEc⊤ log pEc+wcψc − λ log pc,(13)55270以 c 类别预测的 p 值为0其中 V 0 表示所有训练视频的集合。05.2. 结构化预测的置信度 G0为了定义假设 G在其他假设(即可能的解决方案)中的统计显著性,我们需要结合分配给节点、边和事件的预测的 p值。更严格地说,为了指定由多个假设组成的复合统计检验 p-val ( G )的 p 值,我们遵循 Fisher 的组合假设检验 [ 11 ]。Fisher的理论指出,N 个独立的假设检验,其 p 值为 p 1 , ∙ ∙ ∙ p N,可以用一个检验统计量 χ 2 2 N 来描述,该统计量服从自由度为 2 N 的 χ 2 概率分布。从 ( 10 ) 可以得知,最小化统计量 χ 2 2 N将得到描述 Fisher 组合假设检验的最大 p值。在下一节中,我们将使用这个理论结果来指定我们的 CERN的能量层。0n =1 取对数 p n , (10)0其中统计量 χ 2 2 N 经证明服从自由度为 2 N 的 χ 2概率分布。从 ( 10 ) 可以得知,最小化统计量 χ 2 2 N将得到描述 Fisher 组合假设检验的最大 p值。在下一节中,我们将使用这个理论结果来指定我们的CERN 的能量层。06. CERN 的能量层0我们在 LSTM 的深层架构中增加了一个额外的能量层(EL),旨在同时最小化能量(由 ( 3 ) 给出)和最大化 Fisher组合假设检验的 p 值(由 ( 10 ) 给出)。对于CERN-2,这个优化问题可以表示为0其中 τ V , τ E 和 τ c 是对 p值施加下界约束的参数。根据 Fisher组合假设检验的理论,降低约束参数 τ V , τ E 和 τ c将强制解的 p 值更高。根据 ( 3 ) 和 ( 11),我们推导出以下拉格朗日函数,也称为正则化能量 ˜ E (X, Y, c ) ,它可以0能量 c0(a) 计算类别 c 的正则化能量的单元,由 ( 13 ) 给出。0最小能量选择器0能量 1 …0能量 20能量 C0c 事件类别0(b) 能量层中所有单元的图示。0图 5:EL 接受所有 LSTM 的 softmax 输出以及估计的 p值作为输入,并输出一个同时最小化能量和最大化 Fisher组合假设检验的 p 值的解。0然后可以将其作为 EL 直接实现:0+ w c ψ ( x, c ) − λ log p ( c ) , (12) 注意,在 CERN-1中,我们在 ( 12 ) 中省略了最后两项,即 w c ψ c 和 λlog p ( c ) 。˜ E ( X, Y, c ) 可以用更简洁的形式表示为0其中所有的参数、势函数和 p值都被分组到相应的向量中。为了简洁起见,我们将这些向量的具体规范推迟到补充材料中。图 5a 显示了 EL中的一个单元,它计算 ( 13)。在将这些单元堆叠起来后,如图 5b所示,我们选择具有最小 ˜ E ( ˆ G ) 的解 ˆG。接下来,我们解释了我们基于能量的 EL的端到端训练过程。07. 通过置信度进行学习0根据[19, 3],我们使用基于能量的损失函数来训练实例 X i和其对应的真实标签 ( Y i , c i )L(Xi, Y i, ci)̸̸̸55280为了学习 EL 的参数,即 ( 12 )中指定的正则化能量,我们可以使用以下公式:0= max � 0 , ˜ E ( X i , Y i , c i ) − ˜ E ( X i , ¯ Y , ¯ c ) + 1 (c i � = ¯ c ) � ,其中 ¯ Y , ¯ c = argmin Y,c � = c i ˜ E ( X i ,Y, c ) − 1 ( c i � = c )为最违反的情况。或者,这个损失函数也可以用其他能量损失函数来替代,这也是[19]中考虑的。在这里,为了简化起见,我们将 Y 视为潜在变量,只考虑 c的准确性。然而,可以将损失函数中包括 Y和其对应的真实标签 Y i之间的比较。通常很难找到最违反的情况。然而,正如[20]所指出的,找到最违反的情况的推断并不需要全局最小解,因为我们的能量模型中没有建模归一化项,所以我们可以简单地将 ¯ Y 设置为节点和边的 LSTM的输出。在实践中,可以首先使用常见的损失函数(如交叉熵)训练一个网络,学习从输入层到 softmax层的表示,不包括 EL。然后,通过将自身从训练集 V 0 和 E0 中移除,可以计算出训练实例的 p值。最后,通过最小化损失函数来训练 ( 12 ) 中的权重。08. 结果0实现细节。我们将节点LSTMs和边LSTMs堆叠在VGG-16模型[26]的顶部,不包括FC-1000层。VGG-16在ImageNet[9]上进行了预训练,并与LSTMs联合进行了微调。我们通过固定CNNs和底层LSTMs的权重来训练CERN的顶层。底层LSTMs和VGG-16的联合训练的批量大小为6。训练在20000次迭代内收敛。事件LSTM和EL使用10000次迭代进行训练,批量大小为2000。对于小批量梯度下降,我们使用RM-Sprop[28],学习率范围从0.000001到0.001。我们使用Keras[7]和Theano[27]作为CERN的后端实现,并使用单个NVIDIA TitanX(Pascal)GPU进行训练和测试。为了与[14]进行公平比较,我们使用与[14]中相同的跟踪器及其实现。具体来说,我们使用来自Dlib库[16]的[8]的跟踪器。人物和人物对的裁剪图像序列分别用作节点LSTMs和边LSTMs的输入。我们将我们的方法与最先进的方法[12,14]进行比较。此外,我们评估以下合理的基线。基线:•2层LSTMs(B1)。我们测试了一个类似于[14]的2层LSTMs网络。以下所有其他基线和我们的完整模型都使用B1来计算它们的潜力和p值。B1没有能量层,只有一个0前馈网络。事件类别由事件LSTM的softmax输出预测。•CERN-1无p值(B2)。该基线表示具有能量层的CERN-1网络,但未计算p值并且未用于正则化能量最小化。因此,B2的事件类别预测来自标准能量最小化。•CERN-2无p值(B3)。与B2类似,在B3中,我们不估计也不使用CERN-2的能量层中的p值。数据集。我们在两个领域中评估我们的方法:集体活动和体育赛事,分别使用集体活动数据集[6]和排球数据集[14]。08.1. 集体活动数据集0集体活动数据集包含44个视频,标注了5个活动类别(穿越、行走、等待、交谈和排队),6个个体动作标签(NA、穿越、行走、等待、交谈和排队)和8个成对交互标签(NA、接近、离开、经过、面对面、并排行走、排成一行、并排站立)。交互标签是通过[5]中的扩展注释提供的。对于这个数据集,我们首先使用10个时间步长和3000个节点训练节点LSTMs和边LSTMs。然后,我们将这两种类型的LSTMs的输出与它们的VGG-16特征连接在CERN的底层,并将连接传递给CERN顶层的具有500个节点和10个时间步长的双向事件LSTM。连接通过一个最大池化层和一个输出维度为4500的全连接层。与[12,14]和基线B1-B3进行比较,我们使用以下性能指标:(i)多类分类准确率(MCA),(ii)平均每类准确率(MPCA)。我们的训练和测试集的划分与[12,14]相同。表1总结了所有方法在识别群体活动方面的性能。请注意,在表1中,只有[12]没有使用深度神经网络。可以看到,我们的能量层显著提高了准确性,大幅超越了最先进的方法。即使只有LSTMs的底层,CERN-1仍然比[14]的2层LSTMs表现更好,这要归功于能量层。没有能量层,基线B1的准确性比[14]低,即使有额外的LSTMs用于交互。我们在集体活动数据集上识别个体动作和交互的准确性分别为72.7%和59.9%,分别使用节点LSTMs和边LSTMs。请注意,B1、CERN-1和CERN-2共享相同的节点和边LSTMs。为了评估CERN-2预测群体活动类别的数值稳定性,我们在测试数据中破坏所有人类轨迹,并通过破坏概率控制破坏程度。例如,对于破坏概率为0.5的情况,我们将0 0.20.5-0.05-0.04-0.03-0.02-0.010 0.20.5-0.05-0.04-0.03-0.02-0.01B1: 2-layer LSTMsCERN-2 w/o p-valuesCERN-20 0.20.5-0.2-0.15-0.1-0.050 0.20.5-0.2-0.15-0.1-0.05B1: 2-layer LSTMsCERN-2 w/o p-valuesCERN-255290方法 MCA MPCA0Cardinality kernel [ 12 ] 83.4 81.902层LSTMs [ 14 ] 81.5 80.90B1:2层LSTMs 79.7 80.30B2:CERN-1 w/o p-values 83.8 84.30B3:CERN-2 w/o p-values 83.8 83.70CERN-1 84.8 85.50CERN-2 87.2 88.30表1:CollectiveActivity数据集上不同方法进行群体活动识别的比较。00 MCA00 MPCA0图6:在CollectiveActivity数据集中,群体活动识别的性能随人类轨迹损坏百分比的变化而降低。我们将2层LSTMs(B1)、CERN-2 w/op-values(B3)和CERN-2使用相同的损坏轨迹作为输入进行比较。0当损坏概率为0.5时,我们在每个视频帧中以0.5的概率损坏一个人的边界框。当选择边界框时,我们随机将其水平和垂直位移,位移范围为原始边界框宽度和高度的20%至80%。如图6所示,与没有p-values的基线相比,CERN-2的性能降低更小。这表明将p-values纳入能量模型确实有助于推理的稳定性。随着输入数据损坏程度的增加,这种好处变得更加显著。图8显示了一个穿越活动的示例。可以看到,尽管B1和CERN-2具有相同的个体动作标签,其中大多数人被分配了错误的动作标签,但CERN-2仍然可以正确识别该活动。08.2. 排球数据集0排球数据集由55个视频组成,共有4830个标注帧。动作标签包括等待、设置、挖掘、失败、扣球、拦网、跳跃、移动和站立;群体活动类别包括右侧设置、右侧扣球、右侧传球、右侧得分、左侧得分、左侧传球、左侧扣球和左侧设置。该数据集未标注交互动作,因此我们不识别交互动作并移除边缘LSTMs。节点LSTMs有3000个节点和10个时间步。0方法 MCA MPCA02层LSTMs [ 14 ](1组)70.3 65.90B1:2层LSTMs(1组)71.3 69.50B2:CERN-1 w/o p-values(1组)33.3 34.30B3:CERN-2 w/o p-values(1组)71.7 69.80CERN-1(1组)34.4 34.90CERN-2(1组)73.5 72.202层LSTMs [ 14 ](2组)81.9 82.90B1:2层LSTMs(2组)80.3 80.50B3:CERN-2 w/o p-values(2组)82.2 82.30CERN-2(2组)83.3 83.60表2:在排球数据集上进行群体活动识别的不同方法的比较。第一组是使用1组的方法,第二组是使用2组的方法。00 MCA00 MPCA0图7:在排球数据集上,不同输入失真百分比下,群体活动识别准确率的降低(全部使用2组样式)。将CERN-2与2层LSTMs(B1)和CERN-2 w/o p-values(B3)进行比较。0(包括5个前导帧和4个后续帧)。CERN-2中的事件LSTM是一个具有1000个节点和10个时间步的双向LSTM。在[ 14]中,最大池化有两种类型:1)池化所有节点LSTMs的输出,或者2)首先将球员分为两组(左队和右队),然后分别对每组进行池化。我们对我们的方法测试了这两种类型的最大池化,以排除池化类型在比较中的影响。CERN-1没有池化层,因此被归类为1组样式。使用节点LSTMs的个体动作识别准确率为69.1%,群体活动的识别准确率总结在表2中。显然,与传统的能量最小化(B2和B3)相比,正则化的能量最小化提高了准确性,而CERN-2在使用任何一种池化类型时都优于现有技术。CERN-1在排球数据集上无法达到与CERN-2相媲美的准确性。这主要是因为CERN-1基于个体动作推理群体活动,这可能无法为识别体育视频中的复杂群体活动提供足够的信息。CERN-2通过添加事件LSTM来解决这个问题。我们还通过CERN-2在输入人类轨迹损坏的情况下识别群体活动的稳定性进行评估。B1GT#76530#76535B1CERN-2GT#7653955300行走 穿越 穿越 GT0图8:集体活动数据集上的定性结果。从左到右,分别显示了B1、CERN-2和地面真实(GT)标签的推理结果。边界框的颜色表示个体动作标签(绿色:穿越, 红色: 等待, 品红色: 行走)。这里为了简单起见,没有显示交互标签。0右传球0左传球0右传球0图9: Volleyball数据集上的定性结果: B1的结果(顶部),CERN-2的结果(中部)和地面真实(GT)标签(底部)。边界框的颜色表示个体动作标签(绿色: 等待, 黄色: 挖掘, 红色: 跌倒, 品红色:站立),数字是帧ID。0如图7所示,EL中的p值确实提高了对Volleyball数据集的推理可靠性。图9展示了一个右传球活动的定性结果(2组),它展示了与深度循环网络的softmax输出相比,基于我们的正则化能量的推理的优势,当动作预测不准确时。09. 结论0我们通过一种称为Con�dence-Energy Recur- rentNetwork(CERN)的新型深度架构来解决识别群体活动、人际互动和个体动作的问题。CERN通过额外地结合置信度测量和基于能量的模型来提高推理的可靠性和数值稳定性。推理被形式化为最小化LSTMs所做预测的能量和最大化置信度测量的联合。这通过一个新的可微分能量层(EL)来实现,该层计算能量的正则化p值。0通过Fisher综合统计检验的p值进行正则化。我们通过正则化能量定义了一个基于能量的损失,以端到端学习EL。CERN在集体活动数据集和Volleyball数据集上进行了评估。与以前使用深度循环网络以前馈方式预测群体活动的方法相比,CERN具有更好的性能,并在不确定性下提供更稳定的解决方案。对于集体活动,我们更简单的变体CERN-1比代表两级LSTMs的强基准模型给出更准确的预测。我们的变体CERN-2增加了复杂性,但在具有挑战性的群体活动中获得更高的准确性,这些活动不仅仅是个体动作的总和,而是一个复杂的整体。0致谢0本研究得到了DARPA MSEE项目FA 8650-11-1-7149、ONRMURI项目N00014-16-1-2007和NSF IIS-1423305的资助。55310参考文献0[1] M. R. Amer, P. Lei, and S. Todorovic. Hirf:集体活动识别的分层随机场. 在计算机视觉欧洲会议(ECCV)上,2014年, 第572-585页. 20[2] M. R. Amer, D. Xie, M. Zhao, S. Todorovic, and S.-C. Zhu.针对多尺度活动识别的成本敏感的自上而下/自下而上推理.在计算机视觉欧洲会议(ECCV)上, 2012年, 第187-200页. 20[3] D. Belanger and A. McCallum. 结构化预测能量网络.在机器学习国际会议(ICML)上, 2016年. 2 , 50[4] L.-C. Chen, A. G. Schwing, A. L. Yuille, and R. Urtasun.学习深度结构化模型. 在机器学习国际会议(ICML)上, 2015年. 20[5] W. Choi 和 S. Savarese. 从视频中理解人们的集体活动.IEEE模式分析与机器智能交易 (TPAMI), 36(6):1242-1257, 2014.2, 60[6] W. Choi, K. Shahid, 和 S. Savarese. 他们在做什么?:使用人们之间的时空关系进行集体活动分类.在IEEE国际计算机视觉会议(ICCV Workshops)上,页码1282-1289, 2009. 1, 2, 60[7] F. Chollet. Keras. https://github.com/fchollet/keras ,2015. 6 [8] M. Danelljan, G. H¨ager, F. Khan, 和 M. Felsberg.用于稳健视觉跟踪的准确尺度估计.在英国机器视觉会议(BMVC)上, 2014. 3, 60[9] J. Deng, W. Dong, R. Socher, L.-J. Li, K. Li, 和 L. Fei-Fei.ImageNet: 一个大规模的分层图像数据库.在IEEE计算机视觉和模式识别会议(CVPR)上, 页码248-255, 2009.60[10] Z. Deng, A. Vahdat, H. Hu, 和 G. Mori. 结构推理机:用于分析群体活动识别中关系的循环神经网络.在IEEE计算机视觉和模式识别会议(CVPR)上, 页码4772-4781,2016. 2, 40[11] R. A. Fisher. 《研究工作者的统计方法》. 伦敦: Oliver andBoyd, 第11版, 1950. 2, 4, 50[12] H. Hajimirsadeghi, W. Yan, A. Vahdat, 和 G. Mori.通过计数实例进行视觉识别: 一种多实例基数潜力核.在IEEE计算机视觉和模式识别会议(CVPR)上, 页码2596-2605,2015. 6, 70[13] S. Hochreiter 和 J. Schmidhuber. 长短期记忆. NeuralComputation, 9(8):1735-1780, 1997. 10[14] M. S. Ibrahim, S. Muralidharan, Z. Deng, A. Vahdat, 和 G.Mori. 用于群体活动识别的分层深度时空模型. arXiv预印本,arXiv:1607.02643, 2016. 1, 2, 3, 4, 6, 70[15] A. Jain, A. R. Zamir, S. Savarese, 和 A. Saxena. 结构RNN:在时空图上的深度学习.在IEEE计算机视觉和模式识别会议(CVPR)上, 页码5308-5317,
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功