动作预测中的时空特征残差传播

160 浏览量更新于2023-10-12 收藏 1014KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于动作预测的时空特征残差传播何昭多伦多约克大学zhufl@eecs.yorku.ca理查德·P·怀尔德斯约克大学，多伦多wildes@cse.yorku.ca摘要从有限的初步视频观察中识别行动最近取得了相当大的进展。然而，典型地，这样的进展已经没有明确地建模细粒度的运动演变作为潜在的在这项研究中，我们解决这个任务，通过调查行动模式如何随着时间的推移在空间特征空间的演变我们的系统有三个关键组成部分。首先，我们使用中间层ConvNet功能，它允许从原始数据中抽象，同时保留空间布局，这在依赖于矢量化全局表示的方法中是牺牲的。第二，而不是传播功能本身，我们传播他们的残差跨越时间，这允许一个紧凑的representation，减少冗余，同时保留基本信息的演变随着时间的推移。第三，我们采用卡尔曼滤波器，以打击错误的建立和统一的预测开始时间。在JHMDB21、UCF101和BIT数据集上的大量实验结果表明，我们的方法导致了一种新的最先进的行为预测。1. 介绍人类的视觉系统既能够识别完整的动作，也能够根据初步观察预测未来例如，在多人运动中，高水平运动员在完成练习之前会对对手的动作做出反应[47]。相比之下，基于视觉的动作预测的计算建模受到的关注远不如动作识别。动作预测与动作识别有许多共同的挑战，例如.处理视点和执行变化的需要以及视频上的动作的演变倾向于与分散注意力的信息纠缠在一起的事实，例如，杂波、相机运动、遮挡和运动模糊。对于预测的情况来说，还存在其他的挑战.某些动作类别在不同阶段共享类似的子组件（例如，推和拍都是从手臂的伸展开始的），这使得当只有部分信息可用时区分特别困难一般来说，不完整XtXt#$Xt#2Xt#&Xt#4Xt#（Xt#）Xt#*CNN特征P型Featu…卡尔曼滤波器更新CNN残余P型残余…剩余发电机网络图1：动作预测的拟议特征残差传播方法概述。中间层ConvNet特征从输入帧的初始集合中提取;在所描述的例子中，这些被给出为[Xt，Xt+1，Xt+2];随后的帧（例如，[X t+3，. . .，X t+7]在测试期间未被系统看到（尽管它们在训练期间），并且在此仅为了上下文而示出。初始特征残差，CNN残差，通过时间相邻特征图的逐点差分来提取。一个生成模型，残差生成器网络（RGN），然后递归地估计未来的残差，P-残差。预测的特征，P-特征，通过添加残差到初始参考特征图来恢复卡尔曼滤波器用于最小化随时间的误差累积卡尔曼滤波器在训练期间在整个视频序列上操作，但在测试期间仅在最初观察到的部分序列最终动作分类（图中未示出）参考最初观察到的和预测的特征两者来执行由于缺乏扩展的时间上下文而导致的执行可能导致不足以用于准备好分类的数据。传统上，动作预测问题是通过在完整视频信息和部分观测之间转换来表示的。这些方法往往忽略了视频中包含的丰富运动模式，这些模式已被证明在动作识别中发挥着关键作用[33，3，25，21]。随着深度网络最近的成功70037004关于动作识别（例如，[48，9，10，4，44]）基于深度表征学习的方法提供了更多的可能性。例如，可以设计一个时间自适应目标函数，鼓励模型尽可能早地产生正确的标签[35，19]。或者，可以采用递归神经网络来递归地推断以先前观察为条件的下一个特征[37，46]。然而，这种方法依赖于全连接层的激活可能会损害性能，因为矢量化特征格式会破坏局部信息并包含更多的噪声[43]。针对上述问题，本文重点研究了空间特征随时间的细微变化，并提出了一种面向未来的特征残差生成网络（RGN）。我们选择预先训练的深度网络的中间级激活进行传播（例如，最终ConvLayer输出，参见。[51]），因为这些层的特征捕获了丰富的空间结构[50]。我们不是传播特征本身，而是传播特征残差，因为它们导致一个紧凑的表示，仍然捕捉到特征如何随时间变化的本质。为了改善随时间推移的误差积累，我们采用了卡尔曼滤波器机制。实证评估表明，我们的方法在三个流行的动作预测数据集上产生了新的最先进的性能。图1提供了图示概览。代码可在https://github.com/JoeHEZHAO/Spatiotemporal-Residual-Propagation 上获得。2. 相关工作基于视频的动作预测的早期工作集中在使用手工特征来构建时间正则化的判别模型[34]。沿着这些思路的其他工作开发了一个动态的词袋来推断全球行动标签[33]。另一种解决方法稀疏特征编码的后验最大化[3]。还有其他工作集中在执行跨多个时间尺度计算的特征之间的一致性[21]。最近的工作集中在深度学习上。一些这样的工作基于对深度探测器上的动作管的预测[39，38];这些方法依赖于早期动作探测的未解决问题的成功，并且相应地受到限制。在其他工作中，使用带有 LSTM 的ConvNet来定义时间自适应目标函数，以尽可能早地分配标签[35]。另一种方法学习了完整和部分视频的语义特征之间的映射[22，23]，该方法使用LSTM进行扩展以处理硬样本以提高性能[19]。由于集中在相对高层次的语义特征，这些方法往往忽略更多的时间本地信息。为了弥补这一潜在的缺陷，其他工作已经根据当前的观察结果生成了序列特征[37，46]。的限制这些方法中的一个缺点是它们依赖于网络最近在动作识别方面的工作已经显示出显式利用中间层特征的好处例如：中间特征已用于局部帧聚合[26]，通过双线性运算[ 7 ]建立紧凑的特征相关性，用于实时识别的空间扭曲[51]以及从各种深度提取阶段恢复图像[8]。这些方法产生的积极结果可以通过以下事实来解释：与完全连接的层相比，中间层保留了更多的空间结构，从而支持更精细的区分（例如，在运动布局中）以及具有更少参数，从而对抗过拟合。出于这些原因，我们在动作预测的工作中建立了中间层特征在冗余数据的处理中，即使在以有效的方式捕获重要的细微差异的同时，残留信息也可以发挥重要作用。MPEG-4压缩是这种处理的一个公认的杰出例子[12]，更一般的从粗到精的运动估计（例如，[1]）。最近利用残差处理的工作已经考虑了光流估计[31]、图像去噪[17]、视频伪影去除[27]和动作识别[49]。我们的行动预测方法提供了残余处理的新用途。与我们最相似的作品是Deep Fea- ture Flow [51]和CoViAR [49]。前者应用估计光流传播深度空间特征，用于实时视频识别。然而，观察帧之外的光流估计是不可用的，这使得预测的应用不明确。后者探索了原始视频数据的残差属性，并在压缩域中开发了用于动作识别的深度网络;然而，它没有解决时间外推。实际上，似乎没有先前的方法基于跨中间水平特征的残差的递归生成的动作预测，并且显示出这样的方法导致最先进的性能。3. 技术途径3.1. 概述我们试图预测正确的动作标签y，给定部分观察到的视频的初始部分X1：k，其中k表示总共具有K帧。支持我们目标的关键因素是一种有效的方法，用于将最初观察到的连续帧X1：k中包含的信息传播到未观察到的Xk+1：K。然后，通过对整个级联序列进行分类来恢复视频动作标签X1：K=Cat{X1：k，Xk+1：K}。按照现有的方法，我们将观测率g定义为7005（r$%3K3r$%&卷积K）变换雷亚r$%1K*雷亚尔递归t.ct.ct−1。C从观测帧集X1：k到完整帧集X1：K。我们给出了g∈[0]的实验结果。一，一。0]。而不是预测未来的帧本身，我们而是预先-dict为动作识别训练的ConvNet的中间层特征我们特别感兴趣的是中间层的功能，因为在这样的层的功能享受的抽象层次的原始数据，专注于动作相关的组件，即使在保留空间布局，以捕捉动作组件之间的关系，以及场景上下文。我们将预测过程分解为两个步骤：特征残差传播和特征重构。如第2，特征残差信息以前已经被用作完整数据观测的方便代理，因为它保留了对象和运动的显著变化，甚至同时减少了观测数据的不变部分的显式表示所带来的冗余。在这里，我们将残差提取和处理应用于ConvNet特征域，以产生一个新的动作预测框架。出于说明的目的，我们使用TSN架构进行初始特征提取和最终分类，因为它在动作识别方面的性能通常很强[48]。虽然我们使用TSN特征和分类器，但我们的预测框架并不依赖于该方法的具体细节，因此应该更广泛地适用于动作预测。3.2. 特征残差给定一个部分观察到的视频，其中一组帧为X1：k ，让在时间 t 提取的（中级）特征表示为 dt∈NC×W×H，其中C是特征通道的数量，W是特征图宽度，H是特征图高度。然后通过以下公式计算时间t处的时间特征残差：沿各通道逐R. =d.− d.，2≤t≤k，1≤c ≤ C（1）.其中. 表示施加到通道C，即，的值时间t−1时通道c中空间位置（w，h）处的值是时间t时的值的次幂，并分配给相同空间位置和通道处的残差rt∈ <$C×W×H由于差分运算，一组计算的残差，{r2：k}，比一组ConcatenateConv，1x1残余块残余块FC层⋮图2：用于预测下一个时间步长残差的时间外推残差生成器网络（RGN）。我们的模型递归地生成运动内核，Kn，使用ConvNet，G，基于一个短的历史时间窗口，m=3，并在卷积最新的残留物。新生成的残差加入正在进行的预测序列，直到期望序列的结束。下标n指定内核大小（即n×n）。在逐个通道的基础上对残差进行卷积;因此对于每个n描述了多个核。在图1中，P-残差和P-特征分别用于区分预测残差和特征。在下一小节中，我们定义我们的特征残差生成器。3.3. 残差发生器网络我们的残差生成器网络（RGN）在图中示意。二、其核心是一个核运动变换G.给定一组堆叠的时间观察，G产生一组内核{Kn}，其可以与最近的残差输入卷积以预测下一个（未观察到的）重新。苏尔特它我们选择核运动变换，因为它已被证明在未来强度帧的合成中很有用[11，32]，可以应用于各种核大小，n×n，以捕获多个运动尺度，并且具有比深度回归对应物更低的复杂性[46]。我们为每个通道c生成具有多个大小n×n的运动核，根据功能，{d1：k}。.Kn=G（rt，rt−1，. . . ，rt−m|rt−m−1，. . . ，r2;θf）。c、（3）从有限的特征集{d1：k}和它们的残差集{r2：k}，我们试图恢复的特征表示{dk+1：K}。为了实现这一结果，我们分两步进行。首先，我们递归地生成特征残差{rk+1：K}通过呼吁特征残差生成器网络（RGN）。其次，我们顺序地将残差添加到迄今为止已经观察到或生成的特征中，以根据下式重建未来的特征：dt+1=dt+ rt+1，k ≤ t ≤ K − 1。（二）其中，G是具有可学习参数θf的CnvNet，其在其当前观察窗口m上输入残差，但通过其递归应用，依赖于整个残差的历史，从而遵循马尔可夫链条件分布。G的体系结构如图所示。2，在SEC中提供了实施细节。四点二。在内核生成之后，对于每个通道c，我们将内核应用于当前残差rt，并对7006d！不d！不1美d！整形，5×nΓt新Γt-LSTM4新台币12d3t）P（）d*+t*-nRGN（t）参考特征不不不不不22不t tt（t）4 t更新通过平衡观察到的测量值Zt和先验估计dt−来校正当前预测。最初，从误差方差矩阵估计y，t，并且随后用过渡函数更新。我们实现具有LSTM和可学习参数θz的ConvNet，c.f.[6]的文件。该架构如图所示3，实施细节在SEC中提供。四点二。我们明确地将卡尔曼滤波器更新步骤纳入RGN的训练中，其中校正发生在如图所示，得到d −的估计值。3.第三章。的校正后的特征d+1随后用于t+1预测。图3：卡尔曼更新过程的描述之前特征d−的估计用卡尔曼增益Γ更新。然后计算损失。在训练中，The卡尔曼滤波器可以获得真实的观测值，Zt到-把录像带拿出来然而，在测试中，卡尔曼滤波器仅通过具有LSTM（Γt-LSTM）的ConvNet跨时间对Γ t的转变进行建模。在每个时间步长，Γt用观测到的测量值Zt校正d−，并产生后验d+用于下一个时间步长推断。预测下一个时间步长残差.1ΣN。可以访问直到最终输入部分观测Xk的真观测，并且仅在该点应用，如第2节所述。三点六我们发现，卡尔曼滤波器提供的瞬时校正有助于稳定长期推断，如第二节所述。4.43.5.学习方案rt+1。C=Nn=1好的。c、（4）在我们的方法中，有两组可训练的参数θf和θz，它们与内核模型相关联其中*代表卷积。在初步实验的基础上，我们采用N=3，其中n∈ {3，5，7}.3.4. 卡尔曼滤波校正最近的顺序特征生成方法倾向于将多步预测分解为单步预测进行训练，并递归地应用相同的模型进行测试。由于误差积累，这种方法往往导致质量退化的序列变得更长。当前的时间序列优化方法（例如，时间反向传播（BPTT））缺乏在优化期间注入中间阶段监督的能力;因此，初始阶段的误差会对随后的结果产生负面影响。为了避免这种情况，我们将卡尔曼滤波器[18]纳入我们的方法，c.f.[27][28]见图。3 .第三章。残差生成网络的残差生成器G和卡尔曼增益转换，分别。两组参数-使用反向传播来训练TER以最小化损失目标函数。我们采用两阶段训练策略，首先学习θf值，随后学习θz值，同时也细化θf值。我们首先训练θf，因为它对我们执行基本预测的总体方法更重要，而不是校正。这种设计选择符合标准卡尔曼滤波器范例，该范例预先假定了一个健全的过渡模块和一个建立在理性先验估计上的校正模块[18]。然而，最终预测和校正必须一起工作;因此，θf和θz在我们的第二阶段中联合训练。参数θf针对四种损耗进行了优化。第一项损失涉及卡尔曼滤波器递归地估计内部状态从测量的时间序列通过交替预测Lres（θf）=的||Rt-RGN（r t−1，rt−2、...、Rt−m;θf ）||2（七）和沿时间轴更新步长。在我们的情况下，内部状态对应于根据（2）从预测残差恢复的特征，而Predict被公式化为在Sec.3.3和更新公式为d+=d−+Γt（Zt−d−），（5）其中m是时间窗口大小。（在（7）中，请注意，G嵌入在RGN中，但在这里，我们抑制了对曲线之外的所有先前残差的递归依赖为了符号的紧凑性，租用（3第二项损失涉及Lfeat（θf）=||Zt−d−||2=||dt−（dt−1+rt）||二、（八）其中，用于区分估计值与2t22地面实况值，Zt是在时间t观察到的测量值（地面实况逐帧特征），d−是先验估计，（2），Γt是卡尔曼增益，定义为正如其他地方报道[29，45，2]，L2工程下的高斯-假设数据是从单个参数中提取高斯分布，从而产生模糊的结果。为了弥补这一缺陷，我们增加了一个...Conv，Conv，3x3，Conv，3x3，64Conv，3x3，Conv，3x3，1整形，5n×17007t−1Γt=<$（Zt−1，d<$+;θ z）。（六）通过应用梯度差损失，7008不∂[29]，它强调高频内容，对特征和残差都产生4. 实证评价4.1. 数据集和实验方案Lres（θ∂∂）=的||（r−r）||2个以上||（r−r）||2（九）GDLF和T2T2为了评估我们的方法，我们选择了三个广泛的考试-数据集，UCF 101 [42]，JHMDB 21 [16]和BIT [20]。UCF101由101个动作类别壮举.Σ。ˆ−2Σˆ−2包含广泛的活动（例如，体育、音乐和L gdl（θf）=||xZt−dt||伊||∂yZt−dt||2.（十）其他）。 JHMDB 21是HMDB的子集[24]，包含928个21个真实的、细微差别的人类动作类别的视频（例如，G的总体目标函数定义为：抓、扔、捡）。我们使用的RGB IM-LG（θ）=λLres+λLfeat+λLres+λLfeat，（11）年龄而不是JHMDB-21的身体关节。BIT包括2f12223GDL4GDL8类人际互动，每类50个视频具有λi标量加权因子。注意，在训练的第一阶段期间，卡尔曼滤波器将不操作，因为它尚未被训练。在训练RGN参数θf之后，训练卡尔曼增益参数θz，同时细化θf参数值以产生联合优化。现在，只有两个损失，都与特征d有关，因为这是卡尔曼滤波器工作的地方。（8）与（10）相似，只是它们是在向上计算的日期为后D+，根据L2 （ θf ， θz ） =αLfeat （ d+;θf ， θz ） +βLfeat（d+;θf，θz），与其他数据集不同的是，BIT在不同行为的初始阶段具有相似的人的行为（例如，他们往往站着不动）[23]，这导致了有限的歧视性信息的挑战。对于所有数据集，我们使用标准的训练/测试分割：UCF 101和JHMDB 21有多个训练/测试分割，除非另有说明，否则我们在报告中对结果进行平均; BIT有一个单一的训练/测试分割，每个类中的前34个视频用于训练，其余的用于测试。我们将动作分类准确度作为观察率g的函数，g是视频中观察到的帧与总帧的比率，如其他地方所用[21]。分类是2tgdlt（十二）始终基于从以下内容具有α和β标量加权因子。3.6. 所有观测比率的统一模型为每个观察比率学习单独的模型在现实世界中是不适用的为了克服这个困难，我们设计了一个统一的训练和测试策略，如下所示。训练RGN首先输入第一批残差[rm，rm-1，.. . . ，r2]，并递归地产生所有其余的。换句话说，我们的模型被训练用于从相同的起点预测整个序列因此完全忽略观测比率。试验. 我们的测试也是不变的观测比切换模式的卡尔曼滤波器操作，使它只纠正估计，而数据观测是根据g。例如，当g=0时。该方法仍然从初始观测开始传播到观测结束，但有两种传播方式：当观测率尚未达到时，即观测值与观测值之比达到最小时。g∈[0. 1，0。6]，我们通过使用卡尔曼滤波器更新步骤，（5）参考观察到的真实数据来更新预测。在输入g∈[0.七，一。0]，仅执行预测，⑷。此过程类似于在卡尔曼滤波器：当观测到目标时，系统根据真实观测测量值校正其估计坐标;然而，当物体被遮挡时，系统基于“到目前为止”的系统参数值，即，仅执行预测步骤∂7009观察到的帧和预测到的帧。对于中期-层特征，这是我们传播的主题，我们使用两个卷积层和两个最大池的中间输出，除非另有说明。之所以选择这一层，是因为与其他层的经验比较-电子逆向工程通常取得优异的业绩;参见第二节。四点五分。除了本节中列出的结果外，补充资料中还提供了其他详细结果。4.2. 实现细节为了检查传播模块与最小的影响，从其他因素，分类器选择的数据集预先获得。虽然预训练的TSN模型可用于UCF 101 [48]，但JHMDB 21和BIT的模型不可用。为了使TSN模型适应JHMDB 21和BIT数据集，我们在为HMDB-RGB和UCF 101-Flow预训练的TSN中添加了一个简单的两层MLP分类器，该分类器由两个隐藏层组成。对于JHMDB 21，两个隐藏层具有32个和21个激活。对于BIT，两个隐藏层具有64和8个激活。Softmax用于所有情况下的最终概率生成。在训练过程中，所有预训练的权重都被冻结。为了训练为适应JHMDB21和BIT而添加的权重，我们从视频中随机选择3个RGB样本或3个光流样本（每个样本有5帧），并通过分段共识获得视频标签。我们采用0.0001的学习率，64的批量大小，随机梯度下降和亚当优化器。数据扩充与7010AAPnet [23]C3D [4][22]第二十二话C3D+线性SVM [22]C3D+IKSVM [22]C3D+卡方SVM [22][33]第三十三话动态BOW [33]MTSSVM [21][3][5]RGN-KF识别准确率%90908080707060605050404030 3020 2010 1000.00.10.20.30.40.50.60.70.80.9观察比率00.00.10.20.30.40.50.60.70.80.9观察比率(a) UCF-101数据集（b）BIT数据集图4：在所有观测比率g ∈ [0]下，UCF 101和BIT数据集的动作预测结果。1，1]。第48话原来的你网络配置。对于RGN的核生成器G，堆叠残差首先与降低特征维数的1 ×1然后，使用两个残差卷积块[14]（内核大小为3×3，瓶颈尺寸为48，步幅为2）来捕获时间进化随后，在批次和通道轴固定的情况下，使用3个FC层单独处理扁平化的空间特征，以产生3×3，5×5和7×7内核。所以特征图的形状是（28，28，192*m）-（28，28，192）-（28，28，192）-（28，28，192）-（9，192），（25，192）和（49，192），其中m作为经验选择的时间窗口大小。在每个通道上执行卷积。对于Kalm anGain，rt，使用具有核大小3x3和步幅2的一组协每个层都附加了一个ReLU层[13]。特征图的形状为（28，28，128）-（28，28，64）-（28，28，32）-（28，28，1）。随后，平坦化的特征被 Γt-LSTM作为输入以产生卡尔曼增益，Γt∈λwh，然后将其整形为对应于真实地图空间维度的Γt∈λw×hLSTM的隐藏状态具有与输入部件（784）相同的尺寸。然后根据更新应用增益，（5）。培训战略。我们使用4个NIVDIA TITAN X GPU在Pytorch下训练我们的模型[30]。时空特征残差生成网络（RGN）的训练采用Adam优化器，学习率为0.005，β1=0。9和β2=0。#21499;的损失最小化（11）。实际上，我们以1：1：5：5的比率设置λ1、λ2、λ3、λ4，这更加强调空间梯度而不是原始均方值。批量大小设置为56。在RGN的初始训练之后，我们将其与卡尔曼增益转换ConvNet和LSTM一起进行微调，以最小化损失（12）。使用小批量随机梯度下降，学习率为2e−4，指数衰减为1e−5。α和β根据经验以1：5的比例设置。对于UCF 101的训练，我们从每个视频中采样30帧对于BIT和JHMDB21，我们从每个视频中采样25帧，并使用前3帧来初始化我们的系统。TSN架构[48]用于提供特征提取和分类。我们将我们的系统应用于JHMDB 21的RGB流，BIT的流和UCF 101的两个流。我们根据JHMDB 21上典型的最先进的实践（例如，RGB功能以前产生最高性能[35，37]），BIT（例如，流动特征大大优于空间特征[20，22]）和UCF 101（例如，两个流先前产生最高性能[23]）。一旦生成特征，就不需要对TSN进行额外的修改来产生动作标签。生成的特征被插入到选定的TSN中间层中，并通过网络塔向上处理，直到MLP产生概率分数。视频级别标记是通过对每个帧的分数取平均值来收集的4.3. 总体预测结果UCF-101数据集。图4（a）显示了我们的算法RGN-KF与. UCF101上的各种替代品。可以看出，RGN-KF在所有观测比下都优于所有其他方法，平均提高精度1.3 -4%性能的提高尤其引人注目在较低的观测比率下，例如，g=0。1，我们比第二好的（AAPnet）高出83.3%，百分之五十九点八五。值得注意的是，AAPnet也建立在TSN的基础上;然而，它显然不如我们的方法有效。造成这种状况的原因可能有两个首先，AAPnet的训练不仅仅是为了推断动作标签，还包括对抗性学习，这可能会减少其对动作预测的优化。其次，AAPnet更彻底地修改了TSN架构，在给定的进度状态下聚合所有帧，这强调了我们的方法可能更适合于各种架构的事实，AAPnet [23][22]第二十二话C3D+线性SVM [22]C3D+IKSVM [22]C3D+卡方SVM [22][33]第三十三话动态BOW [33]MTSSVM [21][3][5]SC [4]基线RGN-KF识别准确率%7011表1：JHMDB 21上的动作预测结果。遵循标准协议，仅在初始观测值仅限于帧的前20%的情况下显示准确度结果，即：g= 0。二、方法准确度（%）ELSTM [35]55[28]第二十八话33DP-SVM [41]5S-SVM [41]5[40]第40话10[15]第十五话28RBF-RNN [37]73我们78基线74它对本地操作的影响较小。点图4（b）显示了我们的出租车与出租车的比较结果。双边投资条约的各种备选方案。可以看出，我们的结果等于或优于所有其他人，除了在最低的观察比，g=0。1.一、例如，与AAPnet相比，我们的方法在g = 0时的准确率为67.96%。3，上涨3.13%。在解释BIT的结果时，重要的是要记住，视频的开始和结束部分往往在外观上非常相似（例如，两个人面对面站着），使得最具歧视性的信息主要限于中间部分。相应地，在初始部分之后，存在快速性能上升的趋势，其在最后部分中稳定。在我们的情况下，在g= 0时的峰值性能为92.28%。7在以前的比率上增加了4% ，而 AAPnet 在同一阶段没有实现显著增加（0.78%）鉴于我们训练了一个修改后的TSN架构，使TSN适应BIT，Sec。4.2，我们比较了当被迫仅对最初提供的帧进行分类而不传播到未来时，改进的体系结构工作得有多好。这些结果在图4b中显示为基线。可以看出，通过传播到未来，我们的方法前-当g ∈ [0]时，以较大幅度超出基线。1，0。4]中。对于更高的观察比率，作为输入视频变得可用于基线（以及我们的完整方法），性能变得相当。JHMDB 21. JH-MDB 21上的标准报告协议是仅在观察到初始20%的视频时报告识别准确率，即。g=0。2，如表1所示。可以看出，我们的算法再次是最好的表演者，例如。超过第二名5%。我们还提供了一个基线比较，在这里我们与纯粹基于 TSN 架构适应JHMDB21数据集的分类进行比较，类似于BIT上提供的基线比较再一次，可以看出，我们的全传播方法大大增加了单独的基线的性能。表2：JHMDB 21分割1上不同时间传播方法的准确度结果。Res表示对原始特征应用运动核变换，Res表示残差传播， KF 表示包含卡尔曼滤波器。对于ConvLSTM，（3x3），128 192分别表示内核、隐藏状态特征维度、时间传播方法准确度（%）ConvLSTM（3x3）-128-192-x271.1ConvLSTM（3x3）-128-192-K-KF73.4ConvLSTM（3x3）-128-192-Res76.8ConvLSTM（3x3）-128-192-Res-KF77.1公司简介70.9RGN-1-KF74.4RGN-Res77.4RGN-Res-KF78.34.4. 时间模型在本节中，我们使用JHMDB 21检查不同时间建模方法对特征传播的影响，并将ConvLSTM作为额外的基线，参见。[36，2];见表2。对于这两种情况下，我们发现，prop-agation的残差是优于传播的原始特征和卡尔曼滤波器提供了进一步的好处。ConvLSTM的性能与我们应用于原始特征的RGN方法相当，而无需卡尔曼滤波器;然而，对于所有其他配置，我们的RGN方法性能更好。总的来说，我们发现我们的完整时间建模方法（中层卷积特征残差，RGN传播和卡尔曼滤波）产生最佳性能。4.5. 要素图层我们现在研究不同中间特征空间对预测的影响。我们考虑产生[56，56，64]，[28，28，192]，[14，14，512]和[7，7，1024]的特征图的表3显示了结果。对于JHMDB 21和BIT，[28，28，192]特征阶段几乎总是达到最佳结果。此外，更深的层[14，14，512]和[7，7，1024]比浅下层[56，56，64]更有用。这种结果模式可以解释为最早的一层没有提供足够的原始输入的抽象，而最高层已经失去了太多的区别细节。有趣的是，对于UCF 101，不同的特征阶段对准确性的影响较小。这可能是由于UCF 101通常比其他数据集更容易，如表3中对于任何给定的观察比g，UCF101的结果总是比其他数据集更好;相应地，特征选择的细节不那么重要。然而，更一般地，表3的结果支持我们使用中间层特征，特别是当预测任务变得更加困难时。7012Conv，56x56表3：使用RGN-KF在各个中间特征阶段的预测准确度（%），通过空间感受野大小递减排序。观测比g∈ {0. 2，0。四，零。6，0。UCF 101和BIT数据集。设g=0。JHMDB21为2UCF-101位JHMDB-21观测比0.20.40.60.80.20.40.60.80.256x56x6485.1688.6491.1092.1035.9449.2275.7884.3875.7428x28x19285.1690.7892.0393.1946.0975.7888.2888.8278.3014x14x57685.0990.3292.1293.0640.6276.6585.9487.5077.437x7x102484.9490.0791.6092.7742.0675.7887.5087.5077.034.6. 特征残差为了进一步理解为什么中间层特征及其残差对动作预测特别有用，我们展示了比较可视化以及相关统计数据。图5提供了一个从动作棒球挥杆中得到的例子。可以看出，最早的层特征图集中在低级特征（例如，线和边缘），这些可能与特定的示例而不是动作类太紧密地联系在一起。相比之下，最新的图层特征图往往会丢失太多可区分的细节（例如，仅仅是顶层处的演员附近的斑点）。相比之下，中间层特征倾向于集中于演员，但也描绘了演员部分的细节在将原始特征与它们的残差进行比较时，可以看出残差更多地集中在时间变化上，这有利于将变化传播到未来而没有冗余信息。因此，中间层残差似乎捕获了对动作预测特别有用的信息。提供的可视化，图。5，表明与特征本身相比，残差提供了更稀疏（并且因此更紧凑）的表示。为了量化这一观察，我们将特征稀疏度定义为近零点（绝对值为0）的年龄百分比<。01）vs.总分。图6显示了原始特征及其残差的比较结果。可以看出，残差的稀疏性大约是原始的五倍，这定量地证实了残差的相对稀疏性总的来说，可视化和定量分析都证实，中层特征残差尤其T=2T=6图5：特性和恢复的可视化。示例显示了一系列帧的行动棒球-摆动沿左手边.沿着上/底行示出了在各个层处的示例特征图，而沿着中间行示出了它们的残差图6：特性和驻留的稀疏性比较。最上面一行显示的是一个踢AC的视频帧信息负载的行动预测。5. 结论在本文中，我们提出了一种新的时空特征残差传播方法来预测动作执行结束之前的视频的动作标签。我们的方法学习在特征空间中传播逐帧残差以完成部分观测。该方法具有以下优点：中间层ConvNet特征的空间结构保留，通过残差处理捕获基本信息的紧凑表示，以及通过瞬时卡尔曼滤波器校正的长期稳定性该方法已在UCF 101，JH-MDB 21和BIT-Interaction数据集上进行了评估，其中它设置了一个新的第最下面的一行显示稀疏性作为近零值点的比率（绝对值<0. 01）随着时间的推移，总积分。平均而言，残余和原始特征点分别为65%和14%稀疏。与各种可选择方法相比是最先进的。我们的方法有可能被扩展应用到其他基于视频的计算机视觉任务，这将在未来的研究。致谢这项研究部分由NSERC，安大略延龄草奖学金和CFREF VISTA资助我们感谢Soo Min Kang进行了许多富有成效的讨论。Conv，28x28，192Conv，14x14，576Conv，7x7，10247013引用[1] 帕德玛纳班·阿南丹视觉运动测量的计算框架和算法IJCV，2（3）：283-310，1989年。2[2] Wonmin Byeon，Qin Wang，Rupesh Kumar Srivastava，and Petros Koumoutsakos. ContextVP：完全上下文感知的视频预测。在ECCV，2018。四、七[3] Yu Cao ， Daniel Barrett ， Andrei Barbu ， SiddharthNarayanaswamy，Haonan Yu，Aaron Michaux，YuweiLin，Sven Dickinson，Jeffrey Mark Siskind，and SongWang. 从部分观察到的视频中识别人类活动CVPR，2013。一、二、六[4] Joao Carreira和Andrew Zisserman。什么是行动识别？新模型和动力学数据集。在CVPR，2017年。二、六[5] Minmin Chen ， Zhixiang Xu ， Kilian Weinberger ， andFei Sha.边缘化去噪自动编码器域适应。arXiv预印本arXiv：1206.4683，2012年。6[6] Huseyin Coskun ， Felix Achilles ， Robert DiPietro ，Nassir Navab，and Federico Tombari.长短期记忆卡尔曼滤波器：用于姿态调节的递归神经估计器InICCV，2017. 4[7] Ali Diba Vivek Sharma和Luc Van Gool深度时间线性编码网络。在CVPR，2017年。2[8] Alexey Dosovitskiy和Thomas Brox用卷积网络反转视觉在CVPR，2016年。2[9] Christoph Feichtenhofer ， Axel Pinz ， and Richard PWildes.用于视频动作识别的时空乘子网络。在CVPR，2017年。2[10] ChristophFeichtenhofer、AxelPinz和AndrewZisserman。卷积双流网络融合用于视频动作识别。在CVPR，2016年。2[11] 切尔西·芬恩伊恩·古德费罗和谢尔盖·莱文。通过视频预测进行物理交互的无监督学习。在NIPS，2016年。3[12] 迪迪埃·勒加尔MPEG：一种多媒体应用的视频压缩标准。Commun. ACM，34：46-58，1991. 2[13] 泽维尔·格洛罗特安托万·博德斯和约舒亚·本吉奥。深度稀疏整流器神经网络。载于AISTATS，2011年。6[14] Kaiming He，Xiangyu Zhang，Shaoying Ren，and JianSun.用于图像识别的深度残差学习。在CVPR，2016年。6[15] Ashesh Jain、Avi Singh、Hema S Koppula、Shane Soh和Ashutosh Saxena。通过传感融合架构进行驾驶员活动预测的递归神经网络。InICRA，2016. 7[16] Hueihan Jhuang ， Juergen Gall ， Silvia Zuffi ， CordeliaSchmid ， and Michael J Black. 走向理解行动识别。InICCV，2013. 5[17] Jianbo Jiao，Wei-Chih Tu，Shengfeng He，and RynsonW.H.刘FormResNet：用于图像恢复的简化残差学习。在CVPRW，2017年。2[18] 鲁道夫·埃米尔·卡尔曼线性滤波和预测问题的一种新方法。Journal of Basic Engineering，82（1）：35-45，1960. 4[19] 俞空、高尚乾、孙斌、云甫。通过对难以预测的样本进行分类，从视频中进行动作在AAAI，2018。2[20] 余空、贾云德、傅云。互动短语：人类交互识别的语义描述。IEEE Trans. PAMI，36（9）：1775-1788，2014年。五、六[21] 余空，德米特里·基特和云福。一种用于动作预测的多时间尺度判别模型。2014年，在ECCV。一、二、五、六[22] 余空，陶志强，傅云。用于动作预测的深度顺序在CVPR，2017年。二、六[23] 余空，陶志强，傅云。对抗行为预测网络。IEEE Trans.PAMI，2019. 二、五、六[24] Hildegard Kuehne，Hueihan Jhuang，Est´ıbaliz Garrote，Tomaso Poggio，and Tho

下载后可阅读完整内容，剩余1页未读，立即下载