视频动作检测的递归神经网络

55 浏览量更新于2023-10-16 收藏 1.17MB PDF 举报

动作检测

卡内基梅隆大学

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

1用于动作检测的卡内基梅隆大学摘要虽然深度特征学习已经彻底改变了静态图像理解的技术，但对于视频处理来说，情况并非如此用于视频的架构和优化技术主要基于静态图像，可能未充分利用丰富的视频信息。在这项工作中，我们重新思考了底层的网络架构和时间数据的随机学习范式。为此，我们从经典的线性动态系统建模理论中得到启发。通过扩展这些模型以包括非线性映射，我们得到了一系列新颖的递归神经网络，它们依次对未来进行自上而下的预测，然后用自下而上的观察来纠正预测校正网络具有许多理想的属性：（1）它们可以自适应地将计算集中在“令人惊讶的”帧上，其中预测需要大的校正，（2）它们简化了学习，因为随着时间的推移只需要学习“类似残差的”校正项，以及（3）它们以分层的方式自然地对输入数据流进行去相关，产生更可靠的信号用于在网络的每一层处的学习。我们提供了一个广泛的分析，我们的轻量级和可解释的框架，并证明我们的模型是有竞争力的双流网络上三个具有挑战性的数据集，而不需要计算昂贵的光流。1. 介绍计算机视觉正处于快速发展时期。虽然图像识别的最新技术正在颠覆性地增长，但视频分析却并非如此。例如，理解视频中的人类行为在很大程度上仍然是一个未解决的开放问题。尽管付出了相当大的努力，但基于CNN的特征在人类行为理解方面还没有显著优于其手工设计的对应物[1，48]。我们认为，原因之一是，用于视频的许多架构和优化技术在很大程度上受到了静态图像（所谓的“双流”模型[ 38，50，51，8 ]）的启发观察t=0预测t=1观察t=1正确图1.我们的模型首先预测未来，然后通过观察后续帧的校正来存在直接处理的时空体积[42，43]。在基准测试结果方面，双流模型目前优于后者，可能是因为处理时空卷的大计算需求。循环模型：上述问题的一个有吸引力的解决方案是基于状态的模型，该模型通过随时间保持隐藏状态来隐式地处理大的时空体积，而不是一次处理整个块。基于隐马尔可夫模型（HALF）或卡尔曼滤波器的经典它们在神经网络世界中的对应物将是递归模型。虽然在语言背景下是一个活跃的研究领域[44，6]，但它们对于基于视频的特征学习的探索相对较少（[56，58，40]的重要例外我们认为，其中一个原因可能是基于流的训练与现有的SGD求解器的困难时态数据流是高度相关的，而大多数求解器严重依赖于不相关的i.i.d.。有效训练的数据[30]。确保数据不相关的典型方法（如随机数据排列）将删除我们试图利用的时间结构！我们的方法：我们重新思考了潜在的网络架构和随机学习范式。为此，我们从线性动态系统的经典理论中汲取灵感，用于时间序列学习模型。通过扩展这种图标模型，以包括非线性层次结构，981982通过calmapping，我们得到了一系列新颖的递归神经网络，这些网络通过对未来进行自上而下的预测，并通过自下而上的观察来纠正这些预测（图2）。①的人。正如编码器-解码器架构允许神经网络结合来自聚类和稀疏编码的见解[11]，预测-校正架构允许它们结合来自时间序列分析的见解：（1）自适应地将计算集中在“令人惊讶”上20010000 100 200框架120002000 100 200框架1预测需要大的校正的帧，（2）简化学习，因为仅预测：从生物学的角度来看，我们利用了人类视觉系统在很大程度上依赖于持续预测未来，然后专注于意想不到的洞察力[7，25]。通过利用视频的时间连续性，我们能够按照[46，47]的精神预测未来的帧。这有两个目的：（1）实现了预测动作的一致性，减少了单个噪声帧级预测改变模型对视频的解释的机会，以及（2）产生了计算效率高的系统，这对于现实世界的视频分析是至关重要的。如果在帧之间没有观察到显著变化，则可以显著降低计算负担。校正：更重要的是，明确地对外观预测进行建模允许模型专注于校正视频中的新事件或意外事件。在细粒度的时间动作本地化中，动作之间的转换通常仅由细微的外观变化来表示。通过明确关注这些残留变化，我们的模型能够更可靠地识别动作转换。此外，从统计学的角度来看，关注变化解决了从序列数据中学习的一个关键挑战：它降低了对比样本之间的相关性，如图2所示。二、虽然连续的视频帧高度相关（允许我们做出准确的预测），但帧之间的变化并不相关，这增加了训练期间观察到的样本的多样性。贡献：我们介绍了一个轻量级的，直观的和可解释的模型的时间动作定位在未经剪辑的视频中。通过对未来帧进行预测并随后对其预测进行校正，该模型能够在识别准确性和计算效率方面实现显着提高。我们在三个基准上展示动作定位结果：THUMOS的标准20个运动动作[15]，MultiTHUMOS的65个细粒度动作[55]和Charades的157个常见日常动作[37]。我们的模型在所有三个数据集上与双流网络[38]竞争，而不需要计算昂贵的光流。此外，它甚至（略微）优于MultiTHUMOS上最先进的MultiLSTM模型[55]。图2. 每个数据点对应于两个位置后续帧。x轴是帧1中该位置处的像素强度，y轴是左侧帧2和右侧帧2-帧1中该位置处的像素强度。（左）连续视频帧包含高度相关的信息，使我们的模型能够对未来帧进行准确有效的预测。（右）关于帧差异的解释性推理消除了相关性，并允许模型通过对预测进行校正2. 相关工作动作识别：有大量关于视频动作识别的文献：举几个例子，[19，58]探索随着时间的推移融合基于图像的卷积网络，[38]使用RGB像素信息和光流来捕获运动，[14，42，43]将基于图像的卷积网络扩展到3D卷积网络，该网络对由固定数量的视频帧组成的视频“体积”进行操作。在这些作品相比，我们专注于更具挑战性的任务，时间动作本地化。时间动作定位：将动作识别模型扩展到时间检测的常见方法是通过滑动窗口范例[48，17，49，27，57]。然而，这在计算上是低效的，并且防止模型在视频上利用内存。另一方面，经典的时间模型可以利用过去和未来的这些模型通常依赖于允许有效推理的链式结构模型，如HALF [33，12]和CRF [52]。最近关于记忆推理的方法通常集中在递归神经网络（RNN）上，它顺序地[55]或零星地[56]处理视频帧并保持先前观察到的帧的显式记忆[20]开发一个我们的模型遵循类似的直觉时间动作检测。预测模型：已经表明，利用全局上下文信息可以用于提高图像[26]或视频[23]的理解。最近的工作已经研究了预测未来视频帧的外观和语义内容[45，46，47，54，9，22，24]。最近Srivastava et al.[40]以编码器-解码器方式训练递归神经网络以预测未来帧，以及框架2帧2-帧1983表明学习的视频表示提高了动作识别的准确性。然而，据我们所知，这些见解尚未用于设计准确的端到端动作本地化模型。加速学习：由于SGD过程中遇到的爆炸梯度，递归神经网络非常难以训练[29]。我们建议读者参考[3]，一个很好的介绍一般SGD学习。虽然自然是一次处理一个数据示例的顺序算法，但最近的许多工作都集中在可以利用GPU架构或集群中的并行性的小批量方法上[5]。一个通用的主题是二阶方法的有效在线近似[2]，它可以对输入特征之间的相关性进行建模。批量归一化[13]计算批量中样本之间的相关统计，加速收敛。预测-校正网络自然地将批量统计数据去相关，而不需要昂贵的二阶计算（图1）。2）的情况。可解释模型：理解模型的内部工作对于诊断和纠正错误很重要[28，59]。尽管最近取得了一些进展在这方面[18]，递归神经网络主要仍然存在这些运动发生在时间t。动作检测模型不知道底层状态xt，但能够观察像素帧外观yt，并且任务是对状态x t进行准确的语义预测xt。动力学：我们将视频序列建模为线性动力学系统，该系统根据xt= Axt−1+噪声（一）yt= Cxt+噪声换句话说，语义状态xt是前一个时间步长xt-1处语义状态的噪声线性函数，像素级帧外观yt是底层语义动作状态xt的噪声线性函数。这是一个不完美的假设，但直觉上xt可以被认为是作为动作概率，A可以对应于动作之间的转移矩阵，并且，如果xt是足够高维的，则线性函数可以用作外观yt的合理近似。卡尔曼滤波器：在此线性动态系统假设下，动作状态x t的后验估计为：xt=xt|t−1+K（yt−y<$t|t−1）（2）一个谜通过引入一个轻量级的可解释的重联系我们预测联系我们校正目前的模型，我们的目标是获得一些深入了解的关键准确和高效的视频处理组件。3. 预测-校正模型连续视频帧包含冗余信息，这既会导致不必要的额外计算，又会在训练过程中产生困难，因为后续样本高度相关。在我们的预测-校正模型中，我们通过明确地推理帧之间的变化来消除这种冗余这允许模型关注关键的视觉变化，例如，对应于人体运动。首先，我们提供一些由卡尔曼滤波器激发的直觉。然后，我们描述了一个程序的方法来应用我们的模型，以图像为基础的网络，以创建重复的预测校正结构的动作检测。该模型通过基于帧变化的残差校正平滑地更新其在连续帧上的记忆，从而产生准确且高效的框架。3.1. 线性动态系统设置：考虑一个单镜头视频序列，随着时间的推移不断演变。对于时间t处的视频帧，令Xt表示状态的潜在语义表示。例如，在具有20个感兴趣的体育动作的标准THUMOS数据集[15]上，xt可以是指示帧内每个动作的存在或不存在的20维二进制向量代替离散二进制向量，我们认为xt是一个平滑的语义表示：例如，动作可以被分解成微小的肌肉运动，并且xt可以对应于其中x是|t−1和yt|t−1分别是给定观测值y 1时xt和yt的先验预测。. . yt−1，直到多个时间步长t − 1，K是卡尔曼增益矩阵。我们关于卡尔曼滤波器的概述，请读者参考[41];出于我们的目的，我们认为K是实际帧外观和预测帧外观yt−yt之间的差异的学习非线性函数|t−1。我们分析了Eqn. 2一步一步来状态近似：对未来的预测-mantic作用空间|t−1和外观yt|t-1，我们依赖于这样一个事实，即视频的动作和像素值随着时间的推移慢慢发展[53]。利用这一事实，我们可以使用前一个时间步长 t−1 ，并近似x≠t|t−1<$x<$t−1，我们对前一个时间点的动作状态的最佳预测帧，直观地说，在后续帧中的动作之间的转移矩阵是近单位的。我们还可以假设视频帧外观接近恒定并且近似于y|t-1与前一帧的观察到的外观相比较。等式2现在简化为：xt=xt−1+g（yt−yt−1）（3）其中g是一个学习函数，它有助于补偿这里的不完美假设。学习：剩下的就是学习从帧外观差异到动作状态差异的非线性函数g我们称之为预测-校正块它构成了我们下面描述的模型的基础3.2. 分层预测校正块设置：到目前为止，我们描述了一种在给定观测值yt的情况下预测隐藏状态xt的一般方法。而不是思考98400不不不不不不不不tt−1不tt−1不tt=0l=0=1lL+1=1=2=2=0=1lL+1图3.我们的预测-纠正模块的实例填充的和未填充的双凸体分别对应于fi和glyt作为框架外观，xt作为语义动作=2图4.（顶部）放置在层l和层l+ 1处的预测校正块。（下）等效但简化的网络。状态，这里我们递归地扩展我们的预测L0 0模型来捕获深度网络的分层：我们简单地将较低层建模为用于推断较高层隐藏状态的观测。我们的模型自然地结合了分层自上而下的预测和分层自下而上的处理，这种处理在深度前馈网络中很普遍。让我们想象一下，层正在计算视频帧的更多不变表示，例如部件、对象、动作等的激活。我们使用我们的模型从图像观察中推断潜在部分，然后将部分激活视为可用于推断对象的观察，等等。令zl表示潜在的z0=f（z0）从pixel行动z0;它也可以分解成分层zl=fl（zl−1）。在实践中，我们联合训练f和g。图图3描绘了系统的实例化对于单层L，其中F1用于处理初始帧，而G1用于计算顺序更新。学习：初始帧函数f和残差函数g都需要学习。在任何时间t，我们知道网络第零层的像素帧特征z0和最后一层的期望动作标签zL为了计算时间t = 0时的动作预测，我们使用zL=f（z0）。计算在时间点的动作预测t0 0l l l在时间t时层L中的激活向量。单层：让我们假设zl根据生成观测的线性动态系统随时间演化t0，我们让t，zt−zt−1和re写出预测ive，方程中的校正块方程4为：L=gL（在Wzl−1层下面。那么zl可以预测为zlttt t t−1t t通过观察zl−1的时间演化，使用方程三比零零zl=zl+gl（zl−1−zl−1）（4）其中zt−zt−1是当前帧和前一帧之间的像素差异。现在我们可以独立地-pute poul，. . . ..1吨LL吨 L有三件事值得进一步讨论。第一、真实的潜在状态Z1永远不能被直接观察到，并且我们必须依赖于预测Z1。其次，需要考虑时间t = 0时的时间递归的基本情况。第三，需要学习特定于层的函数gl，以基于层l-1的演化来预测层l的演化。我们现在按顺序逐一讨论这些问题分层模型：除了在最低层l = 0处（其中z0是帧的像素外观）之外，永远无法观察到层z l的潜在状态。因此，在每个时间步t，我们用像素外观初始化z0，使用等式1计算预测状态z01。 4，并使用它作为观测值v edz1来计算zn2，继续逐层递归。时间初始化：对于时间t = 0时的时间递归的基本情况，我们需要一个单独的卷积，函数神经网络该网络不考虑动态系统的演化，可以被认为是一个简单的每帧（动作）识别模型。在最后一层L，该网络计算动作预测行动预测z =z0+i=1i 对于n y时间步长t. 整个系统如图所示。4.第一章已知动作在每个时间步长t处的标签zL提供用于学习网络f和g的训练信号，并且可以端到端地训练整个系统。3.2.1与现有技术的联系非线性卡尔曼滤波器：在这一点上，很自然地将我们的非线性动态模型与卡尔曼滤波的其他非线性扩展进行比较[10]。流行的变体包括重复线性化非线性模型的我们的工作的不同之处在于，我们假设简单的线性动力学（由恒等映射给出），但用复杂的（非线性）分层观测模型对数据进行建模，这些模型是从没有分层监督的数据中潜在学习的++++++++985不不不循环网络：我们还简要地检查了我们的框架和RNN公式之间的联系-[56，20，55]。对于输入yt、非线性度σ和学习的权重 W 和 V ， RNN 算法的更新方程为 xt=σ（Wyt+Vxt−1）。同样地，我们完全-连接的预测-校正块在Eqn. 3可以写成xt= xt−1+ σ（W（yt− yt−1））。关键的区别是（1）我们以线性方式使用过去的输出xt-1，(2)我们保持之前的输入yt-1作为该函数的一部分奥里这些强加的限制对于视频专业人士来说是很自然的并允许模型的更大的可解释性。具体地说，我们的记忆只是前一个时间步的卷积激活，因此与基于图像的CNN的激活一样可解释（例如，[59]）。其次，内存更新是透明的：我们在重新初始化时每隔几帧就清除一次卷积，并且只访问它以从当前卷积激活中减去它，这与LSTM更复杂的更新机制形成对比。3.3. 动力计算回到我们的模型，到目前为止，我们讨论了层激活在线性动态系统中平滑演变然而，后续帧之间的层激活可能根本不改变或者可能改变太多而无法经由平滑更新来建模。这两种情况都被自然地纳入我们的预测-校正模型中，第一种情况还节省了计算量。静态激活：层激活不会在视频中的每个时间步长都发生变化。这可能是因为视频描绘了没有移动对象的静态场景（例如，在监视摄像机中）或者因为帧速率如此更高，偶尔后续帧看起来相同。也可能是这样的情况，即当低级像素外观改变时，较高层保持静态（例如，一个在实验中，我们分析了动态更新对准确性和效率的影响4. 实验我们首先对我们的模型进行了详细的分析，并对第二节中的MultiTHU- MOS数据集[55]进行了验证分割。4.1.利用这一分析，我们然后比较我们的预测校正架构的最佳配置与先前的工作在SEC。四点二。实施情况：对于我们的初始和更新模型，我们使用VGG-16网络架构[39]。该模型通过在ILSVRC 2016上进行训练来初始化[31]。我们对模型进行微调，针对所有动作，并使用这些微调的权重来初始化我们模型中的初始和更新网络。我们所有的模型都使用Torch [4]深度学习框架实现。我们将发布源代码，包括超参数和验证分割，用于训练和评估我们的模型。在我们所有的实验中，我们都使用从视频中以每秒10帧的速度提取的帧。每个帧的大小调整为256x256像素，我们为每个帧随机裁剪224x224。4.1. 预测校正模型分析为了分析我们提出的方法的贡献，我们首先将我们的方法的简单配置与基线模型进行比较（第2节）。4.1.1）。接下来，我们评估我们的框架中准确性和效率的权衡（第二节）。4.1.2）。最后，我们通过改变VGG-16体系结构中预测校正块的位置来考虑不同的模型体系结构（第2节）。4.1.3）。设置：MultiTHUMOS [55]包含来自THUMOS 2014数据集[15]的视频上的65个细粒度动作注释，其中包含2，765个修剪的训练视频，在我们的模型中，这导致了= 0，消除200个未经修剪的培训视频和213个未经修剪的测试需要对层L ′ > L的该帧T的校正块进行后续处理，从而提高效率。镜头变化：在另一方面，偶尔层活动-视点在后续帧之间变化如此之大，以至于平滑更新不是合理的近似。然后我们动态更新：具体地说，设αl为指示变量，表示所有下层l ′ l的变化是否<大到足以保证iv e计算正确。设δl是表示是否应该重新初始化z l，因为更改|zl−视频. 在200个未经修剪的培训视频中，我们选择40用于验证，我们在下面报告实验。我们用每帧1平均精度（mAP）来评估我们的预测。[55个]4.1.1与基线的比较设置：我们检查我们模型的一个简单变体：FC 7层的预测校正块，其使用帧级校正来更新FC 7激活。在这种情况下，初始函数f和更新函数g组成tlt−1不| is too large or according to a preset layerwise clockVGG-16中的层直到fc 7。图五是要在--率[32，20]。然后，我们可以重写Eqn。4为：以2的重新初始化速率对此进行说明。这里我们考虑具有4帧的重新初始化速率的模型。如果αl=1，t−1t1动作检测精度也可以在指定的时间内报告为mAPz<$l= f l（z<$l−1）如果δi=1（五）交叉联合（IOU）阈值，如[34]。然而，这一重--阿夫茨·阿夫勒t t+gl（zl−1−zl−1）else需要后处理预测来生成动作实例，并且我们z不986t−1tt−1选择不这样做是为了不使我们的分析复杂化。987=0图像FC7预测我们的：无CleanAndJerk单帧：CleanAndJerk=1重新初始=2图5. 我们的预测-校正网络的实例：输入图像和fc 7层之间的预测-校正块，重新初始化速率为2帧。方法MultiTHUMOS mAP单帧RGB25.14-帧延迟融合25.3预测-校正（OUR）26.9表1.我们的预测-校正模型优于两个基线。（MultiTHUMOS验证集上的每帧mAP。）我们的：Nodiving单帧：潜水我们的：NoCliffDiving单帧：CliffDiving我们的：HighJump单帧：无HighJump图6. 单帧模型基于整个场景上下文进行预测，而我们的预测-校正模型利用来自4帧的时间信息来关注场景变化，并更准确地推理动作。基线：我们将我们的模型与不使用我们的预测-校正块的基线模型的性能进行比较。为此，我们评估了两个模型。1.00.80.60.40.20.0悬崖跳水0.0 0.2 0.4 0.6 0.8 1.0召回1.00.80.60.40.20.0飞盘捕捉0.0 0.2 0.4 0.6 0.8 1.0召回1.00.80.60.40.20.0铅球0.00.20.40.60.81.0召回首先，我们评估单帧模型，该模型被微调以预测视频的每帧的动作标签。其次，我们考虑类似于[19]的后期融合模型（或[58]的后期池化模型）的模型它将4帧作为输入（3帧来自先前的时间步加上当前帧），并在预测当前时间步发生的动作之前平均汇集它们的fc7激活当训练这个模型时，我们将对应于三个帧的权重绑定，我们发现经验上表现得比所有分支都不绑定或将所有四个分支绑定在一起更好。结果：表1报告了结果。这些基线探索了朴素的时间信息对我们的表现的贡献。虽然结合这些线索提供了一个小0。2%超过基线（25。单帧1%mAP vs 25.3%mAP用于后期融合），它与我们的预测-校正模型的性能我们的模型优于单帧模型1。8% mAP：从25。单帧的1% mAP到26。9%的mAP。单帧模型在进行预测时通常主要依赖于图像上下文，产生许多自信的假阳性预测，如图所示。六、例如，在图1的顶行中。单帧模型基于场景外观预测“挺举”动作，即使人类当前没有执行该动作。相比之下，我们的模型能够有效地使用预测校正块来仅关注场景的移动部分，并意识到动作尚未执行。图2中的查准率-查全率曲线7验证这个直觉。单帧模型由于做出许多假阳性预测而始终遭受低精度。图7. 我们的模型（橙色）与单帧（蓝色）。单帧模型通常基于上下文（例如，“CliffDiving” in the presence of a cliff),(Per-MultiTHUMOS验证集上的帧精度/召回率。）4.1.2测试时重新初始化我们的模型的一个优点是它可以在测试时动态地重新初始化，如第2节所述。三点三我们在表3中看到了不同训练重新初始化率的结果。然而，这些模型可以在测试时应用于不同的这可能很有用，例如，如果我们的训练数据包含具有许多镜头变化的视频，但我们对平滑视频感兴趣。静态重新初始化：为了简单起见，我们在表2中对我们的fc 7预测-校正模型进行了不同的训练和测试重新初始化率的实验。被训练为每4帧重新初始化的模型可以成功地推理多达8帧的视频，而无需重新初始化，mAP只有适度的下降，而在8帧上训练的模型可以推广到推理多达16帧。动态重新初始化：除了静态reinitial- ization率，我们的模型是能够动态地决定何时重新初始化在测试时。这使得它可以在视频平滑演变时使用校正模型，并且仅在大的时间变化期间重新初始化。我们通过对给定帧中计算的校正项进行阈值化来实现这一点;如果它的幅度大于我们的阈值，我们就-CNNCNN+CNN时间时间时间时间精度精度精度988Reinit列车Reinit 4列车Reinit 8测试Reinit 226.925.9测试Reinit 426.926.9测试Reinit 825.427.3测试Reinit 1620.025.9表2.我们的模型能够在测试时推理视频，比训练的时间要长，准确性只有适度的损失（MultiTHUMOS验证集上的每帧mAP。）配置地图conv53每426.5fc7每426.9fc8每426.6conv33每1，fc7每427.2conv43每2，conv53每426.6conv53每2，fc7每424.8表3.不同预测-校正架构的准确性。（MultiTHUMOS验证集上的每帧mAP。）初始化模型。为了避免长序列的传播错误我们发现，通过验证一个简单的动态阈值上的范数的校正，我们已经可以实现一个小的改进，从静态重新初始化率（27。2% mAP动态vs 26. 9%mAP静态）。这表明，使用更先进的方法（如强化学习）来学习动态更新可能会在我们的框架中产生进一步的好处。效率：处理视频是计算chal，由于帧之间的大量冗余我们的模型自然可以避免不必要的计算-在大部分冗余的帧上进行选择。我们通过在校正项低于阈值时丢弃帧来实现这一点。我们发现，我们可以动态地丢弃近50%的帧，从而将计算负担降低了两倍，而每帧只会略微下降（26。7%mAP，仅处理一半帧，而26帧。9%mAP，处理所有帧）。请注意，这与随机丢弃帧不同，因为我们的模型仍然输出所有帧的预测。4.1.3建筑变体到目前为止，我们已经考虑了在fc7层具有预测校正块的模型，该预测校正块每4帧重传一次。然而，网络的不同层捕获关于视频的不同信息，并且以不同的速率演进。我们研究这些选项，以更深入地了解模型和时态数据的结构。单块：我们首先在具有单个预测-校正块的模型上进行实验。我们考虑将块放置在模型中的不同层，而不是fc7，从而要求模型关注更低的级别（conv53）图8.MultiTHUMOS确认集的定性结果标签是模型我们的模型在第一帧上初始化，并使用接下来的三帧进行更新。我们的更新机制正确地识别初始化后开始的动作，甚至纠正初始化（最后）的错误或高级（FC 8）视觉变化。表3报告了结果。我们发现，放置一个预测校正块在fc 7是最佳的单块设置内。将块放置在conv53或fc 8处会产生0。4%和0。mAP分别降低3%。对更高层次但非语义特征的推理被证明是最有效的。分层块：通过放置一个预测校正块，我们迫使整个模型以相同的速度重新初始化其内存。我们假设，以更快的速率重新初始化可能是重要的，特别是对于放置在网络中较低级别的预测校正块，因为低级别的视觉特征比更语义化的fc7变化更快。在这种直觉的鼓励下，我们尝试将预测校正块放置在具有不同重新初始化速率的多个层上。我们在表3中解释了一些分层配置。特别地，“conv33every 1，fc7every 4”模型可以被解释为预测和校正conv33 激活而不是像素值（如“fc7every 4”模型所做的事实上，该模型优于所有其他配置，达到27。2%mAP。有效更正：最后，我们对我们的模型所做的预测进行了定性分析。特别地，一个担心是模型可能在重新初始化之间预测跨所有4个帧的相同动作标签。图8显示情况并非如此。预测-校正块能够成功地注意到变化初始化更新更新更新无跳跃无跳跃跳跳无跳跃无跳跃跳跳无体滚转车身侧倾车身侧倾车身侧倾无投掷无投掷扔扔无掷铁饼掷铁饼掷铁饼掷铁饼989其发生在帧之间并更新动作预测。例如，在图1的第一行中。8“跳跃”动作在重新初始化后2帧发生，并且模型成功地校正了其初始预测。4.2. 与先前方法的我们在SEC中进行分析。4.1，我们现在在三个具有挑战性的基准上评估我们的预测 - 校正模型：[ 55 ][56][57][58][59]表3激励使用分层“conv 33每1，fc 7每4”架构;表2表明，每8帧重新初始化的训练产生了进一步的改进。因此，我们使用“conv 33 every1，fc 7 every 8”作为我们的4.2.1THUMOS和MultiTHUMOS设置：THUMOS [15]包含20个带注释的动作类;MultiTHUMOS [55]包括45个在THUMOS视频上注释的额外动作类。我们在所有MultiTHU-MOS动作的训练和验证视频上训练然后，我们通过计算20个THUMOS和 65 个 MultiTHUMOS 动作类的每帧 mAP 来评估THUMOS测试视频。结果：我们在表4中报告了结果。单帧模型已被证明是动作识别的强基线，优于例如，C3D [42] in [37].在Mul- tiTHUMOS上，我们的预测-校正模型不仅比单帧基线高出 4 。 3%mAP （ 29. 7% mAP 我们 vs 25.4%mAP单帧），但也优于最先进的MultiLSTM模型[55]。在THUMOS上，我们的模型仍然比单帧模型高出4.2%（38. 9% mAP我们vs 34. 7%mAP单帧），但还不能与MultiLSTM相提并论。这可能是由于THUMOS中的动作明显更长，基于LSTM的模型可以更好地处理，因为视频的内存更长（尽管可解释性更低）。以效率为代价，我们可以通过以密集滑动窗口的方式运行模型来进一步改进我们的模型，其中模型在对每帧进行预测时具有7帧历史。通过这种方法，我们的模型达到了30。MultiTHUMOS上的8% mAP（显著优于 MultiLSTM 的 29. 6%mAP ）和 40. 9% 的 THUMOS（只有0。4%落后于MultiLSTM，为41。3%mAP）。4.2.2字谜设置：虽然THUMOS和MultiTHUMOS数据集主要包含体育活动的视频，但Cha-方法MultiTHUMOSTHUMOS单帧[55]25.434.7[38]第三十八话27.636.2Multi-LSTM [55]29.641.3预测-校正29.738.9表 4. 我们的模型与现有技术的比较（ MultiTHUMOS 和THUMOS测试集上的每帧mAP。）方法字谜单帧7.9LSTM（RGB）7.7双流[35]8.9预测-校正8.9表5.比较我们的模型与以前的工作哑谜。我们的模型匹配的双流模型的准确性，而不使用光流。（Charades测试集上的本地化mAP。）比MultiTHUMOS更多的动作，第二，它被构造为使动作与场景去相关。结果：我们的模型推广到这个新的领域，尽管面临的挑战。我们在表 5 中报告了动作定位结果（见[36]）。我们的预测-校正模型从7. 9%mAP的单帧基线和7。LSTM基线的7%mAP到8。9%mAP。此外，我们的模型能够匹配双流网络的精度，而不需要显式计算昂贵的光流。25. 结论我们引入了一个循环预测-校正网络，该网络维护一个可解释的记忆，可以动态地重新初始化。受卡尔曼滤波器的启发，我们利用视频中的冗余和运动线索来平滑更新卷积网络中我们对该模型进行了广泛的消融研究，仔细选择放置预测校正块的位置，提高了MultiTHUMOS和THUMOS数据集基线的准确性确认我们要感谢RohitGirdhar和JamesSupanci c对本文早期版本的审查，以及Serena Ye- ung和Gunnar Sigurdsson对Mul- tiTHUMOS和Charades数据集的帮助这项研究的资金由NSF Grant 1618903，NSF Grant 1208598和英特尔科学技术中心视觉云系统（ISTC-ESTA）提供。rades数据集[37]包含常见的日常交流视频，人们在家里表演的节目。该数据集包含7，986个未修剪的训练视频和1，864个未修剪的测试视频，总共有157个动作类。这是一个更具挑战性的测试平台：首先，它包含了许多2为了完整性，我们注意到该模型还没有匹配Charades基准测试的最新结果：例如，在一个实施例中，[36]第12话使用全局线索和后处理的5%[3]双流数来自[55]，它使用单个光流帧作为流。990引用[1] S. Abu-El-Haija，N. Kothari，J. Lee，P.纳采夫湾托代里奇，B. Varadarajan和S. Vijayanarasimhan。 Youtube-8 m：大规模视频分类基准。CoRR，abs/1609.08675，2016。1[2] A.博尔代湖Bottou和P.加里纳利Sgd-qn：谨慎的准牛顿随机梯度下降。机器学习研究杂志，10：1737-1754，2009。3[3] L. 博图大规模机器学习与随机梯度下降。在COMPSTAT’2010的Proceedings施普林格，2010年。3[4] R. Collobert，K. Kavukcuoglu和C.法拉比特Torch7：类似matlab的机器学习环境。在BigLearn中，NIPS研讨会，编号EPFL-CONF-192376，2011年。5[5] J. Dean ， G. 科拉多河，巴西 - 地 Monga 、 K.Chen ，M.Devin，M.毛A. Senior，P.塔克，K。扬角，澳-地诉Le，et al.大规模分布式深层网络。神经信息处理系统的进展，第1223-1231页，2012年。3[6] J.多纳休L.安妮亨德里克斯S. 瓜达拉马M. Rohrbach，S. Venugopalan湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。在计算机视觉和模式识别，2015年。1[7] J. T. Enns和A. Lleras。接下来呢？人类视觉预测的新证据Trends in Cognitive Sciences，12（9）：327-333，2008. 2[8] C. Feichtenhofer、A. Pinz和A.齐瑟曼。卷积双流网络融合视频动作识别。在计算机视觉和模式识别，2016年。1[9] C.芬恩岛Goodfellow和S.莱文通过视频预测进行物理交互的无监督学习。在NIPS，2016年。2[10] S. S. Haykin等人，卡尔曼滤波和神经网络。Wiley Online Library，2001. 4[11] G. E. Hinton和R. S.泽梅尔自动编码器，最小描述长度和亥姆霍兹自由能。神经信息处理系统，1994年。2[12] M. Hoai，Z.- Z. Lan和F.德拉·托雷视频中人体动作的联合分割与分类。计算机视觉和模式识别（CVPR），2011年。2[13] S. Ioffe和C.赛格迪批次标准化：通过减少内部协变量偏移来加速深度网络训练。In D. Blei和F. Bach，编辑，第32届国际机器学习会议（ICML-15），第448-456页。JMLR研讨会和会议记录，2015年。3[14] S.吉，W. Xu，M. Yang和K. Yu.用于人类动作识别的3D卷积神经网络。IEEE transactions on pattern analysis andmachine intelligence，35（1）：221 2[15] Y. Jiang，J.Liu，中国粘蝇A.R. 扎米尔湾托代里奇岛Laptev，M.Shah和R.苏克坦卡Thumos挑战：具有大量类的动作识别。在ECCV研讨会，2014年。二、三、五、八[16] S. J. Julier和J.K. 乌尔曼卡尔曼滤波器在非线性系统中的新推广在AeroSense国际光学和光子学学会，1997年。4[17] S.卡拉曼湖Seidenari，和A.德尔·宾博基于Fisher编码密集轨迹的快速显著性池化。在THU-2014年MOS2[18] A. Karpathy，J. Johnson和L.飞飞可视化和理解循环网络。在ICLR研讨会，2016年。3[19] A. Karpathy，G.Toderici、S.Shetty，T.良河，巴西-地Sukthankar和L.飞飞用卷积神经网络进行大规模视频分类。在计算机视觉和模式识别，2014年。二、六[20] J. Koutnik，K. Greff，F. Gomez和J.施密特胡博发条式的无线电。在2014年的国际机器学习会议上。二、五[21] L. 林推广卡尔曼滤波器作为线性系统参数估计器的渐近性态IEEE自动控制学报，24（1）：36-50，1979年。4[22] W. Lotter，G. Kreiman和D.考克斯用于视频预测和无监督学习的深度预测编码网络CoRR，abs/1605.08104，2016。2[23] M.马尔萨莱克岛Laptev和C.施密特在上下文中的动作。计算机视觉和模式识别（CVPR），2009年。2[24] M.马蒂厄角Couprie和Y.乐存。超越均方误差的深度多尺度视频预测。ICLR，2016年。2[25] S. Mereu，J. M.扎克斯角A. Kurby，和A. Lleras。预测在感知中的作用：中断的视觉搜索的证据。实验心理学杂志：Human perception and performance，40（4）：1372，2014. 2[26] A. Oliva和A.托拉尔巴语境在物体再认中的作用Trendsin Cognitive Sciences，11（12），2007. 2[27] D. Oneata，J. Verbeek，and C.施密特The lear submissionat thumos 2014. THUMOS2[28] D. Parikh和C.齐特尼克人工调试机器。NI

下载后可阅读完整内容，剩余1页未读，立即下载