基于RBF核特征映射RNN的动作预测算法

62 浏览量更新于2023-10-13 收藏 804KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

基于RBF核特征映射RNN的史宇歌[0000−0003−1905−9320]、巴苏拉·费尔南多[0000−0002−6920−9916]、理查德·哈特利[0000−0002−5005−0191]澳大利亚国立大学，澳大利亚抽象。我们引入了一种新的基于递归神经网络的算法，用于未来的视频特征生成和动作预测，称为特征映射RNN。我们的新型RNN架构建立在机器学习的三个有效原则之上，即参数共享，径向基函数内核和对抗训练。仅使用视频的一些最早帧，特征映射RNN能够用传统RNN中所需的一小部分参数生成未来特征。通过将这些未来特征馈送到一个简单的多层感知器中，并使用RBF核层，我们能够准确地预测视频中的动作。在我们的实验中，我们在JHMDB-21数据集上获得了18%的改进，在UCF101 -24上获得了6%的改进，在UT-交互数据集上获得了13%的改进，这些改进都超过了动作预测的现有技术水平。关键词：人体动作预测，新型递归神经网络，径向基函数核，对抗训练1介绍动作预测（有时被称为动作预测）由于其许多现实世界的应用（例如人机交互）而获得了很多关注。运动分析[2，33，30]、运动分析[3，4，56]和行人运动预测[9，21，18，5，46]，特别是在自动驾驶场景中。与最广泛研究的人类动作识别方法相比，在动作预测中，我们的目标是尽可能早地识别人类动作[39，23，28，42，49]。由于视频数据的复杂性质，这是一项具有挑战性的任务。虽然包含人类动作的视频由大量帧组成，但其中许多帧并不代表正在执行的动作;大量视觉数据还倾向于包含关于相机位置、背景、相对移动和遮挡的变化的纠缠信息。这导致混乱的时间信息，并使人类行为的识别更加困难。这个问题对于动作预测方法变得更加重要，因为算法必须在开始时仅使用视频的一小部分来因此，找到一个好的视频表示，提取有关人类行动的时间信息是至关重要的预期模型。为了克服其中的一些问题，我们求助于使用深度卷积神经网络（CNN），并将CNN倒数第二层的深度特征作为视频2Y. Shi等人不t+K图1：所提出的特征映射RNN的概述：给定从视频数据提取的帧，该算法首先使RGB图像I（t）通过深度CNN以获取图像Xt的高级特征。然后将向量分割成相等长度的较小片段xi。分段向量中的每个标量元素被用作单个LSTM单元的输入，该单个LSTM单元产生帧（t + k）中的对应特征元素的预测，其中k彡1。在用LSTM处理了所有分段之后，所有预测结果都可以通过LSTM来确定。分段x（i）连接在一起形成x（t+k），其中包含高电平I（t+k）的特征。表示. 使用深度CNN的另一个动机源于为未来生成视觉外观的困难因此，类似于Vondrick等人。 [49]，我们提出了一种生成为动作预测任务量身定制的未来特征的方法：给定观察到的深度CNN特征序列，使用一种新的递归神经网络该模型的概述可参见图2。1.一、我们的RNN的目标是将时间t的特征向量映射到（t + k）的未来特征向量，表示为xt+k。因为在推断期间仅观察到一小部分帧，所以未来的特征生成器应该高度正则化以避免过度拟合。此外，特征生成器需要对未来帧特征的复杂动态进行这可以通过参数共享来解决。参数共享是一个强大的机器学习概念，被许多现代学习方法所使用通常，CNN共享空间域中的参数，而RNN共享时间维度中的参数。在我们的工作中，我们建议通过将其扩展到特征域，以非常规的方式为RNN模型使用参数共享这是基于CNN特征激活彼此相关的直觉。通过利用跨特征激活的参数共享，我们提出的RNN能够以显著更少的参数学习从xt到xt+k的时间映射。这大大提高了预测模型的计算效率，并相应地缩短了响应时间。我们称我们的新RNN架构为特征映射RNN。为了对视频数据的复杂动态特性进行建模，我们在RNN中使用了一个新的映射层。原则上，RNN的隐藏状态捕获观察到的序列数据的时间信息。在我们的方法中，RNN的隐藏状态由高斯径向基函数（RBF）内核的线性组合处理，以特征映射RNN3产生未来特征向量。虽然线性模型定义了一个简单的超平面作为映射函数，但具有RBF核的核化映射可以对复杂的表面进行建模，因此具有提高预测精度的潜力在我们的工作中，我们还实现了RBF核的动作分类的多层感知器，以提高分类器的性能。理想情况下，我们感兴趣的是在给定过去特征的情况下学习未来的概率分布。为了学习这种条件分布，受生成对抗网络[12]的启发，使用对抗方法来评估特征映射RNN的成本。RNN是用对抗性损失和重新收缩的L2损失来训练的。通过这种方式，不仅为了减少预测与地面真实值之间的欧几里得距离，而且还考虑了特征向量的概率分布，对模型进行了优化。总的来说，我们的贡献是：– 我们提出了一种新的RNN架构，跨时域以及特征空间共享参数。– 我们提出了一种新的RBF核，以提高RNN的预测性能。– 我们证明了我们的方法的有效性，为行动预期任务击败国家的最先进的标准基准。2相关工作本文中提出的模型关注于用于动作预测和动作预期的未来视频内容生成[23，50，36，35，55，27，20，42，39，29，49，10]。与广泛研究的动作识别问题相反，动作预期文献专注于开发新的损失函数，以减少预测泛化误差[39，29，16]或提高未来内容的泛化能力，例如未来外观[10]和未来特征[49]。本文提出的方法还关注未来的内容生成，因此可以进一步受益于[39，29，16]中提出的新损失函数。在早期，Yu等人。 [55]利用时空动作匹配来解决早期动作预测。他们的方法依赖于时空隐式形状模型。通过明确考虑所有的历史观察到的功能，人类行为的时间演变是用来预测类标签，尽可能早的孔等。 [20 ]第20段。Li等人Soomro等人。 [43]提出使用二进制支持向量机将视频片段定位和分类为子动作类别，并使用动态编程以在线方式获得最终的类别标签。在[50]中，使用具有动作场景相关性的静止图像来接近动作预测。与上述方法不同，我们的工作集中在视频的动作预测上。我们依靠深度CNN以及在特征和时间维度上共享参数的RNN来生成未来的特征。为了对视频数据的复杂动态进行建模，我们首次在RNN内部使用有效的RBF核函数来进行动作预测任务。另一方面，已经研究了特征生成，其目的是学习视频表示，而不是专门用于动作预测。灵感来自自然4Y. Shi等人语言处理技术[1]，作者在[34]中提出预测丢失的帧或从输入视频序列推断未来的帧然而，他们只证明了无监督视频特征学习。其他流行的模型包括由[45]引入的用于动作分类的无监督编码器-解码器方案、由[25]引入的概率分布生成模型以及由[8]引入的使用对象位置和属性信息的场景预测学习近年来关于生成对抗网络在视频生成上的应用的研究已经产生了诸如MoCoGAN [48]，TGAN [40]和Walker等人这些GAN变化的机制都能够利用视频中的空间和时间信息，因此在视频生成中显示出有希望的结果。此外，轨迹预测[22]，光流预测[52]，路径预测[51，54]和运动规划[11，19]，运动预测[7]，活动预测[31]也与我们的工作有关。所有这些方法生成数据的未来方面。我们的新型然而，RNN模型专注于为动作预测生成未来特征。3方法3.1概述与其他动作预测算法所采用的方法类似，我们的算法通过仅观察长视频开始时的一小部分视频帧来预测动作。我们的方法的整体管道如图所示。1.一、首先，我们从帧中提取一些CNN特征向量，并根据过去的特征预测未来的特征随后，使用多层感知器（MLP）对生成的特征进行我们从观察到的和生成的特征中聚合预测，以尽早识别动作。3.2动机用X =表示到时间t为止观察到的特征向量序列，用xt+k表示我们的目标是产生的未来特征向量，其中k≥1且xt∈Rd 。我们感兴趣的是建立P（xt+k）的条件概率分布的模型|x1，x2，x3，...，xt; Θ），其中Θ表示概率模型的参数。使用RNN或RNN变体（如长短期记忆（LSTM）[14]）来建模数据的时间演化是很自然的。然而，学习这样的映射可能导致过度拟合，因为这些方法往往不利用视频数据的时间相干性和进化性质[32]。此外，使用从过去到未来的LSTM的朴素CNN特征映射也容易过度拟合。具有维度H的隐藏状态并且将维度d的特征向量作为输入的LSTM使用4（dH+d2）的数量级的参数。作为一个例子，如果我们使用Inception V3 [47]的倒数第二次激活作为特性向量（d=2048），典型的LSTM（H=512）将需要10 -7量级的参数。我们相信，通过利用现代CNN架构的高水平激活的相关性，可以大大提高此类模型的有效性[47，13]。特征映射RNN5不不t+KD受这些论点的启发，我们建议训练一个LSTM模型，其中参数不仅在时域中共享，而且在特征激活中共享。通过这样做，我们的目标是自我正则化的算法的特征生成我们将我们的新架构命名为特征映射RNN。此外，为了增加RNN的功能容量，我们利用径向基函数（RBF）来建模条件概率分布P（xt+k）的时间动态|x1，x2，x3，···xt;Θ）。这些机制将在下面的小节中详细介绍。3.3基于RBF核映射的特征映射RNN传统的特征生成RNN架构将时间t之前的向量序列作为输入，并预测未来的特征向量xt+k。特别地，使用以下递归公式来对预测进行建模：ht=f（xt，ht−1;θ）（1）其中ht是捕获序列的时间信息的隐藏状态（ht∈RH），θ是递归公式的参数然后，我们利用该隐藏状态来使用以下公式预测未来特征向量Xt+kxt+k=ht×W（2）其中W∈RH×D是进行线性映射以预测未来特征向量的参数如前所述，在我们的特征映射RNN中，参数Θ在几组特征激活之间共享。这通过将维度d的输入特征向量分割成维度D的相等大小的子向量来实现，其中D被称为特征步长。现在让我们用X1表示大小为D的第i个子特征向量。直观地，如果我们以端到端的方式连接所有这样的子特征向量，我们将能够重建原始特征向量x t。第i个子特征向量的数据的时间序列现在由Xi=表示。如果我们处理每一个1 2 3t序列Xi，以xi为单位，RNN模型在等式1和等式2中，我们将能够预测xi，并且通过将它们端到端地连接，生成xi+k。这该方法将RNN模型中使用的参数数量从4（dH+d2）减少到4（DH+D2），这导致计算效率的显著提高，特别是当Dd时。然而，模型的参数复杂性将保持不变多项式并且与多个超参数相关。为了进一步提高我们模型的效率，我们采用了一种更大胆的方法：我们建议将向量序列Xi=转换为a1 2 3t标量序列让我们用xi（j）表示子向量xi的第j维。现在在-tt我们对向量序列Xi进行静态处理，将序列Xi转换为新的序列标量X′ i = ∠ xi（1），xi（2），···xi（D），xi（1），xi（2），···，xi（k），···xi（D）∠。长度1′ 11 22 t t标量序列Xi等于t×D，我们生成d这样的数字-序列的特征向量X的每个原始序列。6Y. Shi等人不t+Kt+K′tt然后，我们提出使用RNN（LSTM）模型来处理标量序列。计算复杂度现在是线性的，递归模型（LSTM）中使用的参数数量减少到4（H+1），并且仅取决于隐藏状态的大小。同样，给定当前向量序列X，我们希望生成未来的特征.向量xt+k。在我们的RNN模型中，这被转化为预测标量序列xi⑴，···xi⑶对于所有子特征向量i = 1到d，从序列X ′ i。然后我们t+k合并时间t+k的所有预测标量以获得xt+k。因此，在数学上，我们的新RNN模型共享fea上的参数。真正的激活可以由下式表示hi（l）=f（xi（l），hi（l）t−1;Θ）（三）′其中Θ是RNN（LSTM）的新参数集，并且第i个标量的未来第l个标量子特征向量由下式给出i（l）t+k=hi（l）·w′。（四）为了进一步提高我们的特征映射RNN的功能，我们使用径向基函数（RBF）。而不是使用一个简单的线性投影的隐藏状态的未来特征向量，我们建议利用更强大的径向基函数映射。我们将这种新的RNN架构称为RBF核化特征映射RNN，由以下公式表示：ΣnΣ（hi（l）−µl）2Σi（l）t+k =j=1αlexp−tjL2J（五）其中μl、σl和αl是在训练期间学习的参数，n是RBF的数量jj j使用的Kernel这些参数在所有子特征向量之间共享未来的fea-真向量x≡i被计算为RBF核输出的线性组合。以来RBF核在对特征空间中的复杂平面建模时更好，该函数映射能够准确地捕获更复杂的动态。在我们的特征映射RNN上实现核化RBF使模型能够比经典RNN具有更少的参数。注意，我们在这里提出的方法仅使用非重叠特征子向量，即。e. 在2个连续的子向量之间不存在重叠。然而，重叠的特征子向量可以用于提高特征生成的鲁棒性。因此，我们使用大小为S的重叠步幅，而不是使用非重叠特征步幅D。在这种情况下，我们取2个连续子向量的所有重叠部分之间的平均值以获得x（i（l）。3.4特征映射RNN的训练数据生成，特别是原始图像的视觉数据生成，多年来一直是一个具有挑战性的问题，主要是由于缺乏合适的损失函数。这个任务最常用的函数是L2损失。但是，它在xxJσ特征映射RNN7不t+K不t+K不假设数据是从高斯分布中提取的，这使得损失函数在处理遵循其他分布的数据时无效作为示例，如果对于像素仅存在两个相等可能的值v1和v2，则对于像素的可能性为vavg=（v1+v2）/2作为该像素的真值是最小的。但是，vavg将被分配到使用L2损失来评估成本的神经网络的输出。L2损失函数的这一属性对于特征向量生成可以看到类似的观察结果。生成对抗网络的最新发展解决了这个问题[12]。传统的GAN由2个CNN组成，其中一个称为生成器（记为G），另一个称为鉴别器（记为D）。GAN有效地学习原始数据的概率分布，并且因此消除了对原始数据的干扰。”blockiness” effect caused by 在这里，我们提议训练fea-使用L2和对抗损失的组合的真实映射RNN算法，其通过将特征映射RNN实现为表示为的生成器来实现G：xi→xi. 通过这样做，我们能够做出准确的预测，t t+k和现实。L2损失：L2损失被定义为生成的特征与未来帧的真实特征向量之间的均方误差，如下所示：L G（x t）= ||X i-xi||xi − G（x i）||.||. （六）2t+kt+Kt+k t对抗性损失：我们使用[12]提出的生成器对抗性损失进行训练G，使得D相信G（xi）来自数据集，此时D（G（xi））=1。的不损失函数定义为：GAdv不=− log（D（G（x i）。（七）通过将这种损失添加到我们的目标函数中，RNN被鼓励生成具有与原始数据相似的概率分布的特征预测。最后，我们的RNN生成器G的损失函数由下式给出：LG=λ1 LG+λ2 LG.（八）2Adv训练神经网络来判断它的输入是真实的还是合成的。目标-目的是当给定输入是真实数据xi时输出1当生成输入时为0数据G（xi）。因此，鉴别器损失被定义为：LD=−log（D（xi ））−log（1−D（G（xi）））。（九）3.5动作分类器和推理为了评估由特征匹配RNN生成的预测特征的认证，我们再次使用帧特征来训练附加有RBF内核层的2层MLP（等式5），以尽早对视频进行我们的RBF核化MLP的图示如图2所示。使用交叉熵损失来评估分类损失。分别训练特征映射RNN和动作分类MLP。可以考虑联合训练MLP和特征映射RNN。然而，在性能方面，我们并没有看到太多的优势。L8Y. Shi等人图2：RBF去泛化多层感知器图3：特征映射RNN的测试过程在推理过程中，我们利用所有观察到的和生成的功能，以增加结果的鲁棒性。通过对所有预测执行时间平均池化来计算准确度（参见图3）。4实验4.1数据集使用三个数据集来评估我们模型的性能，即UT-Interaction[37]，JHMDB-21[17]和UCF 101 -24[44]。我们在实验中遵循每个数据集的标准协议。我们选择这些数据集是因为它们与先前工作中使用的动作预期任务最相关[39，35]。UT-InteractionUT-Interaction dataset（UTI）是一种流行的具有复杂动态的人类动作识别数据集。该数据集包括在不同背景、缩放率和干扰下执行的6种类型的人类交互。它总共有20个视频序列分为2组。每个视频大约1分钟长，平均描述8次互动。可用的动作类别包括握手、指点、拥抱、推、踢和拳击。性能评估方法要求使用每组10倍留一交叉验证来测量识别准确度。在重复改变测试顺序的同时，对准确度进行20次评估，并通过取所有测量值的平均值获得最终结果。JHMDB-21JHMDB-21是另一个具有挑战性的数据集，包含21种人类行为的928个视频片段。与在相对无噪声的环境中编写和拍摄不同动作的视频片段的UT交互完全不同，JHMDB-21中的所有视频都是从电影或在线来源收集的，这使得数据集更加真实。每个视频都包含一个动作的执行，数据集被分成3组，用于训练、验证和测试。特征映射RNN9UCF 101- 24是UCF 101的一个子集。该数据集由来自UCF101的24个动作类的3000多个视频组成。由于所有视频都是从YouTube上收集的，因此可以保证动作类型，背景，相机运动，照明条件等方面的数据多样性。此外，每个视频描述了多达12个具有不同时间和空间特征的同一类别的动作，这使其成为迄今为止最具挑战性的数据集之一。4.2实现细节特征映射RNN特征映射RNN以128的批量大小进行训练，在所有实验中使用4的隐藏大小（H），除非另有说明。被称为特征步长（D）的特征子向量的默认维度被设置为128。我们在RBF核化特征映射RNN中使用了六个RBF核。特征步幅被设置为64，对抗性损失的权重（λ1）被设置为1，L2损失设置为10（i。e. λ2）。动作分类器MLP简单的两层MLP分类器由分别具有256和128个激活的两个隐藏层组成。我们还使用RBF内核以及MLP，其中内核数量设置为256。使用256的批量大小训练MLP。训练和测试程序我们使用预训练的Inception V3 [47]倒数第二次激活作为帧特征表示。每个特征向量的维度为2048（d=2048）。动作分类MLP在来自数据集的训练分割的特征向量上训练。这些特征还用于训练我们的特征映射RNN以生成未来的特征。两个模型都是以学习率0进行训练的。001和指数衰减率0。9 .第九条。协议遵循实验协议[39，35]，我们仅使用视频帧的前r%（UT交互为50%，JHMDB-21为20%）来预测每个视频的动作为了利用我们的模型，我们使用我们的RBF核化特征映射RNN生成视频特征的额外p%（称为预测百分比）。因此，我们利用原始视频长度的（r+p）%特征向量来进行最终预测。为了在测试时生成下一个未来特性，我们递归地应用我们的特征映射RNN给出了所有以前的特征（包括生成的特征）。然后，我们使用我们的动作分类MLP来预测动作标签，使用最大池化或简单地平均预测。这个过程更直观地展示在图中。3 .第三章。4.3与最新技术水平的我们将我们的模型与JHMDB-21数据集上的动作预测任务的最先进算法结果示于表1中。我们最好的算法（表中表示为fm+RBF+GAN+Inception V3）比最先进的算法性能高出18%，我们可以清楚地看到，核SVM和对抗训练的实现将准确率提高了约3%至4%。此外，为了展示我们的方法如何能够以如此大的幅度超过基线，我们还在VGG16之上实现了特征映射RNN，以便深度CNN预处理与表1中的其他方法一致。表中的fm+VGG16条目显示了10Y. Shi等人表1：我们的模型与JHMDB-21数据集上最先进的动作预测模型的比较我们遵循 JHMDB-21 的协议进行动作预测，预测仅使用20%的视频序列。表2：我们的模型与UT交互数据集上最先进的动作预测模型的比较在UT交互的协议之后，仅使用50%的视频序列进行预测。方法精度ELSTM [39]百分之八十四[28]第二十八话百分之四十八上下文融合[16]百分之四十五Cuboid Bayes [35]百分之二十五I-BoW [35]百分之六十五D-BoW [35]百分之七十Cuboid SVM [38]百分之三十二BP-SVM [26]百分之六十五我们百分之九十七8%的改进，从基线ELSTM，这是纯粹的特征映射RNN的实现的影响。还在另外两个提到的数据集上进行了实验，其中我们的最佳方法在UT-交互上的表现优于最先进的13%，在UCF 101 - 24上的表现优于最先进的6%，分别如表2和表3所示。我们相信这些显著的改进表明了两个主要原则的有效性，即RBF泛函的参数共享和表达能力为了进一步研究每个组件的影响，我们在以下部分中执行一系列实验。表3：我们的模型与UCF 101 -24数据集上最先进的动作预测模型的比较。同样，预测仅使用50%的视频序列。方法精度时间融合[6]百分之八十六路[41]百分之九十ROAD + BroxFlow[41]百分之九十二我们百分之九十八4.4分析在本节中，我们比较了RBF核化特征映射RNN的不同组件的影响如表4所示，我们比较了RNN模型的以下变体，包括：(a) 特征映射RNN：仅使用L2损失来训练特征映射RNN;方法精度ELSTM [39]百分之五十五[28]第二十八话百分之三十三别人 DP-SVM [42]S-SVM [42]百分之五百分之五[43]第43话百分之十上下文融合[16]百分之二十八fm+VGG16百分之六十三特征映射RNN11(b) 特征映射RNN +RBF：我们的RNN与核化RBF，仍然只使用L2丧失;(c) 特征映射RNN + RBF + GAN：具有对抗性损失的RBF核化特征映射RNN。除了基于特征映射RNN的模型之外，我们还对以下方法进行了实验，以与我们的模型进行比较：(d) 线性：大小为D×D的矩阵用于特征生成（D是输入特征的维度）;(e) Vanilla LSTM：使用传统的vanilla LSTM生成未来的动作特性L2损失被用来训练它;(f) Vanilla LSTM + RBF：vanilla LSTM + kernalized RBF，仅使用L2损失;(g) Vanilla LSTM + RBF + GAN：RBF核化的vanilla LSTM，增加了对抗性损失。请注意，所有结果都是使用Inception V3网络提取的特征获得的，准确度是使用预测百分比p=50%的最大池化获得的。表4：JHMDB-21数据集上不同方法的比较方法精度线性62. 占7%香草LSTM66岁。百分之三Vanilla LSTM + RBF67岁百分之九Vanilla LSTM + RBF + GAN-特征映射RNN七十二百分之二特征映射RNN + RBF七十二百分之八特征映射RNN + RBF + GAN七十三。百分之四表4中的结果示出了所提出的方案在使用较少参数的同时显著优于线性模型。最有趣的是，特征映射RNN的性能比普通LSTM高出近6%，这表明参数共享对LSTM的影响。特征空间。我们还可以从表4中得出结论，对抗损失以及RBF核层的应用鼓励模型生成更真实的未来特征，这通过使用特征映射RNN +RBF和特征映射RNN +RBF+GAN的准确性的提高来反映。表中也显示了4 使用RBF内核训练的vanilla LSTM的准确率比普通的vanilla LSTM高出近2%，这进一步证明了RBF层是基线可以受益的。令人遗憾的是，具有对抗训练模型的vanilla LSTM由于LSTM单元中需要大量参数来重建而原始特征分布。RBF核化特征映射RNN的影响是相当显着的。如果我们比较红色曲线和绿色曲线，我们可以看到它们之间的差异随着预测百分比的增加而变大这表明RBF核化特征映射RNN在长期内生成更准确的未来特征，因此它是比普通特征映射RNN更鲁棒的模型。比较红色和绿色曲线与橙色和蓝色曲线，我们还可以得出结论，对抗性12Y. Shi等人图4：在不同视频预测百分比p下，JHMDB-21数据集的无池化的预测准确度。RBF核化特征映射RNN使用对抗性损失进行训练，能够达到最高的稳定精度。图5：在JHMDB-21数据集上以不同特征步长评估的预测准确度。通过在模型上以8的增量实现D=8至2048之间的特征步长来找到图像中绘制的准确度，并且在每16次测量中取滚动平均值。不使用时间池化。损失辅助以类似的方式进行RNN训练即使没有GAN损失和RBF核的辅助4.5超参数的影响特征步长所生成的数据的准确性指示特征向量的D维段之间默认情况下，我们采用特征步长128（D=128）。为了进一步探索这个属性，我们实验了不同的特征步长。图5、绘制识别精度与特征步长的关系图。我们观察到，小的特征步长保证了有效的特征生成。具体地，当特征步长小于200时，预测保持在70%以上。这种现象可以解释的直觉，当特征的步长是大的，该模型试图概括一个大的一组特征的混合信息在一个时间步长，这导致性能下降。同样有趣的是，当特征步长超过250时，预测精度剧烈振荡。这表明，也许特征向量总结了原始图像在固定大小的集群中的信息，当我们试图通过设置不同的特征步长来打破这些集群时，每个时间步长内的信息缺乏连续性和一致性，从而影响了预测性能。虽然较小的特征步长构建了更鲁棒的模型，但是特征步长16的训练时间仅花费步长4的训练时间量的一半，而不会损害预测准确性。因此，有时选择更大的特征步长以节省计算时间可能是有益的。特征映射RNN13表5：在不同特征步幅大小（S）表6：使用具有不同状态大小（H）的LSTM单元的预测精度。表7：使用不同数量的RBF核的预测准确度。隐藏状态大小精度H= 2七十一占7%H= 4七十三。百分之二H= 8七十二占7%H= 16七十三。百分之二H= 32七十三。百分之二H= 64七十三。百分之八区间大小在本节中，我们实验了重叠子特征向量对RBF核化特征映射RNN的影响。回想一下，特征映射RNN是记为G：xi→xi：.而不是通过特征步长的倍数来定罪it t+k大小为D，为了提高预测精度，我们定义了特征步幅S它比D小。具有几个不同特征步幅值的特征映射RNN的预测精度如表5所示。LSTM状态大小本节旨在研究LSTM单元的隐藏状态大小（H）对模型性能的影响由于隐藏状态存储了所有输入序列数据的基本信息，因此通常将其视为RNN的当我们将隐藏状态的大小增加到一定程度时，可以直观地预期性能的改进。然而，表6中的结果表明，增加LSTM状态大小对预测精度没有太大影响，特别是当状态大小变得大于8时。这是因为在所提出的特征映射RNN模型中，每个LSTM单元只接受一个标量作为输入，而不是处理整个向量的传统RNN单元。由于隐藏状态的大小总是大于输入大小（等于1），因此非常大的H对模型性能没有太大影响也就不足为奇了。在本节中，我们研究了特征映射RNN中使用的高斯曲面数量的影响。我们计算预测精度，同时增加高斯内核的数量从21到28。结果如表7所示。结果表明，随着我们添加更多数量的内核，预测性能总体呈上升趋势，当k=128时，达到最高精度。然而，当k=256时获得的结果比当k=4时更差。这一现象可以用RBF核强大的建模能力导致的过拟合来解释具有复杂边界的数据的时间动态。从这些实验得出的结论是，该模型通常对这些超参数的变化不太敏感，这证明了其鲁棒性。结果进一步证明了我们的方法的计算效率由于可以用非常少的参数有效地训练模型，因此可以将其存储在移动设备上以用于快速的未来动作预测。内核数量精度K= 4七十二占7%K= 8七十二占7%K= 16七十三。百分之三K= 32七十三。百分之三间隔大小精度S= 474岁百分之三S= 8七十三。百分之八S= 1674岁百分之三S= 32七十三。百分之二14Y. Shi等人5结论所提出的RNN使用非常少的参数，在动作预测任务上优于最先进的算法。我们广泛的实验表明，该模型的能力，以产生准确的预测未来的功能，只观察一小部分的功能。此外，我们的RNN模型是快速的，并且消耗存储器的一部分，这使得它适合于在移动设备上实时执行。所提出的特征映射RNN可以在有标签和没有标签的情况下进行训练以生成未来的特征。我们的特征生成器不使用视频数据的类级别注释。因此，我们认为，原则上，我们可以利用大量可用的未标记数据来增加模型的鲁棒性。该模型能够使用非常少的参数生成有效结果的事实为深度特征之间的内部相关性的存在提供了强有力的证据，这是一个可以对许多相关问题（例如视频跟踪、图像翻译和度量学习）产生影响的特性。此外，通过在RNN中添加RBF层，我们观察到预测精度的显然而，还注意到，当使用太多的内核RBF实现模型时，会发生过拟合。为了充分探索RBF函数的功能能力，在未来的研究中，我们的目标是在流行的深度CNN模型（如ResNet[13]，AlexNet[24]和DenseNet[15]）的全连接层上实现内核RBF。总之，提出的RBF核化特征映射RNN在视频动作预测的具有挑战性的序列学习任务中展示了参数共享和RBF函数引用1. Bengio，Y.，杜沙尔姆河Vincent，P. Jauvin，C.：神经概率语言模型。Journal ofMachine Learning Research3（Feb），11372. Dix，A.：人机交互在：数据库系统百科全书，页。1327-1331年。02 The Dog（2009）3. Duan，L.Y.，徐，M.，Chua，T.S.，田，Q，Xu，C.S.：一个用于语义体育视频分析的中级表示框架。2003年ACM国际多媒体会议。pp. 33-44. ACM（2003）14. Ekin ， A. ， Tekalp ， A.M. ， Mehrotra ， R. ：自动足球视频分析和摘要。 IEEETransactions on Image processing12（7），7965. Enzweiler，M.，Gavrila，D.M.：集成行人分类和方向估计。2010年IEEE计算机视觉与模式识别会议pp. 第9826. Fan，Z.，Lin，T.，赵，X.，姜维，徐，T.，Yang，M.：面向现实世界应用的在线手势识别方法在：Zhao，Y.，孔，X.Taubman，D.（编辑）图像和图形。pp. 262-272.Springer International Publishing，Cham（2017）107. Felsen，P.阿格拉瓦尔，P.，Malik，J.：接下来会发生什么预测运动员在体育视频中的移动在：2017年IEEE计算机视觉国际会议（2017）48. Fouhey，D.F.，Zitnick，C.L.：预测场景中的对象动态。2014年IEEE计算机视觉和模式识别会议。pp.2027-2034年（2014年）。https://doi.org/10.1109/CVPR.2014.260www.example.com特征映射RNN159. Gandhi，T. Trivedi，M.M.：用于改进路径预测的基于图像的行人取向估计。2008年IEEE智能汽车研讨会。pp.第50610. 高，J.，杨志，内华达河：红色：增强的编码器-解码器网络，用于动作反...page. arXiv预印本arXiv：1707.04818（2017）311. 龚，H.，Sim，J.，Likhachev，M.，Shi，J.：视觉目标跟踪的多假设运动规划2011年IEEE计算机视觉国际会议。pp.619https://doi.org/10.1109/ICCV.2011.6126296www.example.com12. 古德费洛岛Pouget-Abadie，J.Mirza，M.，徐，B.，沃德-法利，D.，Ozair，S.，库维尔一、Bengio，Y.：生成性对抗网。在：神经信息处理系统的进展。pp. 267213. 他，K.，张，X.，Ren，S.，孙杰：用于图像识别的深度残差学习发布时间：2016IEEE计算机视觉与模式识别会议。pp. 77014. Hochreiter，S.，Schmidhuber，J.：长短期记忆。神经计算9（8），173515. Huang，G.，刘志，范德马滕湖，Weinberger，K.Q.：密集连接的卷积网络。在：2017年IEEE计算机视觉和模式识别会议（2017）1416. Jain，A.，Singh，A.，Koppula，H.S.，Soh，S.，Saxena，A.：用于驾驶员的递归神经网络通过感觉融合架构进行活动预测2016年IEEE机器人与自动化国际会议pp. 311817. Jhuang，H.Gall，J.，Zuffi，S.，施密德角布莱克，M.J.：了解行动认知-nition. 2013年IEEE计算机视觉国际会议。pp. 319218. 凯勒，C.G.，Gavrila，D.M.：行人会过马路吗？行人路径预测研究2014 IEEE Transactions on Intelligent Transportation Systems15（2），49419. Kitani，K.M.，Ziebart，B.D.，Bagnell，J.A.，Hebert，M.：活动预测，pp。201-214施普林格柏林海德堡，柏林，海德堡（2012）420. 江，Y.，Kit，D.，Fu，Y.：多时间尺度行为预测的判别模型。第59621. Kooij，J.F.P.，施耐德，N.，Flohr，F.，Gavrila，D.M.：基于上下文的行人路径预测第2014年欧洲计算机视觉会议。pp. 618-633. 03 The Dog（2014）22. Kooij，J.F.P.，施耐德，N.，Flohr，F.，Gavrila，D.M.：基于上下文的行人路径预测，pp.618-633. Springer International Publishing，Cham（2014）423. Koppula，H.S.，Saxena，A.：使用对象启示预测人类活动主动的机器人反应模式分析与机器智能汇刊38（1），14-29（2016年1月）。https://doi.org/10.1109/TPAMI.2015.24303351，324. Krizhevsky，A.，萨茨克弗岛Hinton，G.E.：Imagenet分类与深卷积神经网络。在：Pereira，F.，Burges，C.J.C.博图湖Weinberger，K.Q.（编辑）Advances in Neural Information Processing Systems 25，pp. 1097-1105.柯兰联营公司（2012年）1425. Lampert，C.H.：预测时变概率分布的未来行为。于：2015 年 IEEE 计算机视觉与模式识别会议。 pp. 942-950 （ 2015 ）。https://doi.org/10.1109/CVPR.2015.7298696www.example.com26. Laviers，K.，Sukthankar，G.，啊哈D.W.Molineaux，M.，达肯角等：改善-通过对手建模的防守表现。2009 AAAI人工智能和互动数字娱乐会议（2009年）1027. Li，K.，Fu，Y.：通过发现时间序列模式预测人类活动2014IEEE Transactions on pattern analysis and machine intelligence36（8），164428.妈妈，S.，锡加尔湖Scaroff，S.：在lstms中学习活动进展，用于活动检测和早期检测2016年IEEE计算机视觉和模式识别会议pp. 1942-1950（2016）。https://doi.org/10.1109/CVPR.2016.2141，1016Y. Shi等人29. 妈妈，S.，锡加尔湖Scaroff，S.：用于活动检测和早期检测的lstms中的学习活动进展2016年IEEE计算机视觉和

下载后可阅读完整内容，剩余1页未读，立即下载