动作预测：基于部分观察视频的强大深度网络模型

32 浏览量更新于2023-10-15 收藏 1.28MB PDF 举报

身份认证购VIP最低享 7 折!

30元优惠券

11473用于动作预测的孔宇1陶志强1傅云1，21电气与计算机工程系，22计算机与信息科学学院。东北大学，波士顿，MA 02115，美国{yukong，zqtao，yunfu}@ ece.neu.edu摘要本文提出了有效和强大的深度网络，用于从包含时间上不完整的动作执行的部分观察视频中进行动作预测。与事后动作识别不同，动作预测任务需要从这些部分观察到的视频中预测动作标签。我们的方法利用丰富的序列上下文信息来丰富部分视频的特征我们通过从完全观察到的动作视频中学习，重建从部分视频中提取的特征中信息的量是时间排序的，用于对动作片段的时间排序进行建模的目的。标签信息也用于更好地分离不同类别的学习特征我们开发了一种新的学习公式，使有效的模型训练。在UCF 101、Sports-1 M和BIT数据集上的大量实验结果表明，我们的方法明显优于最先进的方法，并且比这些方法快300倍。结果还表明，不同行为的预测特征不同;即使仅观察到视频的开始10%部分，也可以正确地预测某些动作。1. 介绍人体动作识别由于其在视觉监控、视频检索等方面的广泛应用而受到人们的广泛关注。这个任务是在观察到整个动作执行之后推断动作标签。然而，在某些情况下，在动作执行结束之前预测动作标签是极其重要的。例如，如果车辆上的智能系统能够在交通事故发生之前预测交通事故，而不是在事后识别危险的事故事件，更重要的是，要素的堆叠图层图1. 我们的DeepSCN预测给定未完成动作视频的动作标签。给定从部分观察到的视频中提取的特征，DeepSCN从完全观察到的视频中获得额外的判别信息。多层学习特征（紫色节点）被堆叠以更好地抽象原始特征。观察完整视频的帧动作预测是具有挑战性的，因为决策必须基于时间上不完整的动作执行。然而，如果观察到特定的时间模式并且时间上下文可用，则某些动作在其早期阶段是可预测的例如，考虑一个三级跳远的视频。我们可以想象，一个球员很可能在跑步后跳起来，因为我们在其他地方看到过这种类型的运动。完整视频观测的顺序上下文为我们提供了三级跳远动作包括跑步和跳跃以及动作外观如何在时域中演变的知识。这种沿时间轴传递的关键信息是动作预测的关键，因为它有助于我们在完整的动作观察中理解动作的在本文中，我们提出了一种用于动作预测的新型深度顺序上下文网络（DeepSCN）。DeepSCN基于边缘化堆栈自动编码器（MSDA）[4]，但扩展了它以适应顺序数据。我们的深度网络利用丰富的顺序上下文信息来更好地捕获完整视频观察的外观演变和时间我们从完整的视频中学习这些信息（见图1），并将其转移到从包含时间上不完整的动作执行的部分视频中提取的特征中。这丰富了特征表示，并提高了它们的区分能力，系统可以在一开始就做出准确的预测，阶段的视频，例如，当只有开始10%1我们承认，现场要点也起着重要的作用在这里。0不原始特征信息传递全面观察…学习的特征原始特征…11474KKK尽管它们是从不完整的序列中提取的。出于对不均匀动作片段的时间排序进行建模的目的，在不同进展水平 2 处的所传送信息的量被时间排序。此外，在DeepSCN中引入了监督信息，以提高学习特征在不同进度级别的区分能力。DeepSCN 具有从 MSDA 继承的许多优点： 1 ）DeepSCN在训练和测试方面比现有的预测方法[13，2]快得多实验结果表明，DeepSCN比[2]快300倍，比[13]快60倍;2）DeepSCN堆叠多层形成一个深层网络，不同进展水平的特征; 3）具有分层凸性，可有效求解。我们的工作重点是短持续时间的预测，如例如，一个活动“做煎蛋卷”可以分解为原语“crack”、“pour”、“stir”等。我们模拟序列数据到达，而[2]假设数据是随机观察到的序列。我们的目标是预测部分观察到的视频的标签相比之下，[35，21，14]预测未来会发生什么，[9，19]定位不完整事件的开始和结束帧。2. 相关工作动作识别方法将完全观察到的视频作为输入，并输出人类动作的标签。现有的方法可以大致分为低级的基于特征的方法[15，33，30，22，31，20]和中级的基于特征的方法[15，33，30，22，31，20]。水平特征的方法[12，26，34，36，18]。低级特征，例如密集轨迹[31]和poselet关键帧[22]，利用局部外观信息和时空结构，并且在动作识别中取得了巨大成功。中级的基于特征的方法，如语义描述[12]或数据驱动的概念[34]，已经证明能够识别更复杂的人类行为。此外，最近提出了一些深度学习的特征[32，6]然而，大多数现有的方法期望观察时间上完全的动作表现。他们的表现是未知的，如果他们有时间不完整的动作执行视频。nique描绘了人类活动的连续性Cao等人[2]概括了人类活动识别。在他们的工作中，视频中的帧被随机删除以模拟缺失的数据。他们将问题表述为后验最大化问题，其中可能性通过使用稀疏编码的特征重建误差来计算。然而，[2]的计算复杂度很高，因为推理是在整个训练数据上进行的。Lan等人。[14]设计了一种从粗到细的分层表示，以捕获不同级别的有区别的人体运动，并使用最大边缘框架进行最终预测。Kong等人。[13]提出了一种结构化SVM学习方法，同时考虑人类行为的局部和全局时间动态。通过加强时间段的标签一致性，可以有效地提高预测性能。所提出的方法与现有的动作预测和早期检测方法[24， 13， 2 ， 14 ，9 ，19]有很大不同。所提出的DeepSCN优雅地从完整视频到部分视频获得额外的顺序上下文信息，同时[13，9，19]捕获时间序列中增加的置信度得分或减少的检测丢失。通过对训练数据中的动作表示进行平均[24]，构建动作字典[2]或在粗和细级别上描述动作[14]来计算动作模型。通过比较，我们从完整的视频中转移环信息来建立动作模型，以提高部分视频的区分能力。此外，我们的方法堆叠多个特征层以更好地总结动作特征，而[24，2，14，13]仅使用手工制作的特征。未来事件的预测也在其他应用中进行了研究，例如预测推荐系统中的事件[16，23]，预测未来的视觉表示[29]，以及推理个人的首选路径[11，1]。他们的目标与我们的工作不同，因为我们专注于预测视频的动作标签。3. 我们的方法我们的目标是在正在进行的动作执行结束之前预测动作视频x的动作类y [13，2，24]。我们遵循[13，2，24，14]中描述的问题设置。一个完整的视频x包含T帧均匀分割成K段（在这项工作中K= 10），模仿顺序视频到达各种观察比率。每个行动预测方法[24，2，14，13]是赞成的，段包含T跳转请注意，对于不同的视频，在部分观察到的视频中预测动作Ryoo[24]提出了整体和动态的词袋ap-它们的长度T可以变化，从而导致它们的段的长度不同。视频的第k个片段（k∈ {1，···，K}）行动预测的方法。前一个模型fea-范围从[（k−1）·T+1]帧到第（kT）帧随着时间的推移，真实分布变化，而后者技术-2进度水平k是视频中观察到的时间片段的数量，范围从1到K：k ∈ {1，···，K}，其中K是完整视频中的片段的总数。frame. 时间上的部分视频或部分观察x（k）是包含视频的K个分段中的开始k个部分视频x（k）的进展水平g是k：g=k，并且其观察比11475我我我1 1NN1 1NN{x（k）}及其相应的完整观测值{x（K）}为我ΣN ΣK我x（K）−Wx（k）i i2Fi=1k=1部分视频x（k）其中W是在模型训练期间学习的大小为d × d的特征变换矩阵，并且·F是Frobenius范数。矩阵X<$（K）是一个d×KN矩阵，它包含所有的图2.时间部分视频的示例，以及进度水平和观察比率的图形说明。r是k：r=k（见图2）。对于给定的部分视频，全观测值，X<$也是一个d×KN矩阵，包含所有的部分观察：X<$（K）=（x（K），···，x（K），···，x（K），···，x（K）），`1美元1xN NK KK倍（二）其进展水平（或水平）g和观察比率r具有g=r×K。给定N个训练视频{xi，yi}N ，我们模拟se-X<$=（x（1），···，x（K），···，x（1），···，x（K））。i=1在这项工作中顺序数据到达，在时间上，将每个训练视频xi组成部分观测{x（k）}|K在不同的发展阶段。注意x，K和x通过最小化等式中定义的差异（1）一个标准-初始观测x（k）在其指导下使用学习的投影矩阵W被映射到特征空间上，ik=1ii对应的完整观测值xK或xi。重构的是相同的完整视频：xK=xi。我们想学习我（k）我特征映射函数G：x（k）→z和一个预测特征Wxi预计在几何上更接近其K函数F：z→y，其中x（k）∈ Rd是进度级别k处的部分视频，z∈ RD是具有高辨别能力的学习特征向量，并且y∈ Y是动作标签。相应的完整观察xi.因此，学习的特征向量Wx（k）将从完整的观察x（K）中获得用于动作预测的额外的关键信息，并且其分布外观特征：我们的方法适用于深度功能和手工制作的功能。我们从部分视频x（k）中提取C3D特征[27]或时空兴趣点[5]和密集轨迹特征[30]。词袋模型用于对手工特征进行编码。3.1. 单层特征学习顺序上下文。如[13，2]所示，为了实现高预测性能，必须提高从部分观测中提取的这对于预测视频的开始部分甚至更重要，因为在视频的早期阶段没有观察到大量有用的分类线索。此外，从视频的开始部分提取的特征不能完全传达整个视频的信息。从而提高了刑事定罪能力。请注意，我们在这里使用一个单一的特征转换矩阵，而不是使用K个转换矩阵，每个转换矩阵用于每个进度水平，以便使我们的方法在测试中紧凑和实用。如果我们使用K个变换矩阵，那么我们需要知道测试视频的进度水平k来选择正确的W，这在实际场景中是不可行的。强大的功能。在信息传递过程中，部分观测值可能被引入噪声，从而降低预测性能.我们克服了这个问题，lem通过正则化W和构造鲁棒的部分视频特征，是不敏感的噪声。最近在鲁棒特征学习[4，28]方面的工作表明，鲁棒特征应该能够从部分和随机损坏中重建。受此思想的启发，我们用映射矩阵W重建部分观测的特征：直觉上，人们对行动ΣN ΣK x（k）−Wx如果观察到最近的研究[13，2，24，14]表明，当观察到所有帧时，通常会产生这i i2Fi=1k =1其中，x∈（k）是原始数据x（k）的损坏版本表明完整的观察包含了所有有用的信息，我（k）信息分类。受此观察的启发，在这项工作中，我们建议通过从完整视频中获取额外信息来提高部分视频的区分能力。我们的假设是，如果来自部分视频的特征可以在几何上接近来自完整视频的特征，则它们的区分能力将是相似的。我们定义部分观测值之间的差异通过以概率p>0将特征向量xi的分数设置为0来获得。矩阵X是X的退化版本，定义为：X=（x（1），···，x（K），···，x（1），···，x（K））。（四）段1不视频进展水平g=k= 3观测比r = k/K = 0。311476为了减少数据方差，在训练数据上执行“无限”的破坏过程[4]。11477我WFFF有效地使用“无限”多个噪声数据副本使我们能够学习对噪声鲁棒的特征[4]。在这项工作中，噪声可能源于两个来源，部分视频本身和相应的完整视频。尽管当前的特征提取器（例如，C3D和时空兴趣点检测器）已经显示出对背景噪声是鲁棒的，但是检测到的特征仍然可以与与人类动作无关的动态背景相关联。此外，从人体提取的特征还可能遭受光照变化、姿势和外观变化，全面观察应该会减少。使用优化问题（7）中的约束来合并这种先验知识。这些约束也隐含地捕获非均匀时间单元的时间排序信息。3.2. 模型学习当量（7）是凸问题，可以用增广拉格朗日方法求解：L=<$X<$−WX<$2+α<$X<$（K）−WX<$2+β<$（W）相机抖动等。这无疑会降低声誉。特征的表示能力，并进一步导致预测性能的显著降低。通过将特征向量Xk中的随机元素设置为0，这些特征元素KΣ−1+k=1Fuk（k+1）−k（k））+FvK−12k=1（（k+1）−（k））2在特征向量中被移除这基本上模拟了视频中的外观变化，从而有助于学习鲁棒的特征。该方案可以被认为是掩模退出/退出正则化[8，3]。标签信息。同一类别中的部分观察可能在外观、持续时间等方面有很大差异在那里-因此，学习的预测模型可能不能捕获复杂的分类边界。我们解决这个S.T. uk≥ 0，k = 1，···，K − 1，（8）其中，u，k是对应于在等式中定义的第k个约束的拉格朗日乘子（7），并且v是惩罚参数。通过引入n=[n（2）−n（1），···，n（K）−n（K−1）]T且u=[u1，···，uK−1]T，等式（8）减少到一个紧凑的形式：L=<$X<$−WX<$$>2+α<$X<$（K）−WX<$2通过将标签信息合并到我们的功能中来解决问题F F+ β（W）+uT+v2（九）学习者，并期望部分观察的学习特征在同一类别中处于相同进度水平的项目在几何上彼此接近。我们在这里定义类内进度水平方差，以便规则化参数矩阵W的学习：22S.T. uk≥ 0，k = 1，···，K − 1。在Eq中的优化问题。（9）可以通过迭代地最小化L关于W和最大化L关于u的对偶函数来求解。因此，W可以是（W）=1ΣK ΣN一<$Wx（k）−Wx（k）<$2通过直接设置BLOG进行= 0。请参阅2iji j2k=1i，j=1补充材料以了解更多详情。哪里ΣK=k=1Tr（WX（k）LX（k）TWT），（五）3.3. 深度架构如[7，28，4]所建议的，由多层非线性组成的深度架构可以提高特征的表示能力，特别是对于分类任务。X（k）=（x（k），···，x（k））∈Rd×N，（6）受这些研究的启发，我们还设计了一个深层结构，1NL∈RN×N是标签拉普拉斯矩阵：L=D −A. 这里，D是对角度矩阵，其中Dii=和非线性映射部分观测的特征，分层方式。这使我们能够更有效地-ΣNj=1 国际新闻报，A是表示矩阵W在重构各种特征时的性质标记训练视频之间的关系。如果yi = y j且i j，则A中的第（i，j）个元素aij为1;否则为0。将方程（1），Eq. （3）、Eq. （5）一起，最优参数矩阵W可以通过下式学习：min<$X<$<$−WX<$<$2+α<$X<$（K）−WX<$2+β<$（W），WS.T. <$（ k+1 ） ≤ <$（ k ）， k = 1 ， ··· ， K − 1 ，（7）其中，α和β是平衡相应项重要性的权衡参数，而（k）是重构误差（k）=<$X（K）−WX（k）<$2。随着进展水平k增加，部分视频特征x（k）是几何上的。11478m=1最终接近对应的全视频x（K）。因此，从进步水平。具体来说，使用非线性挤压函数σ（·）和一层的学习变换矩阵W，所有部分视频X <$的新表示可以通过下式计算：Z=σ（WX<$），其中σ（·）在本工作中定义为tanh（·）。为了了解深层架构，我们将单层将第3.1节中的模型建模为多层深度网络，并使用贪婪逐层方案学习M层的变换矩阵{Wm}M具体来说，第m层的输出（用Zm表示）用作第（m+1）层的输入（图11）。3（a））。然后，在训练了第m层之后，训练第（m+1）层的变换矩阵Wm+1 对于第一层，输入Z0是所有部分观测X<$$>的raw特征：Z0=X<$。11479WMW2W1…σ（·）…G= 1g= k…动作标签 g=KLQ pµQ dZQ33.4. 动作预测鉴于培训视频，DeepSCN首先学会生成-Z=（Z0，Z1，···，ZM）ZMSc@µpyjo 1：UµkµoyµPÇOGQ33 IQ YQ IgLQ pµQ dZfQP 3吃了视频的特色。支持向量机与交集ker-然后，使用DeepSCN给出的所有特征层（Z0，···，ZM）将S µgIQ oµQSVM（b）第（1）款动作标签为了适当地训练IKSVM动作预测器，我们考虑以下两个测试场景。场景1：测试视频的进度级别k未知。这是实用的，因为在现实世界的应用中，流媒体视频中的进度水平总是未知的。所有训练部分视频被视为处于相同的进度水平，并且仅训练一个IKSVM模型。在测试中，我们使用（一）Sc@µpyjo 2：KµoyµPÇOGQ33 IQ YQ Ig=k1FZ0（c）第（1）款单个IKSVM来预测动作标签（图3（b））。第二章：测试视频的进度水平k是已知的，其在[13，2]中使用，但在现实世界的应用中是不切实际的。K支持向量机与相交的内核训练的动作预测。第k个SVM对应于进度水平k处的部分观测。在测试中，需要测试视频x的进度水平k，以便使用第k个SVM进行预测（图3（c））。请注意，DeepSCN不要求测试视频的进度水平是已知的。试验. 给定一个测试视频x，DeepSCN首先用于生成视频的特征。测试视频的特征z以逐层方式构建（参见图3（a））。具体地，通过z1=σ（W1z0）（z0=x）计算第一层的特征z1，然后将其馈送到具有参数W2的第二层。重复该过程，直到计算出M层处的所有特征。然后，将原始特征 x 和所有这些学习的特征连接起来： z =（z0，···，zM）. 给定z，在场景1中，采用一个SVM如果是在场景2中，则第k来自K个SVM的SVM将用于预测，其中k是测试视频x的进度水平。4. 实验4.1. 数据集和实验设置我们在三个数据集上评估我们的方法：UCF 101数据集[25]，Sports-1 M数据集[10]和BIT-Interaction数据集[12]。UCF101数据集由13320个视频组成，分布在101个动作类别中。Sports-1 M数据集包含1，133，158个视频，分为487个类别。BIT数据集由8类人类交互组成，每类50个视频。应该注意的是，由于10个进度水平的建模，N个视频将是10N个视频到动作预测方法这种较大的数据量增加了预测问题的复杂性。因此，我们使用了Sports-1 M数据集中的前50个类，并对9223个视频进行了采样。这导致92，230个部分视频用于预测方法。图3.（a）将训练/测试视频的特征堆叠在分层方式。两种测试场景下的动作预测：（b）进度水平k是已知的，以及（c）进度水平k是未知的。UCF 101数据集和Sports-1 M数据集中的视频作为C3 D模型生成片段和完整视频的特征在UCF 101和Sports-1M数据集上使用Sports-1 M数据集上的预训练C3 D模型。从BIT数据集中的部分视频中提取时空兴趣点（STIP）[5]和密集轨迹特征（DT）[30]。采用词袋模型（500个视觉词）对STIP和DT特征进行编码。我们分别遵循[27]用于UCF 101（拆分-1）和[10]用于Sports-1 M数据集的拆分方案UCF 101中的前15组视频用于训练;接下来的3组用于交叉验证;其余7组用于测试。我们还遵循[13]中相同的实验设置用于BIT数据集，并使用每个类中的前34个视频进行训练（总共272个训练视频），并使用剩余的视频进行测试。默认参数设置为M = 2，p = 0。5，α = 0。1，β = 0。001对于我们的方法和C= 1对于IKSVM的所有三个数据集，如果没有指定。4.2. 预测性能我们比较了动态BoW（DBoW）和集成BoW（IBoW）[24]，MSSC和SC [2]3以及MTSSVM [13]。使用具有线性核、交叉核（IKSVM）、卡方核和边缘化堆叠自动编码器（MSDA）[4]的SVM作为基线。IBOW、DBOW、MTSSVM和所有基线都要求在测试中知道真实的进度水平.为了执行公平的比较，测试视频的真实进度水平对于所有比较方法都是已知的，并且一个数据集上的所有比较方法都被馈送有相同的特征。采用第3.4节中的场景2，并为我们的方法和MSDA训练K个IKSVM。请注意，我们的方法也可以在不知道进度级别的情况下工作。UCF101数据集。图4（a）中的结果表明，我们的方法始终优于所有比较方法。ods，特别是在开始的5个进度级别。我们我们的方法既适用于深层特征，也适用于手工-……KSVM 3Z11480精心制作的功能。我们从部分3中提取C3D特征[27]。代码可在http://www.visioncao.com/publications.html。11481我们的方法C3D+线性SVMC3D+IKSVMC3D+卡方SVM积分BoW动态BoWMTSSVMMSSCMSDA我们的方法C3D+线性SVMC3D+IKSVMC3D+卡方SVM积分BoW动态BoWMTSSVMMSSCMSDA识别准确率（%）识别准确率（%）9010070809070608060 507060504050403040303020202010101000.10.20.30.40.50.60.70.80.91观测比(a) UCF101数据集00.10.20.30.40.50.60.70.80.91观测比(b) Sports1M数据集00.10.20.30.40.50.60.70.80.91观测比(c) BIT-交互数据集图4. （a）UCF 101，（b）Sports-1 M和（c）BIT数据集的预测结果。注意，这些预测方法针对部分视频进行了优化，因此不能直接与给定完整视频的动作识别方法进行比较（观察比r= 1）。0）。方法实现了令人印象深刻的45. 02%的预测结果时，只有10%的帧被观察到，这是4。比MTSSVM高97%。这证明了学习信息的有效性，从充分的观察方程。（一）. 我们的方法在观测率为0。4已经高于所有其他比较方法的最佳性能，证明了我们的方法的优越性。应该注意的是，DBoW在此数据集上的性能极低。这可能是因为其通过平均特征计算的动作模型没有足够的表现力来捕获同一类别中的高度多样化的动作动态。体育-1 M数据集。图4（b）中的结果证明了我们的方法优于所有比较方法。我们的DeepSCN达到了令人印象深刻的70。当只观察到50%帧时，其正确率为23%，高于所有其他比较方法的最佳正确率（ 10例）。请注意，DeepSCN在早期阶段做出了准确的预测，证明了其深度架构的有效性。DeepSCN的表现优于MSDA，显示了从完整视频和单调误差函数中学习额外信息的好处。我们的方法始终优于形式MTSSVM，MSSC，DBoW和IBoW，这表明学习顺序上下文信息的好处。应该注意的是，我们的方法和C3D+SVM方法在给定完整视频的情况下的性能不能直接与原始C3D方法[27]进行比较。我们在这项工作中使用了视频中的所有帧，而[27]则从视频中随机抽取了5个BIT数据集。图4（c）中的结果表明，我们的方法明显优于所有其他比较方法，特别是当观察到40% 我们的方法达到71。88%，观察比r = 0。四、五。比亚军的MSDA方法高出47%在r= 0时。6，我们的方法达到了令人印象深刻的结果85。16%，高于所有其他表现最好10个观测比值的比较方法。在所有10种情况下，我们的方法都明显优于MSSC和SC[2]，证明了它能够学习更多用于动作预测的区分特征。最明显的改善发生在r= 0时。5，其中，相对于MSSC和SC的性能增量为29。69%，31。25%，回收。与DBoW和IBoW相比，我们的DeepSCN实现了显著更高的性能。我们达到71。88%的准确性，只有前40%的测试- ING视频帧被观察到，这是高于DBoW和IBoW在所有的观察比率。4.3. 运行时间我们的方法也比较了MTSSVM[13]和MSSC[2]的运行时间。我们在具有64GB RAM的3.4GHz CPU上执行了他们的作者的MATLAB代码，并在表1中报告了总训练和测试时间。结果表明，我们的方法是显着快于最先进的MTSSVM和MSSC方法。在UCF101数据集上，我们的方法（2层）花费了4小时，训练和测试，比MTSSVM快35倍，比MSSC快105倍。在 Sports-1 M 数据集上，我们的方法（ 2 层）比MTSSVM快20倍，比MSSC快308倍我们大部分时间都在火车上-使用SVM动作预测器。训练我们的DeepSCN方法只需花费0。UCF101数据集上每层05小时我们的方法（3层）只需要7秒（0。002时）在BIT数据集上的训练和测试，比MTSSVM快60倍，比MSSC方法快100倍4.4. 即时、早期和晚期可预测的操作应该注意的是，动作在其预测特性方面有所不同。歧视性的行为模式可能会-4我们的方法的训练时间包括DeepSCN和交集核SVM的训练。我们的方法C3D+线性SVMC3D+IKSVMC3D+卡方SVM积分BoW动态BoWMTSSVMMSSCMSDA识别准确率（%）11482表1.UCF 101、Sports-1 M和BIT数据集上比较方法的训练和测试时间（小时）我们的方法中的层数在UCF 101数据集上设置为2，在Sports-1 M数据集上设置为2，在BIT数据集上设置为3。方法UCF101Sports-1M位MTSSVM[13]MSSC[2]我们140小时420小时4小时50小时二、5h0的情况。12小时0的情况。2小时0的情况。002小时梨在动作视频的早期或晚期这影响了在被正确分类之前需要观察的视频部分，即，行为的可预测性我们分析了UCF101数据集上的行为的可预测性，并研究了在什么阶段可以预测一个行为。我们根据动作视频的可预测性将其分为三类：即时可预测（IP）、早期可预测（EP）和晚期可预测（LP）。一个动作视频是IP意味着视频可以预测后，只保留了视频的开始10%的EP意味着动作视频不是IP，但如果观察到视频的开始50%部分，则LP意味着动作视频既不是IP也不是EP，并且只有当超过50%的视频被观察到时才能被图5列出了UCF 101数据集中的前10个IP、EP和LP操作。结果表明，行动“冰舞”是最容易预测的;他们所有的测试样本都是即时可预测的。在实验中，图5. UCF 101数据集中的十大即时，早期和晚期可预测操作。操作名称根据其测试样本落入IP、EP或LP类别的百分比这个数字最好用彩色看第3.4章不切实际在这个实验中，我们在一个实际的场景中评估我们的方法（场景1定义在第3.4节），即测试中的进度水平是未知的。所有部分视频被视为处于相同的进度水平。DeepSCN和只有一个SVM模型被训练（ONE方法）。它的性能与其他两种需要在测试中给出进度级别的方法进行比较：RAND方法（随机生成进度水平）和TRUE方法（在测试阶段使用真实进度水平）。这两种方法都训练DeepSCN和KSVM三种方法在UCF 101上的性能变化33个动作类别具有超过50%的它们各自的测试视频可立即预测（在仅观察开始的10%帧之后正确分类）。图5还显示了4个动作的所有测试样本都是早期可预测的。事实上，在101个动作中，有38个动作具有超过50%的其各自的测试视频是早期可预测的（需要观察的视频帧少于50%）。动作“JavelinThrow”可以被认为是最具挑战性的预测类，因为它的测试样本中有29%是后期可预测的（超过50%的在所有37，830个测试部分视频中，有35. 其中45%是即时可预测的，43.78%是早期可预测的;只有2。09%是可预测的。剩下的18个。69%的部分视频无法正确预测。这表明在观察视频的开始 50%的帧之后，使用我们的方法在Sports-1 M数据集上，“马术”是最容易预测的动作，而“艺术体操”是最具挑战性的动作。在BIT数据集上，有关Sports-1 M和BIT数据集的结果，请参阅补充4.5. 未知vs已知进度[13，24，2]中的现有方法假设视频的进度水平在测试中是已知的（第13，24，2节中的场景2Sports-1 M和BIT数据集见表2。结果表明，在UCF 101和Sports-1 M数据集上，TRUE方法和ONE方法的平均性能差异在1%以内，在3. 在BIT数据集上为12%。这表明ONE方法可以用于实际场景，而不会显著降低进度水平未知的由于所提出的DeepSCN，可以准确地表示各种进度级别的部分视频，从而使一个SVM足够强大，可以预测这些部分视频，并使测试中的进度级别变得不必要。此外，训练ONE方法明显快于训练TRUE方法，因为ONE方法只训练一个SVM，而TRUE方法需要训练K个SVM。RAND方法与TRUE方法的平均性能差距为2. 25%和0。在UCF 101和Sports-1 M数据集上分别为34%，这表明我们的方法在两个数据集上对进展水平的鲁棒性。差距扩大到16。02%，因为数据集中存在短视频剪辑（大多数视频小于100帧）和非循环动作（例如在测试中使用不准确的进度级别会混淆动作预测器，从而降低性能。4.6. 组件和参数的有效性我们评估了我们的方法中模型组件的有效性，以及对层数M的敏感性100908070605040302010即时预测早期预测延迟可预测台球击剑标枪投掷冰舞飞盘捕捉跳高室内攀岩SoccerPenaltyFrontCrawl弹钢琴排球扣球头部按摩波梅尔马呼啦圈理发赛艇曲棍球点球演奏小提琴Skijet篮球扣篮倒立行走杂耍球悬崖跳水PoleVault足球杂耍保龄板球保龄球太极TennisSwing掷铁饼11483表2.使用RAND、TRUE和ONE方法对UCF 101、Sports-1 M和BIT数据集的预测结果（%）观察比率r∈ {0. 1，0。3，0。5，0。七，一。0}。计算所有10个观测比率的平均性能UCF101Sports-1M位支持向量机数量avg.0的情况。10的情况。30的情况。50的情况。71 .一、0avg.0的情况。10的情况。30的情况。50的情况。71 .一、0avg.0的情况。10的情况。30的情况。50的情况。71 .一、0兰德K79岁。06四十三9181.3783岁5183岁72八十五2368岁28五十四3366岁。58七十50七十二06七十71五十六95十三岁28三十二8169岁。6378岁13七十三。44真K81.31四十五0282岁95八十五7587岁1087岁6368岁6255.0267岁76七十23七十一52七十二49七十二97三十七50五十九3878岁1386岁。72九十63一1八十5544.3182岁77八十五4686岁。3486岁。6568岁62五十六1567岁22七十50七十一57七十一8469岁。85三十三岁。6350块0081.25八十五94八十五94UCF101数据集我们的方法对腐败概率p以及参数α和β的敏感性结果显示在补充材料中。件. 我们比较了几个变种，我们的完整的方法，包括方法没有自我重建，结构方程。（3）（无SR方法），α=0在Eq. （7）中的一个，β= 0的一个，以及在优化问题（ 7 ）中没有约束的一个（无 CS 方法）。10个观测比的平均预报结果和0. 1，0。3，0。5，0。七，一。表3中总结了0。我们的方法显著优于无SR方法5。平均7%，证明了从部分观察本身学习鲁棒特征的有效性。我们的方法和（α= 0）方法之间的性能差距表明了从全面观察。变体方法（β= 0）丢失了标签信息，并且未能成功地将学习到的特征分离在不同类别中，从而实现较低的识别率。等式中的约束的强度。（7）可以从我们的方法和无CS方法之间的性能差异看出。这些约束隐含地捕获了非均匀单元上的时间顺序，这对于预测复杂的动作是有益的。表3.在观察比率r∈ {0. 1，0。3，0。5，0。七，一。0}。计算所有10个观测比率的平均性能。方法avg.0的情况。10的情况。30的情况。50的情况。71 .一、0无SR75. 6139岁49七十六。98八十6581. 2482岁02α= 0七十六。55四十2978岁1781. 0282岁3482岁87β=0七十六。45四十1078岁1481. 2182岁1882岁87无CS七十六。5039岁9278岁1481. 1582岁3282岁87我们81. 31四十五0282岁95八十五7587岁1087岁63层数M。我们还研究了性能变化，鉴于各层的功能。我们的网络具有M∈ {0，1，2，3}层的预测精度如表4所示（M= 0表示未使用所提出的DeepSCN）。结果表明，超过10个观察比率的平均性能一般会提高时，更多的层堆叠。在只有一个隐藏层特征（M= 1）的情况下，我们的方法优于仅使用原始特征的方法（M= 0）3。57%的平均成绩。性能差异增加到7。07%时，M= 3层的功能堆叠。堆叠多个要素图层对结束部分的正面影响略高11484比视频的开头部分更重要。在视频的开始部分（观察比率r = 0. 1，r= 0。3），具有M= 3层特征的网络比具有M = 1层特征的网络性能高3倍。02%和3. 09%，分别。业绩差距扩大到3。6%和3。43%在视频的结尾部分（r= 0. 7，r= 1。0），分别。这可能是因为原始特征在视频的结束部分中比开始部分更具区别性在DeepSCN中堆叠更多的层可以更多地受益于区别性特征，从而在结束部分实现更好的性能。表4. 我们的方法在ob-turbidratios r的部分视频上的准确度（%） ∈ {0. 1，0。3，0。5，0。七，一。0}，层M∈{0，1，2，3}。M=0意味着不使用所提出的DeepSCN#层avg.0的情况。10的情况。30的情况。50的情况。71 .一、0M= 075.3939岁55七十七。27八十33八十7381.58M= 178岁96四十二98八十9783岁5384.43八十五28M= 281.31四十五0282岁95八十五7587岁1087岁63M= 383岁36四十六岁。0084.0687岁2188岁0888岁715. 结论这项工作解决了在动作执行结束之前预测视频的动作标签的问题我们已经提出了一个有效的和强大的方法，用于从视频中删除未完成的人类动作。我们的方法从完全观察到的动作中学习额外的信息，以提高从暂时部分观察到的特征的区分能力。我们通过对信息量进行时间排序、合并标签信息和堆叠多层特征来进一步提高特征的表示能力。我们的方法在UCF 101，Sports-1 M和BIT-Interaction数据集上进行了评估，并显示出显著的改进，速度比最先进的方法快300倍。一项交互式发现表明，行动的可预测性不同。这启发了我们进一步探索动作的时间结构，以便在未来的工作中快速准确地预测。确认这项工作得到了NSF IIS奖1651902，ONR青年研究者奖N 00014 -14-1- 0484和美国国家科学基金会的部分支持。陆军研究办公室青年研究员奖W 911 NF-14-1-0218。11485引用[1] A. Alahi，K.Goel，V.Ramanathan，A.罗比凯湖Fei-Fei和S.Savarese Social lstm：Human trajectory prediction incrowded spaces.在CVPR，2016年。[2]Y. Cao，中国粘蝇D. Barrett，A. Barbu，S.Narayanaswamy，H. 余先生，A. 米修， Y. 林 S. 迪金森 J. Siskind，和S.王.从部分观察到的视频中识别人类活动。CVPR，2013。[3] M. Chen，K. Weinberger，F. Sha和Y.本吉奥。用于非线性表示的边缘化去噪自动编码器。InICML，2014.[4] M. Chen，Z.E. Xu，K.Q. Weinberger和F.煞边缘化去噪自动编码器域适应。InICML，2012.[5] P. Dollar，V.拉博湾Cottrell和S. 贝隆吉基于稀疏时空特征的行为识别在VS-PETS，2005年。[6] Y.杜，W. Wang和L.王.基于骨架的动作识别的层次递归神经网络。在CVPR，2015年6月[7] G. Hinton和R.萨拉赫季诺夫用神经网络降低数据的Science，313（5786）：504[8] G. E. 辛顿，N.斯里瓦斯塔瓦A.克里热夫斯基岛Sut

下载后可阅读完整内容，剩余1页未读，立即下载

cpongm

粉丝: 5
资源: 2万+

动作预测：基于部分观察视频的强大深度网络模型

深度学习视频中的行为识别

基于深度模型的轨迹预测算法有哪些

基于深度学习的预测模型

请编写一个基于tansformer的深度网络模型，用来预测轴承剩余寿命，请写出具体代码

基于深度神经网络模型的网络入侵检测

基于EEG的深度学习癫痫预测模型

课程题目：基于机器学习和深度学习的径流预测

基于时间序列预测的深度学习模型

基于深度学习的军体拳动作识别模型

给出10个深度学习课程设计的题目，类似于基于MNIST数据集的卷积神经网络模型

基于深度学习的气温预测

请编写一个基于tansformer的深度网络模型，用来预测轴承剩余寿命

基于python的预测模型

基于深度学习模型的人体军训动作识别

深度学习预测的模型都有哪些

基于tensorflow技术创建的深度学习模型

基于深度学习的模型有哪些

python深度学习:基于pytorch pdf

基于深度学习的行为检测开源模型有哪些？

Spring Boot 评论系统.zip

最新资源