没有合适的资源?快使用搜索试试~ 我知道了~
一次性时间条件动作预测
9925一次性时间条件动作预测柯秋红1,马里奥·弗里茨2,伯恩特·席勒11马克斯·普朗克信息学研究所萨尔信息学校区2CISPA Helmholtz Center for Information Security,Saarland InformaticsCampus德国萨尔布吕肯@fritz@cispa.saarland mpi-inf.mpg.de摘要人类行为预期的目的是预测未来的行为。理想情况下,在视频监控和自动驾驶系统等现实应用中,未来的行动不仅应该被高精度地预测,而且还应该在从短期到长期预测的任意和可变的时间范围目前的工作主要集中在预测下一个动作,因此长期预测是通过递归预测每个下一个动作来实现的,这既效率低下又会积累误差。在本文中,我们提出了一种新的时间条件的方法,高效和有效的长期行动预期。我们的方法有两个关键要素。首先,通过明确地将我们的预测网络设定在时间上,可以有效地预测长期行动。其次,我们提出了一个关注的时间特征和一个时间条件跳过连接,以提取相关的和有用的信息,从观察有效的预测。我们在大规模Epic-Kitchen和50 Salads数据集上进行了广泛的实验。实验结果表明,该方法能够预测短期和长期的未来行为,并达到了最先进的性能。1. 介绍人类行为预测的目的是预测未来看不见的行为,对于许多现实世界的应用非常重要例如,在监控场景中,如果预期到异常事件,则可以产生早期警报,并且在人机交互场景中,如果机器人能够防止人类动作,则可以提供及时的相应交互[39,18]。大多数当前的作品调查预期的下一个行动或行动后,只有一秒钟[28,29,39,4]。在图1.所提出的动作抑制的时间条件化方法通过引入时间参数,该方法能够有效地预测长期行为。在诸如视频监视的实际应用中,通常期望系统能够预测长期动作(例如,观察的t秒之后的动作)。长期预期可以通过以迭代的方式逐个预期以下动作来实现,例如,使用RNN模型[6]。这表示基于先前时间步的预测结果来实现每个时间步的预测这种迭代方法对于包含固定顺序操作的某些脚本化活动可能是有效的。然而,在许多现实世界的活动中,动作可能是随机的,并且没有很好的结构化。在这种情况下,预测可能在某些步骤是不准确的,并且这些预测误差将在迭代预测过程中累积。这通常会导致预期的性能下降,特别是在预测长期行为时。此外,如果我们只想预测一个长期的行动,迭代方法往往是耗时的产生中间预期。在本文中,我们介绍了一种新的方法来实现准确和有效的行动预测。具体来说,我们的方法通过将时间参数合并到观察信息中来执行动作预测(参见图1)。因此,它直接预测了福-9926以一次触发的方式来预测真实时间t,并且因此避免了在t之前的时间段中预测所有中间动作。同样,我们的方法比“稀疏预测”(预测t时的未来动作)的迭代方法快t当执行“密集预测”时,我们的方法将不太有效。在这种情况下,我们的方法的优点是,与迭代方法相比,它能够生成更准确的未来动作,因为我们的方法只依赖于预测的观察,绕过累积的预测误差。本文的贡献总结如下:1)提出了一种新的基于时间的动作预测方法; 2)我们提出了一个关注的时间特征和一个时间条件跳跃连接来从观察中提取有用的信息; 3)我们进行了广泛的实验和分析,并达到了最先进的性能。2. 相关工作早期行动识别。许多努力已经被用于从RGB和深度视频中识别动作[36,8,5,40,2,25,7,31,30,14,32,38]。早期行动近年来,承认越来越受到关注[33,10,16,20,13,11,22,23,17,1,15,3,12,24]。是通常称为动作预测。早期动作识别的目标是从对动作的部分观察中识别动作的标签。Kong等人[17]介绍了一种深度顺序上下文网络,用于重建早期动作识别的部分观察的缺失信息。Liu et al. [23]提出了一个新的未修剪3D骨架流在线动作识别问题,并引入了一种新的尺度选择网络,该网络能够有效地从未修剪视频中选择观察视频的正确起点,并实现了早期动作识别的最新性能。早期行动检测。早期动作检测的目的是在动作结束之前尽可能早地从未修剪的视频中检测到动作[10]。Ma等人[27] A新的排名损失来训练基于LSTM的模型,用于早期动作检测。排名损失鼓励模型在观察到更多活动时生成非递减检测分数。Shou et al. [35]将动作开始的检测公式化为滑动窗口的分类任务,并引入了一种基于生成式广告网络的模型来生成硬负样本以改进模型的训练。行动预期。有几部著作研究了观察后对不久的将来的预期[28,29,39]。Vondrick等人。[39]介绍了一种回归网络来学习未来帧的表示,随后是分类器来预测一秒内的动作。 Gao等人 [9]介绍了一种增强型编码器-解码器网络使用视觉表示序列来预测未来的表示。Mahmud等人[28]引入了一个混合暹罗网络来预测下一个动作标签和开始时间。Qi等人。[29]引入了时空与或图(AOG)来表示事件,并使用时间语法和早期解析算法来预测下一个动作。Damen等人[4]杠杆式TSN[40]以在观察一秒后预测下一个动作该观察被用作TSN的输入,并且下一个动作片段的标签被设置为TSN的输出以训练网络。最近,Farha et al.[6]介绍了两种预测长期行动的方法。一种是基于RNN模型,它输出当前动作的剩余长度、下一个动作及其长度。预测以迭代方式进行,即,将预测与观察相结合该方法的局限性在于耗时长且误差累积。另一种方法是基于CNN模型,它以矩阵的形式输出未来动作的序列该方法的局限性在于,在预测长序列的未来动作时引入了许多参数。此外,它需要预先定义矩阵的规模。因此,在本文中,我们提出了一种新的方法,能够预测未来的行动在短期和长期在一个一次性的方式,这是高效和有效的。3. 一次动作现有的大多数关于动作预测的工作都集中在预测短期内的下一个动作通过反复预测下一个动作,可以以迭代的方式实现对长期动作的预期这一方法的局限性在于,预测长期行动往往很耗时。此外,将每个时间步的预测结合起来进行进一步的预防,会积累预测误差,使长期预测不准确。在本节中,我们将介绍我们提出的时间条件方法,以减轻以前方法的局限性,并有效地预测未来的行动在一个镜头。所提出的方法的整体架构如图2所示。它主要由两部分组成,使用关注的时间特征的初始预测,以及通过包括时间调节的跳过连接的最终预测下面我们将详细描述每个部分。3.1. 初始感知为了直接预测一次拍摄中观察到的t秒后的动作,我们引入了时间参数9927′i=1v=1比额表的公式如下:Vi=f(Wi<$C′+bi)(1)Cc其中f(·)表示动作函数(这里我们使用ReLU函数)。C′表示时间条件观测值,第 Wi∈Rm×ki×du和bi∈Rm是权,Cc图2.所提出方法的总体架构。它由两部分组成,初始预期的关注时间特征和最终预期的时间调节跳过连接。t表示在观察的t秒之后对未来动作的预期。 观察的动作类C=[c0,···,cq]和时间表示ut首先被协调以形成时间条件观测,其用于提取多尺度时间特征V. v是V在时间维度上的总和。 v′用于生成注意力分数a,该注意力分数a用于乘以V以实现关注的时间特征va。vA用于生成对未来动作P1的初始预期。rt是从时间表示u t生成的跳跃连接权重。RT用于乘以观测的最后动作Cq,其被加到初始预期P1以用于最终预期P2。第i个尺度的时间卷积的偏差ki是第i个尺度的时间卷积的核大小 m是所有尺度的卷积滤波器的数量,其被设置为用于特征融合的相同值。du=dc+dt表示C′在每个时间步的维数 代表卷积运算符。Vi∈Rm×ni.ni=q−ki+ 1是时间特征生成器的时间步长的数量从第i个尺度时间卷积计算。时间卷积的所有尺度的输出时间特征在时间维度上被连接,这导致多尺度时间特征 ∈Rm×n。 n=小数比例n i是多尺度时间FEA的时间步长的数量。真的。如图2所示,vj表示第j个时间步的时间特征,即,vj对应于V的第j列。为了生成关注的时间特征,我们首先使用vj的和来为V的所有时间步长生成注意力分数,如下所示:伊根j=1vj′(二)a=softmax(Wa v+ba)t为这项任务。 时间参数t被馈送到多层使用sigmoid激活层进行感知,以产生时间表示。如图2所示,观测序列C= [c0,· · ·,cq]∈Rdc×q的作用类和时间表示ut∈Rdt 连接在一起,其他处理。 dc和q表示动作类和观察的时间步长。dt表示时间表示的维数这种级联表示被称为时间条件观测。还可以将ut添加到观测值以生成时间条件观测值。在这种情况下,dt需要设置为等于dc。下一步是从动作预测的时间条件化观察中学习时间信息。考虑到观测通常包含多个动作,我们假设观测包含不相关的信息,为了有效地预测未来的动作,时间信息应该从观测的某些特定部分建模。为此,我们引入了一个关注的时间特征作为时间条件观测的表示。具体而言,我们设计了多尺度时间卷积来处理时间条件观测,随后是选择性特征融合的注意机制注意力在许多领域取得了巨大的成功,如字幕生成[41],动作识别[34]和重新识别[26]。第i其中Wa∈Rn×m和ba∈Rn是注意力层的权重和偏置。关注的时间特征计算如下:Σnva=aj vj(3)j=1被关注的时间特征用于对未来动作进行如下的初始预测:p1=softmax(Wo1va+bo1)( 4)其中Wo1∈Rdc×m和bo1∈Rdc是权重和偏置。dc表示如上所述的动作类的数量。p1∈Rdc是未来行动的概率。预测p(i)∈[0,1]的第i个元素对应于第i个类。我们称p1为初始期望值.3.2. 最终预期的时间条件跳跃连接初始预期是使用沿观察序列的时间信息生成的。人类活动通常是不断发展的。短时间距离内的动作通常是相互关联的。特别是,观察的最后一个动作通常与未来的动作相关。在本节中,我们将介绍一个时间条件跳跃连接,9928JJ动作和初始预期,以便结合这种互补的直觉上,最后观察到的行为与短期未来行为的相关因此,在连接到初始预期之前,我们对最后观察到的动作应用从0到1的权重基于t学习,如图2所示。我们将权重称为跳过连接权重。具体地,给定时间表示ut,跳过连接权重rt计算如下:rt=sigmoid(Wsut+bs)(5)其中ws∈R1×dt,bs为权值和偏置.我们将观测的最后一个作用记为cq∈Rdc。时间调节的跳过连接被公式化为:ps=rt cq+p1(6)时间调节跳过连接用于生成最终预期,如下所示:4. 实验在两个数据集上对所提出的方法进行了评估,Epic-Kitchen数据集[4]和50 Salads数据集[37]。在本节中,我们报告实验结果和详细的分析。4.1. 数据集Epic厨房数据集。该数据集是一个大型的第一人称视频数据集,由32个主题在32个不同的厨房中捕获该数据集中的视频包含对象的日常活动,即,没有提供脚本来指导受试者。这使得这个数据集非常自然和chal-challing。共有272个培训视频,由28个受试者拍摄。每个视频包含多个动作片段,分为125类。由于测试视频的注释不可用,我们使用训练视频来执行交叉验证以进行评估。具体来说,我们将训练视频随机分为7个片段,每个片段包含4个主题的视频。我们设定h=f(Wh ps+bh)p2=softmax(Wo2h+bo2)(七)观察的长度为30秒,并通过30秒的时间滑动窗口生成视频滑动窗口的时间步长设置为1s。没有anno的框架其中Wh∈Rdh×dc和bh∈Rdh是输出层之前的隐藏层的权重和偏差。 wo2∈rdc×dh和 bo2∈rdc是输出层的权值和偏置.p2∈Rdc是对未来行为的最终预测3.3. 目的在图2中,通过在每个时间步提取局部时空特征,并将该特征馈送到隐藏层和输出层以进行动作识别,从观察序列生成观察C的动作类。在训练过程中,我们使用所有损失的总和来联合训练识别和预测网络,其公式为:=式中,确认损失、初始预期损失和最终预期损失分别为损失。每项损失的表述如下:站被删除。这导致总共约89600个序列。所有分割的测试视频的平均数量约为12800。50沙拉数据集。该数据集包含由25名受试者执行的50个视频。每个实验对象准备两份混合沙拉。有17个细粒度的操作类。我们使用[21]提供的分割进行5重交叉验证与Epic-Kitchen数据集一样,我们将观察的长度设置为30秒,并使用步长为1秒的时间滑动窗口生成视频片段。这导致大约15100个序列。所有拆分的测试序列的平均数量为3020。4.2. 实现细节时间卷积的尺度被设置为4,内核大小为1、3、7和15。时间卷积的所有尺度的滤波器大小被设置为512。的数量刚果民主共和国dc(一).Σ(一)所有隐藏的全连接层的单元被设置为512。r=−j=1i=1yjlogcj学习率设置为0.01,批量大小设置为64。刚果dc(一).Σ(一)对于视频的特征表示,我们利用I3 D网络-p1=−i=1 yt+ q log.p1(九)Σ工作[2]从视频中提取时空特征第2章刚果dci=1(一)t+Q日志(i)2Epic-kitchen数据集 具体地说,其中q是如上所述的观察的时间步长的数量yj是在观测的第j个时间步长处的动作的地面实况标签 y(i)=1,如果class是i,否则y(i)= 0。yt+q是未来动作的地面真值标签。视频到20帧/秒和饲料本地视频卷-每秒钟都在向网络发送消息。每个局部卷包含16个帧。对于50Salads数据集的特征表示,为了简单起见,我们使用[21]提供的特征。在所有方法中使用相同的功能进行公平比较。=−yp9929方法Top-1Top-5平均CP平均CRTSN [4,40] 23.8%百分之七十点二二点九厘5.0%提出百分之二十五点六71.6%6.3%百分之七点三表1. Epic厨房数据集的下一个行动预期。‘Top-1’,图3. Epic-Kitchen数据集的长期行动预测。X轴中的时间t表示在观察的t图4. 50Salads数据集的长期行动预测。X轴中的时间t表示在观察的t4.3. 与最新技术Epic厨房数据集。在该数据集中,动作预测的初始协议是在观察的1s后预测下一个动作标签[4]。我们首先遵循该方案来评估所提出的无跳过连接的时间条件方法比较的目的是表明,我们的基本框架也可以为这个协议,虽然我们的目标是长期的行动预期。由于所提出的方法仅使用RGB帧,因此我们也使用RGB帧来训练TSN模型。为了评估预期性能-使用这个协议,我们遵循[4]并使用动作边界来生成训练和测试数据。我们评估了top-1准确率、top-5准确率、平均类精确率和平均类召回率,如[4]所示,结果见表1。所提出的方法在所有情况下都优于TSN。将该方法与CNN方法进行比较[6] 和RNN方法[6]用于长期动作预测。我们在图3中报告了60秒内的稀疏预测结果。所提出的方法的性能是显着优于其他两种方法。对于所有时间步长,所提出的方法的7个分裂之间的 从图3中还可以看出,当预测长期行动时,60后的观察。RNN方法以迭代的方式预测未来的动作,并且随着预测误差的积累,无法准确地预测长期动作。虽然CNN方法直接从观察中预测动作,但网络往往会使短期动作的预期损失最小化,并且无法准确地预测长期动作。与RNN和CNN方法相比,所提出的时间条件方法一次性预测未来动作,并且在短期和长期预测方面都取得了最佳性能。50沙拉数据集。50Salads数据集的预期性能如图4所示。在所有预期情况下,所提出的方法显着优于CNN方法[6]和RNN方法[6]。具体来说,当预测未来的行动后10 s的观察,所提出的方法的性能是50.0%,这是11.9%和12.2%,分别优于CNN方法(38.1%)和RNN(37.8%)的方法。该方法的平均预测精度为32.5%。与CNN方法(23.8%)和RNN方法(18.5%)相比,该方法的平均准确率分别提高了8.7%和14%。我们还遵循[6]中的协议来生成密集预测的训练和测试数据。在该协议中,输入被设置为特定百分比的标签(例如,20%),并且目标是以百分比(例如,10%的视频。我们遵循[6]来预测未来的动作片段和每个动作的持续时间, 在这种情况下,时间t表示未看到的视频中的第t动作片段。持续时间以向量的形式生成,该向量包括使用附加softmax层的所有未看到的片段的持续时间比率结果示于表2和表3中。我们还遵循[6]来评估早餐数据集上的密集预期[19]。结果示于表4和表5中。我们还实现了比RNN方法和CNN方法更好的性能。9930(a)(b)第(1)款图5. Epic-Kitchen数据集和50 Salads数据集上不同基线和拟议TOS AF TSC之间的比较。4.4. 时间条件一次注射麻醉的益处在本文中,我们加入了时间参数,以预期任何未来时间的行动在一个镜头。我们通过以下基线来证明这种方法对长期行动预测的好处。1)时间条件单次预测(TOS)。在这个基线中,我们简单地平均时间特征,并将时间参数用于未来的动作预测。该基线不包含关注的时间特征或时间调节的跳过连接,以显示时间调节的方法对于长期动作预期的益处。2)迭代预测(Iterative Anticipation)在这个基线中,我们不包括未来行动预期的时间参数。相反,我们使用与TOS基线相同的功能来预测下一个时间步中的未来操作。这个基线类似于RNN方法[6]。特别地,第一时间步的预测与观测相结合这个过程以迭代的方式重复t次,以预测第t个时间步中的动作。由于预期与用于预期下一个时间步长的观测相结合,因此将预期时间步长的长度设置为与观测相同的帧速率。在我们的例子中,每个时间步长的长度是1s。这两个基线的结果如图5所示在两个数据集上,一次性基线的长期行动预期显著优于迭代基线通过反复将下一步的预测与观察相结合来预测长期的未来行动。这一过程累积了每一步的预测误差,导致长期行为预测的性能变差从图5(b)可以看出,迭代基线在50Salad数据集上的表现优于一次性基线,可以在10秒内预测未来的动作。这可能是由于该数据集包含脚本操作,因此很容易在短期内预测操作。在这种情况下,对于短期行动。TOS方法优于迭代方法时,预计行动后20秒的观察。它清楚地表明了对长期行动预期进行时间调节的优势4.5. 关注时态特征的好处在这项工作中,我们使用了一个出席的时间特征的行动预期。为了证明这种方法的好处,我们进一步进行了以下基线:使用注意时间特征(TOS AF)的时间条件单次预测。该基线用于比较到TOS基线。在此基线中,我们还将时间参数纳入预测未来的行动。 相反为了通过平均时间特征来平等地使用观察,我们使用关注的时间特征来进行动作预测。Epic-Kitchen数据集和50 Salads数据集的结果如图5所示。TOS AF基线改善了两个数据集中的TOS基线,尤其是短期动作预期。当预测长期行动时,TOS AF基线与TOS基线相比的改善并不显著。为了预测长期行动,最好使用所有观察到的行动来获得未来活动的高级概念在这种情况下,平均时间特征提供有用的信息,这使得TOS基线实现与TOS AF基线相似的性能。4.6. 时间条件跳过连接所提出的方法(TOS AF TSC)包含一个时间条件跳过连接,提供有用的“短时间距离”的最后观察到的动作的动作预测信息。我们比较所提出的方法与TOS AF基线。为了证明跳过连接的时间调节的益处,我们进一步进行以下基线:使用注意时间特征和跳过连接的时间条件一次性预期(TOS AF SC)。该基线用于9931观察百分之二十百分之三十预测百分之十百分之二十百分之三十百分之五十百分之十百分之二十百分之三十百分之五十RNN [6]0.3006 0.25430.18740.1349 0.30770.17190.14790.0977美国有线电视新闻网[6]0.2124 0.19030.15980.0987 0.29140.20140.17460.1086提出0.32510.27610.21260.15990.35120.27050.22050.1559表2.密集的预期意味着在类上的准确性,50沙拉数据集(无地面实况观测)。观察百分之二十百分之三十预测百分之十百分之二十百分之三十百分之五十百分之十百分之二十百分之三十百分之五十RNN [6]0.4230 0.31190.25220.1682 0.44190.29510.19960.1038美国有线电视新闻网[6]0.3608 0.27620.21430.1548 0.37360.24780.20780.1405提出0.45120.33230.27590.17270.46400.34800.25240.1384表3.密集预测意味着50Salads数据集上的类精度(有地面实况观察)。观察百分之二十百分之三十预测百分之十百分之二十百分之三十百分之五十百分之十百分之二十百分之三十百分之五十RNN [6]0.1811 0.17200.15940.1581 0.21640.20020.19730.1921美国有线电视新闻网[6]0.1790 0.16350.15370.1454 0.22440.20120.19690.1876提出0.18410.17210.16420.15840.22750.20440.19640.1975表4.密集预测意味着早餐数据集上的类精度(没有地面实况观测)。观察百分之二十百分之三十预测百分之十百分之二十百分之三十百分之五十百分之十百分之二十百分之三十百分之五十RNN [6]0.6035 0.50440.45280.4042 0.61450.50250.44900.4175美国有线电视新闻网[6]0.5797 0.49120.44030.3926 0.60320.50140.45180.4051提出0.64460.56270.50150.43990.65950.55940.49140.4423表5.密集预测意味着早餐数据集上的类精度(有地面实况观察)。与TOS AF基线和TOS AF TSC方法进行比较。在这个基线中,除了使用参与功能来预测未来的动作之外,我们还加入了跳过连接来预测未来的动作。与TOS AFTSC方法相比,该基线不使用时间参数来生成跳过连接权重。TOS AF SC和TOS AF TSC方法的结果如图5所示。跳跃连接改善了TOS AF基线的性能,特别是对于短期动作预期。然而,当预测观察60秒后的未来行动时,TOS AF SC基线的准确性为15.5%,比TOS AF基线(20.5%)差5%。TOS AF SC基线直接将最后观察到的动作添加到初始预防中,以最终预测未来任何时间的动作。直觉上,最后观察到的动作的信息对于预测短期动作更有益,因为动作通常连续变化并且相邻动作通常是相关的。对于长期动作预测,最后观察到的动作的信息不太重要。在这种情况下,直接添加最后观察到的动作会使性能变差。另一方面,所提出的TOSAF TSC使用时间参数来生成跳过连接的权重,从而提高了短期和长期动作预测的性能。9932表6. Epic-kitchen数据集的预测精度。‘Number’ represents thenumbers of observations used for skip connection in theproposed4.7. 注意时间特征与时间条件跳跃连接的比较注意时间特征旨在从整个观察中选择相对时间信息用于初始预测,而时间条件跳跃连接将最后观察到的动作合并到初始预测中用于最终预测。我们已经表明,时间条件跳跃连接提高了参与时间特征的初始预期。为了证明被关注的时间特征对于预期是不可或缺的,我们还进行了以下基线:仅使用最后观察到的动作进行预期,即,将时间表示与最后观察到的动作连接以生成初始预期。时间条件跳跃连接也被纳入最后的预期。与所提出的TOS AF TSC相比我们将此基线称为TOS TSC。结果见图5。可以看出,TOS TSC的性能比所提出的方法差。当预测60 s后的未来行动时,TOS TSC基线的性能为22.3%,比所提出的具有关注时间特征的方法差2.3%。从图5还可以看出,TOS AF基线优于TOS TSC基线,特别是对于长期动作预期。TOS TSC基线仅使用最后观察到的动作来预测未来动作。它不包含观测的时间信息。虽然最后一个动作可能对短期动作预测有用,但时间信息对预测长期动作更有用。4.8. 跳跃连接在所提出的方法中,我们只使用跳过连接中的最后一个我们进一步进行了实验,包括更多的观察到最后一个跳跃连接。Epic-kitchen数据集的结果见表6。使用不同数量的观测值的方法的性能之间没有太大的差异。一个可能的原因是,最后几个观察可能属于同一个操作类,并且包括更多的观察并不能添加更多的信息。1百分之三十三点九31.6%百分之二十九点八百分之二十六点四百分之二十五点三233.5%31.1%百分之二十九点一百分之二十五点五24.1%9933+1s+5s+10s+20秒+30秒40岁以上+50秒+60未来看不见序列GT去除去除去除去除去除去除去除洗迭代去除去除切割切割切割切割切割切割提出去除去除去除去除去除去除切割混合未来看不见序列GT切割切割切割切割切割洗干放迭代放放放放洗混合混合混合提出切割切割切割放放放混合混合未来不可见序列gt迭代切切提出未来不可见序列剥离剥切洗洗洗建议的gt迭代拿,拿,拿带混合洗涤洗涤图6. Epic-Kitchen数据集上未来行动预期的可视化。我们展示了所提出的方法和迭代方法的结果,用于预测t秒后的观察未来的行动。每一列对应一个t值,该值在第一行中指示。不正确的预期以红色显示。图7. Epic-kitchen数据集上的(a)未来1秒和(b)未来30秒预期行为的平均注意力图。每一行对应于时间卷积的一个尺度的特征。底部行对应于时间卷积的最大尺度的特征,由于时间卷积的较大内核大小,其包含比其他较小尺度的特征更少的时间步长4.9. 未来行动预期图6显示了Epic-Kitchen数据集上的未来行动预期的一些示例可以看出,所提出的方法产生更多样化的未来行动的预期此外,当短期行动的预期不正确时,所提出的方法仍然可以生成正确的长期行动的预期,如图中的最后一个例子所示6. 这是因为所提出的方法不依赖于先前时间步的预期来预测动作。4.10. 注意力图图7显示了Epic-kitchen数据集上未来1秒和未来30秒预期动作的平均注意力图(图2中的a)。较亮的颜色表示较大权重的注意力。预测1 s的注意力选择性更强,集中在多尺度时间特征的不同时间步长上,而预测30 s的注意力选择性较弱,包括了特征的所有时间步长。5. 结论本文介绍了一种新的动作预测方法所提出的方法显式条件的预期时间,这是更有效和有效的长期行动的预期。此外,我们还引入了一个关注的时间特征来提取有用的时间信息的观察。我们还引入了一个时间条件跳跃连接,以合并最后观察到的动作的信息,以提高预期。我们已经进行了广泛的实验,并显示出所提出的方法的优点,在短期和长期的预测未来的行动确认这 项 研 究 得 到 了 德 国 研 究 基 金 会 ( DFG CRC1223)的部分支持。9934引用[1] M. S. Aliakbarian,F.Saleh,M.萨尔茨曼湾费尔南多L. Petersson 和 L. 安 德 森 鼓 励 lstms 尽 早 采 取 行 动 。IEEEInternational Conference on Computer Vision ,2017。[2] J. Carreira和A.齐瑟曼。你好,动作识别?新模型和动力学数据集。在IEEE计算机视觉和模式识别会议上,第4724- 4733页[3] L. Chen,J. Lu,Z. Song和J.舟部分激活的深度强化学习用于动作预测。欧洲计算机视觉会议,第421-436页[4]D. 达门, H. 道蒂 G. M. 法里内拉 S. 菲德勒A. Furnari、E. Kazakos,D. Moltisanti,J. Munro,T.佩雷特,W. Price,et al.扩展以自我为中心的愿景:epic-kitchens数据集。2018年欧洲计算机视觉会议[5]多纳休湖 Anne Hendricks,S. 瓜达拉马M. Rohrbach,S. Venugopalan湾Saenko和T. 达雷尔。用于视觉识别和描述的长期递归卷积网络。在IEEE计算机视觉和模式识别会议上,第2625-2634页,2015年。[6] Y. A.法尔哈A. Richard和J.胆你什么时候做什么?-预测活动的时间发生。在IEEE计算机视觉和模式识别会议上,2018年。[7] C. Feichtenhofer、A. Pinz和A.齐瑟曼。卷积双流网络融合视频动作识别。在IEEE计算机视觉和模式识别会议上,第1933-1941页[8] B. Fernando,E. Gavves,J. M.奥拉马斯A. Ghodrati,以及T. Tuytelaars为动作识别建模视频演变。在IEEE计算机视觉和模式识别会议上,第5378-5387页[9] J.高,Z. Yang和R.奈瓦提亚红色:增强的编码器-解码器网络,用于动作预测.2017年英国机器视觉会议[10] M. Hoai和F.德拉·托雷最大裕度早期事件检测器。International Journal of Computer Vision,107(2):191[11] J. - F. 胡伟S. 郑湖,澳-地妈,G.Wang和J.Lai. 通过软回归进行实时RGB-D活性预测。在欧洲计算机视觉会议上,第280-296页[12] J. - F. 胡伟S. 郑湖,澳-地妈,G.王建-H. 赖,以及张 杰 。 通 过 软 回 归 进 行 早 期 行 动 预 测 。 IEEETransactionsonPatternAnalysisandMachineIntelligence,2018。[13] Q.克,M. Bennamoun,S. An,F. Boussaid和F. Sohel使用深度时间特征的人类交互预测。欧洲计算机视觉会议,第403- 414页[14] Q.克,M. Bennamoun,S. An,F. Sohel和F. 布斯-塞德。 学习 剪辑表 示为 基础的 三维 动作识 别。 IEEETransactions on Image Processing,27(6):2842[15] Q.克,M. Bennamoun,S. An,F. Sohel和F.布赛德利用结构背景模型和排名分数,用于人类交互预测。IEEE Transactions on Multimedia,20(7):1712[16] Y.孔氏D. Kit和Y. Fu.用于动作预测的具有多个时间尺度的判别模型。欧洲计算机视觉会议,第596-611页。2014年[17] Y.孔,智-地Tao和Y. Fu.深度顺序上下文网络用于动作预测。IEEE计算机视觉和模式识别会议,第1473-1481页,2017年。[18] H. S. Koppula和A.萨克塞纳使用对象启示预测人类IEEETransactionsonPatternAnalysisandMachineIntelligence,38(1):14[19] H. Kuehne,A. Arslan和T. Serre.行动语言:恢复目标导向的人类活动的语法和语义。在IEEE计算机视觉和模式识别会议上,第780-787页[20] T. 兰,TC. Chen和S.Savarese 用于未来动作预测的分层欧洲计算机视觉会议,第689-704页[21] C. Lea,M. D.弗林河Vidal、A. Reiter和G. D.海格用于动作分割和检测的时间卷积网络。在IEEE计算机视觉和模式识别会议上,第156-165页[22] W. Li和M.弗里茨通过分层标签空间上的序列预测识别正在进行的复杂活动。在IEEE Winter Conference onApplications of Computer Vision,第1-9页[23] J. Liu,A. Shahroudy,G.王湖,澳-地Y. Duan和A. C.科特Ssnet:用于在线3d动作预测的尺度选择网络。在IEEE计算机视觉和模式识别会议上,第8349-8358页[24] J. Liu,A. Shahroudy,G.王湖,澳-地Y. Duan和A. C.科特基于尺度选择网络的基于神经网络的在线行为预测IEEE Transactions on Pattern Analysis and MachineIntelligence,2019。[25] J. Liu,A. Shahroudy,D. Xu,中国春萤叶甲A. C. Kot和G.王.基于信任门的时空lstm网络的动作识别。IEEETransactionsonPatternAnalysisandMachineIntelligence,40(12):3007-3021,2018。[26] Y.卢,Y。Bai,J. Liu和L.- Y.段。Veri-wild:一个大型数据集和一种用于野外车辆重新识别的新方法。在IEEE计算机视觉和模式识别会议,2019。[27] S.马湖,加-地Sigal和S. Scaroff用于活动检测和早期检测的lstms中的学习活动进展。在IEEE计算机视觉和模式识别会议上,第1942-1950页[28] T. Mahmud,M. Hasan和A. K.罗伊·乔杜里未修剪视频中活动标签和开始时间的联合预测。在IEEE计算机视觉国际会议上,第5784-5793页[29] S. Qi,S. Huang,P. Wei和S.- C.竹使用随机文法预测人类 活 动 。 IEEEInternational Conference on ComputerVision,2017。9935[30] H. Rahmani和M.本那蒙从深度和骨架视频中学习动作识别模型。在IEEE国际计算机视觉会议上,第5832[31] H. Rahmani,A. Mahmood,D. Q. Huynh和A.眠Hopc:用于动作识别的3D点云的定向主成分直方图。欧洲计算机视觉会议,第742-757页[32] H. Rahmani,A. Mian和M. Shah.从新的视角学习人类动作 识 别 的 深 度 模 型 。 IEEE Transactions on PatternAnalysis and Machine Intelligence,40(3):667[33] M.亮人类活动预测:从流媒体视频中及早识别正在进行的活动。在IEEE国际计算机视觉会议,第1036[34] S.夏尔马河,巴西-地Kiros,和R.萨拉赫季诺夫使用视觉注意力的动作识别。在2016年国际学习代表研讨会上[35] Z. 阿寿 J. Pan, J. Chan, K. 宫泽 H. 曼苏尔A. 维特罗,X。Giro-i Nieto和S.-F. 昌在线检测未修剪的流式视频中的动作开始。欧洲计算机视觉会议,第534-551页[36] K. Simonyan和A.齐瑟曼。用于视频中动作识别的双流卷积网络。In Advances神经信息处理系统,第568-576页,2014年。[37] S. Stein和S. J·麦肯纳将嵌入式加速计与计算机视觉相结合,用于识别食品制备活动。在ACM International JointConference on Pervasive and Ubiquitous Computing中,第729- 738页[38] G. 瓦罗尔岛Laptev和C.施密特动作识别的长期时间IEEE Transactions on Pattern Analysis and MachineIntelligence,40(6):1510-1517,2018。[39] C. Vondrick,H. Pirsiavash和A.托拉尔巴从未标记的视频中预测视觉表示。在IEEE计算机视觉和模式识别会议上,第98-106页[40] L. Wang,Y.Xiong,Z.Wang,Y.Qiao,中国粘蝇D.Lin,X.唐和L.范古尔时间段网络:深入行动识别的良好做法。在欧洲计算机视觉会议上,第20-36页[41] K. Xu,J. Ba,R. Ki
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 探索数据转换实验平台在设备装置中的应用
- 使用git-log-to-tikz.py将Git日志转换为TIKZ图形
- 小栗子源码2.9.3版本发布
- 使用Tinder-Hack-Client实现Tinder API交互
- Android Studio新模板:个性化Material Design导航抽屉
- React API分页模块:数据获取与页面管理
- C语言实现顺序表的动态分配方法
- 光催化分解水产氢固溶体催化剂制备技术揭秘
- VS2013环境下tinyxml库的32位与64位编译指南
- 网易云歌词情感分析系统实现与架构
- React应用展示GitHub用户详细信息及项目分析
- LayUI2.1.6帮助文档API功能详解
- 全栈开发实现的chatgpt应用可打包小程序/H5/App
- C++实现顺序表的动态内存分配技术
- Java制作水果格斗游戏:策略与随机性的结合
- 基于若依框架的后台管理系统开发实例解析
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功