没有合适的资源?快使用搜索试试~ 我知道了~
在线动作检测的时间递归网络(TRN)及其在几个数据集上的性能评估
5532用于在线动作检测的徐明泽1高明飞2陈怡婷3LarryS. 大卫·J. 克兰德尔11印第安纳大学2马里兰大学3本田研究所,美国{mx6,djcran}@ indiana.edu,{mgao,lsd}@ umiacs.umd.edu,ychen@honda-ri.com摘要时间动作检测的大多数工作被公式化为离线问题,其中动作的开始和结束时间是在整个视频被完全观察之后确定的。然而,包括监控和驾驶员辅助系统在内的重要实时应用要求仅基于当前和历史观察,在每个视频帧到达时立即识别动作。在这篇文章中,我们提出了一个新的框架,时间递归网络(TRN),通过同时执行在线动作检测和预测不久的将来来模拟每个帧的更大的时间上下文。在每一个时刻,我们的方法都利用了积累的历史证据和预测的未来信息,以更好地识别当前正在发生的动作,并将这两者集成到一个统一的端到端架构中。我们在两个流行的在线动作检测数据集HDD和TVSeries以及另一个广泛使用的数据集THUMOS'14上评估了我们的方法结果表明,TRN显着优于最先进的。1. 介绍在我们的生活中,我们不断地监视我们周围的社会环境,对可能影响我们的其他人的行为进行推断。那孩子是跑到马路上还是正朝人行道走去?那个路人伸出手是想打一拳还是想握手?迎面而来的车是左转还是掉头?这些和许多其他动作可以在任何时候发生,而不会发出警告。为了能够对我们周围的世界做出反应,我们必须实时做出和更新我们的推断,随着时间的推移,我们收集更多的证据,随时更新和完善我们的假设。相比之下,计算机视觉中的动作识别通常被研究为离线分类问题,其目标是在给定所有帧的情况下识别短视频剪辑中发生的单个动作[3,5,9,18,37,53]。这*前两位作者的贡献相等。这项工作的一部分是在MX和MG在美国本田研究所实习时完成的。时态递归网络先前的方法BG U形转弯U形转弯掉头……12阿勒���中国���中国���简体中文监督检测预期���+++ℓ���图1:我们提出的时间回流网络(TRN)和以前的方法之间的比较. 以前的方法只使用历史观测,并通过优化当前动作估计来学习动作的表示。我们的方法通过联合优化当前和未来的动作识别来学习更具鉴别力的表示,并结合预测的未来信息来提高当前动作检测的性能。离线公式化大大简化了问题:如果可以观察到动作的结束,则可以将左转与U形转弯简单地区分开。但是,计算机视觉的新兴现实世界应用,如自动驾驶汽车、交互式家庭虚拟助理和协作机器人,需要实时在线检测动作。最近的几篇论文已经考虑了这种在线动作检测问题[11,12,17,19,36,50],但准确度通常低于离线情况,因为仅使用当前和过去的信息使问题更具挑战性。在这里,我们引入了一个新的假设,即虽然未来的信息在在线环境中是不可用的,但明确地预测未来可以帮助更好地对当前的行为进行分类。 我们提出了一个新的模型来估计和使用这个未来的信息,我们目前的实验结果表明,预测的未来信息确实提高了在线动作识别的性能。这看起来可能是一个令人惊讶的结果,因为在测试时,5533预测未来以推断当前行为的模型观察到的证据与直接简单推断行为的模型完全相同。然而,认知科学和神经科学的结果表明,人类大脑使用对未来的预测作为学习对现在进行估计的重要机制[2,8,15,16]。我们的研究结果似乎证实了这一点也适用于自动在线动作识别,这表明在训练过程中联合建模当前动作检测和未来动作预测会迫使网络学习更具鉴别力的表示。更详细地说,在本文中,我们提出了一个称为时间递归网络(TRN)的通用框架,其中未来信息被预测为预期任务,并与历史证据一起用于识别当前帧中的动作(如图所示)。①的人。为了证明我们的方法的有效性,我们在两个最近的在线动作检测数据集(本田研究所驾驶数据集(HDD)[33]和TVSeries [11])和一个广泛使用的动作识别数据集THUMOS'14 [ 24 ]上验证了TRN我们的模型是通用的,足以使用视觉和非视觉传感器数据,因为我们证明了硬盘驱动数据集。实验结果表明,我们的方法显着优于基线方法,特别是当只有一小部分的动作被观察到。我们还评估了行动预期(预测下一个行动),表明我们的方法比最先进的方法,即使预期是不是这项工作的重点。2. 相关工作行动和活动识别。文献中有大量关于各种类型和应用的视频的动作和活动识别的工作,从消费者风格[52]和监控视频[40],到可穿戴相机的第一人称视频[27,30,31]。早期的工作使用手工制作的视觉特征,如HOG [28],HOF [28]和MBH [44],以及运动特征,如改进的密集轨迹[43],而最近的方法使用深度卷积网络。Simonyan和Zisserman [38]提出了一种双流卷积网络,该网络使用RGB帧和光流作为输入[45],而其他人包括Tran等人。[42] Carreiraet al. [4]通过使用3D卷积以端到端的方式学习时间信息来避免预先计算光流 。 循 环 神 经 网 络 ( RNN ) , 如 长 短 期 记 忆(LSTM)[23]和门控循环单元(GRU)[7]网络,也被广泛用于捕获时间依赖性[14]和运动信息[49]。然而,这些方法中的大多数集中于修剪的视频,并且不能直接应用于包含多个动作和广泛多样性的背景的长视频序列离线动作检测。离线方法观察整个视频并估计每个视频的开始和结束时刻行动上这些方法中的许多方法都受到来自对象检测[34]和分割[20]的基于区域的深度网络的启发Shou等人[37]提出S-CNN通过生成时间动作建议来定位未修剪视频中的动作,然后对其进行分类并回归其时间边界。TCN [9]执行建议排名,但明确地包含每个建议的本地上下文。R-C3 D [48]通过在提案生成和分类过程中共享卷积特征来提高效率。SST [3]避免将输入视频划分为重叠的剪辑,在单个流中引入更有效的建议生成,TURN TAP [18]建立在此架构上。TAL-Net [5]使用多尺度架构改进了感受野对齐CDC [35]通过同时执行空间下采样和时间上采样操作来进行帧级密集预测。但是上述工作假设所有视频帧都可以被观察到,这在我们这里考虑的在线任务中是不可能的。早期行动检测。我们的工作也与早期动作检测有关,它试图在观察到事件的一小部分后识别动作。Hoai等人[22]建议使用结构化支持向量机的最大利润框架。Ma等人[32]设计一种基于LSTM的改进技术,并修改训练损失,以假设正确和不正确类别之间的分数差距应该随着更多的观察而不减少。在线操作检测。给定一个实时视频流,在线动作检测试图在每个帧到达时立即检测出其中执行的动作DeGeest等人[11]介绍了一个具体的定义和现实的数据集(TVSeries)为这个问题。他们后来[12]提出了一个双流反馈网络,其中一个流专注于输入特征解释,另一个流对动作之间的时间依赖性进行建模Gao等人[17]提出了一种增强的编码器-解码器(RED)网络和增强损失,以尽可能早地鼓励识别动作。RED是为动作预测而设计的--Shou等人[36]使用生成对抗网络和自适应采样来识别每个动作的开始时间,以区分模糊的背景,并围绕动作之间的过渡进行显式时间建模,以实现时间一致性。与现有的只关注当前和过去观察的在线动作检测工作相比,我们引入了一个模型,该模型学习同时执行在线动作检测和对不久的将来的预测,并使用此估计的5534不−1˜˜6:使用p命令更新r命令˜不˜不不不不不不图2:我们提出的时间递归网络(TRN),它顺序处理输入视频帧并输出帧级动作类概率,就像任何RNN一样。但是,虽然RNN只对历史时间依赖性进行建模,但TRN通过时间解码器预测未来,并结合预测信息来改进在线动作检测。3. 在线动作检测给定包含一个或多个动作的实时视频流,我们的目标是识别每个视频帧中不像大多数先前的工作,假设整个视频是一次可用的,这个在线动作检测问题需要我们处理每个帧,只要它到达,没有访问任何未来的信息。更正式地说,我们的目标是为图像序列的每一帧估计概率分布p=[p0,p1,p2,···,pK]在K个可能的动作上,给定通过预测即将发生的行动,并明确地使用这些估计来帮助识别当前的行动,从而在当前和未来的行动之间建立联系3.2. TRN细胞TRN单元通过使用时间解码器、未来门和时空累加器(STA)来控制内部信息的流动。在我们的实现中,我们使用LSTM [23]作为时间解码器和STA的骨干,尽管其他时间模型,如门控t t t t t t仅过去帧和当前帧{I1,I2,· · ·,It}(其中p0表示没有动作发生的发生)。3.1. 时间递归网络(TRN)为了解决这个问题,我们引入了一个新的框架,称为时间递归网络(TRN)。其主要思想是训练一个网络,预测几帧的动作递归单元(GRU)[7]和时间卷积网络-[29]可以使用TCN。时间解码器学习特征表示并预测未来序列的动作。未来门从解码器接收隐藏状态的向量,并将这些特征嵌入作为未来上下文。STA从历史、当前和预测的未来信息中捕获时空特征,并估计当前帧中发生的动作。预测未来,然后使用该预测对行动在当下。图图2显示了TRN的架构网络的核心是一个强大的循环单元,TRN细胞。像一般RNN单元一样,在每个时间t,TRN单元接收对应于时间t处的观测的特征向量xt,其可以包括来自帧It中的外观或运动的证据的某种组合,甚至可以包括来自帧I t中的外观或运动的证据的某种组合。算法1TRN小区输入:图像特征xt和先前的隐藏状态ht−1输出:概率pt和当前隐藏状态ht1:初始化ht,其中由FC层嵌入ht−12:将r−1初始化为全零第三章: 对于i = 0:ld做在时间t收集的其他传感器模态,状态h从上一个时间点开始。 然后细胞出来-4:使用ri−1和hi−1更新hit−15:使用fhi计算fi和pi我不发生在t。然后更新隐藏状态h_t,用于估计下一个时间步长。但是,虽然传统的RNN单元仅通过积累输入序列的历史证据来对先前的时间依赖性进行建模,但TRN单元还利用了时间依赖性,我不第七章: 端第八章: 计算未来上下文特征xt,如等式(一)9:用STA更新ht(ht-1,[xt,xt])10:计算pt,如等式(二)行动1行动2行动计普雷TRN细12阿勒FC拉克TRNCellℎ1TRNCellA1-1TRNCell普雷阿勒STARNNCell拉克12阿勒���˜0不���˜1���˜ℓd不不特征提取器特征提取器特征提取器A1-1FCDecRNNCellℎ˜0不DecRNNCell电子邮不DecRNNCell12普������0不���电子邮不A1-1������联系我们不FC���˜1不FC拉克普卢德…行动+0行动二+1…行动+D电流“未来”假设p是一个概率分布5535不˜F˜C普卢德˜不不不不tt˜我们现在详细描述TRN小区的每个组件1.一、时间解码器顺序地工作以输出对于n个xtd时间步长的未来动作的估计及其对应的隐藏状态{xth0 ,xth1, ···,xthd},其中我从不同的角度和应用程序的长,未经修剪的视频:HDD包括从第一人称(以自我为中心)的角度通过前置仪表板摄像头记录的道路驾驶,TVSeries从电视记录,包含各种日常活动,THUMOS'14是一个流行的运动相关动作数据集。htfori∈[0,d]表示第i次步骤后,T。在第一时间步输入到解码器都是零在其他时间步t,我们输入预测的动作得分ri−1,通过线性变换r嵌入。未来门从解码器获取隐藏状态,并对未来上下文的特征表示进行建模。为了简单起见,我们的默认未来门是一个平均池化操作器,后面是一个全连接(FC)层,但也可以使用其他融合操作,如非本地(NL)块[46]。更正式地说,未来上下文特征xt是通过对隐藏状态向量进行平均和嵌入来从所有解码器步骤中收集的h_1_tt=ReL U(WTAvgPool(ht)+bf)。(一)时空累加器(STA)获取连续的隐藏状态h t-1以及从I t提取的图像特征xt和来自未来门的预测未来特征xt的级联,并更新其隐藏状态h t。然后计算候选动作的分布pt=softmax(WTht+bc),(2)其中Wc和bc是用于动作分类的FC层的参数。正如我们所看到的,除了当前帧t的估计动作之外,TRN还输出下一个时间步长的预测动作。为了确保良好的未来表示,并共同优化在线动作检测和预测,我们结合了训练过程中的累加器和解码器损失,即。一个输入序列的丢失是Σ。loss(p,lt)+αloss(pi,lt+i),(3)ti=0其中,pi指示解码器在时间t之后针对步骤i预测的动作概率,lt表示地面实况,loss表示交叉熵损失,并且α是比例因子。我们使用离线训练来优化网络,其中使用当前和未来帧的标签 在测试时,我们的模型使用预测的未来信息,而不访问实际的未来帧,因此是一个在线模型。4. 实验我们在三个公开可用的数据集上评估了我们的在线动作检测器与多个最先进和基线方法的对比:HDD[33]、TVSeries [11]和THU- MOS '14 [ 24 ]。我们选择这些数据集是因为它们包括4.1. 数据集HDD[33]包括在旧金山湾区的137个驾驶场景中的近104小时。该数据集是从具有前置摄像头的车辆收集的,并且包括11个目标导向动作的帧级注释(例如,交叉路口通过、左转、右转等)。该数据集还包括来自由仪表化车辆的控制器局域网(CAN)总线收集的各种非视觉传感器的读数我们遵循之前的工作[33],使用100个会话进行培训,37个会话进行测试。TVSeries[11]包含6个热门电视系列的27集,总计16小时的视频。该数据集在帧级上用30个真实的日常动作(例如,拿起、开门、喝酒等)。 该数据集具有多样的动作、多个演员、不受约束的观点、严重的遮挡和大比例的非动作帧的挑战。THUMOS训练集仅包含不能用于训练时间动作检测模型的修剪视频,因此我们遵循先前的工作[17],并在验证集(200个未修剪视频)上进行训练,并在测试集(213个未修剪视频)上进行评估。4.2. 实现细节我们在PyTorch [1]中实现了我们提出的时间递归网络(TRN),并在带有Nvidia Quadro P6000显卡的系统上进行了所有为了学习网络权重,我们使用Adam[26] opti- mizer,默认参数为学习率0。0005,权重衰减为0。0005对于数据增强,我们随机对于每个历元,从开始处截断<$∈[1,<$e]帧,并且将长度为L的视频离散化为(L-<$)/<$e个非重叠训练样本,每个样本具有<$e个连续的跳转我们的模型以端到端的方式进行优化,使用32个批量大小,每个输入序列长度为100。方程中的常数α(3)设为1。0的情况。4.3. 设置为了与最先进的[11,17,33]进行公平的比较,我们遵循他们的实验设置,包括输入特征和超参数。硬盘。 我们使用与[33]中相同的设置。来自CAN总线传感器的视频帧和值首先以每秒3帧(fps)的速度进行采样。Conv2d 7b 1x1层的输出5536TP+FP/w在InceptionResnet-V2 [41]中,在ImageNet [13]上预训练的图像被提取为每帧的视觉特征。为了保留空间信息,我们应用了额外的1×1卷积,将提取的帧特征从8×8×1536到8×8×20,并将它们展平为1200维向量。原始传感器值被传递到完全连接的层,具有20维输出。这些视觉和传感器的功能,然后连接作为一个多模态表示,每个视频帧。我们遵循[33]并将输入序列长度设置为90。解码器步骤的数量被视为我们在实验中交叉验证的超参数时间解码器和STA两者的隐藏单元被设置为2000维。电视系列和THUMOS'14。我们使用与[17]中相同的设置。我们以24fps的速度提取视频帧,并将视频块大小设置为6。决策是在块级别做出的,因此每0次评估性能。25秒我们使用两种不同的特征提取器,VGG-16[39]和双流(TS)CNN [47]。在fc 6层从每个块的中心 帧 对 于 双 流 特 征 , 外 观 特 征 在 ResNet-200 的Flatten 673层[21]从每个块的中心帧中提取,运动特征在BN-Inception的全局池层[25]从6个连续帧之间的预先计算的光流场中然后将外观和运动特征连接以构造双流特征。由于GPU内存限制,输入序列长度设置为64按照现有技术[17],解码器步数d被设置为8,对应于2秒。与HDD一样,我们的实验报告了不同解码器步骤的结果时间解码器和STA两者的隐藏单元被设置为4096维。4.4. 评估协议我们遵循大多数现有的工作,并使用每帧平均精度(mAP)来评估在线动作检测的性能。我们还使用每帧校准平均精度(cAP),这是在[11]中提出的,以更好地评估TVSeries上的在线动作检测,low [11]并分别计算视频帧的每个十分位数(百分之十的间隔)的mAP或cAP。4.5. 基线CNN基线模型[38,39]将在线动作检测视为一般的图像分类问题。这些基线识别每个单独的视频帧中的动作 , 而 不 对 时 间 信 息 建 模 。 对 于 TVSeries 和THUMOS[11] Shouet al. [35 ]第35段。对于HDD,我们遵循Ramanishkaet al. [33]并使用ImageNet上预训练的InceptionResnet-V2 [41]作为骨干,并使用softmax微调最后一个全连接层以估计类概率。LSTM及其变体已广泛用于动作检测[33,51]。LSTM网络对连续帧之间的依赖性进行建模,并联合捕获视频序列的空间和时间信息。对于每一帧,LSTM接收图像特征和先前的隐藏状态作为输入,并输出候选动作的概率分布。编码器-解码器(ED)架构[6]还对时间依赖性进行建模。编码器类似于一般的LSTM,并将历史视觉信息汇总到特征向量中。解码器也是一个LSTM,它仅基于这些编码特征为未来序列生成预测表示由于HDD上没有基于ED的方法的公开结果,我们实现了与TRN相同的实验设置的基线,包括输入特征,超参数,损失函数等。更强的基线。除了上述基本的基线,我们测试了三种类型的更强的基线,这些基线是为TVSeries和THU-MOS'14上的在线动作检测而卷积-去卷积(CDC)[35]将CDC滤波器置于3D CNN之上,并集成两个反向操作,空间下采样和时间上采样,以精确地预测帧级的动作。注意,CDC是一种离线方法,与CDC的比较证实了我们的模型的有效性二cAP=kcPrec(k)P、(四)流反馈网络(2S-FN)[12]建立在一个带有两个循环单元的LSTM,其中一个流关注对输入的解释和其他模型的速度-其中,校准精度cPrec=TP,如果帧k是真阳性,则I(k)为1,P表示真阳性的总数,并且w是阴性帧和阳性帧之间的比率。cAP的优点是它可以纠正阳性和阴性样本之间的类别不平衡。在线动作检测的另一个重要目标是尽可能早地识别动作;即,如果一种方法在目标行动的早期阶段就产生了高分(越早越好),则该方法应得到奖励。为了研究我们在不同时间阶段的表现,我们遵循-动作之间的依赖关系。具有专用增强损失的增强编码器-解码器(RED)[17]是ED的高级版本,目前在所有在线动作检测基线中表现4.6. 结果4.6.1在线行为检测表1给出了HDD的评价结果。TRN显著优于最新技术水平,Ramanishka等人。[33]第五。4%、2. 8%,8。1%,按mAP计算,5537个人诉讼方法输入交叉口超车L形转弯L车道R车道L车道R车道人行横道铁路R转弯变换支路支路通过通过合并掉头整体图美国有线电视新闻网34.272.074.916.08.57.61.20.40.12.532.522.7LSTM [33]传感器36.466.274.226.113.38.00.20.30.03.533.523.8ED 43.973.975.731.815.215.12.10.50.14.139.127.4TRN46.575.277.735.919.718.53.80.70.12.540.329.2美国有线电视新闻网53.447.339.423.817.925.22.94.81.64.37.220.7LSTM [33]InceptionResNet-V265.757.754.427.826.125.71.716.02.54.813.626.9ED 63.154.255.128.335.927.68.57.10.34.214.627.2TRN63.557.057.328.437.831.810.511.00.53.525.429.7美国有线电视新闻网73.773.273.325.724.027.64.24.02.84.730.631.3LSTM [33]多模态 76.676.177.441.923.025.41.011.83.34.917.632.7ED 77.274.077.144.641.436.64.111.42.25.143.137.8TRN79.077.076.645.943.646.97.513.44.55.849.640.8表1:HDD上的在线动作检测的结果使用mAP(%)比较TRN和基线方法输入mcAPTVSeries上TRN和基线之间的型坯TRN[11]60.8显著优于使用VGGLSTM [11] 64.1红色[17] 71.2(mcAP)3。0%超过2S-FN [12])和双流输入fea-tures(mcAP of 4. 5%的红色[17])。我们还评估红色[17]TRN79.2TS83.7对TRN的结果进行了总结和比较,并与Ramanishka等人的结果进行了比较。[33]在HDD上。如图所示,U形转弯是困难的。表2:TVSeries上的在线动作检测结果使用cAP比较TRN和最新技术水平(%)。方法mAP单帧CNN [39] 34.7双流CNN [38] 36.2C3D + LinearInterp [35] 37.0预测-校正[10] 38.9LSTM [14] 39.3MultiLSTM [51] 41.3[35]第三十五话美国疾病控制与预防中心[35]红色[17] 45.3TRN 47.2表3:THUMOS'14上的在线动作检测结果使用mAP比较TRN和最新技术水平(%)。传感器数据、InceptionResnet-v2和多模态特征分别作为输入。有趣的是,当输入包含传感器数据时,TRN和[33]之间的性能差距要大得多驾驶行为与CAN总线信号高度相关,如转向角、横摆角速度、速度等,这一结果表明,TRN可以更好地利用这些有用的输入线索。表2显示了COM-从第一人称的角度来分类,因为早期阶段与左转几乎没有区别。在学习到的更好的表示和预测的未来信息的帮助下,TRN区分细微的差异,并“向前看”,以减少这种模糊性。如表1所示,TRN在使用多模态输入的大多数动作上击败了基线模型,特别是在“困难”类上,定性结果还清楚地表明,TRN不仅产生正确的动作标签,而且产生更好的边界。图3b和3c显示了TVSeries和THUMOS'14上有希望的结果。请注意,TVSeries非常具有挑战性;例如,图中的饮水动作。背景左上角的人的3b几乎不可见。4.6.2消融研究时间背景的重要性。通过直接比较TRN与CNN和LSTM基线的评估结果,我们证明了显式建模时间上下文对于在线动作检测的重要性。LSTM通过接收累积的历史观测作为输入来捕获视频中的长期和短期时间模式。比较TRN和LSTM可以衡量将预测的动作特征作为未来上下文的好处。基于CNN的方法只通过控制来进行在线动作检测Stacked LSTM [12]VGG71.4THUMOS'14上的TRN结果表明[12]第十二话72.4TRN优于所有基准模型(mAP为1。百分之九TRN75.4红色[17]和2。比CDC高8% [35])。SVM [11]FV74.3定性结果如图所示3 .第三章。图3a我们...5538背景撑杆跳背景10.5010.50(a) 我们的方法和[33]在HDD数据集上的定性比较。 掉头显示为紫色,左转显示为绿色,背景以灰色显示。10.50(b) TVSeries数据集上我们方法的定性结果。饮料显示为粉红色,背景显示为灰色。10.50(c) 我们的方法在THUMOS'14数据集上的定性结果。撑杆跳以黄色显示,背景以灰色显示。图3:我们的方法和基准在HDD,TVSeries和THUMOS '14数据集上的定性结果。 竖条表示预测类的得分。(Best以颜色查看)。在每个时间步对图像特征进行筛选。Simonyan等人[38]建立双流网络并通过使用光流作为输入来合并相邻视频帧之间的运动特征。表3示出了该运动信息产生1.5%的改善。TRN-TS还将光流作为输入,我们可以清楚地看到显着的改进(83。7% vs. 75. 4%,电视剧。未来背景:一项“神谕”研究。为了证明使用未来上下文预测的重要性,我们实现了一个Oracle基线,RNN离线。RNN-offline与RNN共享相同的架构,但使用从当前和未来帧中提取的特征作为输入。 注意,RNN离线使用未来信息,因此不是在线模型;我们的目标是量化(1)在给定对实际(而不是预测)未来信息的访问的情况下,在动作检测中结合未来信息的有效性,以及(2)TRN的估计的未来信息和RNN的“真实”未来信息之间的性能差距-离线。为了允许公平的比较,RNN离线的输入是来自当前帧的特征和下一帧的平均池化特征的级联(其中,RNNd与TRN的解码器步骤的数量相同)。RNN离线的结果是41。6%,85。3%,47。3%的硬盘,电视系列,和THUMOS的14个数据集,回收。将RNN离线与RNN基线进行比较,我们看到“地面实况”未来信息显著地改善了检测性能。我们还观察到,TRN和RNN离线的性能是可比较的,即使TRN使用预测而不是实际的未来信息。这可能是因为TRN通过联合优化当前和未来动作识别来改善其在学习期间的表示我们还评估了TRN对基于ED的网络,通过观察ED也可以通过联合进行动作检测和预测来提高其表示因此,TRN与ED及其高级版本[17]之间的比较衡量了有多少益处纯粹来自于包含预期未来信息的实验。解码器步数的影响。 最后,我们评估了不同解码器步数的有效性,{4,6,8,10}。表6显示了结果,以及在解码器步结果表明,更大数量的解码器步骤并不能保证更好的性能。这是因为对于较长的未来序列,预测精度通常会降低,从而在STA的输入特征中产生更多的噪声为了清楚起见,当与表1、2和3中的在线动作检测的基线方法进行比较时,我们遵循最先进的技术[17]并将WMD 设 置 为 2 视 频 秒 ( HDD 中 为 6 帧 , TVSeries 和THUMOS背景掉头地面实况背景1116.0s1121.6s背景喝地面实况背景510.8s512.9s1280.3s地面实况1287.2s我们我们[33个] 我们5539部分视频方法输入0%-10%10%-20%20%-30%30%-40%40%-50%50%-60%60%-70%70%-80%80%-90%90%-100%[11]61.061.061.261.161.261.261.361.561.461.5LSTM [11]VGG63.364.564.564.365.064.764.464.364.464.3TRN73.974.374.774.775.175.175.375.275.275.3SVM [11]FV67.068.469.971.373.074.075.076.476.576.8TRNTS78.879.680.481.081.681.982.382.782.983.3表4:当仅在TV系列上的cAP(%)方面预测未来的时间(秒)方法0.25s0.5s0.75s1.0s1.25s1.5s1.75s2.0sAvg[17]第十七话78.578.076.374.673.772.771.771.074.5红色[17]79.278.777.175.574.273.072.071.275.1TRN79.978.477.175.974.973.973.072.375.7(a) TVSeries数据集的cAP(%)结果。预测未来的时间(秒)方法0.25s0.5s0.75s1.0s1.25s1.5s1.75s2.0sAvg[17]第十七话43.840.938.736.834.633.932.531.636.6红色[17]45.342.139.637.535.834.433.232.137.5TRN45.142.440.739.137.736.435.334.338.9(b) THUMOS'14数据集的mAP(%)结果表5:TRN与使用双流特征的最新方法相比的动作预期结果解码器步骤(d)数据集任务46810硬盘在线动作检测39.940.840.139.6行动预期34.332.228.825.4TV系列在线动作检测83.583.483.783.5行动预期77.776.475.774.1THUMOS46.045.447.246.4行动预期42.639.438.935.0表6:具有解码器步长的TRN的在线动作检测和动作预期结果,其中,4.6.3不同阶段的行动我们在只考虑每个动作的一小部分时评估了TRN,并与TVSeries上发表的结果进行了比较。例如,20%-30%表示仅评估动作序列的20%-30%时间范围内的帧。表4表明,TRN在每个时间阶段都显著优于具体来说,当我们将TRN-TS与最佳基线SVM-FV进行比较时,这两种方法之间的性能差距大致按升序排列,因为观察到的动作越来越少(差距为6。5%,6. 4%,6.3%,7. 3%,7. 9%,8. 6%,9. 百分之七10个。5%,11. 2%和11。8%来自100%观察到的行动其中10%被观察到)。这表明我们的方法在行动早期阶段的优势4.6.4行动预期我们还评估了TRN预测未来2秒内的动作,并将我们的方法与表5中的最先进方法进行了比较。结果表明,TRN的性能优于RED和ED基线(mcAP为75。7% vs.75. 1% vs. 74. 5%的电视连续剧和38的mAP。9%vs. 三十七5%vs. 三十六6%的THUMOS关于AVE-在HDD上的下一个2秒的预期结果的年龄是32。2%,每帧mAP。5. 结论在本文中,我们提出了时间递归网络(TRN)建模更大的时间背景下,我们评估他们的在线动作检测问题。与只考虑历史时间上下文的传统方法不同,TRN在在线设置的约束下联合建模历史和未来的时间上下文 三个流行的数据集上的实验结果表明,在合并预测的未来信息,提高了学习表示的行动,并显着优于国家的最先进的。此外,TRN在行动的早期阶段和预测未来行动方面显示出更大的优势。更一般地说,我们相信,我们的方法,估计未来的信息,可以受益于许多其他在线任务,如视频对象定位和跟踪,并计划在未来的工作中追求这一点。致谢。 这项工作得到了部分支持由情报高级研究计划 活 动 ( IARPA ) 通 过 内 政 部 / 内 政 商 业 中 心(DOI/IBC)合同号D17 PC 00345、国家科学基金会(CAREERIIS-1253549)、美国本田研究所和印第安纳大学研究副教务长办公室、艺术与科学学院和信息学、计算学院,通过研究项目学习的新兴领域:大脑,机器和儿童。本文中包含的观点和结论是作者的观点和结论,不应被解释为代表美国政府的官方政策,无论是明示还是暗示。政府或任何赞助商。我们也感谢匿名的评论者提供了非常有帮助的建议.5540引用[1] http://pytorch.org/。 4[2] Andreja Bubic , D Yves Von Cramon , and Ricarda ISchubotz. 预 测 , 认 知 和 大 脑 。 Frontiers in HumanNeuroscience,2010. 2[3] Shyamal Buch、Victor Escorcia、Chuanqi Shen、BernardGhanem和Juan Carlos Niebles。SST:单流临时行动建议。在CVPR,2017年。一、二[4] Joao Carreira和Andrew Zisserman。你好,动作识别?新模型和Kinetics数据集。在CVPR,2017年。2[5] Yu-Wei Chao , Sudheendra Vijayanarasimhan , BryanSey-bold , David A Ross , Jia Deng , and RahulSukthankar.重新思考用于时间动作定位的Faster R-CNN架构。在CVPR,2018年。一、二[6] KyunghyunCho,BartVanMerrieenboer,CaglarGulcehre , Dzmitry Bahdanau , Fethi Bougares ,Holger Schwenk,and Yoshua Bengio.使用rnn编码器-解码 器 学 习 短 语 表 示 用 于 统 计 机 器 翻 译 。 arXiv :1406.1078,2014。5[7] Junyoung Chung、Caglar Gulcehre、KyungHyun Cho和Yoshua Bengio。门控递归神经网络对序列建模的经验评估arXiv:1412.3555,2014。二、三[8] 安迪·克拉克。接下来呢?预测大脑,定位代理,以及认知科学的未来。行为与脑科学,2013年。2[9] Xiyang Dai , Bharat Singh , Guyue Zhang , Larry SDavis,and Yan Qiu Chen.用于视频中的活动局部化的时间上下文网络。InICCV,2017. 一、二[10] 阿查尔·戴夫奥尔加·鲁萨科夫斯基和德瓦·拉曼南用于动作检测的预测-校正网络。在CVPR,2017年。6[11] Roeland De Geest,Efstratios Gavves,Amir Ghodrati,Zhenyang Li,Cees Snoek,and Tinne Tuytelaars.在线动作检测。在ECCV,2016年。一二四五六八[12] Roeland De Geest和Tinne Tuytelaars。基于lstm的在线动作检测时间结构建模在WACV,2018。一、二、五、六[13] Jia Deng,Wei Dong,Richard Socher,Li-Jia Li,KaiLi,and Li Fei-Fei. ImageNet:一个大规模的分层图像数据库。CVPR,2009。5[14] JeffreyDonahue 、 LisaAnneHendricks 、 SergioGuadarrama、MarcusRohrbach、SubhashiniVenugopalan、Kate Saenko和Trevor Darrell。用于视觉识别和描述的长期递归卷积网络CVPR,2015。二、六[15] 放大图片作者:Grace Edwards,Petra Vetter,FionaMcGruer,Lucy S.佩特罗和拉尔斯·穆克利对V1的预测反馈随感觉输入动态更新。科学报告,2017年。2[16] Joseph Fruchter ,Tal Linzen ,Masha Westerlund, andAlec Marantz.基本语言短语的词汇预激活。Journal of Cognitive Neuroscience,2015. 2[17] Jiyang Gao,Zhenheng Yang,and Ram Nevatia.红色:增强的编码器-解码器网络,用于动作预测。在BMVC,2017年。一、二、四、五、六、七、八[18] Jiyang Gao,Zhenheng Yang,Chen Sun,Kan Chen,and Ram Nevatia.TURN TAP:用于时间行动建议的时间单位回归网络。ICCV,2017年。一、二[19] Mingfei Gao , Mingze Xu , Larry S Davis , RichardSocher,and Caiming Xiong. Startnet:在线检测未修
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 高效办公必备:可易文件夹批量生成器
- 吉林大学图形学与人机交互课程作业解析
- 8086与8255打造简易乒乓球游戏机教程
- Win10下C++开发工具包:Bongo Cat Mver、GLEW、GLFW
- Bootstrap前端开发:六页果蔬展示页面
- MacOS兼容版VSCode 1.85.1:最后支持10.13.x版本
- 掌握cpp2uml工具及其使用方法指南
- C51单片机星形流水灯设计与Proteus仿真教程
- 深度远程启动管理器使用教程与工具包
- SAAS云建站平台,一台服务器支持数万独立网站
- Java开发的博客API系统:完整功能与接口文档
- 掌握SecureCRT:打造高效SSH超级终端
- JAVA飞机大战游戏实现与源码分享
- SSM框架开发的在线考试系统设计与实现
- MEMS捷联惯导解算与MATLAB仿真指南
- Java实现的学生考试系统开发实战教程
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功