没有合适的资源?快使用搜索试试~ 我知道了~
过渡状态对时空动作检测的影响及TACNet的提出
11987阴性样本过渡状态目标样本阴性样本GroundTruth时间TTACNet:用于时空动作检测林松1张世伟2于刚3孙宏斌1†1西安交通大学人工智能与机器人研究所2华中科技大学人工智能与自动化专业3Megvii Inc. (Face++)。{stevengrove@stu,hsun@mail}. xjtu.edu.cn,swzhang@hust.edu.cn,yugang@megvii.com图1:过渡状态图。在目标动作的周围存在着一些不属于目标动作的模糊状态,难以区分。我们将这些状态定义为“过渡状态”(红框)。如果我们能有效地区分这些状态,我们可以提高时间范围检测的能力。摘要当前用于时空动作检测的最新方法已经取得了令人印象深刻的结果,但是对于时间范围检测仍然不令人满意其主要原因在于,即使训练良好的网络也可能将其视为目标动作,而实际动作中也存在一些模糊的状态。在本文中,我们定义这些模糊的样本为拟议的TACNet包括两个主要组成部分,即:时间上下文检测器和转换感知分类器。时间上下文检测器通过构造递归网络,以恒定的时间复杂度提取长期上下文信息。过渡感知分类器可以通过同时分类动作和过渡状态来进一步区分因此,提出的TACNet可以大大提高时空行为检测的性能。我们在UCF 101 -24和J-HMDB数据集上 广 泛 评 估 了 拟 议 的 TAC- Net 。 实 验 结 果 表 明 ,TACNet在JHMDB上获得了竞争性的性能,并明显优于*表示同等贡献。†表示通讯作者。在帧-mAP和视频-mAP方面,对未修剪的UCF 101 -24的最先进的方法。1. 介绍动作检测的重点是对视频中存在的动作进行分类,并在空间和时间上定位它们。由于其应用的多样性,受到了越来越多的研究者的关注。行为检测已经成为异常检测、人机交互、视频监控等领域的关键技术。目前,大多数动作检测方法[8,15,19,23]将时空检测分为两个阶段,即,空间检测和时间检测。这些方法采用基于深度神经网络的检测器[4,12]来空间检测帧级别的动作。然后,他们通过链接帧级检测并应用一些目标函数(如最大子阵列方法[15])来构建时间检测,以创建时空动作管。由于这些方法将视频帧视为一组独立的图像,因此无法利用视频的时间连续性。因此,它们的检测结果实际上并不令人满意。为了解决这个问题,ACT [10]采用堆叠策略来利用剪辑的短期时间连续性11988水平检测,并显着提高时空动作检测的性能。然而,ACT仍然不能提取长期的时间上下文信息,这是至关重要的许多动作实例的检测,如此外,由于动作检测中的两个独立阶段,ACT无法彻底解决由模糊样本引起的时间误差,如图1中的红框所示。本文将模糊样本定义为根据ACT探测器的误差分析,总误差的35%-40%[10]是时间误差,这主要是由过渡状态引起的。因此,为了进一步提高时空动作检测的性能,提取视频序列中的长期上下文信息并区分上述观察激发了这项工作。特别是,我们提出了一个Transition-Aware上下文网络(TAC- Net),以提高时空行为检测的性能。所提出的TACNet包括两个主要部分,即,时间上下文检测器和转换感知分类器。时间上下文检测器基于标准SSD框架设计,但可以通过嵌入多个多尺度双向Conv-LSTM [11]单元来编码据我们所知,这是第一个将Conv-LSTM与SSD相结合来构建用于动作检测的递归检测器的工作。转换感知分类器可以通过对动作和动作状态的同时分类来区分转换状态。更重要的是,我们进一步提出了一个共同的和差分模式的计划,以加速收敛的TACNet。因此,建议TACNet不仅可以提取长期的时间上下文信息,但也区分过渡状态。我们在UCF 101 -24 [21]和J-HMDB [9]数据集上测试了所提出的TACNet,并在两个数据集上的帧级和视频级指标方面都取得了显着的改进。总的来说,我们做出了以下三点贡献:• 提出了一种时间上下文检测器,以恒定的时间复杂度有效地提取• 我们设计了一个具有过渡感知的分类器,它可以区分过渡状态,减少时空动作检测的时间误差;• 我们在UCF-24数据集的未修剪视频中广泛评估了我们的TACNet,并实现了最先进的性能。2. 相关工作时空动作检测方法一般可以分为两类:弱监督和全监督方法.虽然本文主要集中在全监督方法上,但近年来弱监督方法也取得了这些方法的目的是检测动作,只有视频级标签,但没有帧级边界框注释。这些方法可以显著降低标注成本,更适合于处理大规模的未标注视频数据。多实例学习是弱监督时空动作检测的常用方法之一。在[20]中,Siva等人将弱监督动作检测转换为MIL问题。它们全局优化类间和类内距离以定位感兴趣的动作。然后在[6]中提出了多重MIL方案,以防止训练过早锁定错误的对象检测。最近,深度模型和注意力机制也被用于基于深度模型的弱监督方法中[18,11]中的方法应用注意力机制来聚焦于用于动作检测的关键卷。此外,Mettes等人。 [14,13]提出应用点注释来执行动作检测。与弱监督方法相比,完全监督方法可以利用边界框级别的注释来实现时空行为检测的显着性能。许多方法被提出来构造作用管。 Gkioxari等人[5]首次提出将链接算法应用于帧级检测以生成动作管。Peng等人 [15]通过在多个帧上叠加光流来改进帧级动作检测,并提出了用于时间检测的最大子阵列方法。 Weinzaepfel等人[22]通过使用检测跟踪方法改进了链接算法。Singh等人。 [19]设计了在线算法来增量生成用于实时动作检测的动作管。然而,这些方法没有探索动作的时间信息,性能仍然不令人满意。为了对时间信息进行编码,Saha et al. [16] Hou et al. [8]将经典的区域建议网络(RPN)扩展到3D RPN,其生成由多个连续视频帧跨越的3D区域建议。Becattini等人 [1]采用LSTM来预测动作进度。Zhu等人。 [25]提出了一个双流回归网络来生成时间建议。相比之下,Kalogeiton等人 [10]通过SSD检测器堆叠多个连续帧的特征图,以预测锚长方体上的得分因此,本文使用ACT [10]作为基线来比较和评估TACNet的动作检测性能。3. 迁移感知上下文网络3.1. TACNet框架图2说明技援网的总体框架,主要由两部分组成,即:双流TEM-11989图2.拟议的技援网的总体框架。TACNet主要包含两个模块:时间上下文检测器和转换感知分类器。在时间上下文检测器中,我们在标准SSD检测器[12]中嵌入了几个多尺度Conv-LSTM [11]单元来提取时间上下文。在递归动作检测器的基础上,设计了一个能同时检测动作类别和状态的转换感知分类器。然后,我们可以正确地定位目标动作的时间边界。poral context detection 和 transition aware classificationregression.虽然该框架类似于大多数以前的方法,特别是ACT检测器,时间上下文检测器和过渡感知分类器分别提出了显着提高提取长期时间上下文信息和区分过渡状态的能力。对于时间上下文检测器,我们采用两流SSD来构造动作检测器。此外,为了提取长期的时间上下文信息,我们将几个双向Conv-LSTM(Bi-ConvLSTM)[11]单元嵌入到不同尺度的不同特征图中。双向Conv-LSTM架构可以保持特征图的空间布局,有利于进行空间定位。在过渡感知分类器中,为了区分过渡状态,我们提出了两个分支来同时对动作和动作状态进行此外,我们进一步设计了一个共模和差模方案,灵感来自信号处理领域的基本概念[2],以加速整个TACNet的收敛。与回归模型相结合,过渡感知分类器可以在空间上检测动作的同时预测时间边界。此外,所提出的方法可以嵌入到各种检测框架中,由于其有效性和效率,这项工作是基于SSD的3.2. 时间上下文检测器长期的时间上下文信息是时空动作检测的关键。标准的SSD在空间层次上从具有不同尺度的多个特征图执 行 动 作 检 测 为 了 提 取 时 间 上 下 文 , 我 们 将 Bi-ConvLSTM单元嵌入到SSD框架中,设计了一个递归检测器。作为LSTM的一种,ConvLSTM不仅可以对长时间信息进行编码,而且更适合于处理视频等时空数据。因为ConvLSTM单元可以通过用卷积运算替换LSTM单元中的全连接乘法运算来因此,在我们的框架中使用ConvLSTM单元来提取长期时间信息是合理的。特别地,我们在SSD中的相邻尺度的每两层之间嵌入一个Bi-ConvLSTM单元,以构建所提出的时间上下文检测器,如图2所示。该模块考虑了前向和后向两个方向的输入序列,在这两个方向上采用了一对时间对称的ConvLSTM。Bi-ConvLSTM可以为帧中的每个尺度提取一对特征。 这些要素串联在一起并通过1×1卷积层进行变换以消除信道的冗余。 通过这种方式,亲-提出的时间上下文检测器可以利用SSD的优点,并提取 长 期 的 时 间 上 下 文 信 息 。 此 外 , 我 们 还 对 Bi-ConvLSTM单元做了两处修改:(i)将激活函数tanh替换为ReLU,根据实验结果可以略微提高性能;(ii)我们在输入和隐藏状态之间应用2D dropout以避免过拟合。与ACT相比,我们的方法在计算成本方面也是有效的。ACT应用步长为1的滑动窗口,并将n个堆叠帧作为输 入用 于处 理每 个帧 。因此 ,计 算复 杂度 为O(n)。相反,我们不断地处理每个帧两次。因此,假设n是堆叠帧的数量,ACT和所提出的时间上下文检测器的计算成本分别为O(n)和O(1)。我们可以发现,计算成本差距随着n的增长而增加,特别是当n很大时,119900我我我我i i ij考虑到长期的时间信息。3.3. 转换感知分类器过渡状态下的建议与目标动作有相似的外观,很容易混淆检测器。大多数现有的方法不提供对这些建议的明确定义,而是依赖于后处理算法来修剪它们或简单地将它们视为背景。然而,由于这些建议与背景有很大不同(例如,场景和其它对象),将它们视为背景会扩大类内方差并限制检测性能。在本文中,我们提出了一个过渡感知分类器,同时执行动作类别分类和过渡状态的预测。为了同时预测动作类别和动作状态,我们首先定义了一对分数,即。c+=[c+,c+,.,c+]和c−=[c−,c−,...,c−],其中K是图3. transition-aware分类器的示意图。我们提出了一个共模和差模方案,将相互耦合的特征解耦为两个分支,分别预测动作类别和动作状态。状态(图3中的下部分支)。 我们制定了decou-01K12K承诺目标如下:类别的数量和c+是背景的分数。分数c+和c-分别表示动作分类我们pi=0ec++c−+−,i∈[0,K](3)C+C应该注意的是,过渡状态的分数没有背景类别。在转换感知分类器中,我们应用j∈[0,K]ej jec+−c−两个分类器来预测这两个分数,如图所示。我我ti=+−,n∈ [1,K].(四)ure 3.根据这些定义,我们制定了目标行动和过渡状态的培训目标如下:对于类别i的活动样本,训练目标应满足等式一曰:c+>c−andc+>c+,nj/=i(1)其中i,j ∈ [1,2,3. . . ,K]。而对于第一类的过渡样本,目标应符合Eq. 第二章:c+ c++时,样本,但他们的相应i0transition感知分类器仍然输出c+和c-,但不同的是,我们使用c++c-来预测动作类别(图3中的上分支),使用c+−c-来预测动作响应帧没有地面实况注释。这些过渡状态样本被进一步应用于训练TAC- Net。11991y0yVJ我我我NN我们采用与SSD相同的损失函数进行回归Lreg。此外,我们基于等式5所示的分类得分p和动作状态得分t引入分类损失Lcls和过渡损失Ltranss表1. J-HMDB的性能比较LclsΣΣ=−logpj−logpj,j∈PΣj∈G\PΣ。ΣLtranss=−j∈Plogtj− log 1−tj,j∈T(五)1TCD:时间上下文检测器;2TS:双流;vj=a r gma x(pj),T={j|VJi∈[1,K]>0,j∈U\G},3MR:微管细化。修剪到行动。因此,我们只使用它来评估其中U和G是指所有可用锚点的集合,具有groundtruth注释的图像中的锚点关于ively,pj是具有类别i的第j个锚点的预测概率,并且ti是具有预测类别i的第j个过渡锚点的概率。我们用组合损失优化了建议的TACNet:1 1L=(Lcls+Lreg)+Ltranss,(6)p t其中Np和Nt分别表示正样本P和过渡样本T的数量。我们以端到端的方式训练网络的实验表明,该方法可以同时优化分类分支和变迁分支.在推理阶段,TACNet以视频片段作为输入,输出三项:空间检测框、分类分数和动作状态分数。为了构建时空动作管,我们首先使用类别得分对帧级检测应用贪婪算法[19]以构建候选管。其次,我们应用动作状态预测来执行时间检测。在实验中,我们发现动作状态分数是不连续的,因此应用分水岭分割算法[24]来修剪用于时间检测的候选管。此外,受ACT [10]的启发,我们引入了一个微管细化(MR)过程,该过程在相邻帧的相同空间位置为提案每个框的分数被设置为类别分数和动作状态分数的乘积。4. 实验4.1. 实验装置我们在两个数据集上评估TACNet:UCF 101 -24 [21]和J-HMDB [9]。UCF 101 -24数据集包含24个类别的3207个视频。大约25%的视频是未经修剪的。J-HMDB数据集包含21个类的928个视频,33183帧此数据集中的视频包括提出的TACNet的空间检测我们应用frame-mAP和video-mAP[5]的度量分别在帧级和视频级评估TACNet。frame-mAP和video-mAP分别测量每个帧和动作管的检测的精确度-召回率曲线因此,帧-mAP衡量的分类和空间检测的能力,视频mAP还可以评估时间检测的性能。当其与地面实况盒/管的重叠超过特定阈值时,预测是正确的,并且预测的类别是正确的。在本文中,我们采用恒定的IoU阈值(0.5)来评估帧mAP和可变IoU阈值(即0.2,0.5,0.75和0.5:0.95)来评估视频mAP。我们在TACNet中提供了一些实现细节,如下所示。输入帧的大小调整为300x300。为了训练和推断,剪辑大小L被设置为16。流动图像S的数量被设置为每帧5个。2D丢失的概率在训练阶段,我们将32个剪辑堆叠为一个小批量,并应用颜色抖动,裁剪,重新缩放和水平翻转的数据增强。我们使用硬否定挖掘策略,即只保留相同数量的肯定的最硬在前面的工作之后,我们将训练外观流与运动流分开。为了训练外观分支,我们将初始学习的学习率设置为我们在训练阶段采用了学习率为0.001的预热方案[7]。为了训练运动分支,我们将外观分支的参数作为初始参数,并将初始学习率设置为0.001.此外,我们微调融合网络,使其具有0.0001的一致学习率。此外,我们优化TACNet随机梯度下降(SGD)的动量为0.9。在推理阶段,微管框架的数量被设置为8,用于微管细化过程。4.2. 时间上下文检测器分析我们进行了几个实验来评估所提出的时间上下文检测器的有效性,方法Frame-mAPVideo-mAP0.20.50.750.5:0.95SSD49.560.960.141.533.8中药1号54.165.064.545.335.1TS2 +SSD56.470.970.348.342.2TS+TCD61.574.173.452.544.8TS+TCD+MR365.574.173.452.544.811992表2. UCF 101 -24的性能比较方法F-mapVideo-mAP0.20.50.750.5:0.95SSD65.369.139.316.318.4TCD67.572.245.017.419.4TS+SSD66.574.347.519.221.0TS+TCD68.777.350.620.923.0TS+TCD+BG168.377.048.920.822.4TS+SSD+TAC267.174.549.020.121.8TS+TCD+TAC69.777.552.921.824.1TS+TCD+TAC+MR72.177.552.921.824.11BG:该方法简单地将过渡状态作为背景,可以视为硬采矿方法;2TAC:转换感知分类器;在J-HMDB和UCF 101 -24数据集上进行不同的配置。我们在表1 - 2中报告了帧级和视频级性能。从结果中,我们可以发现,时间上下文检测器显着优于标准SSD上的两个数据集。在J-HMDB数据集上,本文提出的双流结构的时间上下文检测器在帧mAP和视频mAP(IoU阈值为0.5)方面分别获得了5.1%和3.1%的改进。对UCF 101 -24的改进率分别为2.2%和3.1%这些结果清楚地表明,时间上下文信息可以有效地提高性能。4.3. 迁移感知分类器我们进行了几个实验来评估未修剪的UCF 101 -24数据集上的过渡感知分类器。我们在表2中报告了不同配置的实验结果,在表4中报告了未修剪类别的每类性能。我们在图4中展示了一些对transition-aware分类器的可视化分析。在表2中,改进的结果证明了它的有效性,所提出的过渡感知分类器与不同的设置。应该注意的是,硬挖掘方法(表中的“BG”)会导致轻微的性能下降,这意味着简单地将过渡状态视为背景是不合理的。相比之下,转变感知分类器在两个度量方面都实现了显著的改进。特别是,当IoU为0.5时,它在视频mAP方面将性能提高因此,结果可以清楚地表明,定义过渡状态是至关重要的,所提出的过渡感知分类器可以很好地区分这些状态。在表4中,我们可以发现transition-aware分类器可以在未修剪的视频中获得明显的改善。特别是,我们在视频mAP方面分别比没有过渡感知分类器和ACT的基线高出1.7%和7.8%。过渡感知分类器在时间方面实现了8%的改进仅考虑时间IoU时的检测(表中的因此,这些结果证明了过渡感知分类器用于时间范围检测的能力。在图4中,我们以“Volleyball”动作实例为例,直观地展示了transition-aware分类器性能提高的原因。我们可以发现,仅仅考虑分类分数很难区分过渡状态。然而,动作状态分数可以帮助在时间上很好地修剪动作。更多结果见图5。在图5中,我们可以发现所提出的分类器还可以区分多个实例的动作状态。表4. UCF 101 -24上未修剪类别的每类性能。类别Frame-mAPVideo-mAP时空1时间2TW3至4TW到法TW到篮球44.034.85.50.30.025.89.3扣篮57.153.018.95.31.288.276.6悬崖跳水74.974.442.94539.984.484.4板球39.742.43.60.91.125.514.0潜水85.982.352.143.226.184.784.7高尔夫挥杆58.955.865.949.551.070.470.4跳远58.659.050.946.271.168.066.2PoleVault64.063.857.260.744.677.477.4TennisSwing46.440.22.20.10.59.68.0排球50.644.113.40.90.048.812.0平均AP58.055.031.325.223.558.350.31时空:根据标准视频-mAP评估性能;2时间性的:只考虑时间性的IoU而不考虑空间性的IoU,重新评估性能3Tw:使用过渡件分类器的结果;4To:没有transition-aware分类器的结果。表5.不同检测器和基础模型在无微管细化的UCF 101 -24数据集上的性能。方法模型Frame-mAPVideo-mAP0.20.50.750.5:0.95SSDVGG1669.777.552.921.824.1DSSDVGG1670.177.553.022.124.5SSDResNet5072.078.954.423.024.8DSSDResNet5074.679.254.623.325.44.4. 关于高级骨干的探讨在本节中,我们将使用我们的方法探索不同的检测器和模型。我们分别用Deconvlution-SSD [3]和Resnet-50替换检测器和基础模型,结果如表5所示。所有模型都在ImageNet上进行了预训练。两个流,时间上下文检测器和过渡感知分类器也被应用。119931CAFA0.5CLSGT0图4.以“篮球投球”动作为例,对转换感知分类器进行可视化分析顶行:检测框及其相应的动作状态分数;底行:具有不同预测的程序,包括粗略动作状态分数(CA)、精细动作状态分数(FA)、分类分数(CLS),并与地面实况(GT)进行比较 基于这些预测,我们暂时修剪FA得分大于0的检测。5,而其他被视为过渡样本。表3.与J-HMDB(修整)和UCF 101(未修整)的最新技术水平比较方法J-HMDBUCF101-24(Full)1UCF 101 -24(未修剪)1F-mapVideo-mAPF-mapVideo-mAPF-mapVideo-mAP0.20.50.750.5:0.950.20.50.750.5:0.950.5萨哈[17]-72.671.543.340.04-66.735.97.914.4--彭[15]58.574.373.1--65.773.532.12.77.3--辛格[19]-73.872.044.541.6-73.546.315.020.4--侯[8]61.378.476.9--41.447.1-----贝卡蒂尼[1]------67.035.7----[10]第10话65.774.273.752.144.869.576.549.219.723.452.123.5我们65.574.173.452.544.872.177.552.921.824.158.031.31UCF 101 -24是一个由未修剪类别和修剪类别组成的混合数据集,因此我们在两个标准中评估我们的方法,以充分说明未修剪视频的性能增益。重复我们可以发现,采用先进的模型可以进一步提高绩效。4.5. 与最新技术我们将TACNet与最先进的方法在帧mAP和视频mAP方面进行了比较,结果如表3所示。从结果中,我们看到,在时间上未修剪的UCF 101 -24数据集上,TAC- Net在两个度量方面都优于所有这些以前的方法。 特别是,当IoU阈值为0.5时,我们在视频级别方面超过了ACT,ACT是当前最先进的,超过了3.7%。在修剪的J-HMDB数据集上,ACT和T-CNN分别在帧mAP和视频mAP方面优于TACNet。我们认为有两个原因:(i)这两种方法直接生成适合于裁剪数据集的动作管;(ii)J-HMDB数据集相对简单,特别是对于本地化,因为每个帧中只有一个实例。然而,对于动作检测,video-mAP在空间和时间域上都比frame-mAP更适合评估性能,并且在video-mAP方面,TACNet获得了与ACT竞争的性能。在更具挑战性的未经修剪的UCF 101 -24数据集,我们可以发现TACNet的性能明显优于T-CNN和ACT。当IoU为0.5时,它甚至在帧mAP和视频mAP因此,TACNet的优越性能证明了长期时间上下文信息和过渡状态检测的重要性。5. 结论本文旨在提高动作检测的性能。特别是,我们发现提取长期的时间上下文信息和区分过渡状态是至关重要的。基于这些观察,我们提出了一个TACNet,它由一个时间上下文检测器和一个transitional-aware分类器。从实验结果来看,TACNet可以显著提高性能,并在具有挑战性的未修剪数据集上超越最先进的技术。TACNet的性能改进来自于时间检测和过渡感知方法。在今后的工作中,我们将继续探索如何进一步提高时态11994图5.拟议的技援网在四个国家的预测结果:(a)背景(无框),(b)过渡状态(蓝框),(c)活动状态(绿框)和(d)地面实况(黄框)。通过考虑行为者与其周围的人或物体之间的关系来进行检测。6. 确认本研究得到了国家重点科技攻关项目(2005年第10期)的资助。2017YFA0700800)。引用[1] F. 贝卡蒂尼,T.乌里奇奥,L.巴兰,L.Seidenari,以及A.德尔·宾博我说完了吗预测视频中的动作进度。arXiv预印本arXiv:1705.01781,2017。[2] D. E. Bockelman和W. R.艾森斯塔特组合的偏振和共模散射参数:理论和模拟。IEEE微波理论与技术汇刊,43(7):1530[3] C.- Y.傅,W. Liu,中国粘蝇A. Ranga、黑腹拟步行虫A.Tyagi和A. C.伯格。DSSD:Deconvolutional Single ShotDetector。arXiv预印本arXiv:1701.06659,2017。[4] R.娘娘腔。快速R-CNN。在ICCV,第1440-1448页[5] G. Gkioxari和J.马利克找活动管。在CVPR,第759-768页[6] R. Gokberk Cinbis,J. Verbeek和C.施密特弱监督目标定位的多重mil训练。在CVPR,第2409-2416页[7] P.戈雅,P.娃娃啊,R.女孩P.诺德豪斯,L. Wesolowski,A. Kyrola,A. Tulloch,Y. Jia和K.他外准确的大小批量sgd:1小时内训练imagenet arXiv预印本arXiv:1706.02677,2017。[8] R.侯角,澳-地Chen和M. Shah.用于视频动作检测的管状卷积神经网络。InICCV,2017.[9] H. Jhuang,J. Gall,S.祖菲角Schmid和M. J.布莱克。对动作识别的理解。在ICCV,第3192-3199页[10] V. Kalogeiton,P. Weinzaepfel,V. Ferrari和C.施密特用于空间-时间动作定位的动作小管检测器。InICCV,2017.[11] Z. Li,K. Gavrilyuk,E. Gavves,M. Jain和C. G.斯诺克Videolstm卷积、参与和流动以进行动作识别。计算机视觉和图像理解,166:41[12] W. Liu,L.安格洛夫,D。埃尔汉角塞格迪,S。里德角,澳-地Y. Fu和A. C.伯格。Ssd:单发多盒探测器。在ECCV中,第21-37页。施普林格,2016年。[13] P. Mettes,C. G. Snoek和S.- F.昌从视频标签和伪注释本地化动作。arXiv预印本arXiv:1707.09143,2017。[14] P. Mettes,J. C. van Gemert和C. G.斯诺克现场:从点监督的建议行动本地化。在11995ECCV,第437-453页。施普林格,2016年。[15] X. Peng和C.施密特用于动作检测的多区域双流r-cnn。在ECCV,第744-759页[16] S. Saha,G. Singh和F.库佐林Amtnet:通过端到端可训练的深度架构实现的微管道回归。ICCV,2017年10月2日。[17] S. Saha,G.辛格,M。萨皮恩扎山口H. Torr和F.库佐林深度学习用于检测视频中的多个时空动作arXiv预印本arXiv:1608.01529,2016。[18] S.夏尔马河,巴西-地Kiros,和R.萨拉赫季诺夫使用视觉注意力的动作识别arXiv预印本arXiv:1511.04119,2015。[19] G.辛格,S。萨哈,M。萨皮恩扎山口Torr和F.库佐林在线实时多时空动作定位和预测。在CVPR中,第3637-3646页[20] P. Siva和T.翔弱监督动作检测。在BMVC,第2卷,第6页,2011年。[21] K. Soomro、A. R. Zamir和M. Shah. Ucf101:来自野外视频的101个人类动作类的数据集。arXiv预印本arXiv:1212.0402,2012。[22] P. Weinzaepfel,Z. Harchaoui和C.施密特学习跟踪时空动作定位。在ICCV,第3164-3172页[23] G. Yu和J.Yuan。快速行动的建议,人类行动检测和搜索。在CVPR,第1302-1311页[24] Y. Zhao,Y.熊湖,加-地Wang, Z. Wu,X. Tang和D.是林书结构化分段网络的时间动作检测InICCV,volume8,2017.[25] H.朱河,巴西-地Vial和S.陆Tornado:一个用于视频动作建议的时空卷积回归网络。在CVPR中,第5813-5821页
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- C++标准程序库:权威指南
- Java解惑:奇数判断误区与改进方法
- C++编程必读:20种设计模式详解与实战
- LM3S8962微控制器数据手册
- 51单片机C语言实战教程:从入门到精通
- Spring3.0权威指南:JavaEE6实战
- Win32多线程程序设计详解
- Lucene2.9.1开发全攻略:从环境配置到索引创建
- 内存虚拟硬盘技术:提升电脑速度的秘密武器
- Java操作数据库:保存与显示图片到数据库及页面
- ISO14001:2004环境管理体系要求详解
- ShopExV4.8二次开发详解
- 企业形象与产品推广一站式网站建设技术方案揭秘
- Shopex二次开发:触发器与控制器重定向技术详解
- FPGA开发实战指南:创新设计与进阶技巧
- ShopExV4.8二次开发入门:解决升级问题与功能扩展
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功