未修剪视频中的动作开始在线检测方法-StartNet

55 浏览量更新于2023-10-12 收藏 768KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

5542StartNet：在线检测未修剪视频中的动作开始Mingfei Gao1 *Mingze Xu2Larry S.戴维斯1 理查德·索彻3蔡明雄3†1马里兰大学2印第安纳大学3Salesforce Research{mgao，lsd}@ umiacs.umd.edu，mx6@indiana.edu，{rsocher，cxiong}@ salesforce.com摘要我们建议 StartNet 解决在线检测的行动开始（ODAS）的行动开始和他们的相关类别中检测到未修剪，流媒体视频。先前的方法旨在通过学习可以直接将起始点与其先前背景分离的特征表示来定位动作开始。由于动作开始附近的细微外观差异和缺乏训练数据，这是具有挑战性的。相反，StartNet将ODAS分解为两个阶段：动作分类（使用ClsNet）和起点定位（使用LocNet）。ClsNet专注于每帧标记并预测动作得分分布，(a) 先前方法(b) StartNet动作分值看不见作用开始没有开始Online.基于过去和当前帧的预测动作得分，LocNet通过使用策略梯度方法优化长期定位奖励来进行类不可知的开始检测该框架在两个大型数据集THUMOS'14和ActivityNet上进行了验证。实验结果表明，StartNet的性能明显优于现有技术的15%-30%在THU上1-10MOS1. 介绍未修剪视频中的时间动作定位（TAL）已在离线设置中得到广泛研究，其中动作的开始和结束时间在完全观察到动作后被识别[4，7，8，13，32，42]。随着需要实时识别动作的新兴应用，针对自动驾驶、监控系统和协作机器人，已经提出了在线动作检测（OAD）方法[9，12，31，41它们通常将TAL问题作为每帧类标记任务。然而，在一些时间敏感的场景中，及时地检测到准确的动作开始比成功地检测到包含动作的每个帧更重要。·作者在Salesforce Research实习时所做的工作†通讯作者。图1. （a）以前的方法[31]和(b)建议的框架。[31]的目的是生成一个动作得分序列，该序列在动作开始时立即产生背景的低得分和正确动作的高我们提出一个两阶段框架：第一阶段仅关注每帧动作分类，并且第二阶段学习在给定由第一阶段生成的动作分数的历史趋势的情况下定位起始点。例如，自动驾驶汽车需要在“行人穿越”发生时第一时间检测到其开始，以避免碰撞;监视系统应该在危险事件一开始就产生警报。提出了在线检测动作开始（ODAS）来专门解决这个问题[31]。ODAS不是对每一帧进行分类，而是尽快检测动作开始的发生和类别因此，它解决了两个子任务：（i）如果动作在时间t开始，以及（ii）其相关联的动作类别。现有方法[31]通过训练能够定位不同动作类的开始的分类网络来网络试图使起始点的表示接近其关联的动作类的表示，而远离其先前的背景。如图在图1（a）中，鼓励网络在动作开始时立即做出反应。然而，由于起始点附近细微的外观差异和缺乏标记训练，数据（一个动作只包含一个起始点）。我们的方法受到三个关键见解的启发。第一，去-作不动作分类不起点定位没有没有没有没有没有否是没5543适当地组合复杂任务允许子模块专注于它们自己的子任务，并且使得学习过程更容易。一个很好的例子是两阶段对象检测框架的成功[15，16，29]。其次，如[16]中所述，当训练数据稀缺时，从在辅助任务上预先训练的表示学习可能会导致显着的性能提升。第三，OAD（每帧标记）与ODAS非常相关。与动作开始的标记数据稀缺相比，每帧动作标记的数量因此，如果我们利用每帧标记任务，可能会有潜在的好处。而不是专注于学习细微的差异附近的起点，我们提出了一个替代框架，即。start- Net，并分两个阶段处理ODAS：分类（使用ClsNet）和定位（使用LocNet）。ClsNet基于输入视频的时空特征聚合进行每帧标记作为辅助任务基于分数分布的历史趋势，LocNet预测每个时间的类别不可知的开始概率（参见图1（b））。最后，对两个模块的输出进行后期融合以生成最终结果。在设计LocNet时，我们考虑了动作开始之间的隐式时间约束-两个开始点不太可能靠近。为了在在线设置下将时间约束强加到框架中，考虑了历史决策以用于以后的预测。为了优化启动检测的长期奖励，LocNet使用强化学习技术进行训练。所提出的框架及其变体在THUMOS'14 [ 21 ]和ActivityNet [ 11 ]上进行了验证实验结果表明，在偏移量为1-10%的情况下，我们的方法明显优于现有技术的10%-30%p-mAP秒THUMOS'14，并实现了可比的在ActivityNet上的时间偏移小102. 相关工作时间动作检测。关于时间动作检测的大多数现有方法[4，7，8，13，32，42这些方法从长的、未修剪的视频中分割动作，并且在做出决定之前需要观察整个视频。S-CNN [32]将行动分为三个阶段：行动建议生成、建议分类和建议回归。Dai等人[8]建议的TCN，其中包含每个提案的本地背景，以进行提案排名。通过在建议生成和分类之间共享特征，R-C3 D [40]显著降低了计算成本。Buch等人[4]提出一个有效的提案生成模型，避免在重叠区域上工作。Shouet al.[30]建议CDC网络使用3D卷积网络产生每帧在线操作检测。在线动作检测通常作为实时流视频上的每帧标记任务[9]来解决。视频帧一到达，就被分类到动作类或背景，而不访问未来的帧。De Geest等人[9]首先介绍了这个问题，并提出了几个模型作为基线。Gao等人[12]提出了一种增强的Encoder-Decoder网络，并将在线动作检测作为其框架的特殊情况。时间递归网络[41]通过联合进行当前和未来的动作检测来设置新的最先进的性能。都指向了相同的目标在线每帧标记，这些方法可以作为ClsNet在我们的框架。早期行动检测。早期动作检测器仅在处理一小部分视频后检测动作。检测器越早识别动作，它的性能就越好Hoai等人[18]通过提出具有结构化SVM的最大余量框架来解决这个问题。然而，这种方法适用于简单的场景，例如，一个视频仅包含一个动作。Ma等人[26]设计一个用于训练的排名损失，假设当模型观察到更多的活动时，正确和不正确动作之间的预测分数的差距动作启动在线检测（ODAS）。与早期动作检测一样，ODAS也旨在尽快识别动作。具体来说，它专注于检测动作开始，并试图最大限度地减少识别动作开始点的时间延迟据我们所知，[31]是第一个也是唯一一个旨在解决ODAS的工作他们通过鼓励分类网络学习一种表示来解决这个问题，这种表示可以将动作开始与其先前的背景分开。为了实现该目标，它们迫使动作开始窗口的学习表示与下面的动作窗口的学习表示相似，并且与前面的背景的学习表示不同。使用RL进行顺序搜索。强化学习（RL）在顺序搜索问题中很受欢迎，因为它允许模型针对长期奖励进行优化。Caicedo等人[5]提出了一个基于深度Q学习的框架[28]，迭代地变换初始边界框，直到它落在对象上。Huang等人.提出了一种自适应模型[20]，它连续调整动作检测的时间定位窗口的边界。为了加快大图像上的目标检测，Gao等人。[14]使用深度Q学习设计一个从粗到精的框架，仅当它是必要的。Wu等[38]提出BlockDrop，它使用策略梯度[35]进行训练，并通过丢弃ResNets的不必要块来提高计算效率[17]。AdaFrame[39]还使用策略梯度进行了优化，以通过跳过输入帧来减少LSTM的计算我们的方法在使用方面与上述方法相关5544不CLS不不不不洛克特类似的 RL 技术，但我们的贡献主要是 formulatingODAS作为一个两阶段的框架和起点检测作为一个长期的选择过程。3. 行动启动检测网络（StartNet）ODAS系统的输入是未经修剪的流式视频帧{I1，I2，…I t}。系统按顺序处理每个视频帧，并检测每个动作实例的开始在时间步t，它输出一个概率分布，作为k，它表示动作类k的开始概率，而不访问任何未来信息。所提出的框架的概述在图2中示出。该框架包含两个子网络，即分类网络（ ClsNet ）和定位网络（LocNet）。ClsNet专注于每帧类标签。它以原始视频帧作为输入，并以在线方式输出每个时间步长的动作类概率ClsNet有两个目的。首先，它学习更简单但有用的表示，用于本地化动作开始。其次，分类结果可以稍后与定位结果组合以产生每个类的动作开始。LocNet将ClsNet的输出与历史决策向量一起作为输入。在每个时间步，它输出一个二维概率分布，指示该帧包含动作开始的历史决策向量记录其在前n个步骤中的预测，以便对历史决策对后续决策的影响进行建模。最后，将两个网络的结果进行融合以构造最终输出。3.1. 分类网络（ClsNet）受最近的在线动作检测方法[9，12，41]的启发，我们利用递归网络，特别是LSTM [19]来构建ClsNet。在每个时间t，它使用先前的隐藏-den状态h（cls）、单元格c（cls）和提取的特征ft当前帧的空间信息，而不考虑动作的时间模式。基于由16个连续视频组成的每个时间段的C3D标签帧，从It−15到It。它捕捉空间和节奏-联合使用3D卷积运算的真实信息比较和解释将在第二节中讨论。4.第一章3.2. 本地化网络（LocNet）如第1，历史动作分数可以提供识别动作开始的有用线索在时间t处，Loc- Net观察从ClsNet获得的每个帧的类上的动作分数分布，并且输出指示开始和非开始概率分布的二维向量。开始概率按顺序生成。一般来说，如果动作在时间步t开始，则在给定合理的每秒帧数（FPS）的情况下，另一动作也在时间t+1开始的概率很低。因此，在附近的起始点之间存在隐式时间约束。到为了使模型能够考虑决策之间的约束，我们记录LocNet做出的历史决策，并使用历史来影响以后的决策。为了实现长期决策规划，我们将问题表述为马尔可夫决策过程（MDP），并使用强化学习来优化我们的模型。当做出决策1时，模型不仅考虑当前步骤的决策的效果，而且还考虑它将如何通过最大化预期的长期回报来影响后面的决策。在下文中，我们首先讨论LocNet的推理阶段，然后详细讨论训练阶段。推理阶段。LocNet基于LSTM结构构建。它作为一个代理人，与历史行动分数反复相互作用在测试过程中，在每个状态下，智能体做出决策（预测开始概率），产生最大预期长期奖励，并更新状态ac。t−1t−1根据决定。之间的依赖关系建模从当前视频帧It中提取作为输入的视频帧I t，以更新其隐藏状态H（CLS）和单元C（CLS）。那么可能性就...决策，我们将历史决策（代理在先前步骤中做出的决策）的记录作为一部分在所有动作类上的分配可以在等式中获得1、cls）p =softmax（WTh（+ b），（1）国家。状态更新过程描述于等式（1）中。2和3，其中Ht−1=st−n ： t−1表示从步骤t−n到t−1的历史决策，[pt，Ht−1]表示连续决策。向量的连接。在开始时，H被初始化其中pt是K维向量，K表示包括背景在内的动作类的数量。都是零（同上）（loc）（同上）（loc）为了学习ClsNet，需要每个帧的动作类标签。交叉熵损失Lcls（Wc）用于训练期间的优化，其中Wc表示ClsNet的参数集。我们观察到，ClsNet可以实现不同的体系结构。因此，我们使用两个额外的结构作为ClsNet的主干来验证我们的框架，即，CNN和C3D [36]。CNN仅基于到达帧It进行动作分类。它侧重于ht，ct= LSTM（ht−1，ct−1，[pt，Ht−1]）。（二）st=softmax（WTh（loc）+b）。（三）培训阶段。我们训练一个代理，它根据环境的状态进行最佳操作。目标是通过改变预测的开始概率来最1术语5545不2不−1tt=0ClsNet（李伟杰）��- ��LSTM动作标签行动评分分布联系我们联系我们LocNet（��- �� LSTM��-��最新动态政策^~ （， .（掌声）奖励融合作用开始图2.我们的方法分两个阶段使用ClsNet和LocNet。ClsNet：在时间t，特征ft由深度卷积网络提取并输入到一层LSTM; LSTM在每个时间步生成动作分数分布，ClsNet通过动作标签和生成的动作分数之间的交叉熵损失进行优化。LocNet：在动作得分生成后，它与历史决策向量H一起输入到第二个单层LSTM，LSTM作为代理依次生成二维开始概率;H被更新，状态相应地改变;使用策略梯度机制来训练代理，以优化长启动本地化的长期奖励。最后，将ClsNet和LocNet的结果进行融合，以获得最终的动作开始检测结果。每一个时间步。在这里，ClsNet是用LSTM实现的CNN和C3D也可以用于构建ClsNet（参见第二节）。第3.1节）。分布：在给定的状态下，当决策引入较大的奖励时，开始概率应增大，否则开始概率应减小。启动预测过程被公式化为使用高斯分布定义的决策策略。在[27，39]之后，通过用di优化来训练策略，其中di从π（.|h(loc), p , Ht) = N (s , 0. 12），并且s表示优化.当优化Eq. 5、不可能直接使用误差反向传播来训练网络，因为目标是不可微的。[35]我们使用polic ygradient来计算J s的预期梯度，如等式中所示。其中Rt=iγ irt+i表示时间步长t处的长期保留值，并且Vt是基线值（gen-1）。由一个完全连接（FC）层，如图所示。（二）输出开始概率。奖励功能。给定状态下的每个决策都与即时奖励相关联，以衡量代理在当前时间做出的决策。为了达到目的-calizing起点，我们定义的即时奖励函数在方程。其中gt∈ {0，1}表示动作开始的真实标签，dt是采样的开始概率。奖励函数在有实际开始时鼓励高概率，在有实际开始时鼓励低概率。而不是给予负面的奖励。考虑到起始点和背景之间的样本不平衡，通过设置参数α来使用加权奖励。特别地，我们将α设置为每个数据集的负样本数与正样本数之间的比率r t= αg t d t−（1 − g t）d t。（四）长期报酬是未来报酬折现后的总和为了最大化预期的长期回报，通过最大化等式中的目标来训练策略其中，Ws表示网络的参数，并且γ是用于计算随时间的折扣回报的常数标量。它被广泛用于政策梯度框架，降低梯度的方差。策略梯度的原理是在给定状态下，最大化具有高回报的行动的概率。Σ∞WsJs=E [（Rt−Vt）<$Wslogπ（. |Ws)].（六）t=0根据[39]，我们使用当前状态下的预期长期回报作为基线值，并对其进行近似通过最小化l2损失：Lb（Wb）=1||Rt−Vt||二、的LocNet的训练过程在Alg. 1.一、LocNet的算法1初始化LocNet的参数Wsforiteration = 1：Ndo获得长度为T_loc对于t = 1：Tlocdo根据当前策略获取st示例决策：dt N（st，0. 第一章第二节）获得每个样品的rt和Vt端计算R1：Tloc，NWsJs和Lb（Wb）Js（Ws）=EΣ[γ irt +i]。（五）更新LocNet的参数Ws端dtπ（. |Ws) i=0…5546不不不如k=tt包括ClsNet中的损失项在内的完整目标如等式所示。其中λ1和λ2是常数标量。minL cls（Wc）+λ1L b（Wb）− λ2J s（Ws）。（七）晚期融合。ClsNet输出动作得分分布，LocNet在每个时间步产生类不可知的开始概率。然后，应用后期融合来获得每个动作类的开始概率，作为k，使用等式：其中上标1：K-1表示阳性类别，0表示背景。ActivityNet，我们使用p-mAP在深度Rec = 1处的1 - 10秒的偏移阈值下评估我们的方法。0的情况。基线。我们将我们的框架与最先进的方法进行比较，即 Shou 等人 [31] 和 [31] 中提出的两个基线，即SceneDetect和ShotDetect这些数字来自作者[31]。与Shou等人[31]的比较结果证明了StartNet的优越性能。SceneDetect和ShotDetect也是两阶段方法。类似于对象检测的两阶段框架，它们首先通过获得动作开始建议来进行定位，该动作开始建议由软绑定生成.sp1：K−1t（1−st）p0k=1：K−1k=0.（八）ary检测器，然后将它们分类到不同的类。通过与SceneDetect和ShotDetect的比较，验证了该分解设计的有效性.我们的框架动作开始生成。按照[31]，如果满足所有三个条件，则在线生成最终动作启动。fied：（i）c t=argmax（ask）是一个动作;（ii）c t/=ct−1且由策略梯度训练的由StartNet-PG表示。实作详细数据。在[12，31，41]之后，对短时间块Ct做出决策，其中It是其中心。cktral frame.提取Ct的外观特征（RGB）(iii)因为tt超过阈值。默认情况下，我们将此阈值设置为0由ClsNet生成的动作得分序列可以也可以在此过程之后在线生成动作开始点LocNet可以通过提升具有较高开始概率的时间点并抑制具有较低开始概率的时间点来局部调整开始点。4. 实验为了验证所提出的框架，我们在两个大规模动作识别数据集上进行了广泛的实验，THUMOS评估方案。为了进行公平的比较，我们使用[31]中提出的点级平均精度（p-AP）来评估我们的框架。在该协议下，每个动作开始预测与时间点相关联。对于每个动作类，所有帧的预测首先基于它们的置信度分数以降序排序，然后相应地测量。只有当动作开始预测与正确的动作类匹配并且其与地面实况点的时间距离小于偏移阈值（偏移容差）时，动作开始预测才被类似于片段级平均精度，对于相同的地面实况点不允许重复检测然后通过对所有动作类上的p-AP求平均来计算p-mAP。在[31]之后，我们使用两个基于p-AP的指标来评估我们在THUMOS'14上的框架。首先，我们在不同的偏移容差下使用p-AP，从1到10秒此外，我们采用度量AP深度重新-call（Rec）X%，其在查全率从0%到X%的情况下对查准率-查全率曲线上的p-AP求平均值。然后对不同偏移阈值下的p-mAP进行平均以获得f1。每个深度的最终平均p-mAP该指标特别用于评估排名靠前的预测，并衡量如果允许低召回率，系统可以实现的精度。为并且使用整个块作为输入来计算运动特征（光流）。在[12，41]之后，块大小固定为6，并且以24 FPS获得图像帧。两个相邻的块不重叠，因此，每秒有在[41]之后，对于ClsNet，我们将LSTM的隐藏状态的大小设置当使用CNN时，我们使用不同的CNN特征作为输入来微调FC层（请参见每个数据集的特征描述）。C3 D在Sports-1 M [23]上进行了预训练，并针对每个数据集上的每帧标记任务进行了微调。LocNet的隐藏状态被设置为128，并且每个训练序列的长度T_loc被固定为16。在[39]之后，方程中的γ。5固定为0。9 .第九条。历史决策向量的长度n被设置为8。λ1和λ2在等式中7固定为1。我们采用分类和本地化培训交替的策略：首先训练ClsNet并在之后固定，然后在预训练的ClsNet上训练LocNet。我们在PyTorch [3]中实现了这些模型，并将THUMOS'14的批量大小设置为32对于参数优化，我们使用Adam [24]学习率为5e-4，权重衰减为5e-4。4.1. THUMOS'14实验数据集。THUMOS它包含20个与运动有关的动作类。训练集中只有修剪过的视频，这使得它不适合训练ODAS方法。在[31]之后，我们使用验证集（包括200个未修剪的视频，3K动作实例）进行训练，并使用测试集（包括213个未修剪的视频，3.3K动作实例）进行测试。功能描述。在THUMOS的14个数据集上采用了两种类型的特征在[12，41]之后，我们提取外观（RGB）特征5547偏移（秒）12345678910基线SceneDetect [1]ShotDetect [2]Shou等人 [三十一]1.01.13.12.01.94.32.32.34.73.13.05.43.63.45.84.13.96.14.74.36.55.04.57.25.14.67.65.24.98.2C3D + LocNet6.88.09.410.110.610.910.911.111.211.2StartNet-PG美国有线电视新闻网[37]17.023.627.629.931.332.133.233.533.934.5LSTM[19]+LocNet19.527.230.833.936.537.538.338.839.539.8表1. 在深度Rec = 1处使用p-mAP进行比较。0在THUMOS结果在不同的偏移阈值下ClsNet是简单的-具有不同的结构，即，C3D、CNN和LSTM。CNN和LSTM正在使用TS功能。深度记录@0.1@0.2@0.3@0.4@0.5@0.6@0.7@0.8@0.9@1.0基线SceneDetect [1]ShotDetect [2]Shou等人 [三十一]30.026.342.718.315.927.312.211.319.89.18.614.97.26.811.86.15.810.05.24.98.54.64.37.44.03.86.63.63.45.9C3D + LocNet34.827.722.619.016.314.412.911.810.810.0StartNet-PG美国有线电视新闻网[37]71.864.758.052.447.243.339.535.932.529.6LSTM[19]+LocNet77.470.264.559.154.249.345.141.237.634.2表2.使用THUMOS'14上不同深度的平均p-mAP进行比较。平均p-mAP意味着在从1到10秒的偏移上平均p-mAP。ClsNet是用不同的结构实现的，即，C3D、CNN和LSTM。CNN和LSTM正在使用TS功能。ResNet-200 [17]的Flatten 673层和BN-Inception [22]的全局池层的运动特征，其中6个连续帧的光流作为输入。TS功能是THUMOS0.58 0.57外观和运动特征的串联，0.55使用模型2在ActivityNet上预先训练。否否是否否tActivityNet：骑行碰碰车4.1.1评价结果与先前方法的比较示于表1和表2中。表1示出了基于深度Rec = 1处的p-mAP的比较。在不同的偏移阈值下为0。所有先前的方法在1秒偏移时都低于4% p-mAP，而使用LSTM的StartNet达到19。5%的p-mAP，比最先进的技术高出15%以上。在10秒偏移时，以前的方法获得的p-mAP小于9%，StartNet（LSTM）比Shou等人[31]提高了30%p-mAP。表2示出了基于不同深度处的平均p-mAP（在从1秒到10秒的偏移上求平均）的比较。结果表明，在Rec = 0的深度上，StartNet与LSTM的性能明显优于以前的方法（平均p-mAP约为30%-20%）。1到Rec = 1。0的情况。显然，在这两个指标下，StartNet的性能都大大优于以前的方法.测量在线和离线方法之间的性能差距我们从作者那里获得了两种最近的离线方法[42]和[25]的评分，并使用 p-mAP 评估了开始检测。 p-mAP 为 32.7 和 35.7（Rec=1.0，偏移为1秒）。正如预期的那样，它们的表现优于StartNet，因为它们在预测之前观察到整个动作。4.1.2消融实验ClsNet实现了不同的结构。StartNet与不同ClsNet的主干之间的比较LSTM+LocNet在三种结构中实现了最佳性能，C3D性能比CNN和LSTM差。 Shou等人 [31]选择2https://github.com/yjxiong/anet2016-cuhk.网站上的链接。图3. THUMOS'14和ActivityNet在行动后的定性结果开始在融合后期产生。×表示在这些时间没有检测到启动。数字表示检测到的行动开始。ClsNet和StartNet的结果分别以蓝色和红色是/否（地面实况）指示关联类的动作是否最好用彩色观看。19.51918.5180 2 4 6 8 10 12(a)历史矢量长度19.51918.5180 0.2 0.4 0.6 0.8 1(b) 伽马图4. LocNet的消融研究：（a）历史决策向量的长度的影响（b）等式中不同伽马值的影响五、一般来说，该模型的性能更好，更大的伽玛和更长的历史决策向量。C3D作为其骨干，并提出了先进的培训策略进行优化。使用C3D，StartNet仍然显著优于Shou等人。，这表明了我们的框架的有效性。由于LSTM+LocNet实现了最佳性能，因此使用LSTM实现的ClsNet进行了以下消融研究。0.21p-mAP（%）p-mAP（%）5548特征偏移（秒）12345678910RGB仅限ClsNetStartNet-CEStartNet-PG11.813.715.917.220.721.021.323.824.824.927.228.427.929.430.728.730.731.829.531.933.030.032.533.530.433.234.030.733.634.4仅限ClsNet13.921.625.828.931.132.533.534.334.835.2两个流StartNet-CE17.425.429.833.034.636.337.237.738.638.8StartNet-PG19.527.230.833.936.537.538.338.839.539.8表3. 在深度Rec = 1处使用p-mAP对我们的框架进行消融研究。0在THUMOSLSTM用于实现ClsNet。不同偏移阈值被用来评估我们的框架与不同的功能。最佳性能以粗体标记特征深度记录@0.1@0.2@0.3@0.4@0.5@0.6@0.7@0.8@0.9@1.0RGB仅限ClsNetStartNet-CEStartNet-PG71.273.273.661.164.565.052.856.858.047.050.251.242.045.145.937.740.541.534.036.637.830.633.534.327.530.531.525.327.728.8仅限ClsNet71.363.056.952.046.942.338.735.031.829.2两个流StartNet-CE72.765.660.255.351.046.843.039.236.032.9StartNet-PG77.470.264.559.154.249.345.141.237.634.2表4.在THUMOS'14上使用不同深度的平均p-mAP对我们的框架进行消融研究。在每个深度，我们在1到10秒的偏移阈值上对p-mAP进行平均。LSTM用于实现ClsNet。最佳性能以粗体标记。LocNet的有效性。单独来自ClsNet的结果可用于通过遵循后期融合中的动作开始生成过程来生成动作开始。为了评估LocNet的贡献，我们通过从我们的框架中移除LocNet来构建ClsNet-onlyClsNet- only的结果也可以证明OAD方法的性能，如果直接应用于ODAS任务。如表3所示，仅ClsNet已经取得了良好的结果，优于基于C3D的方法。当添加LocNet时，StartNet-PG在不同偏移量下使用TS特征将仅ClsNet改进5%-6%p-mAP，使用RGB特征将仅ClsNet改进4%-5%我们还可以观察到一种趋势，即当偏移较小时，StartNet-PG和ClsNet-only如表 4 中所示，StartNet-PG 在不同深度处比仅ClsNet好5%-6%的具有TS特征的p-mAP和约3%-5%的具有RGB特征的p-mAP图中的定性比较图3示出了仅ClsNet在最后一帧处生成假阳性的示例这可能是因为帧包含动作的经典外观，即，篮球扣篮。在LocNet的帮助下，通过StartNet-PG纠正假阳性。长期规划的有效性。为了研究长期规划的效果，我们用简单的交叉熵损失代替了策略梯度训练策略−βgt log（st）−（1−gt）log（1−st）该基线被称为StartNet-CE.与StartNet-PG类似，权重因子β用于处理样本不平衡。与等式中的α相同4中，设β等于负样本数与正样本数之比如表3和表4所示，StartNet-PG在每个偏移阈值和不同深度下的性能显著优于StartNet-CE，这证明了长期规划的有用性。为了进一步研究LocNet参数设置的影响，我们对不同的历史决策向量的长度的值，n，和伽马在方程。当偏移阈值被设置为1秒并且深度Rec = 1时为5。0的情况。结果示于图4.第一章增加历史决策向量的长度意味着增加后面的决策对前面的决策的依赖性。如图所示，该模型在纳入历史决策时表现得更好，当考虑8个历史决策时，它达到最高性能。增加伽马值表明未来奖励对总长期奖励的影响增加它表明，当增加gamma值时，模型的性能更好。具有不同特征的结果。为了研究我们的框架在使用不同特征时的性能，我们添加了仅使用外观特征（RGB）的ClsNet-only，StartNet-CE和StartNet-PG的实验。结果见表3和表4。我们看到，当只使用RGB特征时，三种模型的性能都会下降。然而，即使使用RGB特征，我们的方法仍然大大优于Shou等人[31]两阶段设计的有效性。我们通过与具有与 ClsNet（LSTM）类似结构的一级网络进行比较来验证我们的两阶段设计，除了我们对其进行修改以直接预测所有类的动作开始并使用交叉熵损失对其进行优化。我们得到6分。5%和10. 在1秒偏移处的2% p-mAP（深度Rec = 1. 0）分别使用RGB和TS特征。结果比StartNet-CE和StartNet-PG差得多（下降约7%和9%），表明简单地学习分类和动作局部化联合启动不是一个好策略。从低级特征中学习。我们的框架使用在辅助任务上预训练的动作得分分布作为LocNet的输入。我们相信，由于缺乏训练数据，从这种高级表示学习比从低级噪声特征5549基线StartNetClsNet-only-TS4.26.17.78.89.810.711.312.213.013.6StartNet-CE-TS6.08.310.111.712.913.915.015.816.717.5StartNet-PG-TS8.110.211.813.314.415.316.116.717.418.0表5.在深度Rec = 1处的各种偏移阈值下使用p-mAP的比较。0在ActivityNet上。ClsNet使用LSTM实现基准方法的数量引自[31]。– indicates that numbers are not provided in为了证明这一点，我们构建了StartNet-img，其中Loc-Net直接从低级图像特征中学习。使用RGB和TS特征的p-mAP在1秒的偏移下（深度为1. （0）是10。2%和14。0%，这大大低于我们的框架（下降约5%）。效率分析。我们测试我们的方法与一个单一的QuadroP6000 GPU。前向传递ClsNet（C3D）和LocNet平均需要 8ms 和 0.3ms 。当使用 ClsNet （ LSTM-TS ）时，LSTM需要0.3ms。瓶颈是RGB和运动特征提取，包括使用FlowNet-V2（97 ms）的流计算。即便如此，我们的方法也可以在0.1s内处理每个帧。可以通过使用实时流量提取器大大减少时间，例如：PWC-Net [34].4.2. ActivityNet实验数据集。ActivityNet v1.3 [11]是动作识别的最大数据集之一。它包含200个动作类的注释。在训练集中有大约10K个未修剪的视频（15K个动作实例），在验证集中有5K个（7.6K个动作实例）未修剪的视频平均而言，每个视频中大约有1.6个动作实例在[31]之后，我们在训练集上训练我们的模型，并在验证集上测试它们。功能描述。TS特征是通过关联从TSN模型（使用BN-Inception）[37]中提取的外观和运动特征来构建的，这些特征在Kinetics [6]上进行了预训练。此外，我们使用从VGG-16的fc 6层提取的外观特征验证了我们的方法 [33] 。 VGG-16 模型在 ImageNet 上进行了预训练[10]。VGG-16功能不如ResNet和InceptionNet功能用于动作识别任务。我们使用VGG-16特征来表明，即使使用仅在图像上预训练的简单特征，LocNet的训练样本策略。与平均每个视频包含大约16个动作实例的THU- MOS'14不同，ActivityNet在大多数视频中只有一个动作实例。因此，ActivityNet在启动和非启动类之间存在更严重的不平衡问题为了平衡样本，我们为每个训练批次随机选择相同正序定义为至少包含一个动作启动，负序定义为不包含动作启动。然后，将α设置为样本平衡后负样本数与正样本数之比。评价结果。StartNet与ActivityNet上的其他方法的比较如表5所示。Start- Net显著优于以前的方法。具体而言，与Shou等人[31]在10秒偏移下相比，具有TS功能的StartNet在1秒偏移容差下实现了相似的性能。在10秒的偏移，我们的方法改进了Shou等人。 [31]约10%。它也比SceneDetect和 ShotDetect高出 13倍。3% 和11.9%，分别。即使只在图像上预训练VGG特征，我们的方法也显着优于最先进的方法。此外，我们还通过与ClsNet- only和StartNet-CE的比较，展示了每个模块的贡献。结果表明，通过添加Loc- Net，StartNet-PG将ClsNet-only改进了超过3%（使用VGG）和大约4%（使用TS）p-mAP。通过长期规划，StartNet-PG在两种功能下的性能均显著优于StartNet-CE，尤其是在偏移公差较小时。定性结果见图。图3显示了一个困难的情况，其中ClsNet-only由于起始点附近的细微外观差异而错过了动作开始。有了LocNet，StartNet-PG成功地抓住了起点，尽管得分很低。5. 结论我们提出了StartNet来处理Action- tion Starts的在线检测StartNet由两个网络组成，即，ClsNet和LocNet。ClsNet处理输入的流视频并为每个视频帧生成动作得分。Loc- Net通过使用政策梯度方法优化长期规划奖励来定位起点。最后，融合两个子网络的结果，产生最终的动作开始预测。在THU-MOS'14和ActivityNet上的实验结果进行了广泛的消融研究，以显示我们的方法的每个模块的有效性。仅限ClsNet-VGG2.74.15.15.96.77.58.18.79.29.8StartNet-CE-VGG4.26.17.48.79.710.511.412.012.613.1StartNet-PG-VGG6.07.68.89.810.711.512.212.613.113.5偏移（秒）12345678910SceneDetect [1]–––––––––4.7ShotDetect [2]–––––––––6.1Shou等人 [三十一]–––––––––8.35550引用[1] https://github.com/Breakthrough/www.example.com 六、八[2] https://github.com/johmathe/Shotdetect网站。六、八[3] http://pytorch.org/。 5[4] Shyamal Buch、Victor Escorci

下载后可阅读完整内容，剩余1页未读，立即下载