没有合适的资源?快使用搜索试试~ 我知道了~
recurrent neural networks to learn representations on shortinterval of videos [23, 29]. This strategy limits the appli-cation of such models for capturing dynamics of the videobecause they capture information of a short interval that canlead to loss of critical statistics. Scaling an image-basedconvolutional neural network (CNN) for videos often addsanother dimension of complexity as the number of param-eters grows significantly. Note withstanding, training suchan architecture requires large volume of training data andcomputational resources.Recently, to circumvent the deficiencies caused by pro-cessing video on short intervals and/or avoid scaling deepneural networks for temporal processing, a wave of methodshas started proposing learning an intermediate representa-tion instead of a video volume prior to using a neural net-work for obtaining a final neural representation of a video,e.g. [2, 37, 35]. A caveat to such approaches is the require-ment for learning the intermediate representation, which ad-versely affects their generalization and efficient handling ofuntrimmed videos.We propose Adaptive Weighted Spatiotemporal Distilla-tion (AWSD) for video representation. In contrast to exist-ing approaches, our proposed model is free from learningthe intermediate representations and can handle untrimmedvideos effectively. The intermediate representation is di-80200AWSD:自适应加权时空蒸馏用于视频表示0Mohammad Tavakolian Oulu大学 Hamed R. Tavakoli Aalto大学和Nokia TechnologiesAbdenour Hadid Oulu大学0摘要0我们提出了一种自适应加权时空蒸馏(AWSD)技术,通过将视频的外观和动态编码成单个RGB图像映射来表示视频。这是通过自适应地将视频分成小片段并比较两个连续片段来实现的。这使得可以使用在静态图像上预训练的模型进行视频分类,并成功捕捉视频中的时空变化。自适应片段选择能够有效地编码未修剪视频的关键区分信息。基于高斯混合尺度,我们通过提取两个连续片段之间的互信息来计算权重。与基于池化的方法不同,我们的AWSD更加重视表征动作或事件的帧,这要归功于其自适应片段长度选择。我们进行了广泛的实验分析,评估了我们提出的方法的有效性,并将我们的结果与最近的四个基准数据集上的最新方法进行了比较,包括UCF101,HMDB51,ActivityNetv1.3和Maryland。在这些基准数据集上获得的结果表明,我们的方法明显优于早期的工作,并在视频分类中取得了新的最佳性能。代码可在项目网页上找到:https://mohammadt68.github. io/AWSD/01. 引言0视频理解是一项具有挑战性的任务,尤其是对于未修剪的视频,一个视频中可能发生多个事件。在本文中,初步工作将视频视为静态图像序列或体积对象,并在一堆图像上应用手工制作的局部描述符[33, 38,32]。随着表示学习和深度神经网络在图像理解任务中的兴起,例如图像分类[16],对象、场景和人脸识别[41, 9, 26],近年来,使用神经网络进行视频理解引起了广泛的关注[23,29, 15,13]。大多数现有的深度模型将卷积或循环神经网络扩展到学习视频的短时间间隔[23,29]。这种策略限制了这些模型捕捉视频动态的应用,因为它们捕捉了一个短时间间隔的信息,可能导致关键统计数据的丢失。将基于图像的卷积神经网络(CNN)扩展到视频通常会增加另一个复杂性维度,因为参数数量显著增加。尽管如此,训练这样的架构需要大量的训练数据和计算资源。最近,为了避免在短时间间隔内处理视频和/或避免将深度神经网络扩展到时间处理,一系列方法开始提出在使用神经网络获取视频的最终神经表示之前学习中间表示,例如[2, 37,35]。这种方法的一个缺点是需要学习中间表示,这会对它们的泛化能力和对未修剪视频的高效处理产生不利影响。我们提出了自适应加权时空蒸馏(AWSD)用于视频表示。与现有方法相比,我们提出的模型不需要学习中间表示,并且可以有效处理未修剪的视频。中间表示是通过自适应地将视频分成小片段并比较两个连续片段来获得的。0图1:Adaptive Weighted Spatiotemporal Distillation(AWSD)应用于视频的RGB帧的可视化。我们的AWSD捕捉视频的外观和动态信息,并将其编码成一幅图像,可以作为在静态图像上预训练的深度模型的输入。3. Video RepresentationThis section presents our proposed Adaptive WeightedSpatiotemporal Distillation (AWSD). We first discuss themotivations behind Weighted Spatiotemporal Distillation(WSD). Then, we discuss the adaptive temporal windowsize selection technique, which controls the length of con-secutive segments for untrimmed videos.3.1. Weighted Spatiotemporal DistillationVisual attention is usually given to the regions that havemore descriptive information. Inspired by information the-ory, the local information of an image can be quantified interms of sequences of bits [11]. We extend this notion to thetemporal dimension in order to capture the discriminativespatiotemporal information. To this end, under a Marko-80210AWSD依赖于视频的基本统计信息,以获得可用作基于图像的CNN的输入的图像映射。图1说明了使用AWSD对编码静止图像的可视化。所提出的方法将视频的统计信息编码为图像映射,并成功处理了未修剪的视频。简而言之,我们提出的AWSD方法具有以下几个优点:(1)它使用视频的统计信息将任意长度的视频的动态和外观编码为单个图像映射,(2)它不需要任何训练过程。因此,它在计算上高效,并且容易推广到其他序列类型,(3)该方法的自适应性使其能够有效处理未修剪的视频。为了证明这些特性,我们广泛地在四个基准视频数据集上进行了实验,包括UCF101[24],HMDB51 [17]和ActivityNet v1.3[3]用于动作分类,以及Maryland[22]用于动态场景分类。我们实验的结果表明,我们提出的AWSD方法适用于不同的视频理解任务。02. 相关工作0在早期,视频被视为一系列静止图像或连续帧的平滑演变。通过将视频视为一堆静止帧,已经提出了几种时空特征提取方法[33,38,32]。这些方法在每个兴趣点周围定义了一个局部时空邻域,并提取直方图描述符来捕捉空间和时间信息。然后,一些聚合方法从局部描述符生成整体表示。尽管这些手工制作的特征对于视频表示是有效的,但在存在相机运动和其他变化的情况下,它们会失去区分能力。最近,卷积神经网络(CNN)已被用于视频理解任务。为了捕捉视频的外观和动态,CNN已通过添加另一个维度扩展到时间域。Tran等人[29]研究了3D CNN[15]在现实(野外拍摄)和大规模视频数据库上的应用。他们的C3D模型使用3D卷积操作在视频的短片段中学习了空间和时间信息。Carreira等人[5]提出了一个两流膨胀的3DCNN(I3D),通过将香草Inception-V1架构转换为3D模型。他们用3D内核替换了Inception-V1[14]的2D内核,模型可以利用在ImageNet数据库[21]上预训练的2D模型的知识。Qiu等人[20]开发了一个伪3D残差网络,通过在残差学习模块上应用时空分解。Diba等人[6]在DenseNet[12]架构中嵌入了一个时间过渡层,并用它们的3D计数替换了2D卷积滤波器和池化层。0尽管基于3DCNN的架构在捕捉时空信息方面表现得相当好,但它们通常需要大量的训练数据才能获得良好的视频表示,因为它们的参数数量庞大。前述方法仅在一个小的时间窗口内捕捉局部时空信息。因此,它们无法捕捉长距离的动态。最近,Wang等人[37]提出了一个时间段网络,用于对视频中的动作进行长距离时态结构建模。作者随机选择视频的片段,并从帧中提取光流和RGB差异,然后将其馈送给CNN模型进行特征提取。该方法使用分段一致性函数对视频的不同片段的信息进行聚合,实现了对视频的全局表示。Bilen等人[2]通过采用排名池化技术引入了动态图像,以捕捉动作的时间演变,并将视频表示为一个RGB图像。他们将场景的外观和动态蒸馏成一个单一图像,然后将其馈送给2DCNN模型进行动作分类。池化技术将数据合并为紧凑的表示。这些技术还对所有帧赋予了相等的重要性,这是不利的。Wang等人[35]提出了用于视频摘要的SVM池化。他们将池化问题重新表述为多实例学习的上下文,并从每个视频的帧级特征中学习有用的决策边界与背景特征。[2,35]中的方法在修剪视频的动作分类上表现出良好的性能。然而,它们在未修剪的视频上的性能尚未探索。这些方法涉及参数学习过程,以实现用于动作分类的视频表示。因此,它们不能有效地推广到其他视频表示任务。我们提出的AWSD方法与[2,35]采用了类似的方法,但不需要学习任何参数。Figure 2: The outline of our proposed WSD for video representation. Given a video of length L, we divide it into segments ofsmaller length ℓ. By comparing two consecutive segments, WSD generates multiple image maps, which encode appearanceand dynamic variations of the scene. We further employ a weighted summation technique for aggregating the obtained imagemaps into one single RGB frame, which can be used as the input of deep models pre-trained on still images.vian assumption, we delineate a video as an image map bydevising a statistical model for neighboring group of pixelsusing Gaussian Scale Mixture (GSM).We aim to capture the mutual information betweenframes of two time instances to model the variations in dy-namics and appearance as a set of weighted points. Hence,we encode the spatiotemporal variations of two consecutivesegments of videos into one image map (Figure 2). In ourframework, different regions of frames, x, are characterizedby a Gaussian noise, n1, added to a zero-mean Gaussianvector of points intensities u.p = x + n1 = αu + n1(1)where α is a mixing multiplier whose value varies overspace and time. Intuitively, each region of frames is de-formed as the result of spatiotemporal variations v.q = y + n2 = gαu + v + n2(2)where y represents deformation of region x, g is a gain fac-tor, and n2 denotes Gaussian noise. In our model, n1 andn2 are independent Gaussian noise with covariance matri-ces Cn1 = Cn2 = σ2nI. The parameter σ2n is the uncer-tainty of noisy observations. So, we can derive the covari-ance matrices of p and q as:Cp = α2Cu + σ2nI(3)Cq = g2α2Cu + σ2vI + σ2nI(4)where Cu is the covariance matrix of u.At each point, the information of the reference anddeformed frames is obtained by the mutual informationI (x|p) and I (y|q), respectively. We aim to approximatethe perceptual information content from both frames. Tobe specific, we subtract the common information shared be-tween p and q from I (x|p) and I (y|q). So, we define aweight based on the mutual information as:w = I (x|p) + I (y|q) − I (p|q)(5)In Eq. (5), x, y, p, and q are all Gaussian for a givenα. Therefore, the mutual information approximation can beachieved using the determinants of convariances due to theindependency of u and noise n1 and n2.w = 12 log�|C(p,q)|σ4Kn�(6)where K is the total number of points in each region offrames and|C(p,q)| = |��σ2v + σ2n�α2 + σ2ng2α2�Cu+σ2n�σ2v + σ2n�I|(7)Applying an eigenvalue decomposition to the covariancematrix Cu = OΛOT , where O is an orthogonal ma-trix and Λ is a diagonal matrix with eigenvalues λk fork = 1, . . . , K along its diagonal entries, we can compute|C(p,q)|.|C(p,q)| = |O{�σ2v + (1 + g2)σ2n�α2Λ+σ2n(σ2v + σ2n)I}OT |(8)|C(p,q)| =K�k=1{�σ2v + (1 + g2)σ2n�α2λk+σ2n(σ2v + σ2n)}(9)80220由于O的正交性质和公式(8)中O和OT之间的表达式,可以得到|C(p, q)|作为一个闭合形式的方程。w = 12Kk=1log�1 + σ2vσ2n+��α2λk�ˆCu = 1NN�i=1xixTi(11)ˆg = x yxT x(14)ˆσ2v = 1KyT y − ˆgxT y(15)MSE = 1PP�i=1(xi − yi)2(16)WSD (x, y) =ℓ�j=1��i wj,i (xj,i − yj,i)2i wj,i(17)βi =exp (ei)i exp (ei)(18)Sj =L/ℓ−1�j=1βjej(19)80230因此,公式(6)可以表示为:0σ 4 n + g 20(10)所得到的权重函数与视频帧内的局部变形之间存在有趣的联系。根据公式(2)中的变形模型,从x到y的变化由增益因子g和随机变形σ2v来描述。由于g是沿着帧演化的比例因子,它不会对图像的结构造成任何改变。因此,结构变形由σ2v捕捉。我们的权重函数随着σ2v单调增加。这表明更多的权重被分配给具有较大变化的区域。我们仍然需要近似一组参数,即Cu、α2、g和σ2v,以使用公式(10)的权重函数。我们将Cu估计为:0其中N是评估窗口的数量,xi是第i个邻域向量。乘数α在空间上是变化的,可以使用最大似然估计器来近似。ˆ α 2 =10我们还可以通过优化以下最小二乘回归问题来获得变形参数g和σ2v。ˆ g = arg min g ∥ y − g x ∥ 2 2 (13)0通过从公式(13)中取一阶导数,我们得到:0将其代入公式(2),我们可以使用vTv/K计算σ2v,结果为:0对于每个颜色通道,我们通过在两个连续帧的帧之间移动一个滑动窗口来计算一组权重(参见图2),其中窗口在每个位置覆盖H×W的空间邻域。这个过程会为视频的两个重叠片段计算出一个图像映射。设xi和yi分别为参考帧X和变形帧Y中的第i个点。两帧之间的均方误差(MSE)由以下公式给出:0其中P是帧中的点的总数。我们使用公式(10)为空间邻域的中心点的相应位置定义加权MSE。假设xj,i和yj,i分别是第j帧的第i个点,wj,i是在相应位置计算得到的权重,我们得到加权时空蒸馏(WSD)如下:0空格0空格0其中ℓ是视频每个片段的长度。对于所有两个连续的片段,重复这个过程,我们得到每个通道的L/ℓ-1个单一图像(其中L是视频长度),这些图像编码了整个视频中的外观和动态变化。由于存在多个通道,这些蒸馏信息不能作为预训练CNN模型的输入。为了解决这个问题,我们使用加权聚合技术从得到的L/ℓ-1个通道图像映射生成一个单一的RGB图像。这个聚合技术计算图像中每个点的加权和。权重计算如下:0其中, e i 是图像映射的第 i个点。因此,我们分别计算每个通道的点的加权和,以生成视频的RGB提取表示。0其中, S j 表示获得的表示的第 j 个通道的第 j个点。我们为我们的数据的每个通道计算等式(19)。03.2. 自适应段长度选择0段的时间大小影响着提取信息的质量,选择固定长度的等大小段可能会损害RGB输出图像的质量。增大窗口大小可以增加时空信息与噪声的比率,而减小窗口大小则限制了WSD计算仅在视频的一个局部、可能是无关紧要的部分。因此,确定两个连续段的最佳长度非常重要。给定一个视频和一个窗口大小,有两个因素影响WSD的计算:(1)窗口内的时空变化和(2)视差变化。时空变化应相对于噪声足够大,这可以从输入中容易测量得到。另一方面,视差变化很难测量,因为它应该被选择以增强两个段之间的信息比较。为此,我们提出了一种自适应的时间窗口大小选择方法,根据所需的区分性信息量来改变段的长度,通过利用局部强度和视差模式来优化视频的表示。设 f 1 ( t ) 和 f 2 ( t )是具有视差 d 的两个连续段。f1 (t) = f (t) + n1 (t)(20)f2 (t) = f (t − d) + n2 (t)(21)f1 (t) − f2 (t + d) = n1 (t) − n2 (t + d) ≡ n (t)(22)f1 (t) − f2 (t + d0) − ∆df ′2 (t + d0) = n (t)(23)ρ (n (ti) |∆d) =12√πσnexp�−(f1 (t) − f2 (t + d0) − ∆df ′2 (t + d0))24σ2n�(24)ρ (n (t0) , . . . , n (tN−1) |∆d) =N−1�i=0ρ (n (ti) |∆d)(25)ρ (∆d|n (t0) , . . . , n (tN−1)) =�N−1i=0 ρ (n (ti) |∆d)∞−∞N−1i=0 ρ (n (ti) |∆d) d (∆d)(26)ρ (∆d|n (t0) , . . . , n (tN−1)) =1√2πσ∆dexp�−(∆d − ∆∗d)22σ2∆d�(27)80240窗口大小选择方法根据所需的最佳视频表示的区分性信息量来改变段的长度,通过利用局部强度和视差模式。设 f 1 (t ) 和 f 2 ( t ) 是具有视差 d 的两个连续段。0其中, n 1 ( t ) 和 n 2 ( t ) 是均值为零的高斯噪声,即n 1 ( t ) , n 2 ( t ) � N � 0 , σ 2 �。两个段之间的直接匹配给出:0其中, n ( t ) � N � 0 , 2 σ 2 � 是高斯噪声。如果 d 0是视差的初始估计,我们可以使用泰勒展开式, f 2 ( t +d ) ≈ f 2 ( t + d 0 ) + ∆ df ′ 2 ( t + d 0 ) ,其中 ∆ d= d − d 0 。0我们从段中选择 N 个等间隔的帧,即 t 0 , t 1 ,..., t N− 1 ,并为它们计算 n ( t i ) 的分布函数。0由于 n ( t ) 是高斯分布,n ( t i )互相独立。因此,它们可以表示为:0由于 ρ (∆ d )的变化较小,我们可以根据贝叶斯定理近似计算基于视差变化[1]的条件概率为:0通过将等式(24)代入等式(26),我们得到:0在哪里0∆�d = �N−1i=0(f1(ti) - f2(ti + d0))f′2(ti + d0)0�N−1i=0(f′2(ti + d0))2 (28)0σ2∆d = 2σ2n�N−1i=0(f′2(ti + d0))2 (29)0直观上,∆d的条件概率密度函数成为均值为∆�d,方差为σ2∆d的高斯分布。让∆t =ℓN成为采样间隔,其中ℓ是窗口的大小,我们将∆�d和σ2∆d的分子和分母乘以采样段内的所有帧,即N→∞。0∆�d =0� ℓ0(f1(t) - f2(t + d0))f′2(t + d0)dt0� ℓ0(f′2(t + d0))2 dt (30)0σ2∆d 0� ℓ0(f′2(t + d0))2 dt → 0 (31)0这意味着通过密集采样,估计的∆d的方差变小。换句话说,片段内的时空变化与片段的长度成正比。因此,我们能够测量片段内的差异,以确定每两个连续片段的最佳长度。换句话说,我们认为片段的长度与片段内的信息差异之间存在直接关系。我们用一个小值初始化差异变化,并计算一个修正∆�d和修正的不确定性σ2∆d以及段长度ℓ。通过对不同的片段长度重复这个过程,我们能够达到最低的不确定性。σ2∆d的值表示两个特征。首先,一阶导数的绝对值越大,不确定性越小。其次,片段长度越大,不确定性越小。前者是直观的,即强度模式的变化越大,场景中存在的动作的可能性越大。后者的特征也是可以理解的,因为大片段可以平均掉噪声的影响。因此,我们通过∆�d的数量来更新∆d。04. 实验0我们通过在四个视频分类基准数据集上进行广泛的实验来评估我们提出的方法的性能,包括UCF101 [24]、HMDB51[17]、ActivityNet v1.3 [3]和Maryland[22]。表1总结了这些数据集的内容。04.1. 实验设置0在我们的实验中,我们使用了四个在ImageNet数据集[21]上预训练的深度架构。我们采用了80250表1:用于视频表示的考虑数据集的特征。用于评估所提出方法的数据集包括三个动作识别数据集和一个动态场景分类数据集。0数据集 视频 类别 修剪/未修剪0UCF101 [24] 13,320 101 人类动作 修剪 HMDB51 [17] 6,766 51人类动作 修剪 ActivityNet [3] 19,994 200 人类动作 未修剪 Maryland[22] 130 10 动态场景 修剪0AlexNet [16]、Inception-V1 [14]、ResNet-50[10]和ResNet-101[10]的TensorFlow实现。所有这些深度模型都是通过使用带有动量为0.9和退火学习率的随机梯度下降进行微调的,初始学习率为3×10-3,每个时期乘以0.2的因子。在训练过程中,我们对图像进行了随机大小抖动、裁剪、翻转和重新缩放。我们还在光流数据上应用了AWSD。对于光流的计算,我们使用了OpenCV中实现的TLV1光流算法[40],该算法使用CUDA进行加速。04.2. WSD vs. AWSD0在这一部分中,为了进一步解释AWSD的重要性,我们分析了片段长度对WSD性能的影响。然后,我们对WSD和AWSD进行了比较研究。片段的长度决定了WSD总结的信息量。首先,我们考虑了WSD,并通过改变视频片段的长度从10到60帧进行了性能分析,即将视频分成固定长度的非重叠片段。图3显示了我们使用修剪和未修剪的视频进行实验的结果。如图所示,对于修剪的视频,随着每个片段的帧数增加,分类准确率也增加。然而,在一定数量的帧之后,我们没有观察到任何显著的准确率改善。这意味着在修剪的视频上使用WSD时,小片段就足以实现良好的性能。相反,对于未修剪的视频(ActivityNet),准确率随着片段长度的增加从57.8%下降到28.1%。性能下降可能是因为在片段中捕捉了太多内容,使得精确的信息在图像映射中变得模糊。我们还比较了视频片段的自适应选择的效果。表2报告了结果,表明使用自适应片段长度选择技术在UCF101 [24]、HMDB51[17]、ActivityNet [3]和Maryland[22]数据集中分别获得了显著的改善,即分别提高了9.6%、7.7%、32.3%和23.9%。在ActivityNet和Maryland数据集中,这种改善更为显著,因为这些数据集中存在复杂的动态场景和/或未修剪的动作视频。0图3:使用ResNet-50改变片段长度时,提出的WSD的准确率。在未修剪的视频上性能显著下降。0表2:使用自适应片段长度选择的提出方法的准确率(%)与不使用的准确率进行比较。使用固定长度片段时,每个数据集报告最高准确率。0UCF101 HMDB51 ActivityNet Maryland0WSD 86.4 67.9 58.1 73.60AWSD 96.0 75.6 90.4 97.50表3:使用ResNet-50[10]的提出方法使用不同聚合函数的准确率(%)。与平均和最大聚合函数相比,图像映射的加权求和获得了最高的准确率。0UCF101 HMDB51 ActivityNet Maryland0平均 91.5 69.7 83.9 87.70最大 94.8 72.1 85.6 92.40加权求和 96.0 75.6 90.4 97.504.3. 聚合函数分析0我们评估了我们提出的AWSD在不同聚合函数下将计算得到的图像映射转换为三通道图像映射的性能。表3总结了平均、最大和加权求和聚合的结果。加权求和给予有效表示场景中事件的区域更高的重要性。80260表4:使用ResNet-50[10],我们提出的方法与光流和RGB数据的表示的准确率(%)进行比较。0UCF101 HMDB51 ActivityNet Maryland0RGB 89.3 69.7 83.9 87.70OF 90.1 70.2 67.3 89.00AWSD (OF) 94.8 72.1 85.6 92.40AWSD (RGB) 96.0 75.6 90.4 97.50表5:使用在ImageNet数据集[21]上预训练的不同2DCNN模型的AWSD性能分析(%)。0UCF101 HMDB51 ActivityNet Maryland0AlexNet [16] 91.2 69.8 81.6 90.80Inception-V1 [14] 95.3 73.0 88.5 94.30ResNet-50 [10] 96.0 75.6 90.4 97.50ResNet-101 [10] 97.6 79.3 93.1 98.104.4. 与基于帧的基线模型的比较0我们将我们提出的AWSD与两个基于帧的基线模型进行了比较。第一个模型处理RGB图像,第二个模型处理光流。我们使用ResNet-50处理RGB帧,并使用应用AWSD到光流和视频序列数据上得到的图像映射。结果总结在表4中。所提出的AWSD相对于光流有5.1%的改进,表明AWSD在捕捉视频数据的外观和动态信息方面具有优势。04.5. AWSD和深度架构0我们使用了四种在ImageNet数据集[21]上预训练的深度架构(即AlexNet [16],Inception-V1 [14],ResNet-50[10]和ResNet-101[10])来处理AWSD获得的表示,以研究不同2DCNN模型的有用性。结果总结在表5中。如预期,深层网络给出了最佳性能。尽管训练3D模型所需的大量标注视频数量显著减少,但AWSD是使用2D CNN的有效替代方法。04.6. 跨数据库分析0为了展示我们AWSD所获得的蒸馏表示的泛化性,我们进行了跨数据集实验。在这些实验中,我们使用来自一个数据集的训练样本的蒸馏表示对在其他数据集上的测试集的蒸馏表示进行微调,使用了在ImageNet[21]上预训练的ResNet-50[10]。表6总结了结果。尽管在跨数据集设置中准确率下降,但AWSD方法仍然显示出优势。0表6:我们提出的ASWD方法在跨数据集实验设置中使用ResNet-50[10]的准确率(%)。模型在一个数据集上进行微调,然后在另一个数据集上进行测试。0测试于0UCF101 HMDB51 ActivityNet0训练于0UCF101 96.0 71.0 85.60HMDB51 88.6 75.6 82.70ActivityNet 91.3 72.5 90.40表现良好,表明其具有区分视频序列的高能力。04.7. 与最先进技术的比较0我们在四个基于视频的基准测试上将AWSD与最先进的方法进行了比较。表7总结了UCF101[24]和HMDB51[17]数据集上的比较结果。我们将我们的方法与传统方法(如改进的密集轨迹(iDT)[34]和MoFAP[36])以及基于深度学习的方法(如3D卷积神经网络(C3D)[29],时序段网络(TSN)[37]和长期卷积网络(LTC)[31])进行了比较。在比较的方法中,动态图像(DI)[2]和SVM池化描述符(SVMP)[35]与我们的工作最接近。我们使用AWSD对RGB帧进行编码。得到的表示被馈送到ResNet-50和ResNet-101。从表7中,我们观察到DI在UCF101和HMDB51上分别使用四个流网络(静态图像、动态图像、光流和动态光流)和ResNext-101分别达到了95.5%和72.5%的准确率。我们的方法在UCF101和HMDB51上使用ResNet-50分别比DI提高了0.5%和4.3%。值得注意的是,与图像上的ResNext-101相比,ResNet-50的性能相对较低。我们还比较了我们的方法在ActivityNet v1.3[3]的未修剪视频上的性能。我们运行了算法的原始实现并报告了它们的最佳性能。结果总结在表8中。如图所示,我们提出的AWSD使用ResNet-101实现了97.6%的mAP准确率,并将最高性能提高了4.9%。在未修剪的视频上的改进强调了AWSD对捕捉时空信息的时间长度的高效选择。我们还将AWSD应用于马里兰数据集[22]上的动态场景分类,并将我们提出的方法与最先进的方法进行了比较。表9报告了结果,表明AWSD使用ResNet-50和ResNet-101分别实现了97.5%和98.1%的分类准确率。例如,我们使用ResNet-101的方法比LSTF[13]高出3.1%。图4显示了我们的AWSD和动态图像[2]的可视化。80270表7:我们提出的方法在UCF101 [24]和HMDB51[17]数据集上与最先进方法的分类准确率(%)的比较。0方法UCF101 HMDB510iDT+FV [34] 85.9 57.2 DT+MVSV [4]83.5 55.9 iDT+HSV [18] 87.9 61.1MoFAP [36] 88.3 61.7 Two-Stream[23] 88.0 59.4 C3D(3个网络)[29]85.2 51.6 Res3D [30] 95.6 54.9 I3D [5]95.6 74.8 F ST CN [25] 88.1 59.1 LTC[31] 91.7 64.8 KVMF [42] 93.1 63.3TSN(7个段)[37] 94.9 71.0DI(4个流)[2] 95.5 72.5 SVMP [35] -71.0 S3D-G [39] 96.8 75.90AWSD(ResNet-50)96.0 75.6AWSD(ResNet-101)97.6 79.3
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- NIST REFPROP问题反馈与解决方案存储库
- 掌握LeetCode习题的系统开源答案
- ctop:实现汉字按首字母拼音分类排序的PHP工具
- 微信小程序课程学习——投资融资类产品说明
- Matlab犯罪模拟器开发:探索《当蛮力失败》犯罪惩罚模型
- Java网上招聘系统实战项目源码及部署教程
- OneSky APIPHP5库:PHP5.1及以上版本的API集成
- 实时监控MySQL导入进度的bash脚本技巧
- 使用MATLAB开发交流电压脉冲生成控制系统
- ESP32安全OTA更新:原生API与WebSocket加密传输
- Sonic-Sharp: 基于《刺猬索尼克》的开源C#游戏引擎
- Java文章发布系统源码及部署教程
- CQUPT Python课程代码资源完整分享
- 易语言实现获取目录尺寸的Scripting.FileSystemObject对象方法
- Excel宾果卡生成器:自定义和打印多张卡片
- 使用HALCON实现图像二维码自动读取与解码
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功