
recurrent neural networks to learn representations on short
interval of videos [
23, 29]. This strategy limits the appli-
cation of such models for capturing dynamics of the video
because they capture information of a short interval that can
lead to loss of critical statistics. Scaling an image-based
convolutional neural network (CNN) for videos often adds
another dimension of complexity as the number of param-
eters grows significantly. Note withstanding, training such
an architecture requires large volume of training data and
computational resources.
Recently, to circumvent the deficiencies caused by pro-
cessing video on short intervals and/or avoid scaling deep
neural networks for temporal processing, a wave of methods
has started proposing learning an intermediate representa-
tion instead of a video volume prior to using a neural net-
work for obtaining a final neural representation of a video,
e.g. [
2, 37, 35]. A caveat to such approaches is the require-
ment for learning the intermediate representation, which ad-
versely affects their generalization and efficient handling of
untrimmed videos.
We propose Adaptive Weighted Spatiotemporal Distilla-
tion (AWSD) for video representation. In contrast to exist-
ing approaches, our proposed model is free from learning
the intermediate representations and can handle untrimmed
videos effectively. The intermediate representation is di-
8020
0
AWSD:自适应加权时空蒸馏用于视频表示
0
MohammadTavakolianOulu大学HamedR.TavakoliAalto大学和NokiaTechnologies
AbdenourHadidOulu大学
0
摘要
0
我们提出了一种自适应加权时空蒸馏(AWSD)技术,通过
将视频的外观和动态编码成单个RGB图像映射来表示视频。
这是通过自适应地将视频分成小片段并比较两个连续片段来
实现的。这使得可以使用在静态图像上预训练的模型进行视
频分类,并成功捕捉视频中的时空变化。自适应片段选择能
够有效地编码未修剪视频的关键区分信息。基于高斯混合尺
度,我们通过提取两个连续片段之间的互信息来计算权重。
与基于池化的方法不同,我们的AWSD更加重视表征动作或
事件的帧,这要归功于其自适应片段长度选择。我们进行了
广泛的实验分析,评估了我们提出的方法的有效性,并将我
们的结果与最近的四个基准数据集上的最新方法进行了比较
,包括UCF101,HMDB51,ActivityNet
v1.3和Maryland。在这些基准数据集上获得的结果表明,
我们的方法明显优于早期的工作,并在视频分类中取得了新
的最佳性能。代码可在项目网页上找到:https://mohamm
adt68.github.io/AWSD/
0
1.引言
0
视频理解是一项具有挑战性的任务,尤其是对于未修剪的视频,一个视频中可能发生多个
事件。在本文中,初步工作将视频视为静态图像序列或体积对象,并在一堆图像上应用手
工制作的局部描述符[33,38,
32]。随着表示学习和深度神经网络在图像理解任务中的兴起,例如图像分类[16],对象、
场景和人脸识别[41,9,26],近年来,使用神经网络进行视频理解引起了广泛的关注[23,
29,15,
13]。大多数现有的深度模型将卷积或循环神经网络扩展到学习视频的短时间间隔[23,
29]。这种策略限制了这些模型捕捉视频动态的应用,因为它们捕捉了一个短时间间隔的信
息,可能导致关键统计数据的丢失。将基于图像的卷积神经网络(CNN)扩展到视频通常
会增加另一个复杂性维度,因为参数数量显著增加。尽管如此,训练这样的架构需要大量
的训练数据和计算资源。最近,为了避免在短时间间隔内处理视频和/或避免将深度神经网
络扩展到时间处理,一系列方法开始提出在使用神经网络获取视频的最终神经表示之前学
习中间表示,例如[2,37,
35]。这种方法的一个缺点是需要学习中间表示,这会对它们的泛化能力和对未修剪视频的
高效处理产生不利影响。我们提出了自适应加权时空蒸馏(AWSD)用于视频表示。与现
有方法相比,我们提出的模型不需要学习中间表示,并且可以有效处理未修剪的视频。中
间表示是通过自适应地将视频分成小片段并比较两个连续片段来获得的。
0
图1:AdaptiveWeightedSpatiotemporalDistillation
(AWSD)应用于视频的RGB帧的可视化。我们的AWSD捕捉
视频的外观和动态信息,并将其编码成一幅图像,可以作为
在静态图像上预训练的深度模型的输入。