大规模数据集 Kinetics：推动行动识别的边界

122 浏览量更新于2025-01-16 收藏 962KB PDF 举报

"本文探讨了行动识别技术，特别是基于新模型和大规模动力学数据集的研究。研究者们提出了一个名为I3D的双流膨胀3D卷积神经网络（ConvNet），该模型在Kinetics数据集上进行预训练后，显著提升了在HMDB-51和UCF-101这两个较小基准数据集上的动作分类性能。" 在行动识别领域，传统的数据集如UCF-101和HMDB-51由于样本量有限，往往限制了模型的性能提升。 Kinetics数据集的出现解决了这个问题，它包含400个人类动作类别，每个类别超过400个剪辑，全部来源于真实且具有挑战性的YouTube视频，为模型提供了丰富的学习素材。作者们分析了当前的架构在Kinetics数据集上的表现，并发现尽管许多方法在现有小规模基准上表现相近，但在大规模数据集上进行预训练能够显著提升模型的泛化能力。他们提出的新模型I3D，是基于2D ConvNet的膨胀版本，将二维滤波器和池化扩展至三维，使模型能够学习到视频中的时空特征。这种设计允许I3D在保持与成功ImageNet架构设计兼容的同时，利用其参数进行训练。 I3D模型在预训练后，在HMDB-51上达到了80.2%的准确率，UCF-101上达到了97.9%，这标志着在行动识别领域的重大进步。这个结果表明，利用像Kinetics这样的大规模数据集进行预训练，可以有效提升模型对视频理解的能力，尤其是在处理单帧图像可能模糊不清的动作时。此外，研究还指出ImageNet挑战对深度学习的发展产生了深远影响，预训练模型的特征可以广泛应用于其他任务，如PASCAL VOC的分类和检测。随着深度架构的不断优化，如AlexNet到VGG-16的改进，也推动了相关任务性能的提升。I3D模型的成功进一步证实了这一趋势，即通过在大规模视频数据集上预训练，可以提升模型在行动识别等视频分析任务上的性能。总结来说，本文强调了大规模数据集对于提升行动识别模型性能的重要性，并提出了一种创新的3D卷积神经网络结构，该结构在Kinetics数据集上的预训练能够显著增强模型在其他小型基准数据集上的动作分类效果。这为未来在视频理解和动作识别领域的研究提供了新的方向和可能。

什么是行动识别？一种新的模型及其动力学数据集

乔·

卡雷尔

joaoluis@google.com

安德鲁·齐瑟曼

，

zisserman@google.com

†

DeepMind牛津大学工程科学系

摘要

当前动作分类数据集（

UCF-101

和

HMDB-51

）中视

频的缺乏使得难以识别良好的视频架构，因为大多数

方法在现有的小规模基准上获得类似的性能。本文根

据新的

Kinetics Human Action Video

数据集重新评估了

最先进的架构。

Kinetics

拥有两个数量级的数据，有

400

个人类动作类和每个类超过

400

个剪辑，并从现实

的，具有挑战性的

YouTube

视频中收集。我们分析了当

前架构如何在这个数据集上执行动作分类的任务，以

及在

Kinetics

上进行预训练后，在较小的基准数据集上

的性能提高了

我们还介绍了一个新的双流膨胀

3D ConvNet

（

I3D

），它基于

2D ConvNet

膨胀：非常深的图像分类

ConvNets

的过滤器和池化内核扩展到

，使得可以从

视频中学习无缝的时空特征提取器，同时利用成功的

ImageNet

架构设计甚至它们的参数。我们发现，在

Kinetics

上进行预训练后，

I3 D

模型在动作分类方面的

最新技术水平有了很大提高，在

HMDB-51

上达到

80.2%

，在

UCF-101

上达到

97.9%

。

介绍

ImageNet挑战的一个意想不到的好处是发现在1000

个类别的1000个图像上训练的深度架构可以用于其他

任务和其他领域。其中一个早期的例子是使用

ImageNet上训练的网络的fc7特征进行PASCAL VOC分

类和检测挑战[10]。此外，从AlexNet到VGG-16的深层

架构的改进，立即反馈到PASCAL VOC性能的相应改

进[23]。从那时起，已经出现了许多ImageNet训练架构

热启动或完全满足其他任务的例子分段

图1. 《Quo Vadis》（1951）这是怎么回事这些演员是要亲吻

对方，还是刚刚亲吻？更重要的是，行动识别将何去何从？

动作在单个帧中可能是模糊的，但现有动作识别数据集的局

限性意味着性能最好的视频架构不会明显偏离单图像分析，

它们依赖于在

ImageNet

上训练的强大图像分类器。在本文

中，我们证明了视频模型是最好的预训练视频和报告显着的

改进，通过使用时空分类器预训练的动力学，一个新收集

的，大的，具有挑战性的人类动作视频数据集。

心理状态、深度预测、姿态估计、动作分类。

在视频领域，在足够大的数据集上训练动作分类网

络是否会在应用于不同的时间任务或数据集时提供类

似的性能提升，这是一个悬而未决的问题构建视频数

据集的挑战意味着大多数流行的动作识别基准都很

小，大约有10k个视频。

在本文中，我们的目标是使用新的动力学人类动作

视频数据集[16]来回答这个问题，该数据集比以前的

数据集HMDB-51 [18]和UCF-101 [27]大两个数量级。

动力学的

6299

下载后可阅读完整内容，剩余9页未读，立即下载

cpongm

粉丝: 6

大规模数据集 Kinetics：推动行动识别的边界

新能源车牌识别绿牌数据集：压缩包文件解析

BIRDy基准：机器人动力学参数识别新框架

深度学习人脸情绪识别模型及数据集教程

基于DEAP数据集的脑电情绪识别 针对基于DEAP数据集，

约束三次样条算法：提升数据平滑与动力学参数估计

广西北部湾港集疏运系统动力学仿真模型研究

Fluent离散相模型案例研究：工业喷嘴的流体动力学模拟

【气候模型构建】：基于SPEI数据集的气候预测模型构建实战指南

【污染影响预测】：基于CALPUFF模型的长期策略与方法

【Simulink仿真案例深度剖析】：构建与分析车辆动力学模型的专家教程

最新资源

基于DEAP数据集的脑电情绪识别针对基于DEAP数据集，