多纤维网络提升视频识别效率：时空深度神经网络的新突破

28 浏览量更新于2024-06-20 收藏 1.73MB PDF 举报

本文主要探讨了视频识别领域的技术挑战以及如何通过创新方法提高时空深度神经网络的效率。作者陈云鹏等人，来自新加坡国立大学、Facebook研究和奇虎360AI研究院，针对降低时空深度神经网络计算成本的问题，提出了一个多纤维体系结构。这个体系结构的核心在于将复杂的3D网络分解为一系列轻量级的网络或纤维，这些纤维在深度网络中相互连接，形成高效的信息传递路径。通过引入多路复用器模块，该设计旨在增强不同纤维之间的信息交换，从而显著减少计算成本，同时保持或提高视频识别的准确性。传统的3D卷积网络，如Res3D和I3D，通过在深度网络中使用三维卷积来捕捉视频中的时空信息，尽管能提供强大的视频表示能力，但计算开销大。文章提到，现有的I3D模型计算成本是作者提出的多纤维网络的9倍，而R(2+1)D模型则是13倍，然而精度更高。研究者的目标是实现与2D网络相近的速度，同时保持或超越最先进的识别性能，比如在UCF-101、HMDB-51和Kinetics等数据集上的表现。多纤维体系结构通过创新的网络设计，不仅降低了计算负担，还可能促进了模型的灵活性和适应性，这对于处理大规模视频数据和实时应用具有重要意义。实验结果有力地证明了这种架构的有效性，表明它在图像和视频识别任务中表现出显著的效率提升，有望推动视频识别领域的技术发展，缩小与图像处理领域的差距。关键词包括深度学习、神经网络、视频分类、动作识别等，这些都是理解本文核心内容的关键点。

Y. Chen，Y. Kalantidis，J. Li，S. Yan和J. 冯

米

个

出去

了

3 × 3 Conv

复用器

3 × 3 3 × 3 3 × 3

1 × 1

3 × 3 3 × 3 3 × 3

1 × 1

3 × 3 3 × 3 3 × 3

1 × 1

3 × 3 3 × 3 3 × 3

1 × 1

纤维1

纤维2

纤维 3

纤维 1

纤维 2

纤维 3

（一）

（

）

第

（

）

款

（c

）第

（

）款

（d

）其

他事

项

（e

）

Fig. 1.从ResNet到多光纤。(a)具有两个3

3卷积层的残差单元。(b)常规多路径

设计，

例如

ResNeXt [28]。(c)所提出的多纤维设计由多个分离的轻质残余单元

（称为纤维）组成。(d)所提出的多光纤体系结构具有用于在分离的光纤之间

传输信息的

复用器

。(e)多路复用器的体系结构细节。它包括两个线性投影

层，一个用于降维，另一个用于扩维。

多光纤网络

利用时空卷积[7，1，2，8，9]的模型的成功表明，具有跨越空间和时

间维度的内核是至关重要的。然而，时空推理是有代价的：卷积核和

输入-输出张量都要大很多倍。

在本节中，我们首先描述我们提出的模型的基本模块，

即。

多光

纤单元。该单元可以有效地减少网络内的连接数，提高模型效率。它

是通用的，与2D和3D CNN兼容。为了更清楚地说明，我们首先通过

将其嵌入到2D卷积架构中并评估其对图像识别任务的效率优势来然

后，我们介绍了时空3D对应，并讨论了具体的设计选择视频识别任

务。

3.1

多纤维单元

所提出的多光纤单元基于高度模块化的剩余单元[3]，其易于训练和部

署。如图1（a）所示，常规残差单元使用两个卷积层来学习特征，这

是直接的但计算昂贵。要看到这一点，让

在

表示的数量，把通道，

中表示中间通道的数量，和

出

表示输出通道的数量。然后，这两个

层之间的连接总数可以计算为

连接= M

输入

中间

输出

。

（一）

剩余15页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

多纤维网络提升视频识别效率：时空深度神经网络的新突破

行业-电子政务-具有皮芯结构的导电高分子复合纤维及其制备方法.zip

人工神经网络识别视频

opencv 实时识别效率

python识别视频中的商品

与视频处理有关的神经网络

基于智能视频分析和深度学习神经网络技术，通过对不同时间段的视频对比准确识别视频监控区域的画面的烟雾和火焰的具体实施过程模型

卷积神经网络理论基础 2.1 神经网络概述 2.2 卷积神经网络的基本原理 2.3 经典卷积神经网络模型介绍 2.4 卷积神经网络在图像识别中的应用

介绍BP神经网络，并说明BP神经网络在人脸识别中如何应用

基于Transformer的双目立体图像超分辨重建及其在视频监控中的应用

数字视频监控技术或者网络视频监控技术对视频监控系统的发展有什么影响？

最新资源