HDDM: 异构深度判别模型提升视频场景分类性能

116 浏览量更新于2024-06-20 收藏 1.3MB PDF 举报

视频场景分类的深度学习模型，如文中所述，是针对视频内容理解和识别中的一项关键技术挑战。该研究由Mohammad Tavakolian和Abdenour Hadid在芬兰奥卢大学机器视觉与信号分析中心（CMVS）进行，他们开发了一种名为异构深度判别模型（HDDM）。HDDM的核心在于其独特的架构，它通过无监督预训练阶段利用高斯约束玻尔兹曼机（GRBM）来减少相邻帧的冗余信息。在这个过程中，模型关注帧内时空变化模式的提取，通过稀疏立方对称模式（SCSP）进行稀疏表示，以捕捉视频内容的动态特性。 HDDM的关键创新在于其预训练策略，它将每个类别的视频分开处理，以此学习类特定的模型。这种方法旨在提高模型对场景的独特性识别能力，通过最小重建误差来优化模型的性能。分类阶段采用加权投票策略，结合每个类别模型的预测结果，以达到更准确的分类决策。文章强调了视频场景分类与常规对象检测或分类的不同之处，因为场景通常包含多个随机布局的实体，对模型的鲁棒性和泛化能力提出了更高要求。有效的视频表示是解决这类问题的关键，尤其是在处理照明变化、视点变化和相机运动等复杂情况时。过去几年，研究人员已经提出多种视频表示方法来应对这些挑战，但HDDM的出现进一步推动了这一领域的进展。实验结果展示了在UCF101、HollywoodII、DynTex、YUPENN和Maryland等多个数据集上的优秀性能，表明该模型在视频场景分类任务上超越了现有的先进方法。这篇论文不仅介绍了HDDM的细节设计和工作原理，还探讨了其在实际场景中的应用价值，以及它如何通过解决时空变化模式和类特定模型的学习问题，为视频场景分类提供了一种强有力的新工具。这项研究为视频理解和内容分析领域的未来发展奠定了坚实的基础。

M. Tavakolian和A.哈迪德

提出如虽然他们都是有效的捕捉时空信息，他们很少能达到令人满意

的性能，在相机运动的存在。

最近，在计算机视觉的各个领域，对深度学习方法的研究兴趣越

来越大，击败了最先进的技术[9，11，12，13，14]。深度学习方法在

图像分类[21]，对象检测[22]，人脸识别和验证[23]以及图像集分类[10]

中建立了许多识别记录。深度模型，如深度信念网络和堆栈自动编码

器，比传统的浅层模型具有更强的表达能力，并且可以通过逐层预训

练和微调进行有效训练[24]。堆叠式自动编码器已成功用于特征提取

[25]。此外，由于多个非线性水平的组成，它们可用于模拟变量之间

的复杂关系[25]。 Xie

等人

[26]使用堆叠的去噪自动编码器来建模噪声图像和干净图像之间的关

系尽管深度自动编码器很少用于对时间序列数据进行建模，但存在关

于使用受限玻尔兹曼机（RBM）[27]的变体用于特定时间序列数据

（例如人体运动[28]）的研究。另一方面，一些卷积架构已被用于从

视频数据学习时空特征[29]。Kaparthy

等人。

[11]使用卷积神经网络

（CNN）的深层结构，并在大规模视频数据集上进行了测试。通过训

练多个卷积层的层次结构来学习长距离运动特征，他们证明了他们的

框架比基于单帧的方法略好。Simonyan

等人。

[12]设计了两流CNN，

其中包括空间和时间网络。他们利用ImageNet数据集进行预训练，并

计算光流以显式捕获运动信息。 Tran

等人

[13]研究3D CNN

[30]在现实（在野外捕获）和大规模视频数据集上。他们试图通过3D

卷积运算来学习空间和时间特征。Sun

等人

[14]提出了一种因式分解的

时空CNN，并利用不同的方法来分解3D卷积核。

长程时间结构在理解视频中事件的动态过程中起着重要的作用。

然而，主流CNN框架通常关注外观和短期运动。因此，他们缺乏能

力，将长期的时间结构。最近，很少有其他尝试（主要依赖于具有预

定义采样间隔的密集时间采样）被提出来处理这个问题[31，32]。这

种方法会导致过多的计算成本，并且不适用于现实世界的长视频序

列。它还带来了丢失比最大序列长度更长的视频的重要信息的风险我

们提出的方法通过从视频序列中提取稀疏立方对称模式（SCSP）来

馈送其自动编码器结构（Sec. 4.1）。在时空结构建模方面，关键的观

察是连续帧是高度冗余的。因此，不需要导致高度相似的采样帧的密

集时间采样。相反，在这种情况下，稀疏时空表示将更有利此外，自

动编码器减少了

剩余16页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

HDDM: 异构深度判别模型提升视频场景分类性能

基于深度学习的视觉场景识别

使用深度学习进行场景分类：使用 MIT Places 数据集子集和预训练模型 Places365GoogLeNet 的场景分类解决方案。-matlab开发

SceneClassification：使用各种深度学习模型对世界各地的场景进行分类

车辆检测 深度学习模型

有哪些深度学习模型及其主要使用场景

搭建一个关于人脸识别的深度学习模型

深度学习技术用到算法的使用场景和构建过程

基于深度学习的视觉场景识别研究内容

监控视频画面场景如何用深度学习技术分类？

数据融合技术中有可以实现视频场景识别的算法吗，请帮我介绍一下

最新资源

车辆检测深度学习模型