视频场景分类的深度学习模型

102 浏览量更新于2023-10-13 收藏 1.3MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

视频分类的深度判别模型Mohammad Tavakolian和Abdenour Hadid芬兰奥卢大学机器视觉与信号分析中心（CMVS）firstname.lastname@ oulu.fi抽象。本文提出了一种新的基于视频的场景分类的深度学习方法。我们设计了一个异构深度判别模型（HDDM），其参数通过使用高斯约束玻尔兹曼机（GRBM）以逐层方式执行无监督预训练来为了避免相邻帧的冗余，我们提取帧内的时空变化模式，并使用稀疏立方对称模式（SCSP）稀疏表示它们然后，使用每个类的视频单独训练预初始化的HDDM以学习类特定的模型。根据学习的类特定模型的最小重建误差，加权投票策略用于分类。在两个动作识别数据集UCF 101和Hollywood II以及三个动态纹理和动态场景数据集上对所提出的方法的性能进行了广泛的评估 ; DynTex 、 YUPENN 和Maryland。实验结果和与最先进的方法的比较表明，所提出的方法在所有数据集上始终实现1介绍通过最近数字内容的激增，视频数据已经成为当今生活的不可分割的部分。这是一种针对广泛的视频理解应用的先进方法的发展在这种背景下，视频内容的理解和分类已经在计算机视觉社区中获得了大量的研究兴趣然而，视频中的场景的自动分类受到许多挑战，包括短视频中的一系列自然变化，诸如照明变化、视点变化和相机运动。此外，场景分类不同于常规的对象检测或分类，因为场景由通常以随机布局组织的若干实体组成。因此，设计准确、高效和鲁棒的视频表示对于应对这些挑战至关重要。为了实现视频中的场景的有效表示，我们可以使用视频中的场景的副本来对视频中的场景或所有场景进行建模。视频包括固有地展现场景或对象的空间和时间规律性的动态纹理动态纹理广泛存在于现实世界2M. Tavakolian和A.哈迪德视频数据，例如规则的刚性运动，如风车，混沌运动，如烟雾和水湍流，和复杂的运动所造成的相机摇摄和变焦。视频中动态纹理的建模是一个具有挑战性的问题，但对于视频分类、动态纹理合成和运动分割等计算机视觉应用来说非常重要。尽管存在各种挑战，但人们一直致力于为基于视频的场景分类任务找到一个强大而强大的解决方案此外，它已被普遍证实，一个有效的表示的视频内容是一个关键的一步，解决问题的动态纹理分类。在前几年中，已经提出了大量的用于视频表示的方法，例如：基于线性动态系统（LDS）的方法[1]、基于局部二进制模式（LBP）的方法[2]和基于小波的方法[3]。不幸的是，目前的方法是敏感的变化范围广泛，如视点变化，对象变形，和照明变化。与这些缺点相结合，其他方法经常在由子空间[4]、子空间的组合[5]、格拉斯曼流形上的点[6]或黎曼流形的李群[7]表示的几何表面上对连续帧内的视频信息进行建模。这些需要关于视频的样本被假设位于其上的几何表面的特定类别的先验假设。另一方面，深度学习最近在许多领域取得了重大成功[8，9，10]，包括视频场景分类[11，12，13，14]。与传统方法无法对不连续的刚性运动建模不同，基于深度学习的方法具有很大的建模能力，并且可以学习视频中的区别性表示。然而，目前的技术大多被设计用于处理固定长度的视频序列。由于它们有限的时间覆盖，它们不能处理长序列本文提出了一种新的深度学习方法，该方法不假设任何关于数据概念的偏见知识，并且自动探索视频样本所在的复杂非线性表面的结构根据图 1 中的框图，我们提出的方法定义了异构深度判别模型（HDDM），其权重由使用高斯限制玻尔兹曼机（GRBM）的无监督逐层预训练阶段初始化[15]。然后，使用每个类别的所有视频针对该类别单独训练初始化的HDDM，以便针对每个类别学习深度判别模型（DDM）。完成训练使得DDM学习具体地表示该类的视频。因此，一个类特定的模型是学习的结构和几何形状的复杂的非线性表面上存在的视频序列的类。此外，我们表示的原始视频数据，使用稀疏立方对称模式（SCSP）捕捉远程时空模式，并减少相邻帧之间的冗余。对于给定查询视频的分类，我们首先基于学习的类特定DDM表示视频。然后计算来自各个DDM的表示误差，并使用加权投票策略来为查询视频分配类别标签。深度判别模型3- -−图1：所提出的用于视频分类的DDM框架的框图。我们提出的深度判别模型（DDM）的主要贡献如下。首先，引入了一种新的基于深度学习的框架用于视频分类（第2节）。（3）第三章。此外，我们开发了一种稀疏立方对称模式（SCSP），以避免视频序列中的冗余，并减少计算成本，并利用加权投票策略进行分类（Sec.4）.最后，进行了大量的实验，以及对国家的最先进的视频分类方法的实验结果表明，所提出的方法实现了优越的性能相比，国家的最先进的方法（节。（五）。2相关工作已经提出了用于视频分类的若干方法[3，16，17]。一种流行的方法是线性动态系统（LDS）[1，16]，其被称为在空间和时间上定义的概率生成模型。LDS使用主成分分析（PCA）近似隐藏状态，并描述它们随时间演变的轨迹。LDS由于其对外部变化的敏感性而具有明显的缺点。为了克服这种限制，提出了闭环LDS（CLDS）[18]。然而，CLDS往往无法捕捉一些不连续的刚性运动，由于其简单的线性。基于局部二值模式（LBP）的方法[2]已广泛用于纹理分析。 Zhao等人[19]将LBP扩展到空间和时间域，并提出了两个LBP变体：1）体积局部二进制模式（VLBP）[19]，其组合了视频的空间和时间变化;2）三个正交平面上的局部二进制模式（LBP-TOP）[19]，其计算三个单独的xy、xt和yt平面来描述视频。类似地，LBP-TOP的其他版本，诸如三个正交平面上的局部三元图案（LTP-TOP）[20]和三个正交平面上的局部相位量化（LPQ-TOP）[20]，具有以下特征：4M. Tavakolian和A.哈迪德提出如虽然他们都是有效的捕捉时空信息，他们很少能达到令人满意的性能，在相机运动的存在。最近，在计算机视觉的各个领域，对深度学习方法的研究兴趣越来越大，击败了最先进的技术[9，11，12，13，14]。深度学习方法在图像分类[21]，对象检测[22]，人脸识别和验证[23]以及图像集分类[10]中建立了许多识别记录。深度模型，如深度信念网络和堆栈自动编码器，比传统的浅层模型具有更强的表达能力，并且可以通过逐层预训练和微调进行有效训练[24]。堆叠式自动编码器已成功用于特征提取[25]。此外，由于多个非线性水平的组成，它们可用于模拟变量之间的复杂关系[25]。 Xie等人[26]使用堆叠的去噪自动编码器来建模噪声图像和干净图像之间的关系尽管深度自动编码器很少用于对时间序列数据进行建模，但存在关于使用受限玻尔兹曼机（RBM）[27]的变体用于特定时间序列数据（例如人体运动[28]）的研究。另一方面，一些卷积架构已被用于从视频数据学习时空特征[29]。Kaparthy等人。 [11]使用卷积神经网络（CNN）的深层结构，并在大规模视频数据集上进行了测试。通过训练多个卷积层的层次结构来学习长距离运动特征，他们证明了他们的框架比基于单帧的方法略好。Simonyan等人。 [12]设计了两流CNN，其中包括空间和时间网络。他们利用ImageNet数据集进行预训练，并计算光流以显式捕获运动信息。 Tran等人 [13]研究3D CNN[30]在现实（在野外捕获）和大规模视频数据集上。他们试图通过3D卷积运算来学习空间和时间特征。Sun等人 [14]提出了一种因式分解的时空CNN，并利用不同的方法来分解3D卷积核。长程时间结构在理解视频中事件的动态过程中起着重要的作用。然而，主流CNN框架通常关注外观和短期运动。因此，他们缺乏能力，将长期的时间结构。最近，很少有其他尝试（主要依赖于具有预定义采样间隔的密集时间采样）被提出来处理这个问题[31，32]。这种方法会导致过多的计算成本，并且不适用于现实世界的长视频序列。它还带来了丢失比最大序列长度更长的视频的重要信息的风险我们提出的方法通过从视频序列中提取稀疏立方对称模式（SCSP）来馈送其自动编码器结构（Sec. 4.1）。在时空结构建模方面，关键的观察是连续帧是高度冗余的。因此，不需要导致高度相似的采样帧的密集时间采样。相反，在这种情况下，稀疏时空表示将更有利此外，自动编码器减少了深度判别模型5·e图2：所提出的异构深度判别模型的配置。尺寸和保持尽可能多的重要信息，并消除噪音。此外，将它们与RBM相结合有助于模型基于其非线性来学习更复杂的视频结构。3提出的深度判别模型我们首先定义了一个异构深度判别模型（HDDM），它将用于学习第4.2节中的数据的底层结构HDDM的架构如图2所示。通常，适当的参数初始化对于深度神经网络具有令人满意的性能是不可避免的。因此，我们通过使用高斯限制玻尔兹曼机在贪婪的逐层框架初始化的HDDM针对训练视频的C类中的每一个单独地微调。因此，我们最终得到总共C个微调的深度歧视模型（DDM）。然后，微调模型用于视频分类。3.1异构深度判别模型如图2所示，所提出的HDDM基于自动编码器，该自动编码器包括多个编码器和解码器层。在所提出的自动编码器结构中，编码器和解码器均具有M个隐藏层，使得编码器的第M层被认为是解码器的第一层。编码器部分以较低的维度表示输入数据。编码器由用于将输入数据x映射到由下式给出的表示h的非线性函数s（）的组合组成：h =s ..ΣX. θ（1），θ（2），. . . ，θ（M）（一）. e e e、、、wheeeθ（i）=W（i），b（i）表示编码器层的参数e e e因此，W（i）∈Rni×ni−1是具有ni的层i的编码器权重矩阵节点，6M. Tavakolian和A.哈迪德e∈·2我HDDM我Beeb（i）Rni是偏置向量，并且s（）是非线性S形激活函数。通过将编码器与解码器组合来学习编码器参数，并且通过优化成本函数来联合训练编码器-解码器结构以表示输入数据因此，解码器可以被定义为一系列非线性函数，其从编码输出计算输入X的近似。解码器的输出x~的应用程序是通过以下方式获得的x~=s ..ΣH. θ（1），θ（2），. . . ，θ（M）（二），，。 Dddwh ee eθ（j）=W（j），b（j）是解码器层的参数。结论D d d然后，我们用参数来表示完整的编解码器结构θ={θ，θ}，其中θ，，M= W（i），W（i）和θ，，M=b（i），b（i）.i=13.2参数初始化我们用每个类别的视频单独训练定义的HDDM，这导致特定于类别的模型。训练通过随机梯度下降和反向传播进行[33]。如果HDDM用不适当的权重初始化，则训练可能不会产生期望的结果因此，模型的参数首先通过无监督预训练阶段初始化为此，采用贪婪逐层方法并使用高斯RBM [15]。基本上，标准RBM [27]用于二进制随机数据。因此，我们使用RBM的扩展来处理实值数据，通过适当的修改，阳离子在其能量函数。高斯RBM（GRBM）[15]是一种流行的扩展，其能量函数通过改变可见层的偏置项来定义。EGRBM（v，h）=Σ（vi−bi）22σ2Σ—cjhj−Σwvih（3）ijσjiij伊日其中W是权重矩阵，b和c分别是可见层和隐藏层的偏置。我们使用一种称为对比散度（CD）[34]的数值技术来学习GRBM的模型参数{W，b， c}在训练阶段。vi和hj分别表示可见层和隐藏层节点此外，σi是到可见节点vi的实值高斯分布输入的标准偏差。可以学习每个可见单元的σi因此，我们使用另一种方法并将σi设置为常数值。由于没有层内节点连接，结果推导变得容易管理的RBM相反，最直接的图形模型。GRBM的概率分布由下式给出：ρ（h j|v）= s. ΣΣwijvi+cjI.Σ（四）1ρ（v i|h）=σ√2 πexp−（vi−ui）2σ2（五）WWDi=1BD深度判别模型7我××t=1∈哪里ui=bi+σ2Σ中国（6）我由于我们的数据是实值的，我们使用GRBM来初始化所提出的HDDM的参数。在这种情况下，我们一次考虑两个堆叠层以在学习过程中获得GRBM参数。首先，将输入层节点和第一隐层节点分别视为第一GRBM的可见单元v和隐单元h，并获得它们各自的参数。第一GRBM隐藏单元的激活然后被用作训练第二GRBM的输入。我们对所有四个编码器隐藏层重复此过程。然后将针对编码器层学习的权重绑定到对应的解码器层。4视频分类过程在本节中，我们将描述如何使用表示对查询视频进行错误.假设存在C个训练视频{X，c}C，具有对应c=1类标签yc∈ {1， 2，· · ·，C}。视频序列由Xc=.x（t）ΣTt=1，其中x（t）包含帧在时间t的原始像素值。问题是将类yq分配给查询视频Xq。4.1稀疏立方对称模式我们表示动态纹理的视频块，视频卷跨越空间和时间域，联合建模的空间和时间的信息。由于有很强的相关性相邻区域的场景（这会导致冗余），我们设计了一种方法来提取的时空编码功能的稀疏表示。结果，丢弃不太重要的信息，这使得深度判别模型表示更有效。为此，我们设计了一个基于体积的给定一个视频，我们首先将其分解成一批小立方体时空体积。我们只考虑小尺寸的视频立方体（W H D像素），它由相对简单的内容组成，可以用很少的组件生成。图3说明了特征提取过程。我们将每个系列的.ΣT将X= x（t）的帧分解为w×h×d个不同的非重叠均匀间隔的立方块，并为每个立方块提取对称的时空变化模式块，其产生对应块的特征向量因此，每个视频序列X根据对称的有符号幅度变化模式进行编码，表示为xERd，通过连接跨越整个视频序列的所有立方块的特征向量来获得。如果视频序列的最后一个或两个帧不适合立方块结构，则不考虑它们。由于连续帧之间的相关性，这不会影响算法性能。8M. Tavakolian和A.哈迪德2∈ǁ·ǁOl=11PPX图3：提取视频序列的体积块中的对称带符号幅度变化模式的示例。给定任何像素x（t），我们通过x（t），...，x（t）来表示相邻像素。第j平面的对称时空变化计算为：.]2FJx（t）=.Σx（t）−x（t）2（七）o pp=1p+P其中x（t）和x（t）是像素x（t）的两个对称邻居。此外，U表示pp+Po连接运算符。上述特征向量被组织到矩阵DRd×N的列中，其中d是特征向量的维度，N是视频的总数。在可变长度视频中，我们将视频序列在时间上划分为具有固定长度k的非重叠片段，并分别从每个片段内的立方块中提取特征。然后，我们将每个部分的提取特征放入矩阵D的列中。在这里，我们调用rixD，然后找到一个由编码的向量E组成的空间，xE=Dxbyb，因为它是在chingpuruit[35]中使用的。1最小x2-Dx2+λx（八）-E2 1X其中λ是松弛变量，并且1是包括1范数的稀疏度。松弛变量平衡了完美拟合数据和采用稀疏解之间的权衡。为了进一步改进，我们表示每个颜色通道，indi-v idually. 此外，我们还将这些部分重新复制到3D结构中. （l）ΣL其中L是结构的长度我们给提议的使用稀疏立方对称模式（SCSP）代替原始模式的深度模型视频.如果不存在任何限制，我们将继续确定每个部件的预存值X=. x（l）ΣL作为满足hlengthL且不等于yX=的方程。.（l）ΣLl=1深度判别模型9J..t=1¨¨4.2学习培训班为了使用GRBM来初始化HDDM的参数，我们随机地混洗包含来自（训练视频序列的）所有类别的视频序列的小子集。我们使用该子集用于所有编码器层的逐层GRBM训练。解码器层的参数然后被配置有其对应的编码器层的绑定参数。这个过程保证我们很少这样做，建议的网络陷入局部最小值。我们定义了一个成本函数的基础上表示错误的所有帧的视频学习类特定的参数。为了避免过度拟合并增强学习模型对看不见的测试数据的泛化，将正则化项添加到HDDM的成本函数中。添加权重衰减惩罚项Jwd和稀疏性约束Jsp。..ΣΣ ¨¨2Jreg θHDDM。x（l）∈Xc=¨x（l）−x~（l）¨+λwd Jwd+λsp Jsp（9）其中λwd和λsp是正则化参数。Jwd保证所有隐藏单元的权重值较小，并确保隐藏层单元不会发生丢失。它被定义为所有权重矩阵的Frobenius范数的总和：ΣM¨2ΣM¨2J=¨ W（i）¨ +W（i）（十）wd¨i=1e¨F¨i=1d¨F此外，J_p_n，因为第i个隐藏层的第j个单元的第j个单元的p_（i）（所有样本）上的平均值尽可能接近稀疏性目标ρ，该稀疏性目标ρ是非常小的常数。基于KL散度进一步定义为2MΣ−1Σρ1−ρJsp=ρlogρ¯（i）+（1−ρ）log1−ρ¯（i）（十一）因此，通过在类Xc的所有帧上优化正则化成本函数Jreg来获得类特定模型θc。θc= arg minθHDDM Jreg..ΣθHDDM。x（l）∈XC（十二）我们注意到，我们提出的模型很容易扩展。注册新的课程不需要对完整的数据库进行重新培训相反，可以独立于现有的类来学习针对所添加的类的类特定模型4.3分类给定查询视频序列Xq =. x（t）ΣTq，我们首先提取SCSP，然后使用所有类别特定的DDM θ c，c分别重建它们 =1，· · ·，C，i=1JJJ10M. Tavakolian和A.哈迪德C−× ×× × ××¨C ¨−3在s（1）和d（2）上使用E q u。向上的位置x~（l）是该电路结构的l-结构queryvid eosequenceX~qc¨basedon¨thec-thclassmodelθc. 我们得到了¨（l）（l）¨重建误差，即¨— x~c¨，来自所有类特定模型;然后，2加权投票策略被用来确定给定的类标签查询视频序列Xq.每个查询视频序列帧x（l）对所有类别进行投票。使用每个cl. asssΣ模型，我们分配一个每个类别的投票权重重量µc由帧x（l）到类c定义为x（l）投票结果.Σ。 ¨¨ Σµc x（l）=exp−¨x（l）−x~（l）¨（十三）从Xq的所有帧实现最高累积权重的候选类被声明为查询视频序列的类yqyq=arg maxCΣ。 Σµc x（l）XQ（十四）5实验分析我们在五个基准数据集上广泛评估了所提出的方法的性能，包括用于动作识别的UCF101 [36]和Hollywood II [37]数据集，用于动态纹理识别的DynTex数据集[17]，以及用于动态场景分类任务的YUPENN[38]和Maryland [39]数据集5.1参数设置我们进行了网格搜索，以获得最佳的参数，并进行了验证集上的具体而言，用于逐层GRBM训练的初始权重从[ 0. 005，0。005]。对比发散（CD）用于在来自训练数据的200个随机选择的视频上训练GRBM使用了32个视频的小批量使用10-3 为了训练预初始化的HDDM来学习特定于类的模型，我们使用了一个退火的学习率，从2×10开始，乘以一个因子0。6个/epoch。我们选择2权重衰减（λ wd）为0。01，稀疏目标（ρ）为0。001，非稀疏惩罚项（λsp）为0.5。通过考虑20个时期的10个视频的小批量来执行训练SCSP中的体积块的大小也影响算法的性能。因此，我们对表1中的不同大小的视频块进行了实证研究。从表1观察到，最好的结果是用33 3的块大小实现的。对于非常小的块（例如，113），很少的时空区域被捕获，并且模型将在处理场景变化方面存在问题。此外，大尺寸的块（例如，7、7 、5）在没有实现模块的性能的情况下执行模块化。为了确定层数和每层中的单元数，我们采用了多分辨率搜索策略。这个想法是从一个大的参数范围内测试一些值，选择几个最佳配置，然后2深度判别模型11在这些值附近以较小的步长再次测试。我们测试了具有递增层数的模型[40]，并在性能达到验证集上的最高速率时停止隐藏层大小在[250，1000]范围内变化。表1：在 UC F 101 数据库 [ 36] 上具有 SCSP 的不同块大小的所述方法的访问率（%）的比较。块大小1× 1× 31× 1× 53× 3× 33× 3× 55× 5× 35× 5× 57× 7× 5精度87.391.294.392.589.484.379.55.2人体动作识别我们在两个基准动作识别数据集上进行了实验，即UCF101 [36]和Hollywood II [37]数据集，并将所提出的方法的性能与最先进的方法进行了比较。UCF 101数据集[36]由真实的网络视频组成，这些视频通常在相机运动、对象外观/比例、视点、杂乱背景和照明变化方面存在很大变化。它有101类人类行为，从日常生活到体育运动。UCF101包含13，320个视频，平均长度为180帧。它有三个分割设置，将数据集分为训练和测试视频。我们报告了这三个分裂的平均分类精度。我们在表2中比较了我们提出的DDM与传统和基于深度学习的人类动作识别基准方法的平均准确性性能。我们的模型获得了91的平均精度。百分之五然而，DDM在UCF101上的准确性低于KVMF[41] 1。6%。我们认为，DDM的性能下降，因为它只捕捉短距离的时空信息的视频序列。UCF101中的视频表现出显著的时间变化。此外，严重的摄像机移动是由于视频的动态图像的复杂性，并且在重建挑战中被标记这些问题给算法集中在每个时刻发生的动作带来了困难。为了解决这个问题，我们将提取的SCSP特征馈送到我们的DDM。建议SCSP提取详细的时空信息，通过捕获小体积块内的视频序列的时空变化通过稀疏地表示这些信息，它不仅覆盖了视频序列的整个长度，而且减少了数据的冗余。以这种方式，SCSP增加了特征空间中的样本的可辨别性，其中相似的样本被映射为彼此靠近，而不相似的样本被映射为远离。因此，DDM可以容易地学习每个类的底层结构从表2中可以看出，我们的DDM的性能通过使用SCSP特性得到了提高。Hollywood II数据集[37]由69部不同的Hollywood电影构建而成，包括12个活动类。它总共包含1，707个视频，其中823个培训视频和884个测试视频。视频的长度从数百帧到数千帧不等。根据测试协议，性能通过所有类别的平均进动来测量[37]。12M. Tavakolian和A.哈迪德表2：DDM与UCF101数据集上的最新方法的平均分类准确度的比较[36]。方法平均精度（%）iDT+HSV [42]87.9MoFAP [43]88.3双流CNN [12]88.0C3D（3网）[13]85.2C3D（3网）+iDT [13]90.4美国（公告牌百强单曲榜）[14]88.1TDD+FV [44]90.3KVMF [41]93.1DDM91.5DDM+SCSP94.3为了将我们的方法与基准进行比较，我们获得每个类别的平均进动性能，并采用表3中所示的平均平均进动（mAP）。使用DDM获得最佳结果，总体精度提高0.4 mAP。所提出的方法在动作识别任务中的优越性能证明了我们的长期时空建模的视频方法的有效性。表3：DDM的平均进动（mAP）与Hollywood II数据集上最先进方法的比较[37]。方法最大平均接入点（%）DL-SFA [45]48.1iDT [46]64.3阿克顿[47]64.3MIFS [48]68.0NL-RFDRP+CNN [49]70.1HRP [14]76.7DDM75.3DDM+SCSP77.15.3动态纹理与动态场景识别我们使用DynTex [17]数据集和YUPENN在动态纹理和动态场景分类的情况下评估了我们提出的方法的能力[38]和马里兰[39]数据集分别。为了遵循标准比较协议，我们使用留一法（LOO）交叉验证。请注意，结果来自相关论文。DynTex数据集[17]是动态纹理分析的标准数据库，包含高质量的动态纹理视频，如风车、瀑布和海浪。它包括在各种条件下以PAL格式录制的650多个视频。每个视频有250帧的长度与每秒25帧的帧速率。表4比较了DDM与基准方法的秩1识别率可以清楚地看到，我们提出的方法产生的最好的结果相比，所有其他方法。YUPENN数据集[38]是一个稳定的动态场景数据集。该数据集的创建重点是场景特定的时间信息。YUPENN包含14个动态场景类别，每个类别包含30个视频。在这些数据的视频序列中存在显著的图像变化，例如帧、我们在表5中报告了该数据集的实验结果。从表5可以观察到深度判别模型13表4：DynTex数据集上的秩-1识别率的比较[17]。方法识别率（%）VLBP [19]95.71LBP-TOP [19]97.14DFS [50]97.63[51]第五十一话98.86MBSIF-TOP [52]98.61st-TCoF [9]98.20DDM98.05DDM+SCSP99.27DDM优于现有的国家的最先进的方法的情况下，动态场景分类。实验结果表明，在稳定的环境下，DDM方法对动态场景数据分类是有效表5：YUPENN [38]和Maryland [39]动态场景数据集的分类结果（%）比较。方法YUPENN马里兰CSO [53]85.9567.69SFA [54]85.4860.00SOE [3]80.7143.10博塞[3]96.1977.69LBP-TOP [19]84.2939.23C3D [13]98.10N/Ast-TCoF [9]99.0588.46DDM97.5286.33DDM+SCSP99.1890.27马里兰数据集[39]是一个动态场景数据库，由13个自然场景类别组成，每个类别包含10个视频，平均617帧。该数据集具有显示自然动态场景中各种变化的视频，例如，雪崩交通和森林火灾Maryland数据集和YUPENN数据集之间的一个显著差异是前者包括相机运动，而后者不包括。我们在表5中给出了我们提出的方法与最先进方法之间的比较。由于马里兰数据集中的大多数视频显示出显着的时间变化，实验结果表明，对于高度动态的数据，DDM能够超过其最强的竞争对手st-TCoF的利润率为1.81%。st-TCoF在动态场景分类中的有希望的性能（表5）是由于结合了视频序列的空间和时间信息。然而，马里兰州数据集上的结果表明，st-TCoF是敏感的显着的相机运动。另一方面，我们的DDM是强大的鲁棒性时，图像的结构急剧改变其位置随时间的推移。因此，DDM可以有效地学习复杂的底层结构的动态场景中存在的严重的相机运动。5.4鉴别分析为了说明SCSP的识别能力，图4显示了在3D空间中应用SCSP之前和之后来自不同类别的UCF 101数据库的采样数据的分布。由于现有的冗余性，在应用SCSP之前对样本进行相关，这使得数据14M. Tavakolian和A.哈迪德图4：来自UCF101数据集的学习类的分布的示例[36]应用建议的SCSP之前（左）和之后（右）。SCSP通过在特征空间中浓缩和分散它们的样本来降低相似类之间的相关性。重建是一项重要的任务。然而，在应用SCSP之后，样本在特征空间中变得分散，即，相似的样本彼此更接近，而不相似的样本彼此相距较远。该策略通过从特征空间而不是原始视频数据学习每个类的底层结构，使得学习DDM的类特定模型的过程更容易通过扩大数据的类间相似性，建议的DDM重建的视频，每一类更有效地通过学习类specific模型- els。根据样本之间的距离在新的特征空间，DDM可以很容易地学习模式和结构的每一个类，因为相关性和冗余减少应用SCSP。6结论我们提出了一种新的基于视频的场景分类的深度学习方法具体而言，提出了一种多层深度自动编码器结构，该结构首先进行预训练以进行适当的参数初始化，然后进行微调以学习特定于类的深度判别模型（DDM）。DDM捕捉到了视频序列中潜在的非线性复杂几何表面，可以有效地为了去除视频序列中的冗余信息，避免相邻帧间的强相关性，我们捕获视频序列中的时空变化，并使用稀疏立方对称模式（SCSP）对它们进行稀疏表示。在测试阶段期间，学习的DDM用于基于最小重构误差的分类技术。所提出的方法已被广泛评估的基准视频数据集的动作识别，动态纹理和动态场景分类任务。比较parisons对国家的最先进的方法表明，我们提出的方法实现了非常有趣的性能。确认芬兰科学院和Infotech Oulu的财政支持是明智的。深度判别模型15引用1. Ravichandran，A.，乔杜里河维达尔，R.：使用动态纹理系统的库对动态纹理进行分类。IEEETrans. PAMI35⑵（2013）3422. 哦，是的，T. Piettikaüinen，M.， Ma¨enpa¨a¨，T. ：利用局部二进制模式的多分辨率并行和旋转不变纹理分类。 IEEE Trans. PAMI24 （ 7 ）（2002）971-9873. Feichtenhofer，C.，Pinz，A.，Wildes，R.P.：动态扫描记录的时空能量袋。 In：IE E ECVPR. （201 4）26814. Kim，T.K.，Kittler，J.，Cipolla，R.：使用典型相关性的图像集类别的判别学习和识别。IEEE Trans. PAMI 29（6）（2007）10055. 王，R.，Shan，S.，陈旭，Dai，Q.，Gao，W.：流形-流形距离及其在图像集人脸识别中的应用。IEEE Trans. Image Processing21（10）（2012）44666. Harandi，M.，桑德森角Shirazi，S.，Lovell，B.C.：改进图像集匹配的格拉斯曼流形图嵌入In：IEEECVPR.（2011年）27057. 王，R.，郭，H.，戴维斯，L.S.，Dai，Q.：协方差判别学习：一种自然而有效的图像集分类方法。In：IEEE CVPR.（2012）24968. Bengio，Y.，Courville，A. Vincent，P.：表征学习：回顾与新的视角。IEEE Trans.PAMI 35（8）（2013）179818289. Q1，X.， Li，C. G.， Zhao，G.， Hong，X.， Pietikaüinen，M. ：通过转移深度图像特征的Dynamictexture和scene分类。神经计算171（2016）1230-124110. Hayat，M.，Bennamoun，M.，安，S.：用于图像集分类的深度重建模型。IEEETrans. PAMI37⑺（2015）71311. Karpathy，A.，Toderici，G.，Shetty，S.，Leung，T.，Sukthankar河李菲菲：用卷积神经网络进行大规模视频分类。In：IEEE CVPR. （2014）172512. 西蒙尼扬，K.，齐瑟曼，A.：用于动作识别的双流卷积网络。 In：NIPS.（2014）56813. Tran，D.，Bourdev，L.费格斯河托雷萨尼湖Paluri，M.：学习空间项目--使用3DCONVOL网络任务的情况。 In：IEEEICCV. （2015）448914. 孙湖，加 - 地 Jia ， K. ，杨 D.Y.Shi ， B.E. ：使用因子分解的 spatito-temporalc onvo lutonnetwor ks的人类动作识别。 In：IEEEICCV. （2015）459715. Welling，M.，Rosen-Zvi，M.，Hinton，G.：指数族和声，其中ap pl icatin形成r etieval。 In：NIPS. （2004）148 116. 乔杜里河Hager，G.，维达尔，R.：动态模板跟踪与识别。IJCV105（1）（2013）1917. 你好R Fazekas，S.，你好，M. J. ：Dyntex：一个复杂的数据库，数据库中包含了数字化的数据。Patter nRec gniti onLeter s31（12）（20 10）162718. Yuan，L.温，F.，刘，C.，沈希尧：用闭线性和动态纹理系统合成动态纹理。 In：ECCV. （2004）60319. Zhao，G.， Pietikaüinen，M. ：Dynamicteturecognitionu s i n usingl o calbinap lin a plic a t i n a p lic a p lic a t i n a p li n a p lic a t i n a p lic a p lic a p li n a p lic a plic a p li n a p lic a p lica p li nsofapleprs sins。IEEETrans. PAMI29⑹（2007）91520. Rahtu，E.，他是我的朋友，J.， OJANSIVU，V.， Ahonen，T. ：Localhasequantizati ImageandVisinComp uting30（8）（2012）50116M. Tavakolian和A.哈迪德21. Azizpour，H.，Razavian，A.S.，Sullivan，J.，Maki，A.，Carlsson，S.：从一般到特定版本，为 ViS uualregnition 提供了一个新的版本。 In ：IEEECVPR. （2015）3622. Sermanet，P.，Eigen，D.张，X.，Mathieu，M.，费格斯河LeCun，Y.：Overfeat：使用卷积网络集成识别、定位和检测。CoRR abs/1312.6229（2013）23. Sun，Y.，王，X.，唐X：通过预测10，000个CLASSS来深度学习人脸表示。 In：IEEECVPR. （2014）189124. Bengio，Y.：学习人工智能的深度架构。机器学习的基础和趋势2（1）（2013）125. Vincent，P. Larochelle，H.拉茹瓦岛Bengio，Y.，Manzagol，P.A.：堆叠式去噪自动编码器：在深度网络中学习有用的表示，并使用本地定义。J〇unalofMachineLearningResearch11（2010）33 7126. 谢，J.，徐，L.，Chen，E.：深度神经网络图像去噪与修复。 In：AvancesinNeur alInpr o c e s i n g S y s i n g Pr o c e s i n g S ysi ngP r o c e si n gSys i n g S i n gi （2012）35027. Smolensky，P.：并行分布式处理：对齿轮显微组织的探讨。1.一、MITPress（1986）19428. Taylor，G.W.，辛顿通用电气Roweis，S.：使用二进制潜变量建模人体运动。在：神经信息处理系统的进展。（2007）134529. Taylor ， G.W. ，费格斯河 LeCun ， Y. ， Bregler ， C. ：卷积学习的空间poratures。 In：ECCV. （2010年）14030. Ji，S.，徐伟，杨，M.，Yu，K.：用于人类听觉识别的3D卷积神经网络。IEEETrans. PAMI35（1）（2013）22131. Ng，J.Y.H.，Hausknecht，M.，Vijayanarasimhan，S.，Vinyals，O.，蒙加河Toderici，G.：除了简短的片段：用于视频分类的深度网络。In：IEEECVPR.（2015年）469432. Varol，G.，拉普捷夫岛Schmid，C.：用于动作识别的长期时间卷积。CoRR abs/1604.04494（2016）33. 辛顿通用电气Osindero，S.，Teh，Y.W.：一种快速的深度信念网络学习算法。新中国出版社18（7）（2006）152734. 辛顿通用电气Osindero，S.，Welling，M.，Teh，Y.W.：使用对比反向传播的非线性结构的无监督发现。认知科学30（4）（2006）72573135. Chen ， S.S. ， Donoho ， D.L. ， Saunders ， M.A. ：基追踪原子分解。SIAMRev43（1）（200

下载后可阅读完整内容，剩余1页未读，立即下载