没有合适的资源?快使用搜索试试~ 我知道了~
Curvelet变换的多媒体事件分类方法
沙特国王大学学报基于Curvelet变换的多媒体事件分类Kaavya Kanagaraj,G.G.拉克什米·普里亚SITE,VIT University,Vellore,Tamil Nadu,印度阿提奇莱因福奥文章历史记录:收到2018年2018年10月11日修订2018年11月11日接受在线发售2018年保留字:Curvelet变换镜头边界检测关键帧提取特征提取SVM分类器平均精密度(mAP)A B S T R A C T多媒体事件分类一直是视频事件分析的主要研究方向之一。对于事件识别,特征提取起着关键作用,仅仅区分正确的特征就成为一项具有挑战性的工作。因此,本文提出了视频事件检测的特征提取和选择方法.对于视频事件检测或分类,识别对象的结构及其运动是一个基本的需求。因此,对于目标检测,曲波特征被考虑,由于其高方向选择性和高各向异性特性。其次,提出了一种基于运动的镜头边界检测算法(MSBD)来识别镜头边界。同时,为了使用户在更短的时间内访问查询事件,提出了一种表示包含整个视频内容的少数代表帧的为了使事件搜索有效,从主要特征中提取基于对象的特征,并且为了使特征更有效和更主要地增强,使用排名方法执行特征选择。最后,采用RBF核的SVM分类器进行事件分类.使用哥伦比亚消费者视频(CCV)数据集进行实验,并使用平均精度(mAP)进行评估,发现它优于各种其他现有方法。©2018作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍多媒体数据已经变得越来越流行和广泛访问,特别是通过互联网。大多数互联网用户花费他们的时间在社交网络上,如YouTube,Facebook,Twitter等,通过使用移动设备,相机等来查看,上传或下载多媒体内容。由于其使用,数字视频技术在捕获视觉信息方面取得了巨大的进步。由于这种视觉信息描述了视频的内容,因此它们几乎被用于各种安全目的。所有的地方,像学校,大学,市场,等等,这些内容对于跟踪其中发生的一些事件是非常有用的,因此,通过分析视频内容可以简化对这些事件的索引和检索。*通讯作者。lakshmipriya.gg @ vit.ac.in(G.G.L. Priya)。沙特国王大学负责同行审查制作和主办:Elsevier视频内容可以包含以简单或复杂动作、不同活动、在不受约束的环境中拍摄的具有不稳定运动的变化场景(例如钓鱼、狗秀等)的形式的某个事件。理解或区分视频内容或视频事件的机会自动变为一项具有挑战性的任务。由于视频的大内容,感兴趣的事件的手动检测变得繁忙,并且这也是一项耗时的任务。因此,为了方便和有效地检索视频,需要一种自动索引和检索技术。索引和检索可以通过多媒体事件检测(MED)来完成或进行。为了检测网络视频中的多媒体事件,许多研究人员对开发自动事件检测技术表现出了极大的兴趣。由于对MED任务的高度重视,国家技术研究所(NIST)组织了一个MED任务研讨会,通过提供基准评估(TRECVID)社区来贡献MED任务的研究。MED的目标是从视频内容中确定各种用户定义的事件。代替处理视频的整个内容,可以考虑视频的概要,以便节省用户在所提出的工作中,视频中的事件检测经历了不同的阶段,例如(i)镜头边界检测:镜头边界检测或视频分割旨在将视频分解为几个小的有意义的片段。镜头边界是https://doi.org/10.1016/j.jksuci.2018.11.0061319-1578/©2018作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com376K. Kanagaraj,G.G.L.Priya/ Journal of King Saud University基于背景/前景和/或特定对象或其颜色等来检测。视频镜头包含由单个相机拍摄的连续帧(Cotsaces等人, 2006年,随着时间的推移,?(ii)关键帧提取:关键帧提取是提取视频帧的过程,其通过几个突出的帧覆盖视频的整个内容在我们目前的研究中,关键帧提取从获得的镜头。(iii)特征提取:特征提取的两种方式是基于低级特征和高级特征。低级特征包括尺度不变特征变换(SIFT)、时空兴趣点(STIP)、边缘等, (Tamrakar等人,2012; Lan等人,2013年)。高级特征包括自动语音识别(ASR)(Miao等人,2014)和光学字符识别(OCR)(Yu等人,2014年)。(iv)特征选择:特征选择或属性消除方法分为三种类型(Sharifi等人,2002年),即过滤器,包装器和嵌入式方法。(v)事件分类:这是在大规模互联网视频中检索特定或特定事件的任务本文提出了一种新的多媒体事件检测方法,该方法通过对曲波变换后的视频进行二维快速傅立叶变换,并通过包络提取特征曲波变换被选择用于这项工作,因为它是合适的,并已被专门开发来表示具有“曲线间断光滑性”的对象,即除了沿着一般曲线的不连续性之外同时,它处理曲线不连续性所需的系数个数也比小波变换少它实际上克服了小波变换在图像中丢失的方向为了避免曲波系数过大带来的计算量过大的问题,采用了跳帧的它在预处理阶段跳过一些帧(五的倍数)。利用从视频中提取的曲波特征,识别镜头边界从获得的镜头中提取关键帧,避免了冗余信息,并在几个代表帧中提供了镜头的完整视觉内容从提取的关键帧中,进行特征提取以用于事件检测。它通过应用各种低级特征来执行,并且使用现有的特征选择方法(即,排名方法)从其中选择必要的特征对于提取和选择的特征,采用RBF核的SVM分类器对视频中的事件进行识别所提出的工作的贡献在于微调运动识别的边缘和特征提取部分,其中每个手工制作的特征被稍微调整以从用于事件分类的曲波特征中提取主导特征拟议工作的框图如图所示。1.一、本文的其余部分组织如下,第二节回顾了相关的工作,第三节解释了拟议的工作,第四节显示了实验结果和比较拟议的工作与其他技术,第五节提出的结论和未来的工作。2. 相关作品在这一节中,一些工作涉及(i)镜头边界检测,(ii)关键帧提取(iii)特征提取(iv)特征选择(v)事件分类。2.1. 镜头边界检测和关键帧提取镜头边界检测的主要工作如下:为了确定视频镜头,提出了各种镜头边界检测方法/技术。目前的SBD技术分为两大类:(i)静态分析(ii)静态和动态分析。 前者基于静态或空间特征,其包括颜色直方图(Lu和Shi,2013)、相互信息和熵(Cernekova等人, 2006年)和其他许多人。这一类别的优点是它提供检测精度和快速处理速度。后一种动态技术取决于空间和时间特征(Mohanta等人, 2012年)。它对场景和摄像机运动是鲁棒的,但是在光流中使用帧转换参数提出的基于模型的SBD方法(Lankinen和Kämäräinen,2013)提出了使用帧转换参数的基于模型的SBD方法。描述了使用单值分解的另一种SBD方案(Lai和Yi,2012这些方案减少了计算时间,但所有这些方案的缺点是,它们不保留对象运动过渡,特别是在逐渐过渡。因此,为了防止对象运动过渡,基于运动的镜头边界检测(MSBD)在本研究中提出。与关键帧提取相关的一些工作如下:为了在基于低级和高级特征的方案之间进行折衷,一些研究人员集中于基于视觉注意力的关键帧提取(Ma等人,2005; Ejaz等人,2013年)。视觉注意力方案的主要限制是其成本昂贵并且产生增加的冗余帧。为了克服这些缺点,Besiris等人(2008)使用基于颜色直方图的k均值聚类。基于静态和动态注意力模型的组合,考虑具有最高视觉注意力值的帧作为关键帧。该方案的主要缺点是,Fig. 1. 拟定工作的框图。K. Kanagaraj,G.G.L.Priya/ Journal of King Saud University377不保留关键帧的顺序。为了保持顺序,提出了另一种称为用于视频摘要的图论FCM算法的方法(Mundur等人,2006年)。然而,图表的创建与许多中心直接相关。因此,它需要大量的计算时间来识别中心,在保持秩序的情况下也是毫无意义的。因此,Furini等人(2007)提出了一种Delaunay三角剖分来自动识别帧簇。然而,它确实很昂贵,并且产生太压缩的摘要。本文提出的关键帧提取方法克服了上述缺点。从所获得的关键帧中,提取用于事件分类的特征。2.2. 特征提取与选择许多研究人员根据他们使用的应用程序集中在特征提取一些基于事件检测的工作回顾如下。高级特征在某些应用中提供了良好的结果,但由于其本质上的复杂性,它并不适用于所有领域 低级特征(Serrano等人, 2004)捕获视频的纹理和局部外观。 为了表征图像的局部运动和外观,STIP的描述符在检测兴趣点的空间-时间邻域中计算定向梯度直方图(HOG)(Laptev等人,2008年)。最近,CNN特征在视频分类方面已经显示出巨大的进步(Karpathy等人,2014年),特别是在提取时空特征。这些获得的功能,可以用于各种应用,如SBD,事件检测,监控视频事件检测等,在拟议的工作中提取几个低级别的特征。所有提取的特征将不会提供更好的性能和准确的检测。因此,执行特征选择以选择特征。特征选择或属性消除方法分为三种类型(Sharifi等人, 2002年),即过滤器,包装器和嵌入式方法。过滤器方法基于排名过程,其中高排名的特征被应用于预测器。而在包装器方法中,提出了一种算法来找到子集,它给出了最高的预测结果。在嵌入式方法中,在训练过程中执行变量选择,而不将数据分成训练集和测试集。在所提出的工作中,过滤器的方法用于特征选择过程。为了更好地完成事件分类任务,对几个单一的和组合的低层特征进行了分析和实验2.3. 事件分类事件检测是获取事件分类结果的一种方法。一个事件通过指定一些概念来表示,如对象,动作等。概念分为单个和多个概念。例如“钓鱼”。它包含多个概念,如对象(例如:人,网),动作(手的动作,运动),场景(河流,海洋,在家里)等。对于事件检测,MFCC和CNN特征提取和随机森林量化方法采用表示这些特征在一个固定的维度。随后,考虑快速Hi SVM用于分类目的(Jiang等人,2015年)。以下是使用关于视频的空间和时间信息对特定视频识别进行建模的框架(Zhao等人,2016年)。从视频的空间信息中,通过训练CNN模型提取语义特征,并使用SVM分类器对事件进行分类。对于视频的时间表示,学习多层LSTM网络并使用softmax分类器,最后,采用基于分数的后期融合来计算最终结果。为了描述视频序列帧,提出Nagel和Mensink,2015年。它是通过应用学生的- t混合模型的静态帧。接下来,隐马尔可夫模型显式地捕获流中观察的时间顺序。为了提高识别率,推导了Fisher信息矩阵。Jiang等人(2018)使用了CNN计算的基于帧的特征,其中提取了基于概率的运动描述符和音频描述符,并将其作为rDNN(正则化深度神经网络)中变换层的输入。这个结果被馈送到rDNN的Fusion层进行正则化。Song等人(2017)提出的一种方法,通过采用词频-逆文档频率(TF-IDF)算法生成初步概念池,用于从Web图像和视频的纹理描述中提取关键字。然后,基于文本和视觉相似性对概念及其关联的图像/视频进行分层聚类,并使用SVM分类器进行分类。其中一些工作是在事件检测上进行的,不仅取决于数据集,还基于网络资源(Mazloom和Li,2016)。为了提高MED的性能,上述研究工作采用了各种分类器对数据集进行训练和测试。因此,为了提高MED的性能,本研究还选择了一种具有RBF核的SVM分类器3. 该方法处理所有帧的曲波系数导致繁重的计算。因此,在预处理阶段,跳帧的概念被用来减少帧的数量,它减少了计算。接着,视频分割成镜头通过基于运动的镜头边界检测(MSBD)使用曲线特征。在分割的镜头上,提取关键帧,其充当整个视频内容的代表帧。为了识别事件,从关键帧中提取若干特征,从这些特征中选择单个特征或特征组合用于使用RBF-SVM分类器的事件分类。3.1. 镜头边界检测镜头边界检测是自动事件检测的第一步。镜头中的摄像机和物体运动是识别视频中事件的基础。视频变换有利于跟踪对象在不同角度、不同尺度下的行为和准确方向上的运动。然而,为了获得具有边缘的对象的非自适应稀疏表示,可以在视频上应用曲波变换。由于Curvelet系数表示物体在不同幅度和方向上的运动,因此非常适合多媒体应用。由于对象及其运动识别的高方向选择性和高各向异性特性的优点,曲波变换提供了比小波更好的表示(Candès等人, 2006年)。Curvelet变换是小波变换的高维推广。它可以使用二维快速傅立叶变换(2D FFT)通过包裹抛物线楔形来导出,并且最后对每个楔形应用快速傅立叶逆变换(IFFT)其结果是,同心圆和角度划分作为曲波系数获得。同心圆对应于将2D FFT图像分解成多个尺度,并且角度划分对应于不同的角度。在所提出的工作中,一个框架被分解成3个尺度和8个角度。最后,结果产生了一个近似系数和八个详细系数。我们的工作是通过考虑近似系数进行的。Curvelet变换使用以下步骤在视频上执行(Demanet和Ying,2007年)。(i)在所述第一帧上应用2D FFT378K. Kanagaraj,G.G.L.Priya/ Journal of King Saud University8I¼j¼P P帧,并获得傅立叶样本[n1/2 n1;n2]-n=26n1;n2n=2BER用于差分,否则被忽略。框架(ii) 对于每个比例j和角度l,形成乘积U-j;ln1;n2]建议的MSBD如图所示。 二、程序I(iii)包裹物这产品周围的起源并获得步骤1:Curvelet变换的视频帧(CT)作为输入f^½n1;n2]¼W。U-jl^fn1;n2]。(iv)将逆2DFFT应用于每个简体中文FO其中f联系我们;a2Zandj;l^F;从而收集离散系数。jCTj¼p:ct1; CT2:CTPCTKIJ m×mIJj;l作为结果,曲波变换的特征被提取自其中fCTK表示第k个 曲波变换视频,用于表示镜头边界检测算法的对象的运动。3.1.1.基于运动的镜头边界检测为了得到被限制的物体及其运动,所获得的曲波图像被分类为物体(表示为“10”)和非物体像素(表示为edas“00")。 在像素化部分中,对象可以被可视化,而在非像素化部分中,对象不能被可视化。使对象可视化以识别其运动以获得视频镜头。为此,遵循程序I中所示的某些约束为了区分可视化像素对象的运动,计算包含对象的像素的数量及其连续如果所获得的差大于或等于帧的像素计数的一半,则考虑相应的帧编号用于进一步处理,否则,忽略那些帧。通过具有帧编号,计算连续帧编号差如果帧号差小于“u”(Maini和Aggarwal,2009年跳转ij表示矩阵中第i行和第j步骤2:对于每帧计算M-<$llfctk8k<$^1;2;:p:其中M-并且fctk表示f的第k帧和第k帧的平均值,CT分别。步骤3:检查是否aij6M-然后取代国际新闻报通过1否则国际新闻报通过 0aij2f0;1gk<$1;2;::::::p:&f0;1g←{非像素化,像素化}。像素化和非像素化术语用于可视化框架内容(对象)。通过可视化,像素化内容是白色的,非像素化内容是黑色的。步骤4:计算指定对象的像素数,计算D k1/4 m1m1aij;其中aij2fctk8k<$1; 2;::p:步骤5:计算对象的像素计数在con中的差异连续帧。计算Dωk 1/4 Dk-Dk1/8k1/4;2;::p-1:步骤6:如果DωkPDk=2 然后Ck<$k8k<$4; 2;:p- 1:其中jCkj>1图二. 基于运动的镜头边界检测。K. Kanagaraj,G.G.L.Priya/ Journal of King Saud University379联系我们←.Σ×.Σ>:ffiffiffi-rffiffiffi-rffiffiffiþrpffiffiffiþPQ步骤7:计算H kC kC k1。 k1; 2;:::::p 一 曰:所得到的帧被认为是索引帧,并且还忽略来自该索引帧的非信息帧(步骤7)。第八步:如果香港<10号,Jkk,经过几次分析,发现10帧内的内容几乎都是相似的,所以研究人员决定选择10帧。步骤9:输出从视频中获得的镜头列表。f2k¼lsf m-sfnf3k¼lsfk1-sfn-1步骤4:查找-¼Maximumfk如果max_f_k_f是f1k,则考虑的关键帧是sf_k和sf_m,否则如果则所考虑的关键帧是SF m和SF n,否则所考虑的关键帧是SFk=1和SF n-1。因此,由于正交和正交归一化的性质,曲波特征,在连续帧中确定对象的剧烈运动当它接收到多分辨率属性时,关键帧¼8>< sfk&sf miff1 k2-sfm&Sf niff2 k2-它避免了视频帧中对象的噪声和模糊,特别是在相机运动的不稳定和无条件的环境这有助于识别视频镜头,并且从这些获得的镜头中,执行关键帧提取以识别事件。3.2. 关键帧提取关键帧是镜头的代表帧,它在几帧中描述了视频的全部内容。为了为了发现镜头中发生的事件,必须从镜头中识别出物体及其活动。同样,为了避免冗余的关键帧,识别并忽略关键帧之间的相似性。因此,为了避免关键帧之间的相似性,执行块匹配算法(BMA),该算法将帧划分为M*N个像素,并将一帧的每个块与另一帧进行比较。这里,根据结果,如步骤5中给出的那样提取相应的关键帧。关键帧提取的框架如图所示。3.第三章。程序II步骤1:令SF=sfk;sfk=1;sfm;sfn-1;sfn,其中SF表示镜头令sfk=第一帧;sfn=最后一帧,其中n是帧的总数;sfm是中间帧;sfk= 1是第一帧和中间帧的中心;sfn-1是来自镜头的中间帧和最后一帧之间的中心帧步骤2:将SF中的所有帧划分为16个16不重叠的块步骤3:减去帧块并计算平均值(即)f1k¼lsfk-sfmsfk1&SFn-1否则步骤5:因此,从每个镜头获得z个关键帧3.3. 特征提取与选择为了从事件检测任务的不同关键帧中识别对象,应用各种低级静态特征来检查其性能。这些低级特征根据其原理进行分类,例如(i)基于变换的特征(DCT,DWT),(ii)基于直方图的特征(边缘定向直方图,定向连续性直方图),(iii)基于滤波器的特征(Daubechies,Wiener),以及(iv)基于矩的特征(Zernike,不变)。由于事件的识别是基于对象的运动,因此有必要识别对象的边缘。因此,本文选择了一种基于边缘的直方图,并结合Prewitt、Sobel、Canny等边缘检测算法对该直方图进行了分析。其次,针对梯度信息提取目标特征,选择了方向直方图(HOG)。它确定了物体对几何和光度变化的不变性,保留了物体的精确空间信息。HO被应用于小区的3 * 3重叠块。为了增加对象在重叠单元块内的唯一可见性的对比度,应用称为L2范数的方法。最后,提取HOG的三个特征向量,如尺度空间极值,方向分配和描述符提取。计算Zernike矩的特征向量,以计算对象对尺度、旋转、平移等的不变性。同样,它具有正交性,避免了冗余信息,从而降低了维数相比,其他的时刻。二维Zernike矩如下所示设fq;h是连续图像。Zpq<$n1X Xfq;hRωq;h1异丙肾上腺素其中Rpq(q;h)是阶为p的Zernike基函数,表示为q。 Zernike矩被计算为f<$q;h<$对一组正交对滤波器Rpq<$q;h)的响应。中确定对象的形状及其在动态帧中的位置在事件分类中,应用不变矩,其中不变矩对于旋转、缩放和平移不变。Daubechies小波特征由于其诸如正交性和不对称性的性质而优选。由于存在的系数的数量,动态视频帧中的信息损失被忽略。Daubechies d4小波函数如下给出其中,ð2Þ图三. 关键帧提取框架。1个p-3¼4p=2p;3p31/4-4p=2p;3p32¼4p=2p;1个p-33¼-4p200●●●r10的380K. Kanagaraj,G.G.L.Priya/ Journal of King Saud Universityð Þ ðÞX1-X2X.Σ.ΣX1张图片“X2:N2·MXX滤波器用于去除噪声和图像恢复,从而提供更好的检测精度。维纳滤波器是反卷积的方法。采用最小均方法的维纳滤波器,使目标集中在边界内,以达到捕捉明显特征的目的维纳滤波器的特性是用Wx;yFx;yBx;y3其中F x;y是图像的傅里叶变换。B x;y是模糊函数。图像变换由于其在图像中的各种优点而被应用,例如DCT和DWT。一般的2D离散余弦变换(DCT)和2D离散小波变换(DWT)如下所示1 1N-1M- 1Fx;y2=N22=M2Ki·Kj1/4j¼04.1. 数据集哥伦比亚消费者视频(CCV)数据集被用来评估所提出的工作的性能。它包含9317个视频,20个事件类别,210小时的内容,平均内容为80秒每段视频。目前在它的事件是篮球,棒球,足球,滑冰,滑雪,游泳,骑自行车,猫,狗,鸟,毕业,生日,婚宴,婚礼仪式,婚礼舞蹈,音乐表演,非音乐表演,游行,海滩和操场。4.2. 评估指标为了检查所提出的工作的性能,使用两种措施对实验进行评估。首先,应用Ranking measure来获得事件检测的显著特征。第二,平均精度(mAP),用于比较拟议的工作与其他现有的工作。在评价措施中,mAP已被证明具有特别好的辨别力,稳定此外,它还被用作TREC中的官方性能指标-·coshp:x2i1icoshp·y2j1i·fi;j4i离散小波变换(DWT),自2001年以来的VID评估(Wang等人,(2008年)4.2.1. 排名度量特征选择是使用排序度量来执行的Uj;kf tωtj;k 其中Dj;kD=2D。2jt-k2005年5月在每个类别中的特征数量中,通过使用单个特征来选择它根据mAP值对特征进行排序,包含更多数量的特征可能不会有助于更好的性能,并且它们甚至可能分散过程。为了降低特征空间维数,需要识别出产生最佳检测精度的更好的特征。因此,考虑组合多个特征用于事件检测,并且使用排序方法从这些组合中进行特征选择。利用RBF核SVM分类器获得的mAP值对单个或组合特征进行排序特征的组合及其检测精度在第4节中讨论。结果特征被考虑用于事件分类。每个特征。mAP值越高,等级越高,反之亦然。在组合特征中,通过排序来选择更好的特征组合假设查询1;查询2::查询n是一组查询事件。对于查询i,让查询0i是正确答案。排序度量是通过使用公式将来自总体答案的正确答案的排序求和来计算的,nrank查询0i61/1结果排序的范数计算如下,Pn 兰湾查询0条3.4. 事件分类使用具有RBF核的SVM分类器对视频中的事件进行分类使用SVM分类器的主要优点是,i¼1in4.2.2. 平均精密度(mAP)ð7Þ最大边缘框架学习决策边界,这显著提高了训练过程中的泛化能力。它包含一个正则化参数,可以避免过度拟合,由用户在训练过程中设置。首先,计算每个检索到的相关性的精确度分数evant样本。计算所得精度分数的平均值同样,检索到的最终评分的平均计算被称为平均精度(mAP)。此外,SVM使用近似值来限制测试错误率。用于SVM RBF核的两个参数包括参数N平均精密度mAPNm²11NmNmn¼1nCMm;nð8Þ一个训练的例子。gamma的“低”值表示训练实例受到很大限制,无法捕获数据的复杂性(“形状”和/或“结构”),而较高的值表示低值的“反之亦然”。参数“C”表示训练样本对决策表面的错误分类率。C的4. 实验结果和讨论实验的评估基于两个目标其中N=测试视频N m= N i的相关视频数量。CM是第m行第n列的混淆矩阵。4.3. 实验设置和讨论整个工作的实现平台是MATLAB。在我们的实验中,视频文件被随机分为训练数据和测试数据,分别为70%和30%。进行10倍交叉验证。实验使用处理器:Intel(R)CoreTM i5- 5200 U CPU@2.20GHz 2.20 GHz。所提出的工作进行了实际的视频帧和已使用曲波变换变换的帧。根据曲波变换的特性(即,将图像分解成多个尺度并且以不同的尺度分解),●●#K. Kanagaraj,G.G.L.Priya/ Journal of King Saud University381见图4。Curvelet变换视频和原始视频的比较(mAP)。角度),观察到可以有效地识别物体在各个方向上的运动。因此,它证明了更好的结果相比,实际的视频帧。在图4中示出了根据mAP的经Curvelet变换的视频和实际视频的比较。因此,可以从曲波变换的帧中获得主导特征,并将其用于MSBD。程序I中讨论的MSBD制作镜头分段视频。由于MSBD关注的是捕捉目标及其特征,因此MSBD镜头中的关键帧比没有MSBD的镜头中的关键帧更加突出。结果在表1中给出。在本文中,关键帧提取程序II中给出的目的是从每个镜头中提取几个代表性的帧。因此,从每个镜头获得两个关键帧。然后基于这些关键帧,通过提取从曲波变换和MSBD应用的关键帧获得的那些主导特征的更具体和有区别的特征来执行事件检测。来自原始视频的一些事件的示例关键帧(用户容易理解)如图所示。 五、如第二节所述,考虑了几个特性,并且根据特性性能,从每个类别中提取。因此,从四个类别中选择四个特征(即,每个特征来自每个类别)。基于平均平均精度(mAP)组合所得到的特征。产生高mAP值的组合被认为是最终的特征集。为了开始与实验讨论,个别功能被认为是和他们的perfor- mance相对于事件检测可视化使用SVM RBF核为基础的分类器。图1显示了mAP与其类别类似的特征比较。 六、从基于变换的特征(如DCT和DWT)的单个特征性能来看,DCT在发现对象形状信息的连续性方面表现更好,DWT甚至在DCT缺乏的二值图像中识别对象因此,DWT被考虑用于事件检测。接下来,在基于直方图的特征(HOG,EOH)中,HOG在梯度计算之后进行分箱,而EOH直接计算箱中的梯度并平滑已经平滑的曲波变换视频,在低对比度帧中结果也很差。因此,EOH不能提供良好的结果。通过比较基于滤波器的特征,例如(i)Daubechies滤波器(ii)Wiener滤波器。Daubechies滤波器属于小波族,但它具有更多的消失矩,更高的系数和更高的稳定性图五. 来自特定事件的示例关键帧。见图6。 基于其类别的特征比较(mAP)。低通和高通侧,它在计算上是领先的。但是在事件检测方面产生了一个非常值得尊敬的解决方案。然而,维纳滤波器在控制输出误差方面是非常有效的,但是它导致图像过于模糊,从而导致对对象的运动和行为的错误识别。因此,Daubechies滤波器被认为是事件检测。最后,通过引入基于矩的特征,Zernike矩具有尺度和旋转不变性,能够更好地提取物体的细节形状,进一步避免了冗余信息,从而保证了信息的无损。不变矩类似于Zernike矩,除了它是一个耗时的。虽然不变矩的特性在Zernike矩上得到了最大程度的体现,但也可以考虑利用Zernike矩进行事件检测。表1在mAP方面的MSBD精度。入路DWT + ZernikeDWT + HOGDWT + DaubechiesDWT + Zernike + HOGDWT + Daubechies + Zernike无MSBD0.5010.4940.5920.5430.586关于MSBD0.6930.6880.7020.7120.718382K. Kanagaraj,G.G.L.Priya/ Journal of King Saud University表2事件检测功能的组合。事件DWT + ZernikeDWT + HOGDWT + DaubechiesDWT + Zernike + HOGDWT + Daubechies + Zernike棒球69.8167.0272.0977.6370.16篮球81.1270.1080.968282.06海滩80.8185.0170.1063.8181.60自行车70.0159.579.0676.0580.14鸟87.2182.0065.4389.6365.03生日41.6158.0970.0246.5973.05猫77.3173.0069.1260.0046.02狗70.2081.6986.8079.8070.10毕业63.3049.2079.0250.6388.21滑冰54.275.8072.9671.870.03音乐表演61.8469.5449.0966.653.96非音乐表演58.5250.2180.163.180.83游行90.1670.4069.9881.668.16操场54.260.653.0949.260.63滑雪73.8370.1261.0275.2365.81足球85.1387.1669.8379.8272.89游泳60.1561.0071.2159.3377.86婚礼70.5973.8580.108888.01婚礼舞蹈78.8069.0645.6072.9660.13婚宴59.1662.6378.9580.0183.01平均动脉压(%)0.6930.6880.7020.7120.718表3拟进行的工程与其他现有工程的比较。timedia事件检测任务进行了讨论。利用曲波特征检测镜头边界,提取关键帧.此外,手工制作的功能,作者地图从提取的关键帧中提取平均精度平均精度Jiang等人,20150.707和Ranking测度被用作评估指标,Nagel和Mensink,2015年0.717评估所提议工作的绩效。综合实验室Zhao等人,20160.691在CCV数据集上的测试表明,Mazloom和Li,2016年Song等人,2017Jiang等人,2018Zhang等人,20160.5250.6340.730.708建议的方法。 计算组合特征的以便提取目前分析的局限性在于,基于卷积神经网络(CNN)的方法产生更好的拟议工作0.718比目前的工作。因此,在未来,我们将进一步通过考虑CNN特征的事件分类作为该实验结果的结论,从三个类别中选择来自主导特征的几个特定特征。它们是(i)来自C1的DWT(ii)来自C4的Zernike(iii)来自C3的Daubechies。类别C2从总体特征中获得低等级,因此C2被忽略用于进一步的事件检测过程。因此,三个类别的mAP组合如表2所示。这些是使用如等式中所示的排名测量进行(六)、从表2中可以分析出,某些事件给出的mAP比其他事件更好之所以如此,是因为CCV数据集包含或多或少的信息冗余事件(即)。像篮球、骑自行车、生日、毕业、滑冰、非音乐表演、操场、游泳等这样的事件本质上是不太多余的,而剩下的少数事件是在不稳定的、无条件的环境等中进行的包含更多的信息冗余。此外,在替代方式中,较少信息冗余事件是高度对象相关的,并且对于较多信息冗余事件,反之亦然。例如,事件篮球是依赖于对象,如球,篮子,和球员。此外,自行车活动由两轮车和一个人等物体组成游泳项目有一个像人一样的物体,手和腿伸直,在水里。更多的信息冗余事件,如婚宴,婚礼,游行等信息存在于它是多余的。在10倍交叉验证下,所提出的工作的准确性为77.7%。拟议工作与现有各项工作的比较见表3。5. 结论本文除了Curvelet变换和MSBD特征外,还介绍了多种低层手工特征的组合,引用Besiris,D.,Fotopoulou,F.,Economou,G.,Fotopoulos,S.,2008.基于图论fcm算法的视频摘要。在:系统,信号和图像处理,2008年。IWSSIP 2008年。第15届国际会议。IEEE,pp. 511- 514Candès,E.,Demanet,L.,Donoho,D., 英湖,加-地2006. 快速离散曲波变换。多尺度模型你好5(3),861-899。Cernekova,Zuzana,Pitas,Ioannis,Nikou,Christophoros,2006. 基于信息论的镜头剪切/衰落检测和视频摘要。IEEE Trans. CircuitsSyst. Video Technol. 16(1),82-91.科萨塞斯角,尼古拉,N.,皮塔斯岛2006.视频镜头检测和压缩表示。审查. IEEE信号处理杂志 23(2),28-37。作者声明:Dr.镜像扩展图像的曲波和波原子。第十二章.卷6701 国际光学与光子学学会,2007年Ejaz,N.,马哈茂德岛Baik,S.W.,2013.基于视觉注意力的视频关键帧提取框架。信号处理。图像通信28(1),34-44。Furini,M.,Geraci,F.,Montangero,M.,Pellegrini,M.,2007. VISTO:用于网络视频浏览的可视化故事板。第六届ACM图像和视频检索国际会议论文集。ACM,pp.635- 642蒋永国,戴,Q,Mei,T.,Rui,Y.,Chang,S.F.,2015年。 在互联网视频中的超快速事件识别。IEEE Trans. Multimedia 17(8),1174-1186.Jiang,Yu-Gang等人,2018.利用正则化深度神经网络在视频分类中挖掘特征和类别关系。IEEE传输模式分析 马赫内特尔40(2),352-364。Karpathy,Andrej等人,2014.基于卷积神经网络的大规模视频分类。IEEE计算机视觉与模式识别会议论文集。Lai,J.L.,Yi,Y.,2012年。基于视觉注意模型的关键帧提取J. 目视Commun.图像代表。23(1),114-125。兰,Z. Z.,江,L.Yu,S. I.,高氏C.,Rawat,S.,蔡玉,......这是什么?Sze,W.(2013年)。Informedia E-Lamp @ TRECVID 2013:多媒体事件检测和叙述(MED和MER)。Lankinen,J.,Kämäräinen,J.K.,2013.基于视觉词袋的视频镜头边界检测。VISAPP1,788-791。K. Kanagaraj,G.G.L.Priya/ Journal of King Saud University383拉普捷夫岛,俄-地Marszalek,M.,Schmid,C.,罗森菲尔德,B.,2008.从电影中学习真 实 的 人 类 动 作 。 计 算 机 视 觉 与 模 式 识 别 , 2008 年 。 CVPR2008 年 。 IEEEConference on. IEEE,pp. 1-8号。Lu,Z.M.,施,Y.,2013.基于奇异值分解和模式匹配的快速视频镜头边界检测。IEEETrans.图像处理 22(12),5136-5145。妈妈,Y.F.,Hua,X.S.,卢,L.,Zhang,H.J.,2005.一种通用的用户注意力模型框架及其在视频摘要中的应用。IEEE Trans. Multimedia 7(5),907-919.马伊尼河,Aggarwal,H.,2009.研究和比较了各种图像边缘检测技术。Int. J. 图像处理。(IJIP)3(1),1-11。Mazloom,Masoud,Li,Xirong,2016.和塞斯·通用汽车公司的斯诺克“Tagbook:一种语义视频表示,无需监督事件检测。IEEE Trans. Multimedia 18(7),1378-1388.Miao,Y.,江,L.张洪,Metze,F.,2014.对深度神经网络的说话人自适应训练的改进。In : Spoken LanguageTechnology Workshop ( 英 语 : Spoken LanguageTechnologyWorkshop),2014 IEEE。IEEE,pp.165- 170Mohanta,P.P.,萨哈,S.K.,Chanda,B.,2012.一种基于模型的利用帧转换参数的镜头边界
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 新代数控API接口实现CNC数据采集技术解析
- Java版Window任务管理器的设计与实现
- 响应式网页模板及前端源码合集:HTML、CSS、JS与H5
- 可爱贪吃蛇动画特效的Canvas实现教程
- 微信小程序婚礼邀请函教程
- SOCR UCLA WebGis修改:整合世界银行数据
- BUPT计网课程设计:实现具有中继转发功能的DNS服务器
- C# Winform记事本工具开发教程与功能介绍
- 移动端自适应H5网页模板与前端源码包
- Logadm日志管理工具:创建与删除日志条目的详细指南
- 双日记微信小程序开源项目-百度地图集成
- ThreeJS天空盒素材集锦 35+ 优质效果
- 百度地图Java源码深度解析:GoogleDapper中文翻译与应用
- Linux系统调查工具:BashScripts脚本集合
- Kubernetes v1.20 完整二进制安装指南与脚本
- 百度地图开发java源码-KSYMediaPlayerKit_Android库更新与使用说明
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功