高效视频摘要：基于对象方法的关键帧提取与语义内容捕获

14 浏览量更新于2023-12-05 收藏 787KB PDF 举报

2013年

视频摘要

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

© 2013由Elsevier B.V.发布。由美国应用科学研究所负责选择和/或同行评审可在www.sciencedirect.com在线获取ScienceDirectAASRI Procedia 4（2013）78 - 842013年AASRI智能系统与控制用于高效视频摘要Walid Barhoumi和Ezzeddine ZagroubaResearch Team摘要在本文中，我们提出了一种基于对象的方法，用于在飞行中提取关键帧，总结视频的突出视觉内容。该方法通过对每一帧图像进行空间分割来检测重要事件。因此，关键帧检测面临着更多的语义标准，使得每个关键帧呈现一个重要的事件，例如相关对象的出现和消失。在具有挑战性的视频上实现的实验证明了所提出的方法的效率，该方法能够捕获视频镜头的语义内容，同时防止提取的关键帧的冗余，并保持最低的存储空间要求。© 2013作者。由Elsevier B. V.在CC BY-NC-ND许可下开放获取。由美国应用科学研究所负责选择和/或同行评审关键词：区域分割;关键帧提取;视频摘要;多对多分配;动态。1. 介绍如今，用户面临着越来越多的视频和有效的工具，因此越来越需要视频存档，索引和检索。视频摘要是一个重要的研究课题，其目的是自动创建一个紧凑的和有代表性的视频内容的摘要方面的静止图像。现有的视频摘要方法大多是基于内容的，因为基于关键词的方法存在主观性和可行性的严重问题。此外，为了克服基于对象的视频摘要方法主要有两类对于第一组，对象的概念用于提取代表显著内容的最具代表性的帧（关键帧），第二组包括提供背景-前景分割的方法[3]。我们把注意力集中在视频摘要与最小的数据量，通过提取相关的关键帧。然而，关键帧提取在长时间的情况下具有很强的局限性2212-6716 © 2013作者由Elsevier B. V.在CC BY-NC-ND许可下开放获取。美国应用科学研究所负责的选择和/或同行评审doi：10.1016/j.aasri.2013.10.013Walid Barhoumi和Ezzeddine Zagrouba/AASRI Procedia 4（2013）7879视频.事实上，帧的大部分视觉内容是冗余的和/或不相关的，并且有必要仅保留功能浏览和查询严格需要的信息因此，优选地将输入视频划分为镜头，并且每个镜头然后将由一些关键帧表示。早期的关键帧提取方法是基于时间采样，同时以预定义的间隔均匀地选择关键帧[4]。这些方法不是基于内容的，并且不考虑视觉内容的动态，并且所选择的帧通常是不稳定的。然而，基于内容的方法可以分为三类。属于第一类的方法是基于帧聚类。其思想是将帧分组到同质集群中，然后从每个集群或仅从最大的集群中选择关键帧。事实上，组成集群的帧应该共享视觉内容，并且最接近质心的帧通常表示重复出现的视觉内容。为了评估两帧之间的相似性，可以使用颜色直方图和局部颜色平均值[6]。其他方法对帧进行分类，同时考虑每个帧的感兴趣区域（关键对象）[11]。这些方法的主要缺点是，根据聚类的数量此外，它们是计算密集型的，并且不考虑时间信息[5]。第二类包括基于统计分析的方法。较早的方法假设如果帧不同于前一帧，则应当选择该帧作为关键帧Park等人，2005年提出估计每个帧的覆盖率，使得最大化该覆盖率的帧被认为是候选关键帧[10]。然后，失真率允许在候选者中选择最终关键帧然而，当几个候选帧具有高覆盖率时，选择哪个帧是最佳关键帧是不明确的其他方法提取关键帧，同时比较非相邻帧，使用帧间熵，直方图相似性或小波[8]。为了整合更多的语义概念，最近的方法是基于统计模型应用于关键对象。Sun and Ping，2004只选择对象与背景比例最大的帧[12]。但是，构成此类的方法此外，这些方法中的大多数是依赖于阈值的，并且要求先验地设置关键帧的数量。第三类包括基于相机运动分析的方法他们假设关键帧是由摄像机聚焦为此，通常生成示出镜头上的运动幅度的演变的曲线，并且局部极值定义关键帧。为了估计相机运动，可以使用帧差、光流和块匹配[7]。当处理压缩视频时，属于这类的方法被广泛使用，因为它们通过运动分析来表达镜头的动态。然而，除了这些方法的大量计算时间之外，关键帧对应于相机运动的局部极值的基本假设不一定正确[10]。在本文中，我们结合对象分割与低层次的功能，以提出一个更高层次的描述的语义原语。一个镜头的视觉内容被动态地总结成关键帧，这样每一个都代表一个新的事件。镜头的第一帧自动选择为关键帧。然后，每个接收到的帧被分割成显着的对象，和一个基于位置的标准相结合的形状为基础的一个拒绝不相关的对象。接下来，当前帧的对象与在先前关键帧中提取的对象之间的多对多对应关系允许决定当前帧是否对应于新事件。该方法的主要贡献是在提取说明相关事件的关键帧的同时对镜头进行动态总结。对标准视频的许多测试表明，所提出的方法能够以最少的数据保留镜头的整体内容，即使相机返回到之前已经访问过的场景部分。接下来的部分描述了所提出的方法，并在第3节中给出了实验结果，以客观地证明使用标准度量的方法的有效性2. 该方法本文提出的关键帧提取方法主要基于镜头边界检测和基于对象的事件检测。事实上，在将输入视频分割成镜头[2]之后，在寻找与重要对象的出现和消失相对应的重要事件的同时，从每个镜头中实时选择关键帧。为此，每个输入镜头中的第一帧F1被自动视为关键帧KF 1，并且还使用模糊粗区域分割技术[1]分割成显著对象。80Walid Barhoumi和Ezzeddine Zagrouba/AASRI Procedia 4（2013）78BHS不不1这种模糊分割技术包括应用流域算法，然后通过区域生长过程，合并种子流域区域根据其直方图的相似性，以克服通常的过度分割效果的流域。此外，后处理只保留相关对象，使用两个标准。第一个（resp）第二）准则是基于这样的假设，即如果对象是重要的，则照相机将聚焦在它上（相应地，其具有紧凑形状）。因此，只有位于框架中间的低紧凑性对象才被认为是相关的（图1）。基于位置的标准拒绝边界上的不准确区域，基于形状的标准排除分散的区域，主要是薄的和细长的区域，这是由于在分割期间从一些前景对象泄漏到背景（图1）。然后，给定属于KF 1 的相关对象的集合1，对镜头的每个接收帧F t应用相同的对象提取过程，以便检测相关对象的相对集合t，然后决定F t是否可以被认为是关键帧。实际上，如果帧Ft与1相比对应于一个或多个重要对象的出现或消失，则Ft被认为是新的关键帧，并且应该被添加到所得到的关键帧的集合中。形式上，给定分别属于KF 1和KF t的精确对象的集合1和t，帧F t表示新事件，仅当它在1（resp. 在t中），其不能与t中的任何对象（相应地，在1）中。若要匹配对象Oi（（1）另一个O），我们使用了基于本地颜色直方图，这是不敏感的背景噪声和摄像机视点的变化。因此，属于两个不同帧的两个显著对象Oi和Oj仅在它们的相似度Sim（1）接近1。两个对象的相似性基于组成每个对象的四个块的视觉内容的相似性。由于颜色直方图不整合空间信息，因此我们将其用作每个块内的局部描述符，使得这些块根据颜色直方图的主阶乘轴来定义。object.因此，每一对块的视觉相似性（O iO（j）是根据以下的交集来计算的：t 1HSV颜色空间中的对应16 8 HS直方图，HSV颜色空间通常被认为是最接近人类视觉感知的颜色空间。41 682015年10月22日，i（h，s，b），j（h，s，b））（一）模拟（Oi，Oj）h是t，h是t 1。t11 1 1m a x（h是ti（h，s，b），h是tj（h，s，b））Fig. 1.物体提取。第一个图像是原始帧，以下是提取的对象：只有第2个区域被认为是相关的，因为第3个和第4个区域（分别为1）被排除在基于位置的标准之外（分别为基于形状的标准）。当每对（Oi，Oj）相关对象之间的相异性（）已定义，对象t 1对应帧之间的对应被公式化为T1之间的多对多线性分配问题。为了解决这个问题，我们应用了最短增强路径算法，同时寻找最大化相应相似性的对象之间的关联。这种多对多的分配允许正确处理对象之间的复杂交互和遮挡，而不将这些情况视为新事件。对象之间的多对多对应允许在不同粒度级别上比较对象，这克服了过度分割和欠分割效应。如果已经提取了一个以上的关键帧（Card（）>1），则仅当接收到的帧不能与到该时刻为止已经提取的所有关键帧相关联时，才假定接收到的帧表示新的关键帧。实际上，给定已经提取的关键帧的集合={KF 1，...，KF j }，仅当帧F t表示与KF j，到KF j-1，.，KF j相比的新事件时，才假设帧F t表示关键帧（F t）。. .及1（1t1Walid Barhoumi和Ezzeddine Zagrouba/AASRI Procedia 4（2013）7881KF 1，同时优先考虑最近的关键帧（最初，ref=j=Card（））。因此，仅当一些对象被完全添加到该帧中的场景或从该帧中移除时，才将Ft视为关键帧（2）。除了时间行为与显著对象的视觉外观的隐式集成之外，每个帧与已经选择的关键帧的比较避免了将对象的时间出现或消失考虑为新事件。特别地，对最近的关键帧给予优先级允许在不测试大量帧的情况下检测重复事件。此外，多对多分配避免了将遮挡效应视为新事件的考虑，从而最大限度地减少了最终关键帧的冗余。一旦对Ft执行了判定，就对下一个接收到的帧Ft +1即时应用相同的基于对象的事件检测过程，以此类推，直到镜头结束。我们注意到，从第二个镜头开始，每个帧Ft，包括镜头的第一个，不仅必须与已经从这个镜头提取的关键帧进行比较，而且还必须与在所有先前镜头内选择的关键帧进行比较F代表一个相对于F的新事件一、最大值Sim（i，j）或j/ maxSim（我，（j）. （二）t参考OttOjrefrefOtOrefOrefrefI不不OtO ref物体出现物体消失3. 实验结果所提出的关键帧提取方法应用于几个视频（新闻，卡通，游戏，.），说明不同的挑战（相机运动，背景前景相似的外观，动态背景，.）。实验结果表明，该方法能够有效地提取少量关键帧，恢复视频的显著语义内容（图1）。2）。请注意，在输入视频中的关键对象数量减少的情况下，我们的方法只提取相关和非冗余的例如，从“mov1.mpg”中仅提取了实际上，在许多情况下，即使镜头的第一帧也不一定是关键帧，因为它表示已经在先前镜头中选择的旧事件。因此，对于这些视频，所提出的方法的精度等于100%，并且与使用其他方法记录的视频相比，该值明显更高[14]。然而，对于复杂的视频，由于外观和对象交互的复杂性，该方法的性能略有下降（图1）。2）。例如，在“flinstone.mpg”中特别是，这个视频中的移动对象与长的部分和全部遮挡效果进行了广泛的交互。因此，在该视频中检测到14个关键帧，该视频被初步细分为13个镜头。这主要是由于构成某些镜头的帧的视觉内容的显著变化。对于视频该视频的一些连续的关键帧的冗余主要是由于广泛的相机运动，特别是变焦效应，这甚至影响了镜头边界检测。我们注意到，尽管摄像机反转方向并循环返回重新访问“mov1.mpg”和“bmw.avi”中场景的某些部分，但只有少数相关和非冗余的关键帧被选择。我们还使用各种标准质量措施客观地评估了所产生结果的质量[15]。我们将所提出的方法（PM）产生的质量测量结果（图3）与五种竞争最先进的方法记录的质量测量结果[10，14，8，13，2]进行了比较，这是针对11个标准测试视频。这些方法被选择，使得它们代表现有类别的关键帧提取方法的样本（参见图10）。第1节）。根据压缩比（CR），很明显，所提出的方法大大减少了提取的关键帧的冗余，这保证了令人鼓舞的压缩比，同时保持最低要求的存储空间。例如，虽然从组成“bmw.avi”的9个镜头中仅提取9个关键帧，但其他方法选择了更多的关键帧，这些关键帧在其语义内容中具有显著冗余。我们注意到，与比较方法相比，我们的方法提供的平均压缩率约为98.6%，标准差最低（0.0091）（图1）。3.a）。另一方面，为了客观评估提取的关键帧的质量，我们使用O82Walid Barhoumi和Ezzeddine Zagrouba/AASRI Procedia 4（2013）78信噪比（PSNR）。事实上，对于每对（Fu， Fv）选定的关键帧（大小为N M），我们测量它们之间的PSNR（3），并记录每个研究视频的平均值（图3.b）。关键帧Fu和Fv越相似，PSNR值越高。无穷大的值反映了提取的关键帧的冗余度，而减小的PSNR值表明这些关键帧的多样性。与其他方法相比，所提出的方法记录的PSNR值是最小的（图3.b）。这些值证实了我们的方法提取了最重要和最相关的关键帧，同时最大限度地减少了冗余。此外，我们评估了提取的关键帧的语义相关性，同时进行了主观测试，其中8名计算机视觉初级研究人员独立评估11个测试视频的每个关键帧提取方法的满意度。该方法的平均精度值（73%）远高于对比方法（54%），这证实了我们的方法所选择的关键帧的准确性（三）P S N R（Fu ，Fu）10。lo gNMN. M. 2 5 52、F（x，y）F（x，y）2u vX1y1“flowergard.avi”“bmw.avi”图二、从标准视频中提取关键帧4. 结论我们提出了一个有效的基于对象的方法，关键帧提取，同时保持方便的内存需求，即使在循环关闭的情况下。该方法主要基于显著事件的检测，同时分析显著对象的时空行为和视觉外观。关键帧的动态检测允许隐式地整合输入镜头内的时间内容，而不必处理整个镜头。这允许正确地捕获输入帧的潜在动态。据我们所知，没有太多的注意力，以实现这一任务的飞行。此外，建议的方法避免了现有的方法的复杂性，基于聚类或优化策略。它有效地捕捉基本的动态帧，而不需要先验知识的帧代表每个镜头的数量。初步记录的结果和客观的比较研究与许多现有的关键帧提取方法显示了我们的无监督的基于内容的方法的效率，在冗余，压缩率和召回率/精度immetrics。作为观点，我们建议使用视觉词典，它可以形成的基础上，在所有可用的帧中的相关对象的低级别属性，以提供一个模型向量，描述每个帧的基础上，它包含的对象的类型。Walid Barhoumi和Ezzeddine Zagrouba/AASRI Procedia 4（2013）7883图三.客观比较所产生的结果的质量，为11个测试视频，由所提出的方法（PM）与那些记录与五个国家的最先进的方法，同时使用压缩比（CR）和PSNR。84Walid Barhoumi和Ezzeddine Zagrouba/AASRI Procedia 4（2013）78引用[1]作者：J. A，J. A.基于区域的有效相关反馈在交互式图像检索中的应用。计算智能研究2009;226：177-1 87.[2]Bo C，Lu Z，and Dong-Ru Z.基于镜头关键帧的视频场景聚类研究。自然科学2005; 10：966-970.[3]Amri S，Barhoumi W，Zagrouba E.一个鲁棒的框架，联合背景/前景分割在复杂的视频场景拍摄自由移动的相机。多媒体工具和应用2010; 46：175-205。[4]Lee HC，Kim，SD.速率约束环境中的迭代关键帧选择。Sig Proc Imag Com 2003;18：1 - 15.[5]Li Z，Schuster G，Katsaggelos AK，Gandhi B.具有比特预算约束的最佳视频摘要。ICIP 2004; 613-616。[6]刘东，徐明林，陈春春，陈春春。视频中全局和局部信息的集成关键帧提取。信息重用和集成国际会议2010; 171-176。[7]刘刚，赵军。MPEG视频流关键帧的提取。信息处理国际研讨会2010; 423-427。[8]Mentzelopoulos M，Psarrou A.基于熵差的关键帧提取算法。ACM多媒体信息检索国际工作2004;39-45.[9]Mukherje S，Mukherje P.基于实验设计的关键帧检测静态技术。多媒体工具和应用2013; 62：1-31。[10] Park KT，Lee JY，Rim KW，Moon YS.基于镜头覆盖和失真的关键帧提取。LNCS 2005;3768：291- 300。[11] 张文辉，张文辉，张文辉.使用视觉叙词表的概念侦测与关键帧撷取。多媒体工具和应用2009：41：337-373.[12] Sun Z，Ping F.基于颜色和目标轮廓相结合的视频分割方法。SPIE 2004; 5307：61- 69.[13] 沃尔夫·W通过运动分析选择关键帧。声学，语音和信号处理国际会议1996; 1228-1231。[14] Zhuang Y，Rui Y，Huang TS，Mehrotra S.使用无监督聚类的自适应关键帧提取。ICIP 1998; 866-87 0.[15] Ejaz N，Bin Tariq T，Baik SW.使用聚合机制的视频摘要自适应关键帧提取。视觉传达和图像表示2012; 23：1031-1040。

下载后可阅读完整内容，剩余1页未读，立即下载