高效视频摘要中关键帧的即时提取

66 浏览量更新于2023-08-23 收藏 12.85MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0AASRI Procedia 4 ( 2013 ) 78 – 8402212-6716 © 2013 The Authors. Published by Elsevier B.V.under responsibility of American Applied Science Research Institute doi:10.1016/j.aasri.2013.10.0130ScienceDirect02013年智能系统与控制AASRI会议0即时提取关键帧用于0高效的视频摘要0Walid Barhoumi和Ezzeddine Zagrouba0研究团队“Systèmes Intelligents en Imagerie et Vision Artificielle’’(SIIVA) – RIADI实验室0Tunisia Ariana 2080 Abou Rayhane Bayrouni街2号 ISI0摘要0在本文中，我们提出了一种基于对象的方法，用于即时提取总结视频中显著视觉内容的关键帧。该方法基于空间分割对每个帧进行分析，以便检测重要事件。因此，关键帧检测面临着更高的语义准则，以便每个关键帧代表一个重要事件，比如关键对象的出现和消失。对具有挑战性的视频进行的实验表明了所提出方法的效率，该方法能够捕捉视频镜头的语义内容，同时防止提取的关键帧冗余，并且在内存空间方面保持最小要求。© 2013 ElsevierB.V.出版。美国应用科学研究所负责选择和/或同行评审。关键词：区域分割；关键帧提取；视频摘要；多对多分配；即时提取。01. 简介0如今，用户面临着越来越多的视频数量，因此需要高效的工具来处理这些视频。0对于视频的归档、索引和检索，现在需要更多的工具。视频摘要是一个重要的研究课题，旨在自动创建紧凑且代表性的视频内容摘要，以静态图像为基础。大多数现有的视频摘要方法是基于内容的，因为基于关键字的方法存在主观性和可行性的严重问题。此外，为了弥补低级特征描述和语义内容之间的“语义鸿沟”，最近的方法将低级准则与对象的语义概念结合起来。基于对象的视频摘要方法可以分为两类。对于第一类方法，使用对象的概念来提取最具代表性的帧（关键帧），这些帧代表了显著内容；第二类方法包括提供背景-前景分割的方法[3]。我们将在这里重点关注以最小的数据量提取相关关键帧的视频摘要。然而，关键帧提取在长视频的情况下存在严重限制。0在线获取：www.sciencedirect.com0© 2013 The Authors. Published by Elsevier B.V.responsibility of American Applied Science Research Institute0根据CC BY-NC-ND许可进行开放访问。0根据CC BY-NC-ND许可进行开放访问。079 Walid Barhoumi和Ezzeddine Zagrouba / AASRI Procedia 4 ( 2013 ) 78 – 840事实上，帧的视觉内容中很大一部分是冗余和/或无关的，因此只保留功能浏览和查询所需的信息是必要的。因此，最好将输入视频分成镜头，然后每个镜头由一些关键帧来表示。早期的关键帧提取方法基于时间采样，在预定义间隔上均匀选择关键帧[4]。这些方法不是基于内容的，也不考虑视觉内容的动态，所选帧通常不稳定。然而，基于内容的方法可以分为三类。属于第一类的方法基于帧的聚类。其思想是将帧分组成同质聚类，然后从每个聚类或仅从最大聚类中选择关键帧。实际上，组成聚类的帧应该共享视觉内容，并且离质心最近的帧通常代表重复出现的视觉内容。可以使用颜色直方图和局部颜色平均值来评估两个帧之间的相似性[6]。其他方法在考虑每帧的兴趣区域（关键对象）时对帧进行分类[11]。这些方法的主要缺点是，根据聚类数量，关键帧可能既冗余又无法有效地表示整个镜头的内容[9]。此外，它们的计算成本很高，也不考虑时间信息[5]。第二类方法基于统计分析。早期的方法假设如果一帧与前一帧不同，则应将其选为关键帧。Park等人（2005年）提出了估计每帧覆盖率的方法，使得最大化覆盖率的帧被视为候选关键帧[10]。然后，畸变率用于在候选帧中选择最终的关键帧。然而，当多个候选帧具有较高的覆盖率时，选择哪一帧是最佳关键帧是模糊的。其他方法在比较非相邻帧时提取关键帧，使用帧间熵、直方图相似度或小波[8]。为了融入更多的语义概念，最近的方法基于应用于关键对象的统计模型。Sun和Ping（2004年）仅选择具有最大对象与背景比率的帧[12]。然而，属于该类的方法不能防止关键帧的冗余，并且无法正确处理闭环情况。此外，大多数这些方法都依赖于阈值，并要求预先设置关键帧的数量。第三类方法基于摄像机运动分析。它们假设关键帧由摄像机聚焦。为此，通常会生成描述镜头内运动振幅演变的曲线，局部极值定义关键帧。可以使用帧差、光流和块匹配来估计摄像机运动[7]。在处理压缩视频时，这类方法被广泛使用，因为它们通过运动分析来表达镜头的动态。然而，除了这些方法的计算时间较长之外，假设关键帧对应于摄像机运动的局部极值不一定正确[10]。0在本文中，我们将对象分割与低级特征相结合，以提出基于语义基元的更高级描述。将镜头的视觉内容即时总结为关键帧，每个关键帧代表一个新事件。镜头的第一帧会自动选为关键帧。然后，每个接收到的帧都会被分割成显著对象，通过基于位置和形状的准则结合来排除不相关的对象。接下来，当前帧中的对象与之前关键帧中提取的对象之间的多对多对应关系可以确定当前帧是否对应于新事件。所提出的方法的主要贡献是在提取关键事件的同时即时总结镜头的内容。在标准视频上进行的多次测试表明，即使相机返回到之前已经访问过的场景的部分，所提出的方法能够以最小的数据量保留镜头的整体内容。下一节将描述所提出的方法，并在第三节中用标准指标客观地证明方法的有效性。02. 提出的方法0关键帧提取的提出方法主要基于镜头边界检测和基于物体的事件检测。实际上，在将输入视频分割为镜头之后，从每个镜头中实时选择关键帧，同时寻找对应于显著物体的重要事件的关键帧。为此，每个输入镜头中的第一帧F1 自动被视为关键帧 KF1，并且还使用模糊的粗略区域分割技术对其进行了分割，以提取显著物体。 (1) 080 Walid Barhoumi和Ezzeddine Zagrouba / AASRI Procedia 4（2013）78-840这种模糊分割技术包括应用分水岭算法，然后进行区域生长过程，根据其直方图的相似性合并种子分水岭区域，以克服分水岭的过分割效果。此外，通过两个标准仅保留相关对象。第一个（第二个）标准基于假设，即如果一个对象很重要，则摄像机会聚焦在它上面（它具有紧凑的形状）。因此，只有位于帧中间且紧凑性较低的对象被视为相关对象（图1）。基于位置的标准排除边界上的不准确区域，而基于形状的标准排除分散的区域，主要是由于一些前景对象渗漏到背景中的细长对象引起的分割（图1）。然后，给定属于 KF1 的相关对象集合 1，在镜头的每个接收帧 Ft 上应用相同的物体提取过程，以检测出相关对象的相对集合 t ，然后决定是否将 Ft视为关键帧。实际上，如果相对于 1 ，Ft 对应于一个或多个显著对象的出现或消失，则将 F t视为新的关键帧，并应将其添加到得到的关键帧集合中。形式上，给定属于 KF 1 和 KF t 的准确对象的集合 1 和t，仅当在 t 中存在至少一个对象无法与 t 中的任何对象匹配时，帧 F t 才表示一个新事件。为了将对象 O t i (t)与另一个对象 O 1 j (1)匹配，我们使用基于局部颜色直方图的外观模型，该模型对背景噪声和摄像机视角变化不敏感。因此，仅当两个不同帧中的显著对象 O t i 和 O 1 j 的相似度 Sim(1)接近于1时，才匹配这两个对象。两个对象的相似性基于每个对象组成的四个块的视觉内容的相似性。由于颜色直方图不包含空间信息，因此我们将其作为局部描述符在每个块内使用，这些块根据对象的主要因子轴定义。因此，每对块（O t i O 1 j）的视觉相似性是根据 HSV 颜色空间中对应的16×8 HS直方图的交集来评估的，该颜色空间通常被认为是最接近人类视觉感知的颜色空间。0h s b h s b S im h s b h s b h is t h is t O O h is th is t0图1.物体提取。第一幅图像是原始帧，其余图像是提取的物体：只有第2个区域被认为是相关的，因为第3个和第4个区域（分别由基于位置和基于形状的标准排除）被排除。0一旦定义了相关对象（t1）的每对（O t i ，O 1 j）之间的不相似度，对应帧之间的对象对应关系被表示为一个多对多的线性分配问题。为了解决这个问题，我们应用了最短增广路径算法，同时寻找最大化相应相似度的对象之间的关联。这种多对多的分配允许正确处理对象之间的复杂交互和遮挡，而不将这些情况视为新事件。对象之间的多对多对应关系允许在不同粒度级别上比较对象，从而克服了过分割和欠分割的影响。如果已经提取了多于一个关键帧（Card()>1），则假设接收帧仅当它不能与截至该时刻已经提取的所有关键帧关联时，才表示一个新的关键帧。实际上，给定已经提取的关键帧集合 ={KF1，...，KFj}，帧 F t 被认为是关键帧（F t）仅当该帧相对于 KFj，KFj-1，...和KF1表示一个新事件（2）。除了将时间行为隐式整合到显著物体的视觉外观中之外，将每个帧与已选择的关键帧进行比较可以避免将物体的时间出现或消失视为新事件。特别地，对最近的关键帧给予优先考虑可以检测到重复事件，而无需测试大量的帧。此外，多对多的分配避免将遮挡效应视为新事件，从而减少了最终关键帧的冗余。一旦对 F t 进行了决策，同样的基于物体的事件检测过程将实时应用于接收帧 F t+1，依此类推，直到镜头结束。我们注意到，从第二个镜头开始，每个帧 F t（包括镜头的第一帧）必须与已从该镜头中提取的关键帧以及在所有先前镜头中选择的关键帧进行比较。 (2) 081 Walid Barhoumi和Ezzeddine Zagrouba / AASRI Procedia 4（2013）78-840i i j j i j t ref t ref t t ref ref t ref O O F F Sim Sim O O O O O O0物体的出现外观物体的消失03. 实验结果0提出的关键帧提取方法应用于多个视频（新闻、卡通、游戏等），展示了不同的挑战（摄像机运动、背景前景相似、动态背景等）。结果表明，该方法能够有效地提取出几个关键帧，概括视频的显著语义内容（图2）。需要注意的是，在输入视频中关键对象数量较少的情况下，我们的方法只提取相关且不冗余的关键帧。例如，“mov1.mpg”只提取了3个相关的关键帧，该视频由377帧组成，分为9个镜头。事实上，在许多情况下，镜头的第一帧甚至都不是一个关键帧，因为它代表了先前镜头中已经选择的旧事件。因此，对于这些视频，所提出的方法的精确度等于100%，而与其他方法[14]相比，这个值明显更高。然而，对于复杂的视频，由于外观和对象之间的复杂互动，该方法的性能略有下降（图2）。例如，在“flinstone.mpg”中，背景颜色与移动对象的颜色非常相似，这可以解释一些关键帧的冗余。特别是，该视频中的移动对象与长时间的部分和完全遮挡效果广泛交互。因此，该视频检测到了14个关键帧，而该视频预先分为13个镜头。这主要是由于一些镜头组成的帧的视觉内容的显著变化。对于非常具有挑战性的“bmw.avi”视频，由于视觉内容在时间尺度上的快速变化，所提出的方法仅提取了9个关键帧，分布在9个镜头中。对于该视频连续的一些关键帧的冗余主要是由于广泛的摄像机运动，特别是缩放效果，甚至影响了镜头边界的检测。我们注意到，尽管在“mov1.mpg”和“bmw.avi”中，摄像机反向并循环回访场景的某些部分，但只选择了几个相关的且不冗余的关键帧。0我们还客观评估了使用各种标准质量度量方法[15]产生的结果质量。我们将所提出的方法（PM）的质量度量结果（图3）与五种竞争的最先进的方法[10, 14, 8, 13,2]在十一个标准测试视频上进行了比较。选择这些方法是为了代表现有的关键帧提取方法的一部分（参见第1节）。根据压缩比（CR），可以明显看出所提出的方法显著减少了提取的关键帧的冗余性，从而保证了在保持最低的内存空间要求的同时获得鼓舞人心的压缩比。例如，在由9个镜头组成的“bmw.avi”中，只提取了9个关键帧，而其他方法选择了更多具有显著冗余的关键帧语义内容。我们注意到，我们的方法提供的平均压缩比约为98.6%，标准偏差最低（0.0091），相对于比较的方法（图3.a）。另一方面，为了客观评估提取的关键帧的质量，我们使用信噪比（PSNR）。实际上，对于每一对选择的关键帧（大小为N M），我们测量它们之间的PSNR（3），并记录每个研究视频的平均值（图3.b）。关键帧F u 和F v越相似，PSNR值越高。无穷大的值反映了提取的关键帧的冗余性，降低的PSNR值表明了这些关键帧的多样性。与其他方法相比，所提出的方法记录的PSNR值最小（图3.b）。这些值证实了我们的方法提取了最重要和相关的关键帧，同时最小化了冗余。此外，我们还进行了一个主观测试来评估提取的关键帧的语义相关性。在此测试中，8名计算机视觉初级研究人员独立评估了每种关键帧提取方法对十一个测试视频的满意度。所提出的方法的平均精确度值（73%）远高于其他方法（54%），这证实了我们的方法选择的关键帧的准确性。 (3) 082 Walid Barhoumi 和Ezzeddine Zagrouba / AASRI Procedia 4 ( 2013 ) 78 – 840N M P S N R F F F x y F x y0“flowergard.avi” “mov1.mpg”0“bmw.avi” “flinstone.mpg”0图2. 所提出的方法从标准视频中提取关键帧。04. 结论0我们提出了一种高效的基于对象的关键帧提取方法，可以在闭环情况下保持方便的内存需求。该方法主要基于分析显著对象的时空行为和视觉外观来检测显著事件。关键帧的即时检测使得能够在不必处理整个镜头的情况下隐式地将时间内容整合到输入镜头中。这样可以有效地捕捉到输入帧的底层动态。据我们所知，这个任务的实时实现没有得到太多关注。此外，所提出的方法避免了基于聚类或优化策略的现有方法的复杂性。它能够有效地捕捉到帧的底层动态，而无需事先知道每个镜头所代表的帧数。初步记录的结果以及与许多现有关键帧提取方法的客观比较研究表明，我们的无监督内容-based方法在冗余性、压缩率和召回/精确度指标方面的效率。作为展望，我们建议使用一个视觉词典，该词典可以基于所有可用帧中感兴趣的相关对象的低级属性形成，以提供描述每个帧的模型向量，该向量基于它包含的对象类型。 083 Walid Barhoumi 和Ezzeddine Zagrouba / AASRI Procedia 4 ( 2013 ) 78 – 840图3. 通过所提出的方法（PM）与使用压缩比（CR）和峰值信噪比而记录的五种最先进的方法在十一个测试视频上产生的结果质量的客观比较。084 Walid Barhoumi 和Ezzeddine Zagrouba / AASRI Procedia 4 ( 2013 ) 78 – 840参考文献0[1] Barhoumi W，Gallas A，Zagrouba E.用于交互式基于内容的图像检索的有效基于区域的相关反馈。计算智能研究2009; 226:177-187. [2] Bo C，LuZ，Dong-Ru Z. 基于镜头关键帧的视频场景聚类研究。自然科学2005; 10:966-970. [3] Amri S，BarhoumiW，Zagrouba E.用于自由移动摄像机拍摄的复杂视频场景的联合背景/前景分割的稳健框架。多媒体工具和应用2010;46:175-205. [4] Lee HC，Kim，SD. 在速率约束环境中的迭代关键帧选择。Sig Proc Imag Com 2003;18:1-15. [5] Li Z，Schuster G，Katsaggelos AK，Gandhi B. 带有比特预算约束的最佳视频摘要。ICIP 2004;613 -616 . [6] Liu D，Shyu ML，Chen CC，Chen SC.整合视频中的全局和局部信息进行关键帧提取。信息重用和集成国际会议2010; 171-176. [7] Liu G，Zhao J.从MPEG视频流中提取关键帧。信息处理国际会议2010; 423-427. [8] Mentzelopoulos M，Psarrou A.使用熵差异的关键帧提取算法。ACM多媒体信息检索国际研讨会2004; 39-45. [9] Mukherje S，Mukherje P.一种基于实验设计的关键帧检测统计技术。多媒体工具和应用2013; 62:1-31. [10] Park KT，Lee JY，RimKW，Moon YS. 基于镜头覆盖率和畸变的关键帧提取。LNCS 2005; 3768:291-300. [11] Spyrou E，ToliaG，Mylonas P，Avrithis Y. 使用视觉词库进行概念检测和关键帧提取。多媒体工具和应用2009: 41:337-373.[12] Sun Z，Ping F. 基于颜色和物体轮廓的视频分割方法的组合。SPIE 2004; 5307:61-69. [13] Wolf W.通过运动分析进行关键帧选择。声学、语音和信号处理国际会议1996; 1228-1231. [14] Zhuang Y，RuiY，Huang TS，Mehrotra S. 使用无监督聚类的自适应关键帧提取。ICIP 1998; 866-870. [15] Ejaz N，BinTariq T，Baik SW. 使用聚合机制的自适应关键帧提取视频摘要。视觉通信和图像表示2012; 23:1031-1040.

下载后可阅读完整内容，剩余1页未读，立即下载