多模态融合与竞争力视频场景分割算法

需积分: 20 161 浏览量更新于2024-08-11 收藏 302KB PDF 举报

"基于多模态融合和竞争力的视频场景分割算法 (2014年) - 武汉理工大学学报(信息与管理工程版), 2014年12月" 本文主要介绍了一种创新的视频场景分割算法，旨在解决视频分割中“语义鸿沟”问题，即底层特征与高层语义之间的不匹配。作者杨亭、丰洪才、金凯和赵杰雪提出了一个结合多模态融合和镜头间竞争力的方法，该方法能够综合处理视频帧中的图像、文本和音频等不同模态的数据。首先，该算法对视频帧的不同模态进行特征提取，利用欧式距离和余弦距离计算同种模态数据之间的相似性。接着，通过典型相关分析法来评估不同模态数据之间的相关度。这些计算出的相似性和相关度随后被融合，用于确定镜头之间的相似度和相关度。在确定了镜头间的相似度和相关度后，算法采用了镜头间竞争力的概念，分别对相似镜头和相关镜头进行场景分割。通过对相似镜头和相关镜头的分割结果取交集，可以得到最终的场景边界，从而实现对整个视频的精确场景分割。实验结果显示，这种方法在场景分割任务上表现出色，查全率达到了82.19%，查准率则为86.7%。这表明该算法在处理视频场景分割时，既能有效检测到大多数场景边界，又能保持较高的准确性。相较于仅依赖单一模态特征的分割方法，该算法考虑了多种模态信息，提高了识别的鲁棒性。尽管一些先前的工作如[LIN等]和[文献[2]]已经尝试结合多种特征，但并未充分考虑异构数据间的关联共生性，而本文的算法在这方面有所改进。另外，尽管其他如[文献[3-5]]的研究在特定类型的视频（如新闻、体育、广告）上取得了成功，但通用性不足。而本文提出的算法旨在提供一种更普遍适用的解决方案，以提高场景分割的效率、准确性和通用性。该论文的贡献在于提出了一种新的视频场景分割策略，通过多模态融合和竞争力分析，提升了场景分割的性能，对于视频分析和检索领域具有重要的理论和应用价值。

第

在第

期

2014

年

月

武汉理工大学学报(

言息与管理工程版)

JOURNAL

wur(

INFORMATION

MANAGEMENT

ENGINEERING)

No.6

Dec.2014

文章编号

:2095

-3852(2014)06

-0759

-05

文献标志码

基于多模态融合和竞争力的视频场景分割算法

杨亭，丰洪才，金凯，赵杰雪

(武汉轻了大学数学与

rlî1

机学院，湖北武汉

430023

)

摘

要:针对视频分割中底层特征与高层语义之间的"语义鸿沟"问题，提

11\

了一种基于多模态融合和镜

头问竞争力的场景分割算法，对视频帧的罔像、文木、音频等模态进行特征提取，用欧式距离、余弦距离

算

11\

同种模态数据的相似性，用典型相关分析法

算

11\

不同模态数据的相关度，分别对各模态数据的相似性和相

关度进行融合得到镜头之间的相似度和相关度，采用镜头问竞争力的方法分别对相似镜头和相关镜头进行

场景分割

)j:

对分割

11\

的两个场景边界集合取交集得到最终的场景边界，从而实现对视频的场景分割。实验结

果表明，该方法在场景分割中具有较高的性能，查全率和查准率分别达到

82.19

毛和

86.7%

。

关键词:竞争力;多模态融合;相似性度量;典型相关性;场景分割

中图分类号:

TP37

场景边界检测是视

烦检索和视

烦挖掘中非常

重要的阶段，己成为视频处理领域最具挑战性的

研究内容之一。近年来，国内外学者对视频场景

进行边界检测做了大量研究工作并取得了许多成

果。

LIN

等

[11

提出了一种分裂与合并力量相竞争

的场景分割方法，与其他采用单模态特征进行场

景分割的算法相比，获得了较高的查准卒，但是它

只考虑了视顿中的颜色特征，对于颜色直方图很

相似的两个场景会出现漏检的情况。文献

[2J

提

出了在基于竞争力基础上进行场景边界检测的多

特征融合方法，通过融合图像中的颜色、纹理和边

界特征来对镜头的相似性进行度量，使得提取的

场景边界更加准确，但它没有考虑异构数据间的

关联共生性，仍然从底层特征进行场景分割，对于

不同模态、相似语义的两个镜头会做出误检。文

献

-5

能有效地利用镜头多模态之间的时序

关联共生特性，分别实现对新闻、体育、广告视顿

的场景分割，但它们只适用于某一类特定的视

顷，

不具有通用性。

为了获得场景分割技术的高效性，同时使之

具有更好的准确性和通用性，笔者引入异构数据

的关联度，融合视顿的多模态特征对文献

[2J

中

基于竞争力的场景分割算法进行了改进，提出了

一种基于多模态融合和竞争力的场景分割方法，

收稿日期

:2014

DOI: 10.

3963/j.

issn. 2095 - 3852. 2014. 06. 007

实现对场景边界的检测。

视频底层特征提取

1. 1

图像特征的提取

笔者用颜色特征来代表图像特征，选用的颜

色空间模型是

HSV

模型，将

HSV

的

个分量按

照人的颜色感知进行非等间隔量化，即色调

分

为

份，饱和度

和亮度分量

两者皆分为

份，

经过量化之后，把

个颜色分量合成为一维特征

向量

如式(1)所示:

G =

+ V

(1)

其中

，

和

，.

分别为

和

的量化级数，笔

者取矶、

，

为

，则

的取值范围为

，

，…，

]，经过计算，

获得

柄的一维直方图，由此

也可以计算出每一帧的一维直方图

风=

(hi.1

人

,…

•

)

，

其中

为帧号。

1. 2

音频特征的提取

笔者将一个镜头中包含的一段音频定义为一

个音频片段，假设

为音频片段的特征集合，选

取时域特征中的短时平均能量、过零率和

烦域特

征中的美尔频率倒语系数共同构成音

烦帧特征。

(1)短时平均能量是指在一个短时音频信号

帧内其采样点信号所聚集的平均能量

[61

计算方

法如式

(2)

所示:

作者简介:杨亭

(1989

一)

，女，湖北黄|对人，武汉轻了大学数学与川炸机学院硕士研究牛

基金项目:湖北省自然科学基金资助项日

(2009Chh008

CDB06603)

;湖北省教育厅重点科研基金资助项日(D2

0101703)

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38713393

粉丝: 8
资源: 878

多模态融合与竞争力视频场景分割算法

基于多模态融合的自动驾驶感知及计算.pdf

一种基于多模态融合神经网络对疲劳度检测的方法.pdf

基于多模态融合的三维模型检索算法研究

虚拟现实和增强现实之场景理解算法：手势识别与多模态融合技术教程.docx

文本为主的多模态特征融合的新闻视频分类算法 (2005年)

多模态应用-基于注意力机制的多模态融合算法进行情感分析-附项目源码-优质项目实战.zip

基于多模态融合的人脸识别研究与应用_王瑶.caj

基于多模态融合与反馈的在线视频推荐系统

基于多模态融合的家庭音乐相册自动化生成技术

基于人脸表情识别和语音识别的多模态融合算法

最新资源