ISSN 1000-0054
CN
11-2223/N
清华大学学报 (自然科学版)
J T singhua U niv (Sci& T ech),
2007 年 第 47 卷 第 1 期
2007, V ol.47, N o.1
29/41
112-115
基于
HHMM
的多线索融合和事件推理方法
金国英, 陶霖密, 徐光 , 张 翔
(清华大学 计算机科学与技术系, 北京 100084)
收稿日期: 2005-11-25
基金项目: 国家自然科学基金资助项目 (60673189);
中国博士后科学基金资助项目 (2005038351)
作者简介: 金国英 (1974-), 女 ( 汉), 上 海, 博士 研 究生。
通讯联系人:陶霖密,副教授,
E
-
mail
:
lin m i
@
tsin gh u a
.
edu
.
cn
摘 要: 为了解决基于内容检索技术中低层特征与高层语
义之间存在语义间隔问题提出了基于多层次线索与事件的
分层模型,以及相应的基于分层隐
Markov
模型(
HHMM
)的
多线索融合和事件推理方法。其中线索是对事件进行推理的
要素,它是低层特征与事件之间的中间层次。在将视频流分
割为镜头后,从各个镜头中抽取若干与事件密切相关的线
索,构造并训练各事件的
HM M
模型,用于融合线索和进行
事件推理。由于输入视频通常包含多个事件,不可避免会遇
到时域分割问题,因此构造一个 H H M M 模型用于同时进行
视频流的合理分割和事件的识别。对足球视频的大量实验结
果表明,该方法可有效地检测足球视频事件,并在抽取的线
索不完全可靠的情况下具有一定的鲁棒性。
关键词: 模式识别; 视频处理和分析; 基于内容检索; 事件
检测; 分层隐
Markov
模型(
HHM M
)
中图分类号: T P 391.4 文献标识码:A
文章编号: 1000-0054(2007)01-0112-04
Cue fusion and ev ent infere nc e
based on HHMM
JI N G uoying
,
TA O L in m i
,
XUGuangyou
,
ZHAN G X ian g
(
Departm e nt of Computer Sci e nce and Technol ogy
,
Tsinghua University
,
Beijing 100084
,
China
)
Abstract
: A cues fu sio n an d events inference m ethod w as developed
based on the hierarchical h idden M arkov m o del (H H M M ) to b ridge
th e sem antic gap betw een the low -level features and the high-level
sem antics in conten t-b ased retrievals. C u es are introduced into the
system as an elem ent for inferring higher-level events. In th e system
fram e w o rk , th e in p u t vid eo stream is fir st se g m en ted into s h o ts,
th en, sem antic cues are ex tracted from th e shots b ased on low -level
features, an d , H H M M m odels are built and trained to infer the
events from the cues. T he inputvideo stream s usually contain m ore
th an one even t, S o a tem poral segm enting video stream is used to
segm ent even ts for the H H M M -based events in ference. A nHHMM
m odel w as developed to grou p shots an d to recognize sim ultaneously
events in a soccer video. T ests on the soccer videos sh o w th at the
system is effective and robust in inferring events from rough ly
extracted cu es.
Key words
: pattern recognition; video processing and analysis;
content based retrieval; even t detection; hierarchical
hidden M arkov m odel
基于事件的分析方法是目前基于内容检索技术
的研究热点,其基本思想是根据上下文和领域知识
从低层特征中抽取线索,并融合各线索推理出高层
的语义事件。已有不少以体育比赛为实验数据的高
层语义研究
[1, 2]
, 其中事件推理方法包括利用一些
启发式规则
[2]
, 或引入诸如动态
B ayesian
网(
DBN
)
或隐
Markov
模型(
HM M
)等概率模型。
最常见的基于
HMM
推理的事件检测方法一
般为每个事件构造一个
HMM
模型,用最大似然分
类器找出输入视频所属的事件。但这种方法不能处
理输入视频中包含多个事件的情况。如何将视频分
割成合适的片段,使得每个片段产生的观察值序列
必定符合某个
HM M
事件模型,称之为基于
HM M
的事件检测方法中的时域分割问题,即视频分割和
事件识别的冲突问题。为解决这一问题,目前采用的
方案可分为先分割后识别、分割与识别同时进行这
两大类。前者
[3]
的分割结果好坏很大程度上会影响
事件识别结果。后者中较常用的方法是引入多层次
HM M
模型
[4]
。
本文引入分层
HM M
(
h ierarchical H M M
,
HHMM
)模型来解决时域分割问题。与目前常见的
事件检测方法不同的是,用线索来代替底层特征进
行
HM M
推理,一方面降低了
HM M
的状态数量,
简化了
HM M
的训练和推理过程。另一方面,由于
一些线索具有一定的语义,使得
HM M
推理过程与
直接用底层特征进行推理相比更加合理。线索的引
入为高层语义的提取提供了一个多层次的通用模
型。从特征得到的最低层的线索,可以推理出语义层
次较低的事件,这些子事件又可以作为线索来推理