第 22 卷 第 2 期 南 京 邮 电 学 院 学 报 Vol. 22 N o. 2
2002 年 6 月 Journal of N anjing U niversity of Posts and T elecommunicat ions Jun. 2002
文章编号: 1000-1972( 2002) 02-0023-04
基 于 内 容 的 图 像 及 视 频 检 索
卢 官 明
( 南京邮电学院 信息工程系, 江苏 南京 210003)
摘 要: 基于内容的图像及视频检索是当前计算机视 觉、多媒体数据库管理等研究领域 的热点之 一。较
系统 地介绍了该研究领域的现状。对于静态图像, 主要介绍了基于 颜色、纹理、形状、区域或目 标等
低级图像特征信息的检索以及基于交互式反馈的 检索方 法; 对 于视频 序列, 则介绍 了镜头 检测、镜
头内容表示、场景的语义描述等技术。最后指出了该研究 领域存在的难点及今后的工作。
关键词: 多媒体数据库; 数据库管理; 计算机视觉
中图分类号: T N 919. 8 文献标识码: A
收稿日期: 2002-01-26; 修回日期: 2002- 04-04
1 引 言
科学研究证明, 在人类接受的信息中, 听觉信息
占 20% 左右, 视觉信息占 60% 以上, 其它如味觉、触
觉、嗅觉等加起来不过占 20% 。可见视觉在人们日
常生活中的重要性。俗话说“ 百闻不如一见”、“ 一目
了然”, 都反映了视觉信息在人类传递信息中的独到
之处。因此, 对人类视觉的研究以及利用计算机进
行图像处理与理解, 在信息处理中就显得尤其重要。
随着成像技术应用的不断扩大, 数字图像处理与理
解技术日益成熟, 已经得到越来越广泛的应用, 在空
间探测、遥感、军事侦察与精密制导、生物医学、工业
检测等方面都有了许多成功的应用, 并积累了大量
有用的信息。对这些信息的管理以及如何从这些大
量的信息中提取特定的有用信息则成为人们新的研
究热点。近几年来, 随着计算机网络的飞速发展, 网
络上的信息爆炸性增长, 人们每天都能获得大量的
数字图像、医学图像、遥感图像、数字视频信号等等。
对这些数据如何组织、表达、存储、管理、查询和检
索, 是对传统数据库技术提出的挑战。如果没有对
图像和视频数据的自动及有效的描述, 则大量的信
息将淹没有数据库中, 无法在需要 时被检索出来。
因此, 如何将数字图像处理、计算机视觉技术与传统
数据库技术相结合, 建立基于对图像及视频内容自
动或半自动描述的新一代图像视频数据库就成为迫
切的需求。近年来, 基于内容的视频信号与图像数
据库检索技术已成为研究热点, 也成为未来信息高
速公路、数字图书馆等具有重大意义项目的关键技
术。
所谓基于内容的检索( CBR, Content-Based Re-
trieval) , 是指直接根据描述媒体对象内容进行的各
种特征检索, 它能从数据库中查找到具有指定特征
或含有特定内容的图像或视频片段, 它区别于传统
的基于关键词的检索手段, 融合了图像理解、模式识
别等技术, 具有如下特点:
( 1) 直接从媒体内容中提取信息线索。基于内
容的检索突破了传统的基于表达式检索的局限, 它
直接对图像、视频进行分析和提取特征, 利用这些描
述图像内容的特征来建立索引( Index) 。
( 2) 基于内容的检索实质上是一种近似匹配的
技术。在数据库中, 需要使用模式识别的方法对图
像库中的图像按不同索引特征分类。在检索的过程
中, 它采用某种相似性度量对图像库中的图像进行
匹配, 以获得查询结果。这一点与常规数据库检索
的精确匹配方法有明显的不同。
( 3) 特征提取和索引的建立可由计算机自动实
现, 避免了 人工描述的主观性, 也大大 减少了工作
量。但相似性度量与人的主观感受有关, 因此, 常需
要用人机交互的方法, 学习人的主观相似度感受。