基于Bag-of-words模型的图像检索提升准确性

版权申诉

153 浏览量更新于2024-08-11 收藏 482KB PDF 举报

【计算机视觉】图像检索是计算机视觉领域的一个重要分支，它的发展历程可以追溯到20世纪70年代的文本基图像检索(TBIR)。TBIR主要通过文本描述（如绘画作品的作者、年代、风格等）来查找图像，这种方法受限于文本描述的准确性。随着技术的进步，90年代后出现了基于内容的图像检索(CBIR)，它更注重图像本身的内容特征，如颜色、纹理和布局，这是CBR（基于内容检索）的一部分，也包括对视频和音频等多媒体信息的检索。 CBIR的检索原理主要包括三个步骤：首先，理解用户需求，将用户的查询转化为可以搜索索引数据库的参数；其次，对图像数据进行收集、处理，提取特征并建立索引；最后，利用相似度算法计算查询与数据库中的匹配度，返回满足阈值的结果，并按相似度排序展示。为了提高检索精度，CBIR会结合用户反馈，实现一个交互式的搜索过程，不断优化搜索结果。在技术细节上，基于Bag-of-words模型的图像检索是CBIR的一种常用策略。Bag-of-words模型假设文档可以被看作单词的无序集合，忽略了语法和句法结构，只关注每个单词的独立出现。在这个模型中，每个文档会被表示为一个词汇表中的单词频率向量。比如，给出的两个文档，通过构建词典{Bob, like, to, play, basketball, also, football, games, Jim, too}，我们可以用整数编码表示为10维向量，即使文档的顺序不同，但相同单词的存在不影响检索。总结来说，计算机视觉的图像检索技术经历了从文本描述到内容分析的转变，其中Bag-of-words模型是实现高效检索的关键工具。通过理解和处理图像内容特征，以及与用户的交互反馈，CBIR在提升图像检索准确性和用户体验方面取得了显著进步。这不仅在艺术作品检索、商品识别等领域有广泛应用，也是未来人工智能发展中的重要基石。

【计算机视觉】图像检索

⽬录

⼀、图像检索基本概述

从20世纪70年代开始，有关图像检索的研究就已开始，当时主要是基于⽂本的图像检索技术(简称TBIR)，利⽤⽂本描述的⽅式描述图像的

特征，如绘画作品的作者、年代、流派、尺⼨等。

到90年代以后，出现了对图像的内容语义，如图像的颜⾊、纹理、布局等进⾏分析和检索的图像检索技术，即基于内容的图像检索(简称

CBIR)技术。CBIR属于基于内容检索(简称CBR)的⼀种，CBR中还包括对动态视频、⾳频等其它形式多媒体信息的检索技术。

在检索原理上，⽆论是基于⽂本的图像检索还是基于内容的图像检索，主要包括三⽅⾯：⼀⽅⾯对⽤户需求的分析和转化，形成可以检索索

引数据库的提问;另⼀⽅⾯，收集和加⼯图像资源，提取特征，分析并进⾏标引，建⽴图像的索引数据库;最后⼀⽅⾯是根据相似度算法，计

算⽤户提问与索引数据库中记录的相似度⼤⼩，提取出满⾜阈值的记录作为结果，按照相似度降序的⽅式输出。

为了进⼀步提⾼检索的准确性，许多系统结合相关反馈技术来收集⽤户对检索结果的反馈信息，这在CBIR中显得更为突出，因为CBIR实现

的是逐步求精的图像检索过程，在同⼀次检索过程中需要不断地与⽤户进⾏交互。

⼆、基于Bag of words模型的图像检索

（⼀）Bag of words模型简介

1、Bag of words模型

Bag-of-words模型是信息检索领域常⽤的⽂档表⽰⽅法。在信息检索中，BOW模型假定对于⼀个⽂档，忽略它的单词顺序和语法、句法等

要素，将其仅仅看作是若⼲个词汇的集合，⽂档中每个单词的出现都是独⽴的，不依赖于其它单词是否出现。也就是说，⽂档中任意⼀个位

置出现的任何单词，都不受该⽂档语意影响⽽独⽴选择的。

例如有如下两个⽂档：

1：Bob likes to play basketball, Jim likes too.

2：Bob also likes to play football games.

基于这两个⽂本⽂档，构造⼀个词典：

Dictionary = {1:”Bob”, 2. “like”, 3. “to”, 4. “play”, 5. “basketball”, 6. “also”, 7. “football”, 8. “games”, 9.

“Jim”, 10. “too”}。

这个词典⼀共包含10个不同的单词，利⽤词典的索引号，上⾯两个⽂档每⼀个都可以⽤⼀个10维向量表⽰（⽤整数数字0~n（n为正整数）

表⽰某个单词在⽂档中出现的次数）：

1：[1, 2, 1, 1, 1, 0, 0, 0, 1, 1]

2：[1, 1, 1, 1 ,0, 1, 1, 1, 0, 0]

向量中每个元素表⽰词典中相关元素在⽂档中出现的次数(/可⽤单词的直⽅图表⽰)。

2、Bag of words模型在计算机视觉中的应⽤

计算机视觉领域的研究者们尝试将同样的思想应⽤到图像处理和识别领域，建⽴了由⽂本处理技术向图像领域的过渡。将⽂本分类问题与图

像分类问题相⽐较，会发现这样的问题，对于⽂本来讲，⽂本是由单词组成的，因此提取关键词的过程也是顺理成章，没有任何歧义或者限

制。但对于图像来讲，如何定义图像的“单词”，则是需要⾸先解决的问题之⼀。

下载后可阅读完整内容，剩余8页未读，立即下载

_webkit

粉丝: 30
资源: 1万+

基于Bag-of-words模型的图像检索提升准确性

python计算机视觉编程——基于BOF的图像检索（附代码） 计算机视觉.pdf

计算机视觉（二）：图像检索以及基于图像描述符的搜索 计算机视觉.pdf

基于深度学习的计算机视觉：原理与实践 深度学习原理.pdf

基于深度学习的计算机视觉中图像检索算法

遥感图像检索与普通图像检索一样吗

计算机视觉 : 一种现代方法 第二版 pdf

基于内容特征的图像检索python

图像检索python

计算机视觉包括哪些方面

计算机视觉算法最新发展

最新资源

python计算机视觉编程——基于BOF的图像检索（附代码）计算机视觉.pdf

计算机视觉（二）：图像检索以及基于图像描述符的搜索计算机视觉.pdf

基于深度学习的计算机视觉：原理与实践深度学习原理.pdf

计算机视觉 : 一种现代方法第二版 pdf