BlockWeb模型：一种在网页区块中检索信息的方法

93 浏览量更新于2024-06-19 收藏 3.51MB PDF 举报

"这篇论文是尼古拉斯·费塞尔在马赛数学与计算机科学博士学校(E.D.184)的科学博士学位论文，由Jacques Le Maitre和Emmanuel Bruno指导，主题聚焦于信息检索模型，特别是针对半结构化文档和可视化内容的检索。论文在信息与系统科学实验室（LSIS）准备，并于2011年6月14日公开辩护。" 在信息检索领域，模型的选择和设计至关重要。论文中提到了几种关键的信息搜索模型： 1. **布尔模型**：这是最早的信息检索模型之一，基于布尔逻辑操作（如AND、OR、NOT）来组合查询词，确定文档的相关性。 2. **模糊布尔模型**：在布尔模型的基础上，模糊布尔模型允许一定程度的不精确匹配，提高了检索的灵活性。 3. **矢量模型**：此模型将文档和查询表示为向量，通过计算相似度（如余弦相似度）来衡量文档与查询的相关性。 4. **概率模型**：该模型基于概率理论，如TF-IDF和BM25，考虑了词频和文档频率，以概率方式评估文档的相关性。论文还探讨了在半结构化文档（如XML、InfoPath、XPS）中的信息搜索，以及在INEX组织的挑战中应用的方法。特别地，它关注了如何在XML文档中有效地检索信息。在处理可视内容时，论文讨论了将页面分割成区块（BlockWeb模型）的方法，强调了区块的重要性评估、分类和索引。这涉及到识别和索引页面内容，包括图像和附近文本，以及利用视觉渲染来构建块树的策略。此外，论文还介绍了一种名为“BlockWeb”的新模型，它将页面结构化为块，并对块进行标识、内容分析、重要性评估以及建立索引。这种模型考虑了页面的渗透性和传播属性，旨在改进信息检索的性能。系统的实现部分，详细描述了将页面转换为块树的一般架构，包括视觉渲染的运用、块树的定义、多块树处理以及页面到块树的划分过程。总体而言，这篇论文深入研究了信息检索模型的多种方面，特别是在处理非结构化和半结构化数据时的创新方法，对于理解信息检索系统的工作原理及其在现代互联网环境中的应用具有重要价值。

第一章。引言

为了使用户他们建立在现有的信息搜索模型上：主要是布尔模型和向量

模型。

L’énorme quantité de documents disponibles et le nombre important de

ceux répondant potentiellement à une requête a de plus

一开始，索引或搜索的单

位是整个页面。但很快就有必要相反，逻辑结构的考虑与这是一个

给定的标准" 这一领域的大部分工作是在INEX 1倡议下进行的对视觉结

构的考虑是基于这样

页面设计者赋予此信息的承载力以及此信息可以维护的链接。因此，在索

引和搜索引擎中考虑页面的视觉组织对于提高质量是非常有用的

在本文中，我们提出了一种新的网页信息搜索模型在此模型中，页

面被分解为可视块每个块都有一个重要性，这取决于其视觉属性（大

小、颜色、字符大小和一袋索引术语的内容一个块可以被页面上另一个

块的内容渗透这些块构成对查询的响应是按相似性降序排序的块的列

表。

本论文的其余部分组织如下：

[

2002

]

，

：//i

。

我

是

。

一个

b u

：//

www

G O

剩余154页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

BlockWeb模型：一种在网页区块中检索信息的方法

几种信息检索模型比较.pdf

信息检索

几种信息检索模型的比较

基于XML的移动信息检索模型研究 基于XML的移动信息检索模型研究

信息检索模型调查报告

二元语义信息检索模型

VSM信息检索模型（向量空间模型）

信息检索模型特点与综述

基于本体的信息检索模型研究

信息检索模型解析：向量空间模型与布尔模型

最新资源

基于XML的移动信息检索模型研究基于XML的移动信息检索模型研究