BlockWeb模型:一种在网页区块中检索信息的方法

0 下载量 93 浏览量 更新于2024-06-19 收藏 3.51MB PDF 举报
"这篇论文是尼古拉斯·费塞尔在马赛数学与计算机科学博士学校(E.D.184)的科学博士学位论文,由Jacques Le Maitre和Emmanuel Bruno指导,主题聚焦于信息检索模型,特别是针对半结构化文档和可视化内容的检索。论文在信息与系统科学实验室(LSIS)准备,并于2011年6月14日公开辩护。" 在信息检索领域,模型的选择和设计至关重要。论文中提到了几种关键的信息搜索模型: 1. **布尔模型**:这是最早的信息检索模型之一,基于布尔逻辑操作(如AND、OR、NOT)来组合查询词,确定文档的相关性。 2. **模糊布尔模型**:在布尔模型的基础上,模糊布尔模型允许一定程度的不精确匹配,提高了检索的灵活性。 3. **矢量模型**:此模型将文档和查询表示为向量,通过计算相似度(如余弦相似度)来衡量文档与查询的相关性。 4. **概率模型**:该模型基于概率理论,如TF-IDF和BM25,考虑了词频和文档频率,以概率方式评估文档的相关性。 论文还探讨了在半结构化文档(如XML、InfoPath、XPS)中的信息搜索,以及在INEX组织的挑战中应用的方法。特别地,它关注了如何在XML文档中有效地检索信息。 在处理可视内容时,论文讨论了将页面分割成区块(BlockWeb模型)的方法,强调了区块的重要性评估、分类和索引。这涉及到识别和索引页面内容,包括图像和附近文本,以及利用视觉渲染来构建块树的策略。 此外,论文还介绍了一种名为“BlockWeb”的新模型,它将页面结构化为块,并对块进行标识、内容分析、重要性评估以及建立索引。这种模型考虑了页面的渗透性和传播属性,旨在改进信息检索的性能。 系统的实现部分,详细描述了将页面转换为块树的一般架构,包括视觉渲染的运用、块树的定义、多块树处理以及页面到块树的划分过程。 总体而言,这篇论文深入研究了信息检索模型的多种方面,特别是在处理非结构化和半结构化数据时的创新方法,对于理解信息检索系统的工作原理及其在现代互联网环境中的应用具有重要价值。