主题信息分布与高光谱遥感:原理、技术与应用精华

需积分: 7 17 下载量 184 浏览量 更新于2024-08-09 收藏 4.51MB PDF 举报
"本章探讨的主题是'主题信息分布的局部性-高光谱遥感',主要聚焦于面向主题的信息搜集与应用。互联网上,用户对于特定主题信息的需求日益增加,传统搜索引擎如综合性搜索引擎虽然能满足一般查询,但无法满足用户对领域内信息的深度挖掘和快速更新。因此,面向主题的信息搜集系统应运而生,其目标是高效抓取与主题相关的网页,利用有限资源提供更为完整和及时的主题信息。 Focused Crawling系统,由S. Chakrabarti于1999年提出,是这种定向搜索的重要基础。该系统的核心思想是根据用户提供的样例网页,假设相关页面之间的链接概率高于随机网页,从而聚焦于主题区域进行信息搜集。Davison的研究进一步证实了Web上主题信息分布的局部性,即同一主题的页面之间存在较高的相关度,这可以通过向量空间模型和TF-IDF算法来量化。 本章首先介绍了主题信息的搜集方法,将搜索引擎比喻为公共图书馆和专业图书馆的区别,前者广泛涵盖各种信息,后者则聚焦于特定主题。接着,针对大规模分布式搜索引擎系统,详细阐述了设计要点和技术关键,包括小型搜索引擎的实现细节,以及大规模系统如何处理和处理大量主题相关网页。 此外,本书还关注了中文网页的自动分类和个性化Web信息服务,这些技术对于提升用户体验和信息检索效率至关重要。全书层次分明,理论与实践相结合,既适合计算机科学、信息管理等专业研究生的学习,也对网络技术研究者和Web应用开发者提供了实用的技术资料。 当前,随着互联网信息爆炸式增长,用户获取信息的方式多样化,直接输入URL、浏览门户网站和使用搜索引擎成为主要途径。针对这些需求,面向主题的信息搜集系统在优化信息获取效率和精度方面发挥着重要作用,是现代信息技术领域的重要研究方向。"