网络挖掘:从超文本数据中发现知识

4星 · 超过85%的资源 需积分: 10 13 下载量 22 浏览量 更新于2024-07-28 收藏 3.7MB PDF 举报
"Mining the Web: Discovering Knowledge from Hypertext Data" 是一本关于网络数据挖掘的书籍,涵盖了网络爬取、搜索引擎、信息检索、学习和应用等多个方面。 在介绍部分(1.1-1.6),书中提及了网络爬虫(crawling and indexing)的重要性,它是获取网页数据的基础。接着讨论了主题目录(topic directories),它们是组织信息的一种方式。1.3章节介绍了聚类和分类技术,用于将相似内容归类。1.4章节涉及超链接分析,这对于理解网页间的关系至关重要。1.5章节探讨了资源发现和垂直门户,这些是特定领域信息检索的关键。1.6章节提到了结构化与非结构化数据挖掘的区别,这在处理网页数据时尤为关键。 Part I Infrastructure(2章)专注于网络爬虫的构建。第2章详细讲述了HTML和HTTP基础,以及爬虫的基本原理。在2.3节中,作者深入探讨了大型爬虫的工程实现,包括DNS缓存、预取、解析、多线程抓取、链接提取和规范化、机器人排除协议、避免重复抓取同一URL、防止蜘蛛陷阱、处理重复页面的链接、负载监控和管理、服务器工作队列、文本存储库以及更新已抓取的页面。 第3章介绍了Web搜索和信息检索。3.1节讲解了布尔查询和倒排索引,以及停用词和词干提取的处理。3.2节则深入到相关性排名,定义了召回率和精确率,并介绍了向量空间模型、Relevance Feedback和Rocchio方法、概率相关反馈模型以及高级问题。3.3节讨论了相似性搜索,包括处理“查找类似”查询、通过shingling消除近似重复项以及检测局部相似的Web子图。 Part II Learning和Part III Applications虽然没有给出详细内容,但可以推断,这部分可能涵盖了机器学习算法如何应用于网络数据挖掘,以及各种实际应用场景,比如推荐系统、社交网络分析等。 参考文献和索引部分提供了进一步研究和深入学习的资源。 这本书全面地阐述了从海量的超文本数据中发现知识的过程,适合对网络数据挖掘、搜索引擎和信息检索感兴趣的读者。