网页特征提取与聚类:提升网络信息发现效率

需积分: 16 0 下载量 90 浏览量 更新于2024-07-11 收藏 473KB PPT 举报
本篇论文主要探讨了"系统运行情况查询结果对比",通过网页特征提取和聚类的方法来深入研究网络信息发现的需求。在2001年6月26日,由刘辉同学完成的答辩,其指导教师为李星教授。研究背景显示,随着中国网民总数达到2250万人,其中大部分用户(68.84%)的主要目的是获取信息,搜索引擎的使用率高达66.6%,且大部分用户倾向于从中文网页获取信息,尽管中文网页在全球网页中的比例仅占3.8%。 课题的焦点在于改进指南针搜索引擎的性能,通过网络侦听和Spider技术进行数据采集,强调了对IPv4和IPv6用户的区别对待。论文的技术介绍部分着重于自动文本分类系统的构建,包括特征选择方法,如TF-IDF(词频-逆文档频率)和信息增益法,这些方法用于衡量文本项的重要性和区分度。 核心的机器学习算法被详细阐述,包括朴素贝叶斯、支持向量机(SVM)、Rocchio法、k-近邻法(k-NN)、决策树、贝叶斯网络、多元回归模型以及神经网络等。这些算法的选择体现了对多种策略的综合应用,以提升分类的准确性和效率。 系统实现方面,设计思想围绕分类体系展开,采用基于统计的分类算法,并强调动态更新,即结合日志分析和用户控制,以保证系统的实时性和灵活性。这表明研究者不仅关注静态数据处理,还注重适应性变化和用户体验。 这篇论文深入研究了在海量网络信息中利用网页特征提取和聚类技术进行智能检索的问题,展示了在实际搜索引擎优化中如何结合多种算法和技术手段,以满足用户的信息获取需求。同时,它也反映了当时信息技术发展的一个重要趋势,即利用大数据和机器学习技术提升搜索效率和个性化服务。