网络信息发现:网页特征提取与聚类技术详解

需积分: 16 0 下载量 179 浏览量 更新于2024-07-11 收藏 473KB PPT 举报
网页特征提取和聚类是信息技术领域的一个重要研究课题,由答辩人刘辉在2001年6月26日完成,得到了李星教授的指导。这项研究源于网络信息发现的需求,随着中国网民总数达到2250万人,其中68.84%的用户主要目的是获取信息,搜索引擎的使用率高达66.6%,而中文网页作为信息的主要来源,占比达到77.5%,尽管中国人口全球占比不小,但中文网页却仅占3.8%,这反映出对中文网页特征提取和聚类技术的需求。 课题的实施包括网络数据采集,如通过Spider技术进行网络侦听和索引构建。其中,数据采集部分采用了IBM兼容架构,针对不同类型的用户,如IPv4和IPv6用户,以及设备如Laptop computer、Monitor和MacII等进行了适应性设计。在查询阶段,系统支持针对用户需求进行高效搜索。 技术介绍的核心是自动文本分类系统的构建,包括特征选择和机器学习算法。特征选择方面,论文提到了两种常用方法:TF-IDF(Term Frequency-Inverse Document Frequency)法,用于衡量词在文档中的重要程度;以及信息增益法,衡量特征对分类的贡献。机器学习算法涵盖了一系列广泛的方法,如朴素贝叶斯(Naïve Bayes),它基于概率论简化假设;支持向量机(Support Vector Machine),利用超平面最大化样本分类边界;还有Rocchio法、k-近邻法(k-NN)、决策树、贝叶斯网络、多元回归模型、神经网络以及休眠专家法和符号规则学习等。 系统实现部分,设计者考虑了分类体系的构建,即构建一个基于统计的分类框架,强调动态更新,通过日志分析和可控的方式不断优化和适应变化的数据环境。这种设计旨在提供一个高效且准确的网页特征提取和聚类系统,满足搜索引擎如指南针在海量中文网页中快速定位和分类信息的需求。 总结来说,这项研究结合了实际用户需求和搜索引擎技术,通过对网页特征的精细提取和智能聚类,提升了信息检索的效率和准确性,对于推动中文互联网内容的智能化管理和利用具有重要意义。