数据预处理:分词、词性标注与停用词过滤

需积分: 47 21 下载量 196 浏览量 更新于2024-08-07 收藏 4.05MB PDF 举报
"这篇实验报告涉及数据挖掘和文本分类,主要使用了jieba分词库进行文本预处理,包括分词和词性标注,并进行了去停用词和无关词的操作,以提高后续文本分析的效果。实验流程涵盖了网页爬取、特征向量构建、分类算法学习与应用等步骤。" 在这个实验中,主要涉及了以下几个知识点: 1. **数据预处理**:数据预处理是文本挖掘的重要环节,包括分词、词性标注、去停用词和无关词等步骤,目的是减少噪声,提取有意义的信息。在这个实验中,使用了jieba分词库,该库是Python中广泛使用的中文分词工具,具有良好的性能和可扩展性。 2. **jieba分词**:jieba分词采用Trie树结构和HMM模型进行分词,能够处理词典中已有和未有的词语。它先加载内置词典(dict.txt),然后生成有向无环图(DAG),再通过Viterbi算法预测未收录词的分词,最后通过动态规划找到最优切分路径。jieba还提供了posseg模块进行词性标注,便于进一步处理。 3. **分词与词性标注**:通过`jieba.posseg.cut()`函数,可以对文本进行分词和词性标注,返回的结果可以用`.word`获取词语,`.flag`获取词性。 4. **去停用词与无关词**:在分词后,通过对比停用词列表,删除常见的停用词(如“的”、“是”等)和无关词,以减少非关键信息的影响。此外,实验者还过滤掉了非名词的词,以更专注于实质性的实体和概念。 5. **文本分类**:实验的最终目标是进行文本分类,这里提到了朴素贝叶斯算法和SVM等分类器。首先,通过爬虫获取新闻内容,接着进行预处理,之后计算特征词典,构建每个文章的特征向量。使用卡方检验(Chi-squared test)选取类别关键词,通过TF-IDF计算特征权重,再使用特征选择方法如chi2进行降维。 6. **库的使用**:实验中使用了`urllib`和`BeautifulSoup`进行网页爬取,`jieba`进行分词和词性标注,`numpy`、`scipy`和`sklearn`库进行科学计算和文本分类,如计算TF-IDF、特征选择和分类器训练。 7. **性能评估**:实验中提到通过预测准确率、召回率等指标评估分类器的性能,并使用ROC曲线进行可视化比较,这是评估分类器效果的常用方法。 这个实验展示了从数据获取、预处理到文本分类的完整流程,涵盖了多个关键技术和工具的应用。