"基于朴素贝叶斯和SVM的文本分类实验报告"

数据挖掘

文本分类

需积分: 50 140 浏览量更新于2024-01-15 3 收藏 6.23MB DOC 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

本报告涵盖了文本分类的完整处理过程，包括对24万条搜狗预料库的处理、jieba分词、停用词和无关词的处理，以及词袋模型的构建，其中特征筛选使用了CHI值检验，特征向量值使用了tfidf。同时，本报告还采用了自编的朴素贝叶斯算法和sklearn包中的SVM算法对文本进行了分类，并通过混淆矩阵和ROC曲线展现了实验效果。在实验一中，我们的实验目的是观察网站结构，并利用爬虫算法爬取某网站的几类新闻网页内容。通过对这些网页内容进行预处理、分词以及特征选择等工作，我们建立了特征词典，并构建了每篇文章的特征向量。之后，我们利用分类算法，如朴素贝叶斯和SVM，针对训练集的特征向量和类标签进行了训练，得到了分类模型，并通过在测试集上计算预测准确率、召回率等指标，对不同分类器的分类效果以及不同参数的影响进行了性能评估。此外，我们还通过ROC曲线直观地对比了不同分类器的分类效果。实验进展方面，本实验由一人完成，完成时间表如下： - 11月8日：学习Python基本语法 - 11月9日至11日：了解爬虫算法，掌握操作URL的urllib和网页解析器BeautifulSoup，观察新浪几类新闻资讯网页结构的HTML标签，编写代码，抓取10类共2万多篇文本的新闻内容，并保存到本地。 - 11月12日至13日：了解常用的几种分词方法，选用jieba分词和词性提取包作为本实验的分词工具，并去除停用词、无关词（自己加入的）等，仅保留flag为名词的词语，并保存到文本中。 - 11月14日：统计每篇文章中的出现词语的词频信息、每个类别中出现词语的词频信息、每个类别的文章数，并根据CHI值筛选特征词语，并用tfidf生成特征向量。综上所述，本实验的目标是通过对文本进行分类，我们采用了搜狗预料库作为数据集，并利用jieba分词、停用词无关词处理和词袋模型构建等方法进行预处理。然后，我们采用了朴素贝叶斯和SVM算法进行分类，并通过混淆矩阵和ROC曲线展示实验结果。实验报告写得很详细，对于不懂的地方可以查看报告以及博客中的细节讲解。

资源详情

资源推荐