基于Web的文本分类挖掘研究——支持向量机在中文文档自动分类中的应用

5 浏览量更新于2024-06-23 收藏 338KB DOC 举报

"这篇文档是首都师范大学的一篇学士学位论文，主要研究基于Web的文本分类挖掘。作者探讨了文本分类的重要性和挑战，特别是在大规模文本数据背景下，传统的文本信息检索方法已不再适用。论文深入研究了文本分类的基本流程，特征提取技术，以及包括朴素贝叶斯、K近邻算法、支持向量机和投票在内的常用文本分类方法。特别是，作者利用支持向量机技术设计并实现了一个开放的中文文档自动分类系统，该系统在训练效率和分类性能上表现出色。" 本文档是关于计算机科学领域的，特别是集中在文本挖掘和分类技术上。文本分类是一个关键的文本数据挖掘任务，旨在有效地组织和管理大量的文本信息，以支持决策。在当前互联网时代，随着文本数据的爆炸式增长，传统的文本处理方法已无法满足需求，因此出现了文本数据挖掘技术。论文中提到的文本分类的基本过程通常包括预处理（如去除停用词、词干提取）、特征选择和表示（如向量空间模型）、模型训练和预测。特征提取是关键步骤，它涉及到如何从文本中抽取有意义的信息，如词频、TF-IDF值等。朴素贝叶斯、K近邻（K-Nearest Neighbor, KNN）和支持向量机（Support Vector Machine, SVM）是常见的文本分类算法。朴素贝叶斯基于概率理论，KNN依赖于样本的相似度，而SVM通过构造最大间隔超平面来划分类别，对于非线性可分问题有很好的解决能力。作者选择支持向量机作为研究焦点，是因为其在处理高维空间和小样本数据时的优秀表现。通过设计和实现一个基于SVM的中文文档分类系统，作者证明了这种方法在训练速度和分类精度上的优势。实验结果表明，该系统能够达到高分类准确率和查全率，这表明自动文本分类在实际应用中的潜力和价值。关键词涵盖了文本挖掘、文本分类和支持向量机，强调了这些技术在处理和理解网络文本信息中的核心地位。外文提要部分进一步重申了文本分类在信息检索系统中的起源，并指出随着文本数据的增长，需要新的数据挖掘方法，如文本分类，来应对挑战。

首都师范大学

Capital Normal University

第６页共 28 页

第一章绪论

1.1　文本自动分类研究的背景和意义

分类最初是应信息检索(Information Retrieval,简称 IR)系统的要求而出

现的，也是数据挖掘应用领域的重要技术之一

[1]

.随着全球计算机与通讯技术的

飞速发展、互联网的普及与应用，信息爆炸的现实使人们越来越注重对自动分

类的研究，文本自动分类及其相关技术的研究也日益成为一项研究热点。信息

检索系统必须操纵大量的文本数据，其文本信息库可能相当庞大。如何在海量

文本信息中获取潜在的、有价值的知识，模型或规则,这就需要引入文本数据挖

掘概念。数据挖掘是从大量的文本数据中提取出事先未知的、可理解的、可应

用的信息和知识的过程。数据挖掘融合了数据库、人工智能、机器学习、统计

学等多个领域的理论和技术，能够对将来的趋势和行为进行预测，从而很好地

支持人们的决策。

文本数据挖掘（ Textual Data Mining ），亦称文本挖掘（ Textual

Mining），或者从文本数据库中发现知识，以文本数据为特定挖掘对象的数据

挖掘，是数据挖掘的扩展。

文本挖掘抽取有效、新颖、有用、可理解的、散布在文本文件中的有价值

知识，并且利用这些知识更好地组织信息的过程。1998 年底，国家重点研究发

展规划首批实施项目中明确指出，文本挖掘是“图像、语言、自然语言理解与

知识挖掘”中的重要内容。

文本挖掘利用智能算法，如神经网络、基于案例的推理、可能性推理等，

并结合文字处理技术，分析大量的非结构化文本源（如文档、电子表格、客户

电子邮件、问题查询、网页等），抽取或标记关键字概念、文字间的关系，并

按照内容对文档进行分类，获取有用的知识和信息。

从目前文本挖掘技术的研究和应用状况来看，从语义的角度来实现文本挖

掘的很多，目前研究和应用最多的几种文本挖掘技术有：文档聚类、文档分类

和摘要抽取

[2]

。

（1）文档聚类

首先，文档聚类可以发现与某文档相似的一批文档，帮助知识工作者发现

相关知识；其次，文档聚类可以将一个文档聚类成若干个类，提供一种组织文

档集合的方法；再次，文档聚类还可以生成分类器以对文档进行分类。

文本挖掘中的聚类可用于：提供大规模文档集内容的总括；识别隐藏的文

档间的相似度；减轻浏览相关、相似信息的过程。

聚类方法通常有：层次聚类法、平面划分法、简单贝叶斯聚类法、K-最近

邻参照聚类法、分级聚类法、基于概念的文本聚类等。

剩余27页未读，继续阅读

yyyyyyhhh222

粉丝: 455
资源: 6万+

基于Web的文本分类挖掘研究——支持向量机在中文文档自动分类中的应用

本科毕业论文---计算机网络安全设计.doc

本科毕业论文---计算机木马病毒研究与防范.doc

行政管理毕业论文----个人职业生涯规划.doc

单片机在电机调速系统中是如何实现速度控制的？请结合《基于单片机的电机调速系统设计--《单片机》课程设计.doc》给出详细的解释。

在电机调速系统中，单片机是如何精确控制电机转速的？请结合《基于单片机的电机调速系统设计--《单片机》课程设计.doc》详细说明。

提取形如 href="http://news.sina.com.cn/o/2018-11-06/doc-ihmutuea7351575.shtml" 的字符串

常见的文件扩展名以及类型

datax-web安装

doc-14-5g-docs.googleusercontent.com

如何在Windows系统中安装适用于Python 3.3的LDA库（lda-0.3.0-cp33-none-win_amd64.whl）？

最新资源