第二章 相关理论
2.1 文本自动分类
文本自动分类(Automatic Text Categorization)也就是用电脑对文本集按照一定
的分类体系或标准进行自动分类标记的过程。
对于总系统来说,文本的来源为 Web 文本,这种文本有着来源分散、结构松
散、文本内容复杂等特点,所以对这种文本进行分类与对来源单一、结构完整、
文本内容相对稳定的文献、论文等进行分类有着更多难点。
首先来源分散,这使这些文本的格式或者文章涉及的内容复杂多变,很难用
文章的来源或者目录索引来进行相应的分类,所以分类器或者分类方法只能根据
内容进行分类。
其次结构松散,这使得文本的结构不完整,无法获得全部文本的题目、关键
字等信息以进行分类,这就要求分类器或者分类方法能够过滤出一定的语义信息
并根据这些语义信息进行分类,从某种意义说就是能够提取出区分性很好的,并
且代表这篇文章的语义关键字。
再次文本内容复杂,Web 文本提及的内容不一定为专业性文章,虽然谈论的
主题不变,但所涉及的内容多变,比如一篇军事文章可能还会提及政治经济的内
容,这要求分类器具有很强的抗干扰能力,不会因为一些非重要的内容而严重影
响分类精度。
综上,可以明确一点就是硬性的分类标准很难做到以上三点的分类要求,所
以分类时不能简单的规定某种硬性的标准如:某个词是否出现、文章的字数、是
否有数学公式等等。文本分类最容易想到使用人工的方法,但面对海量的文本信
息人是无能为力的,但是可以通过某种机制来模仿人的分类过程,首先人是需要
经验的,没读过文章的人是无法分类文章的,所以分类器也需要学习需要训练,
统计学习的理论正好满足要求,另外人是需要一套很模糊的评价标准和推理依据
的,所以分类器也需要这样的逻辑过程和模糊机制,人工神经网络算法也正好满
足要求。
目前,常用的文本分类算法有决策树(decision tree)、人工神经网络、贝叶斯、