词向量空间模型提升中文文本分类效率

需积分: 10 80 浏览量更新于2024-08-11 收藏 291KB PDF 举报

"这篇论文是2007年发表在《合肥工业大学学报(自然科学版)》第30卷第10期上，由胡学钢、董学春和谢飞共同撰写的，主题聚焦于基于词向量空间模型的中文文本分类方法。" 在文本分类领域，传统的向量空间模型(VSM, Vector Space Model)是常见的方法，它将文本转化为高维向量，但高维度往往导致计算复杂性和效率问题。针对这一问题，作者提出了一种创新的词向量空间模型，旨在减少维数并提升分类器的效率。该模型的核心思想是将文本中的特征词转换为低维空间向量。这一转换过程可能涉及词嵌入技术，如后来流行的Word2Vec或GloVe等方法的早期形式，这些方法能够捕捉词汇之间的语义和语法关系。通过训练，可以构建一个词-类别支持度矩阵，这个矩阵反映了每个词对各个类别的支持程度。当有新的文本需要分类时，会计算该文本的词向量与类别支持度矩阵的相似度，以此来确定文本所属的类别。为了实现分类，文中可能采用了K-最近邻(K-NN)算法，这是一种基于实例的学习方法，通过查找最近的已知类别实例来预测新实例的类别。K-NN结合词向量空间模型，可以在计算相似度时考虑词的上下文信息，从而提高分类的准确性。实验结果表明，这种基于词向量空间模型的文本分类方法在保持高分类精度的同时，显著提升了分类效率。这为中文文本分类提供了一种有效的解决方案，尤其对于处理大规模文本数据集时，降低了计算复杂性，提高了处理速度。关键词涉及到文本分类、向量空间模型以及词向量空间模型，这些是论文的核心研究内容。中图分类号“TP182”表明该论文属于计算机科学技术领域，具体为信息处理技术。文献标识码“A”表示这是篇学术论文，文章编号则提供了具体的引用信息。这篇2007年的研究工作预示了后续在自然语言处理领域词向量技术的广泛应用，并为后续的深度学习模型如BERT和ELMo等奠定了基础，这些模型进一步深化了词向量在文本理解和分类中的作用。

第

卷第

期

2007

年

月

合肥工业大学学报(自然科学版)

]OURNAL

HEFEI

UNIVERSITY

TECHNOLOGY

No.

2007

基于词向量空间模型的中文文本分类方法

胡学钢

，

董学春

，

，谢飞

(1.合肥工业大学计算机与信息学院，安徽合肥

230009;

安徽省池州市

96161

部队

分队，安徽池州

247100)

摘

要:大多文本分类方法是基于向量空间模型的，基于这一模型的文本向量维数较高，导致分类器效率难以

提高。针对这一不足，该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表示成

空间向量，通过训练得到词-类别支持度矩阵，根据待分文本的词和词-类别支持度矩阵计算文本与类别的相

似度。实验证明，这一分类方法取得了较高的分类精度和分类效率。

关键词:文本分类;向量空间模型

;

K-

最近邻居;词向量空间模型

中图分类号

:TP182

文献标识码

文章编号:

1003-5060

(2007)

10-1261-04

Method of Chinese text categorization based on the word vector space model

gang

DONG

chun

•

XIE

Fei

(1. School of

mputer

and Information, Hefei University of Technology, Hefei 230009 , China;

No. 12

Team

, 96161

Unit

PLA

Chizhou 247100, China)

Abstract:Most

the

methods

text

categorization

are

based

the

vector space model,

but

the

high

dimension

document vectors based

the

model leads to difficulty

improving efficiency

the

classifier.

view of

the

defect, a

method

of Chinese

text

categorization based on

the

word

vector

space model is

presented

this

paper.

The

characteristic

words

of a

text

are

defined as space vectors,

and

the

word-class

supporting

matrix

can be

gotten

training, and

then

the

characteristic

words

and

the

word-class

supporting

matrix

are used for computing

text

similarity.

Experiment

shows

that

the

presented

method

has

higher

precision

and

efficiency.

Key

words:text

categorization; vector space model;

K-nearest

neighbor;

word

vector space model

文本分类是指把一组预先由专家分类过的文

本作为训练集，对训练集进行分析得出分类模式，

用导出的分类模式对其他文本加以分类

[IJ

。它主

要应用于信息检索、机器翻译、自动文摘及信息过

虑等。文本分类技术自从在美国国家技术标准局

和美国国防高级研究计划局组织的

TRECCText

Retrieval

Conference)

会议上被正式提出，至今已

有近

多年的历史，这期间涌现了许多分类方

法，如基于统计学的支持向量机

CSVM)

町、

K-

最

近邻居

CKNN)[

叫、朴素贝叶斯

CNB)

町、基于连

接方法的神经网络和基于规则的决策树

[5J

等。文

献

[6J

指出，

SVM

、

KNN

和

是最好的

种分

类方法，

SVM

分类精度最高，但速度最慢;

具

收稿日期

:20061043;

修改日期

:2007-04-30

基金项目:安徽省自然科学基金资助项目(

05042020

有最快的速度，但分类精度最低;

KNN

的性能比

较稳定，但时空效率有待提高。

现有的中文文本分类系统基本都是基于文献

[7J

在

世纪

年代提出的向量空间模型

VSM

CVector Space Mode

，基于这种模型的分类方

法计算简单有效，因此得到了广泛应用，但时空效

率难以提高。基于传统向量空间模型的分类方法

都是将文本表示为高维空间中一个点向量，这种

方法在文本表示时向量空间维数会达到上千维，

高维向量运算和大量文本表示的开销是当前诸多

文本分类器效率难以提高的原因所在。语言学告

诉人们，文本的数量是无限的，但是组成无限文本

的词语数量是有限的。如果将表示文本的特征词

作者简介:胡学钢(1

961

一)

，男，安徽当涂人，合肥工业大学教授，硕士生导师.

下载后可阅读完整内容，剩余3页未读，立即下载

weixin_38694699

粉丝: 4
资源: 950

词向量空间模型提升中文文本分类效率

基于向量空间模型的文本自动分类系统的研究与实现

基于ELMo词向量的textCNN中文文本分类python代码

一种基于同义词词典的模糊查询扩展方法 (2007年)

基于LSSWM模型的交并式动态扩展聚类算法 (2007年)

基于标签选择的情感语料库构建

模糊处理的中文文本关键词提取算法

DF与CHI结合的特征提取方法在网页分类中的应用

计算机文本检索基础：从莎士比亚到现代信息处理

ROS机器人开发实践科普

麻雀算法优化长短记忆神经网络预测SSA-CNN-LSTM-Multihead-Attention附matlab代码.rar

最新资源