大数据驱动的中文文本分类算法优化与新闻系统应用

版权申诉

5星 · 超过95%的资源 | PDF格式 | 7.18MB | 更新于2024-07-04 | 14 浏览量 | 举报

5 收藏

随着大数据时代的蓬勃发展，文本信息的处理需求日益增长。文本分类作为关键的数据挖掘技术，能够帮助我们从海量文本中筛选出有价值的信息，提高信息获取的效率。在这个背景下，"基于机器学习的中文文本分类算法的研究与实现"这篇论文深入探讨了这一领域的技术革新。该研究主要关注新闻文本分类，因为新闻是文本信息的重要载体，对于人们获取信息起着至关重要的作用。作者针对当前文本分类算法，如传统的贝叶斯分类、KNN、SVM、决策树、FastText和CNN等进行了细致的调研，分析了它们各自的优缺点。首先，作者对朴素贝叶斯算法进行了改进，提出了一种结合特征词分布情况的k-贝叶斯分类，通过赋予意义突出的特征词更高的权重，提高了文本分类的效率。接着，文章聚焦于卷积神经网络（CNN）分类算法，引入了注意力机制，创建了基于注意力层的CNN模型。这种改进允许模型更好地识别并强调文本中的关键信息，从而提升分类的准确性。这种关注重点的调整，使得模型能更符合人类对文本理解的模式，即对某些词语给予更多的关注。作者还以新闻文本分类系统为例，详细阐述了文本分类系统的架构设计和实际应用。这个系统不仅提供直观的分类结果，而且所有算法优化都围绕特征词的精炼进行。实验结果显示，经过改进的分类算法确实提升了分类的准确率，证明了其在实际应用中的有效性。这篇论文涵盖了文本分类技术的多个层面，包括理论背景、算法比较与改进、以及具体应用场景，为机器学习在中文文本分类中的实际应用提供了有价值的参考。关键词如“文本分类”、“特征词提取”、“贝叶斯”、“卷积神经网络”和“新闻分类系统”突出了研究的核心内容，展示了作者在该领域深入研究和实践的成果。



第

二

章

文

本分

类

相关

技

术

简

介



布尔

文

本

表

示

模

型

是

一

种

简

洁

的

表

示

模

型

，

从

名称

可

以

看

出

它

是

一

个

二

值模

型

，

Ｂ

卩

：

特

征

词

出

现

在文

档

中

，

则

定

义

值

为

１

，

否

则

定义值

为

０

，

因

此这

些

特

征

词

权

重

的

值

都

具

有

二

元

性

，

如

式

（

２

－

１

）

所

示

：

、

（

０



ｔ

ｅ

ｄ

ｉ

０

（

ｔ

＜

ｄ

ｉ

） 

＝

 ｜

ｌ



ｔ

ｉ

ｄ

，



（

２

－

Ｄ

本

模

型

结构简

洁

、

易

于

实

现

、

容

易

理

解

，

同

时

也

存

在

一

些

缺

点

，

它

忽

略

了

特

征

词

的

频

度

和

上

下

文

联系问

题

，

仅

依

据

存

在与

否

来表

示

文

档

，

因

此

会

对

分类效

果

产

生

一

定

的

影

响

。

２

、

向

量空

间

文

本

表

示

模

型

向

量空

间文

本

表

示

模

型

［

３

９

１

是

由

Ｓ

ａ

ｌ

ｔ

ｏ

ｎ

等

人

提

出

的

，

是

被

广

泛

应

用

的

、

效

果

不

错

的

表

示

模

型

，

在

这

个模

型

中

，

文

档

可

表

示

为

特

征

空

间

的

高维特

征

向

量

。

一

篇

文

档

Ｄ

，

若使

用

向

量空

间

模

型来

表

示

，

可

使

用

如

下

方

法

表

示

为

一

个

ｎ

维

的向

量

：

Ｄ

＝

｛

Ｔ

ｌ

５



Ｗ

１

；

Ｔ

２

，



Ｗ

２

；

．

；

Ｔ

ｎ

，

Ｗ

ｎ

｝

，

其

中

Ｔ

ｉ

代

表第

ｉ

个

特征

词

，

Ｗ

ｉ

代表

Ｔ

ｉ

的权

重

大

小

，

取

值

０

到

１

之

间

。

不

考

虑

特征

词

出

现

的

先

后

顺

序

，

也

可

将

该

向

量

简

化

为

Ｄ

＝

｛

Ｗ

Ｕ

Ｗ

２

，

．

，

Ｗ

ｎ

｝

。

该模

型

提

供

了

一

种

表

示

框

架

，

具

体的权

重

计

算

方

法

也

有很

多

种

，

可

以

适

应

多

种

分

类

算

法

的

计

算

，

已

经

被

成

功

应

用

于

很多

文

本

分

类

系

统

中

。

４

、

Ｗ

ｏ

ｒ

ｄ

２

ｖｅｃ

文

本

表

示

模

型

Ｗ

〇ｒ

ｄ

２

ｖｅＣ

［

４

Ｇ

］

是

谷

歌

研

发的

用

于

提

取

词

向量

的

工

具

，

目

前

已

经

在

深

度神

经

网

络

文

本

分

类

中发挥

了

不

小的

作

用

，

有

着

浅

层

表

示

方

法

不

可

比

拟

的

优

势

。

＼

Ｖ

ｏ

ｒ

ｄ

２

ｖ

ｅ

ｃ

可

以

利

用

给

定

的

文

档

进

行训

练

，

将

文

档

中

的

特

征

词

表

示

为

固定

长

度

的向

量

，

可

以

克

服

维

度

灾难问

题

，

所有

的

词

向量

合

在

一

起

又

构

成

了

文

档

的

词

向

量

空

间

。

利

用

该

模

型

，

就

可

以

很

好

地

分

析

词

与

词

之

间

的

关

系

，

有

很

好

的

语

义

特

性

，

下

文

中

基

于

卷

积

神

经

网

络

分类

模

型

就

是

采

用

这

个手

段

进

行文

本

表

示

的

。

５

、

模

型

比

较

布

尔模

型

是

最

简

单

的

文

本

表

示

方

法

，

功

能

有

限

。

而

向

量

空间

模

型和

Ｗ

ｏ

ｒ

ｄ

２

ｖｅｃ

模

型

从

发

展

以

来

可

以更

为

合

理

地

表

达

文

本

信

息

，

应

用

范

围较

广

泛

，

实

现

灵

活

，

比

较

受

学者

们

的欢

迎

。

三

种模

型

的

比

较

见

表

２

－

１

，

通

过

比

较

本文

采

用

了

词

向

量

文

本

表

示

模

型

。

表

２

－

１

三

种文

本

表

示

模

型

比

较

表

文本表

示

模

型

｜

布尔模

型

｜

向

量

空

间模

型

｜ 

Ｗ

ｏｒ

ｄ

ｈ

ｅｃ

模

型

提

出时间



２

０

世纪

５

〇

＾

代

２

０

世

纪

■

？

）

年

代



２

０１３

年

理

论

基础



集

合

理

论



代数

理

论



统

计模

型

相

关

文本处

二

元

无

序

￣

非

二

元

有

序

＂

非

二

元无

序

＾

实

现

难

度

＋

简单



简

单



较

难

文

本表

示

ｉ



词

￣



词

向

量



词

向

量

￣

￣

应

用

范

围



Ｓ

Ｔ



较广

９



北

京

邮电

大

学

Ｃ

孕

硕

Ｉ

：

学

位

论文



２

．

１

．

３

特

征

处

理

特

征是用

来

表

示

文

本

内容

的

，

特

征

处

现

的

一

般

流

程

如

图

２

－

］

所

示

：

在

取

得

经

过

文

本

预

处

理

过

程

的

文

档

训

练

集

后

，

利

用

？

个特

征

选

择

汁

算

阐

数

对

原

始

特

征

集

进

行

评

价

；

之

后

选

择

降序

排

列

中分数

较

岛

的

项

作为特征

词

，

对

这

些

特

征

词

进

行

权

计

算

，

得

到

它

们各

自

的

贡

献

率

；

计

算

结

朿

就

可

以

得

到

敁

终

的

特

征

集

合

１

４

｜

】

了

。

下

文

将

分

别

介

绍

几

种特

征

选

取

方

法

和

特征权

朮

讣

算

方

法

。

（



开

始



）

ｖ



，



ｙ

Ｃ

Ｚ

１

，

文

档

数

据

／

计算

选

择特征

词

Ｉ

计

算

确

定

持

征

词

权

簠

￣

７

１



／

特

征

集

合

＾



Ｉ

＾

（

结

束

）

图

２

－

１

特

征

处

理

流

程

图

１

、

特

征

选

取

特

征

选

取

是

一

个

降维的

过

程

，

在

使

用

特

征

向

量

表

征

文

档的时候

，

维度

可

能

达

到

几

千

甚

至

几

万

维

，

在

这

种情

况

下

，

就

需

要

使

用

特

征

降

维方

法

对

特

征

项

进

行

过

滤

筛

选

，

将

维

数

降

至

一

定

范

围

之

内

。

若

计

算数

值

超

过

一

定阈值

，

则代

表该

词

对

于

表

征

文

档

具

有

较

大

贡

献

率

；

相

反

，

若

计

算

结

果

不

大

于

阈

值

，

则

其

度

文

档表

征

贡

献

率

较

小

，

需要

被

舍

弃

掉

，

不

能

被

选

取

加

入

到

特

征集

合

中

。

当

下

，

特征

选

取

的

计

算方

法

有

频

率

统

计

、

信

息

增

益

、

互

信

息

、

Ｃ

ＨＩ

计

算

以

及

期

望

交

叉

熵

等

方

法

。

（

１

）

频

率统

计

频

率

统

计是

最

简

单的

特

征降维

计

算

方

法

，

简单易

用

，

包

括

词

频

计

算

和文

档

频

率

计

算

。

词

频

指

的

是

特

征

项

在

训

练

集

合

中

出

现

的

频

数

，

特

征

项

出

现

的

频

率

越

高

，

则

代

表

该

特

征词对

于

文本分

类

的作

用

越

大

１

４２

］

。

文

本

分

类

的

准

确率除

了

受

词

频

影

响

，

也

受

特

征项

分

布情

况

的

影

响

，

如

果

高

频

特

征

项

在

所

有

类

别

中

分布

较

为均匀

，

那

么

它

们对

于

分类

的

贡

献率

将

会

变

小

。

所

以

，

单单

依

靠

词

频

计

算来

进

行特

征

降维

是

远

不

够

的

。

文

档

频

率

是

指

训

练集

中

含有

某特

征项

的

文

档数占

所

有

文

档

数

的

比

率

，

这

个

方法

假

设

出

现

次

数

极

少

的

特

征项

对

于

分类

的意

义

不

大

，

可

以

舍弃

。

文

档

频

率

计

算

相

对

于

词

频

计

算来

说

更

倾向

于

从

宏

观

角

度

考虑

，

在

实

际

生

活

中

也

有

一

些

１

０



第

二

章

文

本分类

相关

技

术

简

介



应

用

［

４３

］

，

可

若

这

些

低

频

词

正

是

某

个

类别

的

关

键

词

，

这

就

会

对

分

类的

准

确

率

有

－

定

影

响

。

（

２

）

信

息

増

益

信

息

增

益

（

Ｉ

ｎ

ｆ

ｏｒ

ｍ

ａ

ｔ

ｉ

ｏｎ

 ｇ

ａ

ｉ

ｎ

）

［

４４

］

的

计

算

方

法

应

用

领

域

较为广

泛

，

在

文

本

分类

中

使

用

信

息

增

益

来

计

算

，

主

要

目

的

就

是

分析特征

项

可

以为分

类

带

来

多少

信

息

，

自

身

所

含

有

的

信

息

越

多

，

那

么

该

特

征

项

对

于

分

类

来

说就

越

重

要

。

ｎ



ｎ



ｎ

／

Ｇ

（

ｘ

） 

＝



－

＾

Ｐ

（

ｃ

；

） 

Ｚ

〇

５

Ｐ

（

ｃ

；

） 

＋



Ｐ

〇

）

 Ｉ

Ｐ

（

ｃ

；

｜

ｘ

） 

Ｚ

０

５

尸

（

ｑ

ｌ

Ａ

：

） 

＋



（

２

＿

２

）

ｉ

＝

ｌ



ｉ

＝

ｌ



ｉ

＝

ｌ

在式

（

２

－

２

）

中

，

Ｐ

（

ｑ

）

代

表

Ｃ

ｉ

类

别

的

文

本在

训

练

集

中

出

现

的

概

率

，

尸

（

ｘ

）

则代

表

训

练集

中含

有

特

征

项

ｘ

的

文

档

的

概率

，

Ｐ

（

ｑ

｜

ｘ

）

代

表

文

档

在

含

有

特

征项

ｘ

时属

于

类

别

ｑ

的

概率

，

Ｐ

（

ｆ

）

代表

训

练

集中未含有

特

征项

ｘ

的

文

档

的

概

率

，

Ｐ

（

Ｃ

ｉ

｜

ｆ

）

代

表

文

档

在

不

含有特

征

项

ｘ

时

属

于

类

别

ｑ

的

概

率

，

ｎ

则

代

表

类

别

数

目

。

针

对

一

个

特

征

项

ｘ

，

计

算

信

息

增

益

后

，

值

越

大

，

说

明

该

特

征

项

可

以

带

来

更

多

的

信

息

量

，

对

于

分

类

也

更

有

意

义

。

（

３

）

互

信

息

互

信

息

［

４

５

］

是

信

息

论中非

常有

用

的

信

息

度

量

方

式

，

它

被

看

作是

一

个变量中

含

有关

于

另

一

个

变

量

的信

息

量

。

若

Ｍ

代

表

含

有特征

项

ｘ

同

时

属

于

类

别

Ｃ

ｉ

的

文

档数

量

，

ｉ

Ｖ

代

表含

有

特征

项

ｘ

但

不

属

于

类

别

ｑ

的

文

档

数

量

，

Ｃ

代表

不

含

有

特

征

项

ｘ

但属

于

类

别

ｑ

的文

档

数

量

，

Ｄ

代表

训

练

集

文

档

数

量

总

和

，

则

ｘ

与

ｑ

的

互

信

息

量

可

以用

式

（

２

－

３

）

来计算

：

ｆ



Ｍ



ｘ

Ｄ

ｍ

ｘ

－

Ｃ

ｉ

） 

＝

 ｌ

〇

９

Ｗ

Ｔ

ｃ

Ｗ

Ｔ

）



（

２

－

３

）

若

ｘ

与

￡

＾

没

有

关联

，

那

么

Ｍ

Ｉ

（

ｘ

，

ｑ

）

的值

是

〇

。

若

应

用

于

多

分

类

的

场景

，

需要

分

别计

算

ｘ

对

各

个

类

别

的

互

信

息

量

再

利

用

式

（

２

－

４

）

计

算

特

征

项

对

于

整

体

的

互

信

息

量

。

互

信

息

值越

大

，

就代

表

了

特

征

项

；ｃ

含有

的

信

息

越

多

，

对

于

分类

的

意

义

也

越

大

。

Ｍ

Ｉ

（

ｘ

） 

＝



ｍ

ａ

ｘ

ｆ

＝

１

Ｍ

Ｉ

（

ｘ

，

Ｃ

ｉ

）



（

２

－

４

）

（

４

）



Ｃ

Ｈ

Ｉ

计

算

ＣＨ

Ｉ

计

算

％

是

衡

量

特征

项

ｘ

与

类

别

ｑ

的

关

联

程

度

的

一

种

方

式

，

也

假设

二

者

之

间是

符

合

；

ｆ

２

分

布的

。

如

果

特

征

项

＾

与

类

别

ｑ

的

Ｘ

２

计

算

值

越

大

，

则

代

表

二

者

之

间

的

联

系

越

紧密

，

对

于

分

类

越

有

意

义

。

让

Ａ

／

代

表

训

练

集

中

的

文

本

总

数

，

ｑ

代

表

某

个

类

别

，

ｘ

代

表

一

个特

征

项

，

Ａ

代

表

属

于

类

别

ｑ

也

含

有

ｘ

的

文

档

数

目

，

５

代

表

不

属

于

＾

类

别

却含有

ｘ

的文

档

数

目

，

Ｃ

代

表属

于

类

别

ｑ

却

不

含

有

ｘ

的

文

档

数

目

，

￡

？

代

表

既

不

属

于

类

别

ｑ

也

不

含有

ｘ

的

文

档

数

目

，

那

么

ｘ

与

ｑ

之

间

的

ｊ

２

值

可

以

用

式

（

２

－

５

）

来

计

算

。

１１

剩余66页未读，继续阅读

「已注销」

粉丝: 851

大数据驱动的中文文本分类算法优化与新闻系统应用

毕业设计基于CNN的新浪新闻文本分类python源码+数据集+详细注释+模型.zip

SVM实现文本分类代码

基于机器学习的文本分类研究与实现

基于机器学习的文本分类算法研究与应用.pptx

基于机器学习的文本分类算法研究

基于机器学习的灾难分类算法研究.pdf

基于机器学习的文本分类技术研究进展

基于机器学习的文本分类技术研究.pdf

基于机器学习的文本情感分类研究

基于机器学习的文本分类技术研究进展9pdf)

最新资源