多语种情感挖掘：朴素贝叶斯、决策树与KNN在不同语言文本分类中的比较

169 浏览量更新于2024-06-17 收藏 2.09MB PDF 举报

本文主要探讨了情感挖掘中基于朴素贝叶斯、决策树和KNN分类技术的多语种文本分类方法，针对沙特国王大学学报发表的一篇研究论文。该研究集中在跨语言情感分析，因为情感挖掘在自然语言处理中扮演着重要角色，特别是在社交媒体和在线评论中理解用户对特定主题的态度。作者们，Muhammad Bilal、Huma Israr、Muhammad Shahid和Amin Khan，来自巴基斯坦白沙瓦农业大学的IBMSCS/IT系，他们在工作中发现了一个挑战，即不同语言（如英语、阿拉伯语、乌尔都语和印地语）的情感表达需要有效处理。文章的重点在于构建了一个实验框架，使用了Waikato Environment for Knowledge Analysis (WEKA)这个流行的机器学习工具，对罗马-乌尔都语和英语的情感文本进行分类。他们从博客中收集了标注过的意见样本，包括150个正面和150个负面评论，作为训练数据。测试数据集被用来评估三种分类模型——朴素贝叶斯、决策树和KNN——的性能。实验结果显示，朴素贝叶斯算法在准确率、精确率、召回率和F-测度等多个指标上表现优于决策树和KNN算法。这表明朴素贝叶斯算法在处理多语种情感分析时具有较高的效率和准确性，对于理解和分析多元语言环境下的公众情绪具有实际应用价值。研究的重要性在于它填补了阿拉伯语和其他非英语语言情感分类研究的空白，为跨文化情感分析提供了实用的模型和方法。此外，随着数字化交流的普及，这项工作对于企业进行市场研究、舆情监控以及社交媒体策略制定具有重要意义。通过沙特国王大学的同行评审，这篇论文不仅展示了学术贡献，也反映了国际学术界对多语种文本挖掘的关注和研究进展。最后，该研究遵循了Creative Commons Attribution-NonCommercial-NoDerivatives (CC BY-NC-ND) 许可协议，确保了知识的开放获取和共享。

332

海里

Bilal

等人

目的分析这三种分类器的分类效率。研究中采用了包含

300

个意见的训练数据集，其中

100

个正面意见，

100

个负

面意见和

100

个中立意见（

Jebaseeli

和

Kirubakaran

，

2012

）。在预处理步骤中，通过使用

SVD

方法去除常见词

和罕见词。

SVD

用于评价单词的重要性。将得到的预处理

数据用作随机森林算法的输入。在该实验中，实现了

55-

60%

的准确度范围。

Khush- boo

等人在

2012

年使用了一种

基于计数的方法来进行英语语言的意见挖掘。使用否定词

和肯定词的总数，然后进行比较（

Khushboo

等人，

2012

年）。在这项研究中，朴素贝叶斯算法被使用，并观察

到，如果字典是好的，那么，它真的给了很好的结果。为

了提高该算法的精度，在传递给算法的参数方面进行了改

变。

Zhang

等人在

2008

年通过使用机器学习方法进行了中

国意见挖掘（

Zhang

等人，

2008

年）。使用三种分类器

SVM

、朴素贝叶斯多项式和决策树对标注语料进行训练，

学习特定的分类函数。为此，使用了

AmazonCN

评论数据

集。实验结果表明，该系统的性能是令人满意的，而使用

支持向量机与字符串核。

Abbasi

等人在

2008

年提出了情绪

分析方法，用于对阿拉伯语和英语网络论坛上发布的意见

进行分类（

Abbasi

等人，

2008

年）。在这项研究中，特定

的特征提取组件被集成到考虑阿拉伯语的语言特征。所提

出的系统是非常好的准确性（

93.62%

）。然而，该领域非

常具体，因为该系统只对与仇恨和极端主义团体论坛有关

的情绪进行分类，因为仇恨和极端主义词汇有限，并且不

难区分积极和消极词汇。此外，没有涉及对阿拉伯语非常

重要的预处理步骤。

Pang

等人在

2002

年根据总体情绪而不

是主题对文档进行分类，以确定是否评论是正面的或负

面的。电影评论被用作数据集。发现标准机器学习方法绝

对优于人类产生的基线（

Pang

等人，

2002

年）。然而，他

们的结果表明，朴素贝叶斯，最大熵分类和

SVM

在情感分

类上的表现不如传统的基于主题的分类。

Syed

等人在

2014

年开发了一个基于语法模型的框架。这种方法侧重于句子

的语法结构和词的在这种技术中，两种类型的语法

图

提出的模型。

结构提取和连接，形容词短语和名词短语。形容词短语被

称为感觉单位，名词性的是他们的目标。应用浅层解析和

依赖解析方法，发现其准确率为

82.5%

（

Syed et al.

，

2014

年）。

以上所有关于意见挖掘的工作都是用英语进行的。除英

语外，还用中文、阿拉伯语、马来语和日语进行了研究。

文献表明，在乌尔都语，特别是在罗马版本的工作已经做

了较少。

材料和方法

该模型分为五个步骤。首先，使用

Easy Web Extractor

软

件从博客中提取用罗马乌尔都语撰写的意见所提取的意

见被记录在文本文件中，以准备包含

150

个正面意见和

150

个负面意见的训练数据集，作为标记的示例。首

先，在简单

CLI

模式下，使用

WEKA

的

Tex Directory

loader

命令将数据集转换为

ARFF

（属性

关系文件格

式）。然后将

ARFF

中的数据集加载到

WEKA

资源管理

器模式，作为训练机器的训练数据集。首先使用

WEKA

滤波器对数据进行预处理，然后使用三种不同的算法，

即在数据集上应用朴素贝叶斯、

KNN

和决策树对机器进

行训练，建立了三个测试数据集提供给三个模型，并在

每种情况下的结果进行了分析。在方法学中遵循以下步

骤（图

）。① 的人。

3.1.

预处理

在预处理步骤中，数据在被转发进行分类之前被准备好，

以获得准确的结果。以下步骤用于预处理。

3.1.1.

提取

提取过程涉及在特定网站中爬行在这项研究中，

Easy Web

Extractor

被用来提取博客（

www.example.com

）上发布的

用户评论

http://hamariweb.com/blogs/blogdetails.aspx?

id=59& Page=1

）。该博客包含关于

“Facebook

使用的影响

”

的公众评论。用户自由地发表他们的意见，大多是在多语

言，例如，

“

你的手机不错的干草

”

，

“

你的凸轮

achi

条件我

干草

”

，

“

是移动

电池寿命

ziada

干草

”

等原因是英语的影

响，在乌尔都语社区（艾哈迈德，

2009

年）。同样，在这

项研究中，不同的评论被张贴在多种语言的主题。例如，

“facebookaik

信息网站

hay”

，

“

是网站

学生

apnasaratime

wastekartayhain”

，

“

是

setalebilmokeestudyparnegative

asarpartahy”

，

“

是网站

学生

apnasaratimewastekartay

hain”

，

“

是网站

学生

apnasaratimewastekartayhain”

等

。

要开始提取过程，首先在

Easy Web Extractor

软件中创建

一个项目，然后执行以下步骤：

第一步：

在输入框中输入源网站的网址，上传网页

步骤

：

按下一个按钮。它将打开提取模式窗口，在该

窗口中选择要提取的区域，并为其准备

HTML DOM

剩余14页未读，继续阅读

cpongm

粉丝: 5
资源: 2万+

多语种情感挖掘：朴素贝叶斯、决策树与KNN在不同语言文本分类中的比较

两步策略文本分类研究：Rocchio、朴素贝叶斯与KNN的实验对比

文本分类作业：朴素贝叶斯与决策树算法实践

机器学习分类算法概述：最小二乘法、决策树、KNN与朴素贝叶斯

数据挖掘：基于朴素贝叶斯定理的文本分类实践(Java)

普通最小二乘法，决策树，KNN，朴素贝叶斯分类

python文本处理作业 朴素贝叶斯决策树

基于朴素贝叶斯分类器的文本分类算法

基于朴素贝叶斯的中文文本情感倾向分类研究

一种基于情感词典和朴素贝叶斯的中文文本情感分类方法

基于朴素贝叶斯实现的文本分类

最新资源

python文本处理作业朴素贝叶斯决策树