使用机器学习技术进行马拉雅拉姆语推文情感分析

117 浏览量更新于2025-01-16 收藏 764KB PDF 举报

"这篇论文探讨了使用机器学习技术对马拉雅拉姆语推文进行情感分析的方法。来自科钦科技大学的作者使用朴素贝叶斯、支持向量机和随机森林等算法，结合词袋模型、TF-IDF、Unigram与Sentiwordnet等特征，对推文进行情感分类。结果显示，随机森林在处理包含否定词的Unigram与Sentiwordnet特征时表现出更高的准确性。该研究着重于社交媒体上的情感分析，特别是在马拉雅拉姆语这一特定语境中的应用，具有重要的实践意义。" 文章详细介绍了情感分析的重要性和当前背景，尤其是在社交媒体盛行的时代，人们通过各种平台如Twitter表达观点。情感分析技术可以帮助理解公众情绪，对电影、政治、市场营销等领域有着显著影响。Twitter作为一个主要的信息传播平台，其推文长度的扩展增加了情感分析的复杂性，特别是对于非英语的地区和语言，如马拉雅拉姆语。在技术实现部分，研究者采用了多种机器学习算法，包括朴素贝叶斯(Naive Bayes)、支持向量机(Support Vector Machines, SVM)和随机森林(Random Forest)。这些算法在文本分类任务中被广泛使用，各有优缺点。词袋(Bag of Words, BOW)和词频与逆文档频率(Term Frequency-Inverse Document Frequency, TF-IDF)是常见的文本特征表示方法，它们能够捕捉词汇的出现频率。Sentiwordnet则是一个情感词典，用于识别词义中的情感倾向。在推文中加入否定词的考虑可以更准确地捕捉到否定情绪，这对于情感分析至关重要。实验结果显示，随机森林在处理这些特征时表现出较高的准确性，这表明在马拉雅拉姆语情感分析任务中，该算法可能比其他方法更为有效。然而，尽管研究提出了有效的技术解决方案，但针对马拉雅拉姆语的自动情感分析工具仍然匮乏，这为未来的研究工作提供了方向。关键词：机器学习、马拉雅拉姆语、情感分析和情感网络，强调了研究的主要焦点。此研究不仅提供了技术实现的细节，还强调了跨文化和多语言情感分析的挑战，对于进一步提升非英语语言的情感分析技术有着深远的影响。

−



可在

www.sciencedirect.com

在线获取

ScienceDirect

ICTExpress 6（2020）300

www.elsevier.com/locate/icte

使用机器学习技术对马来西亚推文进行情感分析

Soumya S. Pramod K.V.

科钦科技大学计算机应用系，印度喀拉拉邦科钦

接收日期：2020年2月4日;接收日期：2020年4月1日;接受日期：2020年4月14日

2020年4月22日在线提供

摘要

本文使用机器学习技术对马拉雅拉姆语推文进行情感分析。使用不同的机器学习技术，如朴素贝叶斯（NB），支持向量机

（SVM）和随机森林（RF），将推文分类为积极和消极。不同的特征，如词袋（BOW），词频与逆文档频率（TF IDF），Unigram

与

Sentiwordnet

，

Unigram

与

Sentiwordnet

包括否定词被认为是输入数据集的特征向量形成。随机森林分类器显示出更高的准确性，同

时考虑

Unigram

与

Sentiwordnet

包括否定词作为特征。

2020

年韩国通信与信息科学研究所（

KICS

）。出版社：

Elsevier B.V.

这是一个开放的访问

CC BY-NC-ND

许可证下的文章（

http://creativecommons.org/licenses/by-nc-nd/4.0/

）。

关键词：

机器学习;马拉雅拉姆语;情感分析;情感网络

介绍

情感分析（SA）是一种计算研究，它从书面语言中分

析人们如今，由于社交媒体的兴起，人们人们通过不同的

社交媒体网站，如Facebook，Twitter，博客等，用母语表

达意见。SA在电影行业中扮演着至关重要的角色- 尝

试，政治领域和营销领域。推文是280个字符长的消息。

因此，对推文的SA最适合采用层次分析法。

Jack Dorsey在2006年创建了Twitter。在2017年之前，推

文的长度被限制在140个字符。现在它有280个字符长。马

拉雅拉姆语是喀拉拉人的母语，是他们通过推特表达意见

最常用的语言。马拉雅拉姆语twitter消息的SA是不可避免

的，因为这种语言中没有自动情绪分析器。

拟议的工作解释了马拉雅拉姆语推文的SA，这些推文

已经使用不同的机器学习算法（如NB，SVM）分类为正

面和负面，

∗

通讯作者。

电子邮件地址：

soumya@cemunnar.ac.in（Soumya S.）。

同行评审由韩国通信和信息科学研究所（KICS）负责

https://doi.org/10.1016/j.icte.2020.04.003

RF.马来语推特的SA中的一个重大挑战是情感标记的主体

不可用。因此，情感标记语料库已经手动创建。

这项工作的主要贡献包括：

三千一百八十四（3184）推文已使用Twitter API检

索，基于积极和消极的情绪导向的词在马拉雅拉姆语。使

用积极词汇检索的推文有时会显示负面情绪，反之亦然。

因此，所有检索到的推文都经过手动验证并分配其实际发

送。

九百五十四（954）积极的，1318消极的，33个否定

词，和145停止词已被确定从3184检索的推文，其中包含

38208个独特的词。

创建了包括否定词在内的特征向量，如带有

Sentiwordnet 的 Unigram 和带有 Sentiwordnet 的 Unigram 。

Sentiwordnet包含954个正面词和1318个负面词。第一个特

征向量，Unigram with Sentiwordnet，包括三个属性，例

如正面词的出现次数，负面词的出现次数和每条推文的情

感。上述三个属性以及否定词的出现次数构成了第二个特

征向量，Unigram与包含否定词的Sentiwordnet。

本文的其余部分组织如下：第二部分解释了本文

2405-9595

2020韩国通信和信息科学研究所（KICS）。出版社：Elsevier B.V.这是一个开放的访问

CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。

下载后可阅读完整内容，剩余5页未读，立即下载

cpongm

粉丝: 6

使用机器学习技术进行马拉雅拉姆语推文情感分析

一种基于Python的机器学习情感分析方法研究.pdf

sentiment:使用机器学习技术进行情感分析

基于机器学习的文本情感分类研究

使用机器学习技术进行马来语推文情感分析

微博中推文的多标签情感分类

马来西亚开发出车用氢气燃料技术 (2006年)

马来西亚

使用机器学习预测登革热并研究其似是而非的瘟疫-研究论文

吉利并购马来西亚汽车的财务效应分析.docx

吉利并购马来西亚汽车的财务效应分析开题.docx

最新资源