情绪强度、情绪和给定推文集的分类。他们使用了几个功能,如情感推
文包,Deepproneji,Doc2Vec和词汇功能。SEDAT对愤怒、恐惧、喜
悦和悲伤四种情绪的平均情感回归率为66.1%,情感分类率为56.9%,
情 感 回归 率 为 81.7% , 情 感 分 类 率 为 0.786 。 类 似 地 , Abdullah和
Shaanxi(2018)提出了一个LSTM网络和一个Dense网络来检测推文
中的情感。预训练的嵌入、(Word2VEC和Doc2VEC)嵌入和词典特
征被用作输入向量。使用Semeval 2018数据集对四种情绪进行分类:
愤怒、喜悦、恐惧和悲伤。 根据所提供的任务,所提出的方法取得了
以下结果:情绪强度59.7%,情绪强度
- 顺序分类51.1%,效价回归77.3%,效价顺序分类74.8%,情感分类
44.6。此外,Al-Khatib和El-Beltagy(2019)提出了一种RNN,使用
Doc 2 vec和AraVec预训练模型进行微调单词嵌入。为了评估所提出的
方法,使用了三个阿拉伯语和两个英语数据集,即阿拉伯语Twitter
Emo- tions数据集,SemEval 2017 task 4 subtask A和SemEval 2018
task 1 emotion classification task。他们对三个数据集的分类结果分别
为0.74%、0.60%和0.623%。此外,Samy等人(2018)提出了一种上
下文感知门控递归单元(C-GRU),旨在通过使用额外的层从输入推文
中提取上下文信息。以确定每条推文所表达的情绪。SemEval-2017
task 4和SemEval-2018 task 1用于评价所提出的方法。该模型的结果
达到了0.53%的准确率,和0.64%的F1-宏观平均。
另一方面,包围盒方法也被用于将输入文本分类到其目标情感。
Badaro等人(2018)提出了一种集成技术,由岭分类器,支持向量分
类器和 随机森林组成 。使用 的功 能是n-grams, 词汇,单 词嵌入,
FastText,以检测推文中的情绪强度和情绪。目标情绪是愤怒、喜悦、
恐惧和悲伤。该模型对被试的情绪强度、情绪强度-有序分类、效价回
归、效价有序分类和最终情绪分类的预测结果分别为64.3%、26.7%、
80.4%、64.3%和48.9%。 此外,Abdouet al.(2018)提出了一种集成
模型,包括双向LSTM(单词和字符级)、梯度提升树和CNN模型,这
些模型取决于预训练的嵌入、各种向量表示和3种类型的阿拉伯语词
典。semeval 2018数据集的目标是对四种情绪进行分类:愤怒,喜悦,
恐惧和悲伤。 所提出的模型实现了这些结果:情绪强度68.5%,情绪强
度-顺序分类58.7%,效价回归81.6%,效价顺序分类75.2%。此外,
Jabreel和Moreno(2018)提出了一种集成技术,该技术由传统网络的
N通道Xgboost回归器组成。特征包括预训练的嵌入,使用Stanford
tagger的POS标记,手动创建阿拉伯语词典以及翻译词典。Semeval
2018数据集的目标是对四种情绪进行分类:愤怒,喜悦,恐惧和悲伤。
根据所提供的任务,所提出的方法实现了这些结果,情绪强度66.7%,
情绪强度
传统的机器学习方法也被用于
阿拉伯语文本的情感分类任务。Al-Khatib和El-Beltagy(2017)提出
了一种使用WEKA工具的朴素贝叶斯方法。n-gram和特征向量模型在
他们自己的数据集上进行了评估,这些数据集是从Twitter收集的。根
据Ekman的基本情感模型,该方法实现了68.1%的准确率。 类似地,
Abdullah等人(2018 a)使用支持向量
机器(SVM)和朴素贝叶斯(NB)对阿拉伯语推文中的情绪进行分
类。目标情绪是喜悦、厌恶、愤怒和悲伤。SVM和NB的准确率分别为
80.6%和0.95%ROC同样,George等人(2018)通过对英语,西班牙语
和阿拉伯语执行两种方法引入了全局向量表示,即:每行的SUM求和,
SVD奇异值分解。使用了两个分类器;随机森林和SVM,包括三个内核
(线性,多项式和RBF)。使用SemEval-2018 task 1数据集。使用该
模型实现了以下结果:子任务1(EI-reg)愤怒0.213%,恐惧0.230%,
喜悦0.207%,悲伤0.267%,宏观平均值0.230%。Pearson相关性被用
作这些子任务的测量。此外,Mulki等人(2018)提出了对semeval
subtask 5情感分类(Tw-StAR)的贡献,以确定阿拉伯语,英语和西
班牙语推文的情感。采用二进制相关性变换策略,采用TF- IDF进行特
征提取,并用支持向量机进行训练。考虑了11种情绪,以便使用为子任
务5提供的SemEval数据集解决多标签分类。所提出的阿拉伯语模型的
结果达到了46.5%的准确率,59.7%的F1-Micro Avg,和44.6%的F1-
Micro Avg。
词汇方法也被用于阿拉伯语文本的情感分析任务。例如,Ahmad et
al.(2019),介绍了一种优于DNN的DNN替代方法。该模型使用概率
为情感词构建加权词典,并计算情感类的最佳阈值,以解决SemEval-
2018 Task 1的情感分类问题。使用SemEval-2018 Task 1数据集
来
评
价
所提出
的方法
。
此外,
P
r
ibá
n
et
al. (
2018)提出了英语,西班牙语
和阿拉伯语的两个独立系统。第一个是用于回归子任务(EI-reg)的情
感推文系统,这是一个依赖于单词嵌入的WEKA包。第二个是LDA,单
词n-gram,字符n-gram和词典特征系统。最大熵分类器从二进制机器
学习被用于顺序分类子任务(EI-OC)。使用的特征包括词性标注、句
法分析树和形态特征。此外,使用了两种类型的 嵌入,全局向量和
Aravec的 word2vec 。 使 用SemEval-2018 task 1 数 据 集 。 所 提 出 的
Arabic模型的结果实现了以下:子任务1(EI-reg)愤怒0.487%,恐惧
0.559%,喜悦0.619%,悲伤0.631%,宏观平均值0.574%。而在子任务
2(EI-OC)中,获得了以下结果:愤怒0.327%,恐惧0.345%,喜悦
0.437%,悲伤0.467%,宏观平均值0.394%。Pearson相关性被用作子
任务的测量。
Sailunaz等人(2018)、Al-Saaqa等人(2018)和Jain和
Sandhu
(
2009
)提供了对英语和阿拉伯语的情感分析的感兴趣的读
者还可以参考以下参考文献(
Al-Ayyoub et al.
,
2019
)(
Badaro
等人,
2019
年),他们提供了对阿拉伯语文本的情感分析的全面评
论。
3.
方法
本节介绍了情绪强度任务、数据集准备和预处理、预训练模型以及
用于模型训练的功能。
3.1.
任务描述
SemEval-Task 1有五个子任务,系统必须自动确定一个人的情感状
态。这些子任务如下:1)情绪强度回归(EI-reg),2)情绪强度顺序
分类(EI- oc),3)