处理数据不平衡的教育反馈情感分析：基于GAN的文本生成解决方案

175 浏览量更新于2023-12-09 收藏 1.94MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

埃及信息学杂志23（2022）547使用基于GAN的模型Ali Shariq Imrana，Zhao，Ru Yanga，Zenun Kastratib，Sher Muhammad Daudpotac，SarangShaidada挪威科技大学（NTNU）计算机科学系（IDI），2815 GjBaglivik，挪威b林奈大学信息学系，35195 Växjö，瑞典c苏库尔IBA大学计算机科学系，苏库尔65200，巴基斯坦d挪威科技大学信息安全和通信技术系，2815 GjKovik，挪威阿提奇莱因福奥文章历史记录：收到2022年2022年5月14日修订2022年5月24日接受2022年6月3日在线发布保留字：文本生成情感分析SentiGANCatGAN深度学习语言建模机器学习GANs生成对抗网络数据不平衡A B S T R A C T数据集中的数据不平衡是一个常见的问题，其中一个或多个类别中的实例数量远远超过其他类别，教育领域也是如此。大规模收集关于课程的反馈以及在该领域中缺乏公开可用的数据集限制了模型的性能，特别是对于数据饥渴的基于深度神经网络的模型。在这样一个不平衡的数据集上训练的模型自然会倾向于大多数类。然而，少数类对于预测系统中的决策可能是至关重要的，因此通常希望训练具有同样高的类级别准确度的模型。本文利用合成文本生成深度学习模型解决了两个教育反馈数据集上用户意见情感分析任务的数据不平衡问题。两个国家的最先进的文本生成GAN模型，即CatGAN和SentiGAN，在这项研究中用于合成用于平衡高度不平衡的数据集的文本。特别强调的是综合生成的样本的多样性，为少数民族阶层的人口。在高度不平衡数据集上的实验结果表明，在与情感分类任务的合成数据进行平衡后，模型在CR23K和CR100K上的性能得到了显着改善©2022 The Bottoms.由Elsevier BV代表计算机和人工智能学院发布开罗大学法律系这是一篇CC BY-NC-ND许可证下的开放获取文章（http：//creative-commons.org/licenses/by-nc-nd/4.0/）上提供。1. 介绍由于COVID-19大流行，全球许多大学已从实体设置转向在线课程这种平稳的过渡虽然在全球各地并不普遍，但由于最近的技术发展和各种工具的适应，包括不同的学习管理系统，如开源Moodle，以及学生和教师的在线学习团队和缩放，才有可能实现随着大规模开放式在线课程（MOOC）的流行*通讯作者。电子邮件地址：ali. ntnu.no（A.S.Imran），ru. ntnu.no（R.Yang），zenun. lnu.se（ Z.Kastrati ）， sher@iba-suk.edu.pk （ S.M.Daudpota ）， sarang. shaikh@ntnu.no（S. Shaanxi）。开罗大学计算机和信息系负责同行审查。发展中国家和偏远地区的许多学生可以在舒适的家中注册和学习一流大学提供的课程。远程教育和混合教育的成功在很大程度上依赖于学生反馈评估是研究所内任何质量增强单元的基本要素。它允许教师和教学人员反思教学和其他课程方面，并为学生提供发言的机会。学生的反馈通常是非结构化的，允许他们表达自己的想法，以开放式的问题，涉及到教学，课程和内容的各个方面。研究所检查学生提供的反馈，以改变和改进用于提供讲座和教育资源的过程，教学，课程，工具和平台。例如，作者在[1]中指出，学生在较长的时间内手动监控和分析从学生那里获得的文本反馈和开放式响应是不切实际的。此外，对于一个大的学生代表，一个研究所，它成为一个繁琐和耗时的任务[2]。因此，处理学生https://doi.org/10.1016/j.eij.2022.05.0061110-8665/©2022 THE COURORS.由Elsevier BV代表开罗大学计算机和人工智能学院出版。这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表埃及信息学杂志杂志主页：www.sciencedirect.com阿里·沙里克·伊姆兰河杨，Z.Kastrati等人埃及信息学杂志23（2022）547548属于意见挖掘和文本分类类别，即，通过机器学习任务对学生的回答进行方面提取和情感分析。虽然这是一个在过去十年中被广泛研究的领域，并取得了显着的成果[3]，但每个类别类别中缺乏足够和相同数量的样本通常会限制模型的性能，特别是对于基于深度学习的技术，这些技术需要大量数据。与电影[4]、社交媒体平台分析[5，6]和电子商务[7]等其他领域不同，电子学习领域在利用情感分析技术方面仍处于起步阶段正如作者在[1]中所倡导的那样，这在很大程度上归因于教育领域的数据不平衡和公共数据集的稀缺性。不常见样本的影响通常比常见样本更重要，因为它们通常有助于提出建议和建议。使用不平衡数据集训练的模型通常具有来自大多数类的大量训练样本，由于训练样本不足，导致少数类的预测和分类性能较差。研究人员通过应用数据平衡技术来解决这个问题这个想法是产生类似的样本属于一个类的例子更少，使它与其余的类。因此，深度学习模型将有足够的训练样本来达到更高的分类准确率。传统上，合成少数过采样技术（SMOTE）和自适应合成（AdaSYN）被广泛用于产生新的样本。然而，这些不适合于生成语法上以及语义上有意义的文本数据。随着最近深度学习的出现和长短期记忆（LSTM）在处理序列数据方面的成功，文本生成技术越来越受欢迎。表1突出了一些最新的最先进的技术来生成合成文本。本研究利用SentiGAN和CatGAN解决教育领域情感极性评估任务中的数据不平衡问题。选择这些模型是因为它们针对不同极性类别生成多样化的高质量情感文本的特定任务性质本文的主要贡献如下：研究合成文本对高度不平衡数据集的教育领域情感极性评估任务的影响。在两个大型学生通过NLL和BLUE性能评估指标验证SentiGAN和CatGAN生成的文本的多样性和文本生成质量。在两种情感分类设置（包括原始和平衡数据集）上详细比较了十种传统和深度学习模型论文的其余部分组织如下。第二节介绍了文本生成和情感分析的相关文献工作第3节描述了方法以及有关数据集，预处理技术，文本生成模型架构和评估指标的信息。第4节讨论了选定的文本生成模型和原始数据集以及平衡数据集上的senti- ment分析实验的主要结果最后，第五部分给出了结论和未来的工作。2. 相关作品本节重点介绍了近年来关于教育领域情感分析和文本生成模型的一些关键研究。2.1. 文本生成近年来，包括RNN[18，19]，LSTM[20]和CNN[21，22]在内的深度神经网络已经显示出生成合成文本的卓越能力。Vu Le在[18]中提出使用文本主题和输入文本通过RNN生成文本。与没有文本生成的基线模型相比，他们在越南新闻数据集上实现了23%的准确性提高。Masum等人在[19]中使用双向RNN来生成孟加拉语的新闻标题。他们用孟加拉语报纸的文字训练网络，并生成合成的类似地，Li Zhang[20]进行了一项探索性研究，以比较LSTM及其不同变体的文本生成他们得出的结论是，LSTM的性能优于其在不同评估指标（包括BERT，BLEURT等）上的许多变体。Akhtar等人[23]使用GRU的优化版本生成孟加拉语句子。虽然RNN、LSTM和CNN在文献中被广泛用于文本生成，但由于长句子的依赖性，生成近年来，文本生成已经从这些传统方法转向基于注意力机制的更高级方法[24]，包括transformers[25，26]，BERT[27]和GPT[28]。建议读者参考关于文本生成技术的系统映射研究[29]以获取更多信息。2.2. 基于GAN的文本生成模型本节简要概述了文献中可用的文本生成模型，特别是那些依赖于GAN模型的模型。Yu等人在[8]中提出了SeqGAN模型，通过使用GAN生成文本序列。作者重点讨论了GAN的一个局限性几组实验组成的合成数据，以及与实际数据的评价进行。作者通过在三个现实世界的领域（包括中国诗歌，奥巴马政治演讲和音乐）生成合成数据来评估SeqGAN的性能Guo等人在[9]中提出了LeakGAN模型来生成长文本。一般来说，GAN生成的文本在生成后总是被评估为真实或虚假，但本研究的作者建议在文本生成过程中使用中间评估作者声称，所提出的方法是很好的生成长文本。两个评估指标，即NLL和BLEU分数被用来评估LeakGAN的性能。对于合成数据，该研究比较了使用NLL度量的LeakGAN与MLE，SeqGAN[8]和RankGAN[30]的性能。在所有三种型号中，LeakGAN表现出色。此外，作者还使用EMNLP 2017WMT1数据集比较了使用BLEU分数度量的性能与上述三个模型的同样，Leak-GAN模型优于所有其他模型。1http://statmt.org/wmt17/translation-task.html网站。阿里·沙里克·伊姆兰河杨，Z.Kastrati等人埃及信息学杂志23（2022）547549表110个基于GAN的文本生成模型。类型名称作者年参考文献一般SeqGANYu等人2017[八]《中国日报》LeakGANGuo等人2018[9]第一章马利甘Che等人2017[10个国家]JSDGANLi等人2019[第十一届]RelGANNie等人2018[12个]DPGANXu等人2018[13个国家]DGSANMontahaei等人2021[14个]CoTLu等人2019[第十五条]类别SentiGANWang等人2018[16个]CatGANLiu等人2020[17个]Che等人在他们的研究中提出了MaliGAN文本生成模型[10]。该模型旨在增强GAN在训练过程中反向传播的不稳定性作者使用BLEU分数和PPL评价指标对所提出的模型在诗歌生成任务上的性能进行了评估。用MLE和SeqGAN文本生成模型对MaliGAN进行了性能评估，结果表明MaliGan优于这两种模型。Li等人在[11]中提出了用于文本生成的JSDGAN模型。作者使用NLL和BLEU评分指标将所提出的模型与MLE，SeqGAN，RankGAN和LeakGAN模型进行了性能比较。研究报告的结果显示，对于合成数据，JSDGAN模型优于所有模型，总体NLL评分为5.50。此外，作者使用BLEU分数与上述文本生成模型在中文诗歌，COCO图像字幕和奥巴马政治演讲数据集上进行了评估。Sarang等人在[31]中使用文本序列生成算法解决了数据不平衡的问题他们使用基于LSTM的文本生成模型以及GPT-2来生成合成数据。在他们的工作中研究了来自不同领域的三个高度不平衡的数据集。在他们的案例中，类似的深度学习模型的结果提高了17%。作者从他们的实验中得出的另一个结论是，LSTM在句子级别生成合成文本方面表现良好，而在段落或文档级别，GPT-2的性能要好得多。本研究是[31]中工作的扩展。在这项研究中，我们没有使用通用的文本生成模型，而是利用预训练的类别GAN来生成教育领域中特定于情感的2.3. 教育环境随着教育资源的迅速涌现和过去十年来用于提供在线课程的大量数字化工具，以及最近的COVID-19爆发，许多研究人员提出了解决方案，以有效地将自动评估模型用于研究所内的质量增强单元。这些解决方案根据方法分为两类：基于词汇的情感分析和采用机器/深度学习技术的解决方案。例如，Sindhu等人[32]开发了一个两层LSTM模型，用于分析学生评论中的情感。作者实现了两个层次的分类。首先是确定教师、课程、内容等方面，其次是将属于这些方面的评论分为正面、负面和中性类别。他们报告说，在手动标记的学生评论中，情感分类的准确率为93%。Kastrati等人比较了基于21; 940的传统机器学习和深度学习算法在情感分析上的差异。学生他们进行了实施朴素贝叶斯，决策树，SVM和Boosting的实验。他们进一步开发了1D-CNN模型，用于提取方面并预测对它们的情感。根据作者的说法，1D-CNN达到了88.2%的F1分数，比其他分类器更好。然而，他们声称传统模型在方面提取方面表现更好。在另一项研究中，Anna等人[34]进行了一项基于调查的问卷调查，其中包含多个开放式问题。在204个反馈中，161个被归类为积极的，而42个被归类为消极的。作者使用K-最近邻和朴素贝叶斯来预测学生评论的情绪。作者将结果与递归神经张量网络（RNTN）[35]方法进行了比较，结果表明，尽管精度更高，但RNN的召回率和准确性较差。Katragadda等人。[36]使用了几种监督算法和DNN模型对30，000个反馈评论进行了积极，消极和中性分类。Naive Bayes在他们的数据集上显示了50%的准确率，SVM报告了60.8%，他们提出的DNN模型实现了88.2%的分类准确率。Lwin等人。[37]在他们的研究中使用了一个包含文本评论的数据集，这些评论具有评分以及开放式文本反馈问题。作者实现了一种K-means聚类算法，将反馈数据预先标记为五个评级分数，即，更差、坏、中性、好和优秀。最后一个问题被分类为积极和消极的情绪极性。他们应用传统的机器学习算法，包括对数回归，多层感知器，SVM和随机森林，来训练和分类情感。Sadriu等人使用Monkeylearn API和Textblob对学生对阿尔巴尼亚语的反馈进行了情感分类他们报告了72%的准确率第114章描述性反馈作者在[3]中生成了两个语料库：SentiTEXT和edu-SERE。前者包括积极和消极的极性状态，而后者则分为以学习为中心的情绪，如参与，兴奋，无聊和沮丧。该数据集来自多个来源，包括YouTube视频和其他教育平台。在他们的工作中，作者通过在单词和它们的极性之间建立联系来维护一本情感词典。该词典被用作词汇资源，以基于词频计数生成地面实况。然后，作者使用BERT和EvoMSA模型进行分类任务，在SentiTEXT和EduSERE上分别达到93%-94%和83%-84%尽管在这一领域进行了大量的研究，但没有基准数据集来报告和测试学生反馈的情感分类的最佳性能模型。此外，Kastrati等人[39]主张，大多数关于教育领域情感分类任务的研究中报告的高准确性是在他们自己的（私人）数据集上，有利于大多数类别。这些模型中的大多数在大规模应用于现实世界的高度不平衡数据集时都会他们还提出了一个阿里·沙里克·伊姆兰河杨，Z.Kastrati等人埃及信息学杂志23（2022）547550¼-Xc~ cH1不第五HY h~Ph1不用NLP和深度学习对学生反馈的情感分析进行系统映射研究他们表示，情感分析仍处于起步阶段，特别是在缺乏结构化、手动标记的公开可用数据集的情况下。在最近的研究中使用的大多数数据集都倾向于中性或积极的类别。此外，作者还指出，结构化数据集，标准解决方案，情感表达和检测需要进一步关注。3. 方法本节提供了研究性学习的总体方法特别是，它提供了有关数据集，预处理技术，用于实验的模型和算法以及评估指标的信息一个高层次的概念视图的方法是在图。1 .一、3.1. 数据集为了验证文本生成对情感分析的好处，我们使用了两个数据集，即CR23K[33]和CR100K。2两个数据集都来自教育领域，并且包含三个类别的手动标记的课程评论（例如，正面、负面中性）。两个数据集都高度不平衡，正面标签的评论数量最多。第一个数据集CR23K包含从在线学习平台Coursera收集的21，940条课程评论该数据集是英文的，并手动标记了三个情感标签。更具体地说，84.2%的评论被标记为正面，10.6%为负面，其中5.2%被标记为中性。第二个数据集CR100K包含来自Kaggle的107，016条评论该数据集包含每个评论的评分，范围从1到5，作为情感标签。转换策略用于将评级转换为情感标签。评级4和5被指定为积极情绪，评级3为中性情绪，评级小于3被标记为消极。转换后，90.9%的评论被标记为正面，4.7%为负面，其中4.4%被标记为中性。情感分布显示了两个数据集的高度不平衡性，主要倾向于积极的情感标签。从真实文本中预测合成文本在SentiGAN中，多个生成器用于以非监督方式生成每个类别的文本。这些发电机可以独立工作，彼此不依赖。与研究[40]类似，研究人员也使用序列生成过程作为序列决策过程。他们对每个发电机模型的参数应用随机初始化策略，然后使用Monte然后，使用分类器对生成的文本进行评价，这有助于生成器的学习该模型的主要优点是使用惩罚机制，迫使每个生成器生成情感特定的文本及其极性。SentiGAN的基本模型结构如图所示。 3.CatGAN由Liu等人在[17]中提出。该模型的架构如图4所示。该模型由两个主要部分组成。一个是类别感知模型。它为每个类别找到生成的文本与原始文本之间的错误，以减少错误。该生成器基于关系存储核，生成特定类别的文本.第二部分是分层进化算法。它用于训练模型，并对每个类别的原始样本进行分类。它还试图保持CatGAN的质量和生成文本的多样性。3.4. 评价指标本节提供了各种评估指标，用于评估生成文本相对于原始文本的质量。BLEU代表Bilingual Evaluation Understudy，是一种用于评估具有多个正确输出结果的模型的度量标准[41]。例如，比较生成文本与原文的重叠程度重叠度越高，生成的文本质量越高。在现实生活中，通常使用N1 4，其中N是指文本中的n-gram。然后，我们使用等式计算所有n-gram的加权平均得分。1.一、NBLEU¼BP×expWn×logPnn1其中BP在等式中定义。二、3.2. 预处理我们在feed之前对数据集应用了一些预处理步骤-BP¼1lc>lr表达式1-lr=lclc6lrð2Þ把它放到分类器里最初，我们从两个数据集中删除了所有非英语文本。接下来，我们删除了所有的停用词，将文本转换为小写，然后执行文本的词形还原。预处理的优点如图2所示，其中（a）和（b）部分显示了文本的长度分布BLEU的评分范围为0到1。如果生成的文本与参考文本完全相同，则得分为1NLLgen; NLLdiv这两个度量在等式中数学地定义。3和4分别在预处理之前和之后。不过，在预-处理长度缩短，但整个数据集NLLgen¼-EYP½logPc;.. . ;c]3现在在文本长度方面正态分布。此外，委员会认为，在应用上述预处理步骤后，CR100K数据集NLL1/4-E 1/ 2logP值; . . ;y]4降低到25%。然而，在预处理步骤之后，CR23K数据集保持不变3.3. 文本生成模型由于本研究的重点是研究文本生成对包含多个类别/标签的数据集上的情感分析的影响，因此我们采用了两种文本生成模型，即SentiGAN和CatGAN。SentiGAN由Wang等人在[16]中提出。该模型由多个基于LSTM的生成器和一个分类器组成。分类器其中，Ph表示所生成的文本的样本分布，并且其中t是所有输入标记的词汇表，Pc是样本分布真实生成的文本。3.5. 评价指标为了评估应用于情感分析的不同模型的性能，我们使用了基于信息检索的评估指标，如准确度，精确度，召回率和F1分数，定义在方程。（5）-（8）.2https://www.kaggle.com/septa97/100k-courseras-course-reviews-dataset。.阿里·沙里克·伊姆兰河杨，Z.Kastrati等人埃及信息学杂志23（2022）547551Fig. 1. 情感分类方法的高级概述。图二、CR23K和CR100K数据集预处理前后的长度分布阿里·沙里克·伊姆兰河杨，Z.Kastrati等人埃及信息学杂志23（2022）547552¼¼- 四分之一¼准确度NpreN个总精密TP公司简介TP图三. SentiGAN[16].ð5Þð6ÞBLEU评分计算。黑色虚线是预训练和对抗训练过程的分界线。在黑色虚线之前，它是训练初始生成器的预训练部分。黑点线之后的字段是对抗训练部分，其中预训练的生成器得到加强训练，旨在再次提高生成文本的质量和多样性。从图5中可以看出，CR23K和CR100K的SentiGAN的BLEU分数急剧增加到相当高的分数在对抗性训练过程中，对于积极和消极的类别，然后保持不变。对于中性色，曲线有点不同。分数起初急剧增加，但随后立即跳降到几乎为零，并保持不变。然而，对于阳性和阴性类别，CR23K和CR100K的CatGAN的BLEU评分缓慢但稳定地增加。SentiGAN中对抗训练后的急剧增加是由于对抗训练中的梯度消失问题，导致SentiGAN失去了生成不同文本的能力，每次只输出相同的文本。相反，Cat- GAN可以在高文本质量的情况下保持生成评论的多样性。这与CatGAN优于SentiGAN的实证结果一致。接下来，我们使用NLLdiv和NLLgen评估指标来评估-召回1/4TP和1/7FNF1得分2TP82TP-10000其中，Npre表示正确预测的样本，Ntotal表示测试数据集中的总样本，TP为真阳性，FP为假阳性，FN为假阴性。4. 结果和讨论4.1. 文本生成我们训练了两种不同类型的文本生成模型，两个不同的数据集。为了比较SentiGAN和CatGAN之间的性能，使用了两种不同的评估指标，如第3.4节所述。首先，我们将讨论分别针对CR23 K和CR 100 K数据集的SentiGAN和CatGAN的BLEU分数为n2; 3; 4;BLEU分数越高，生成的文本与原始文本越相似。图 5显示了一些重要的统计数据-评估两种模型Cat生成文本的文本多样性，CR23K和CR100K数据集的GAN和SentiGAN 图图6和图7描绘了彼此倒数的NLL div和NLL gen分数。NLLdiv值越小，生成的文本越多样化，NLLgen值越高，生成的文本越不多样化NLLdiv在预训练部分中减小到稳定值，并且之后保持总体稳定。当在对抗训练中时，NLLdiv在最初的几个时期保持稳定，但随后急剧下降到0并在以后保持0。NLLdiv变为0，意味着每次生成的文本都是相同的，没有任何差异。同样的下降趋势适用于所有三个情绪标签（即：正面、负面和中性）。NLLgen度量结果还表现出相同的趋势，但在相反的方向，因为高NLL基因，更多样化的生成文本。在预训练过程中，NLL基因表现出不同的结果，它首先急剧下降，然后保持不变。这意味着生成文本的多样性先增加，然后保持不稳定。这是因为这两个指标是专门为对抗训练部分生成的文本而设计的，可能无法准确显示预训练部分生成的文本。然而，我们的研究集中在对抗性的部分，所以轻微的见图4。使用分层进化学习的CatGAN[17]。阿里·沙里克·伊姆兰河杨，Z.Kastrati等人埃及信息学杂志23（2022）547553图五、BLEU-CR23 K和CR 100 K数据集的SentiGAN和CatGAN在每个情感极性上的得分为2;3; 4; 5分黑点线是分别在黑点线部分之前和之后的预训练和对抗训练过程之间的分界线预训练部分中的度量结果的差异是可接受的。NLL生成分数证明了NLL划分分数的假设，即在大多数对抗训练过程中，每次生成的文本都是相同的，没有任何差异。对于CatGAN分数，当训练涉及对抗部分时，NLLdiv会略有三种情感极性的局部最佳值，开始下降到0。Cat-GAN的NLLdiv的下降趋势与SentiGAN相比是温和且缓慢的，SentiGAN将再次经历快速梯度消失问题。这些分析再次表明，SentiGAN在数据集CR23K和CR100K上都存在梯度消失问题这导致SentiGAN失去了生成不同文本的能力，每次只能生成相同的句子基于上述结果和对两个数据集的分析，选择CatGAN来合成/生成评论，然后使用这些评论来平衡原始数据集。4.2. 平衡数据集基于生成文本的质量和多样性，我们训练了两个CatGAN模型来生成文本。一个模型被训练了90个epoch，以生成CR23K数据集的评论。第二个模型训练了50个epoch，以生成CR100K数据集的评论。每个情感标签的评论总数，在两个数据集平衡之前和之后，如图所示。八、4.3. 情感分类为了检查文本生成对情感分析的影响，我们选择了10个基线机器和深度学习模型。为为此，需要标准测试数据集如果我们只是将原始数据集分成两部分，并将其中一部分用作测试数据集，则模型的实际性能不会得到很好的例如，对于原始的不平衡数据集，数据集中90%的评论该模型可以获得90%或更高的准确率，但这不能用于现实生活中，因为它不能准确地预测负面和中性类别与此同时，具有合成数据的平衡数据集将仅是训练数据集的一部分，以分析这是否改善了模型的训练因此，需要从原始不平衡数据集中提取测试数据集我们从Coursera在线学习平台上提取了870条原始课程评论，并将其手动标记为三种情绪（即：积极，消极和中性）。测试数据集的发送分布如图9a所示。除此之外，为了尽可能准确地反映情感分类模型在测试数据集中真实课程评论上的性能，我们没有任何长评论。其长度-频率分布图见图1. 9b.表 2 显示了测试数据集的准确度和 F1 评分，涉及在 CR23K 和CR100K数据集的不平衡和平衡数据集上很明显，与仅在原始（不平衡）数据集上训练的模型相比，在平衡数据集上测试的模型具有更好的准确性和F1分数。第三列描述了在不平衡和平衡数据集上获得的结果之间的准确性和F1分数之间的差异，清楚地显示了情感分类任务的显着性能改进。此外，结果支持选择CatGAN而不是SentiGAN文本生成模型来平衡数据集。有趣的是，从表2所示的结果中注意到，更复杂和更深入的模型架构在阿里·沙里克·伊姆兰河杨，Z.Kastrati等人埃及信息学杂志23（2022）547554÷ ≈ ÷≈图第六章CR23K和CR100K数据集的每个情感极性上SentiGAN和CatGAN的NLLdiv“和NLLgen#评分高度不平衡的数据集例如，在BERT（Bi-LSTM和GRU）的情况这很可能是由于要训练的网络参数数量更大。因此，网络可能需要更多的数据馈送，以实现出色的性能。因此，当数据集很小或高度不平衡时，模型更有可能受到主要类别的影响。传统机器学习技术（SVM、NaiveBayes、Decision Tree、AdaBoosting）和RNN的结果也表明了同样的因此，即使在平衡后，CR23K数据集的性能也仅略有改善，因为阴性和阳性类样本的比例很小。此外，在具有BERT转换器的LSTM和GRU模型中本研究中使用的BERT模型它由自我输出层、注意层、中间层和输出层组成。在不平衡数据集的情况下，LSTM和GRU与BERT转换器更有可能专注于大多数类别（即，在我们的实验中的正类），但忽略具有较少数据的另一类平衡因此，具有相等数量的类的数据集提高了这些模型的准确性和F1分数。对于CR100K数据集可以观察到类似的结果模式。另一个值得注意的有趣事实是，虽然数据集中积极和消极或中性类别之间的差距增加，但情感分类模型的性能有所提高。CR23K和CR24191 260228：51的正和中性类别的实例比例分别为18746 23168：094和74191 2602 28： 51对于CR100K。包括传统机器学习算法在内的所有基线模型的准确度，CR23K数据集提高了2.04个百分点，CR100K数据集提高了4.82个百分点。在CR100K数据集上训练的模型的性能比在CR23k上训练的模型的平均性能提高两倍以上，对此的解释是CR23k数据集的大小包含更多的实例。在两个数据集上训练的模型的平均改进见表3。我们可以很容易地得出结论，与原始的不平衡数据集相比，CatGAN这表明合成文本样本可以增加价值阿里·沙里克·伊姆兰河杨，Z.Kastrati等人埃及信息学杂志23（2022）547555图第七章CR23K和CR100K数据集的每个情感极性上SentiGAN和CatGAN的NLLdiv“和NLLgen#评分见图8。平衡前后的CR23k和CR100k数据集阿里·沙里克·伊姆兰河杨，Z.Kastrati等人埃及信息学杂志23（2022）547556~~~~见图9。测试数据集的情感极性分布和长度频率直方图。表2不平衡数据集和数据集的不同算法和模型的总体结果与CatGAN模型为CR23k和CR100k数据集生成的评论相平衡数据集模型不平衡数据集平衡数据集差异-1.11-2.591.5515.16并在整体上提高模型的性能。主要分析概述如下：对于机器学习，具有两个数据集的平衡数据集的算法比具有不平衡数据集的算法具有略高的准确性，但不是很多。对于没有transformers的深度学习模型，具有GloVe和FastText嵌入的双向LSTM以及具有GloVe嵌入的CNN，它们的准确度对于CR23 K增加了0：34% 5：43%，对于CR 100 K增加了1：64% 5：95%将这三种模型放在一起比较的原因是它们具有相同的嵌入类型。对于具有Transformer BERT的深度学习模型，测试了双向LSTM和GRU模型。我们可以看到，在使用CatGAN模型生成的合成文本平衡不平衡数据集后，它们的准确率从1：64%增加到 5：95%，F1得分增加了18：33% 27：18%5. 结论今后的工作在网络课程中挖掘学生意见的重要性已经变得越来越在COVID-19大流行期间，在线和数字形式的教学。这样的反馈有助于教师和机构更好地了解学生的需求.然而，自动化学生反馈的情感分析模型往往是具有挑战性的，因为响应周转率低，缺乏可用的数据集。数据不平衡是教育环境中的另一个问题。高度不平衡的数据集将对模型在情感分类任务上的性能产生不利影响。本文探索了CatGAN和SentiGAN文本生成模型，以生成少数民族类的新样本。我们使用深度学习和机器学习模型进一步分析了合成文本生成对高度不平衡数据集的情感分类任务的影响。与SentiGAN模型相比，CatGAN模型能够生成更高质量的文本，而不会丢失文本多样性，并被选择用于生成文本以平衡CR23K和CR100K的高度不平衡数据集。我们在两个数据集的合成平衡和不平衡版本上训练了几个机器学习和深度学习模型。结果表明，与原始不平衡数据集相比，在合成平衡数据集上训练的模型的准确率和F1得分都有所提高。对于 CR23K 和 CR100K 数据集，准确率提高到 2.039% 和4.822%。此外，F1分数增加到准确度（%）F1评分（%）准确度（%）F1评分（%）精度F1得分CR23KSVM（RBF核）决策树朴素贝叶斯AdaBoostingRNNBi-LSTM（GloVe）32.0734.2532.4131.8333.9762.3131.3534.1227.1224.1317.2758.4933.2134.1432.5332.5334.1063.4527.6232.8326.1021.5417.1460.041.15-0.110.120.690.131.14-3.73-1.02-0.13CR100KBi-LSTM（FastText）CNN（GloVe）Bi-LSTM（BERT）SVM（RBF核）决策树61.8556.6433.9933.6530.0033.2156.6261.8016.6117.1121.0931.4162.1962.0739.4739.6732.6434.4858.1461.7231.7735.4429.4834.410.345.435.486.022.641.271.52-0.0818.338.393.00朴素贝叶斯31.1420.3434.6031.673.4611.33AdaBoosting34.8224.2735.8625.851.041.58RNN33.5216.5335.9621.872.445.34Bi-LSTM（GloVe）59.8953.7363.7162.313.828.58Bi-LSTM（FastText）61.8457.5063.4861.641.644.14CNN（GloVe）55.6358.3161.5862.105.953.79Bi-LSTM（BERT）33.3716.6144.5535.3611.1818.75GRU（BERT）33.4316.6446.2143.8212.7827.18阿里·沙里克·伊姆兰河杨，Z.Kastrati等人埃及信息学杂志23（2022）547557表3情感分类模型在平衡数据集CR100k差异准确率（%）深度学习3.09 6.64机器学习0.46 2.10平均数2.04 4.82F1分数（%）深度学习6.06 11.30机器学习-2.12 6.08总平均数CR23K和CR100K数据集分别为2.79%和9.208%。在未来，正在进行的工作可以通过利用不同类型的复杂文本生成模型（如GPT-3）和更复杂的情感分析模型来扩展，以便具有更好和更通用的模型。竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。引用[1] KastratiZ，Imran AS，Kurti A. 基于方面的情感分析的弱监督框架对学生的MOOC评论。IEEE Access2020;8：106799-810.[2] Edalati M，Imran AS，Kastrati Z，Daudpota SM.机器学习算法在MOOC学生反馈情感分类中的潜力。SAI智能系统会议论文集，Springer 2021：11-22。[3] Estrada MLB，Cabada RZ，Bustillos RO，Graff M.意见探勘与情绪辨识应用于学习环境。专家系统应用2020;150：113265。[4] Dos Santos C ， Gatti M. 深度卷积神经网络用于短文本的情感分析。在：COLING 2014会议录，第25届国际计算语言学会议：技术论文。p. 69比78[5] 张文辉，张文辉，张文辉.使用情感分析和深度学习对新冠肺炎相关推文进行跨文化极性和情感检测。IEEE Access2020;8：181074-90.[6] Kastrati Z，Ahmedi L，Kurti A，Kadriu F，Murtezaj D，Gashi F.深度学习情感分析器，用于低资源语言的社交媒体评论。电子2021;10（10）：1133。[7] Vanaja S，Belwal M.对电子商务数据进行季度情绪分析。2018年计算机应用发明研究国际会议（ICIRCA）。p. 1275- 9[8] 张伟，余亮，王军，余勇. Seqgan：具有策略梯度的序列生成对抗网络。在AAAI人工智能会议论文集，第31卷; 2017年。[9] 郭军，陆S，蔡宏，张伟，于勇，王军。通过泄露信息的对抗训练生成长文本。在AAAI人工智能会议论文集，第32卷; 2018年。[10] Che T，Li Y，Zhang R，Hjelm RD，Li W，Song Y，Bengio Y.最大似然增强离散生成对抗网络，arXiv预印本arXiv：1702.07983。[11] Li Z，Xia T，Lou X，Xu K，Wang S，Xiao J. Adversarial discrete sequencegeneration without explicit neural networks as discriminators.在第22届人工智能和统计国际会议上，PMLR; 2019。pp. 3089-3098..[12] 放大图片作者：Nie W，Narodytska N，Patel A. Relgan：用于文本生成的关系生成对抗网络。在学习表征国际会议; 2018..[13] 徐军，任X，林J，孙X. Dp-gan：用于生成信息丰富和多样化文本的多样性促进生成对抗网络，arXiv预印本arXiv：1802.01345。[14] 李文，等.离散生成自对抗网络.神经计算2021;448：364-79.[15] 陆松，于亮

下载后可阅读完整内容，剩余1页未读，立即下载