阿拉伯语推文的文本分类研究与方法：基于词嵌入及tf-idf的分类器比较分析

116 浏览量更新于2024-01-27 收藏 1.16MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

0沙特国王大学学报阿拉伯语社交媒体推文Samah M.阿基尔·阿尔扎宁Azmi，Hatim A.沙勒萨姆沙特国王大学计算机信息学院计算机科学系，沙特阿拉伯利雅得阿提奇莱因福奥文章历史记录：收到2021年2022年2月26日修订2022年3月21日接受2022年3月23日在线提供保留字：阿拉伯语推特短文本分类异构数据随机森林SVM高斯朴素贝叶斯A B S T R A C T随着每天在Twitter上发布的推文数量的快速增长，推文的自动分类对于广泛多样的应用（例如，信息检索、主题标记、情感分析、谣言检测）以更好地理解这些推文是什么以及用户在该社交平台中表达了什么。文本分类是根据文本的内容将一个或多个预定义的类别分配给文本的过程。推文很短，短文本没有足够的上下文信息，这是其分类的挑战之一。增加挑战是增加歧义，因为变音标记没有明确规定在大多数现代标准阿拉伯语（MSA）文本。更不用说阿拉伯语推文已知包含MSA和方言阿拉伯语的融合文本。在本文中，我们提出了一个方案，阿拉伯语文本推文分类的基础上，其语言特征和内容分为五个不同的类别。我们探讨了两种不同的文本表示：使用Word 2 vec的词嵌入和词频-逆文档频率（tf-idf）的词干文本。我们测试了三种不同的分类器：支持向量机（SVM），高斯朴素贝叶斯（GNB）和随机森林（RF）。所有的分类器都调整了超参数。我们为实验收集并手动注释了大约35，600条阿拉伯语推文的数据集统计上，RF和具有径向基函数（RBF）核的SVM在与词干提取和tf-idf一起使用时表现同样好，实现了范围在98.09%和98.14%之间的宏F1带有单词嵌入的GNB表现令人失望。我们的结果超过了使用深度学习方法RNN-GRU（递归神经网络门控递归单元）的当前最先进的92.95%的分数。版权所有©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍Twitter是一个流行的社交网络平台，拥有大量的非结构化异构数据tweets由不同的用户发布，根据其内容，tweets的类型具有很高的任何人都可以阅读推文，但只有注册用户可以回复，喜欢和转发。全球每月活跃用户超过3.26亿，每天发布5亿条推文（Aslam，2019）。这相当于每秒6,000条推文。最初，推文是为了成为一个有趣的媒介，但后来研究人员意识到它的潜力，它成为研究最多的平台之一。由于Twitter大多不歧视*通讯作者。电子邮件地址：aqil@ksu.edu.sa（上午）Azmi）。沙特国王大学负责同行审查用户，任何人都可以发布任何东西。然而，有很多信息，不幸的是，错误的信息，在推文。假新闻的相关性在后真相政治中有所增加，社交媒体的普及与假新闻的传播有关（Hunt，2016）。需要对推文进行自动分类以增强信息检索，无论是出于个人还是研究目的，例如，新闻过滤，追踪假新闻，谣言，意见挖掘等。文本分类是根据文本的内容从一组预定义的类别中为文本指定类别的过程（杨和佩德森，1997年）。从形式上讲，假设D/fd1;d2;. ;dng是训练文档集。假设每个文件D2D是分配到一设置的类C¼ fc1;c2;. ;cmg.文本分类开发了一个模型，根据该模型，给定一个新文档dRD，它将被分配到C中的一个类。“短文本”一词指的是短消息，例如在推文、短信、在线聊天记录、博客和新闻评论中发现的短消息。短文本的处理并不是最近突然出现这一直是个问题，https://doi.org/10.1016/j.jksuci.2022.03.0201319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一个在CC BY-NC-ND许可证下的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comS.M. Alzanin，A.M. Azmi和H.A. 沙勒萨姆沙特国王大学学报6596¼人们至少在25年前就开始使用短信了然而，社交媒体的巨大普及，特别是推特，增加了提供有效技术来克服公开可用的短文本所带来的挑战的需求Faguo等人（2010）确定了所有短信共有的三个特征：稀疏性，即时性，以及充满拼写错误和非标准术语的文本。稀疏性是指包含很少单词的文本，这使得信息提取困难，而即时性是指实时生成的消息。推特因包含缩写和首字母缩略词而臭名昭著，这些缩写和首字母缩略词是文本俚语的混搭，拼写变化，违反语法规则，使用表情符号等。阿拉伯语用户人数略高于4.4亿，是互联网用户人数[1]该地区每月有1100万活跃Twitter用户，每天发布约2740万条推文（Raftery，2017）。根据一项调查，大约三分之二的阿拉伯年轻人从Facebook和Twitter获得新闻，而不是电视。与世界其他地区一样，该地区充斥着假新闻（Alanazi和Khan，2020）和谣言（Alzanin和Azmi，2019）。为阿拉伯语开发一个分类系统需要理解单词的句法结构，这样我们就可以操纵和表示单词，使它们的分类更加精确。与英语文本分类的研究量相比，对阿拉伯语文本分类的研究是有限的。关于阿拉伯语短文本分类的研究就更少了。尽管有这种语言的特点，但无法免费访问阿拉伯语短文本语料库是另一个原因（Al-Tahrawi和Al-Khatib，2015年）。据我们所知，只有另外四个作品处理了阿拉伯语推文的分类。在（Bekkali和Lachkar，2014; Abdelaal等人，2018; Ibrahim et al.，2021）使用传统的机器学习，而（Bdeir和Ibrahim，2020）使用深度学习（DL）。我们的主要目标是对这些短文本进行自动分类，在我们的例子中是推文。这将是对抗Twitter不利影响的第一步，例如，假新闻、谣言等。我们研究的贡献和新颖之处在于：我们编辑并手动注释了本研究中使用的35，627条阿拉伯语推文的数据集。我们设计了一种算法，使用三种不同的分类器：高斯朴素贝叶斯（GNB），支持向量机（SVM）和随机森林（RF）将阿拉伯语推文分类到一个预定义的类别集。分类器的参数被超调。我们探讨了两种不同的文本表示方法，并研究它们对推文分类的影响文本表示方法有：词嵌入和手工特征选择。更具体地说，我们的目标是将阿拉伯语推文分为五个不同的类别（即新闻，对话，问题，愿望和其他）。对于特征表示，我们将尝试两种不同的方法。一个基于手工的功能，使用tf-idf（词频-逆文档频率）和词干挖掘，另一种方法是使用Word 2 vec的单词嵌入虽然我们使用了传统的分类器，但我们的结果超过了目前使用DL的宏F192：95%的最佳报告性能（Bdeir和Ibrahim，2020）。在我们的例子中，具有非线性核RBF（径向基函数）的SVM和RF做得同样好，当第1www.internetworldstats.com/stats7.htm使用手工制作的功能。当我们使用词嵌入时，相同的分类器本文的其余部分组织如下。我们从第2节中对阿拉伯语推文进行分类的挑战开始。第三部分是相关工作的概述。在第4节中，我们将介绍我们提出的对阿拉伯语推文进行分类的系统。第5节查看我们编译的数据集。结果的评价和讨论见第6节。最后，我们在第7节中总结了一些未来的研究方向。2. 阿拉伯文推文与典型的文档不同，这些推文有很多噪音，不太关注主题，而且非常简短。此外，由于它们的长度，推文没有提供足够的词共现或共享上下文以用于良好的相似性度量（Quan等人，2010年）。因此，典型的机器学习方法通常由于数据的稀疏性而无法实现预期的准确性（Song等人， 2014年）。对阿拉伯语来说，这种语言本身的性质加剧了这一问题。现代标准阿拉伯语（MSA）中缺乏变音符标记、阿拉伯语丰富而复杂的形态学、同义词的广泛使用、语言本身的性质（阿拉伯语是一种高度曲折和派生的语言）等造成了一些模糊性一些（如果不是大多数）推文是用非标准的阿拉伯方言写的。推文是使用MSA和阿拉伯语的混合编写的（Azmi和Aljafari，2018）。口语因地区而异，因此，推文是编制地区方言语料库的更好资源之一（Alshutayri和Atwell，2019）。涉及阿拉伯语的方言范围比通常被认为包括英语和法语等欧洲语言的方言范围更加多样化。书面规则或字典的不可用使情况变得更糟（Azmi和Aljafari，2018）。同一个词在不同的方言中可能有不同的意思。例如，在一种方言中，它意味阿拉伯语正字法系统使用小的变音符号来表示不同的短元音。有十三个不同的变音符号，用来阐明这个词的意义和含义。在MSA中，书面文本没有这些标记，因为它假定读者会消除含义的歧义。然而，对于机器来说，情况并非如此（Azmi和Aljafari，2018）。只是为了给一个想法，考虑未变音词。它有一个以上的含义取决于变音符号，“项链”，“结”，“合同”，“十年”，“契约”和“复杂”。有些单词有着完全相同的变音标记，但有着不同的含义，这只能通过上下文来实现比如说这个词的意思是此外，阿拉伯语中的复数、对偶和单数形式因性别而异。阿拉伯语中的每一种类型都有语言规则，有些词有不规则的复数形式。此外，阿拉伯语单词开头的字母waw例如，字母waw是一个命题，‘‘and sat”, while it is original lexeme in 事实上，最初的字母waw，这不是一个原始的词-eme已被进一步分为六种不同的类型。Al-Jurja'ni（d.1078），一位文学理论家和语言学家，确定了他们的类型，并大致重新分类为两个角色，fasl和wasl。这种分类对于检测阿拉伯长句的边界至关重要（Azmi和Altmami，2018）。目前的研究趋势是使用DL来解决大多数计算问题，包括我们手头的问题。但是，使用DL存在一个问题它需要一个巨大的数据集，●●●S.M. Alzanin，A.M. Azmi和H.A. 沙勒萨姆沙特国王大学学报6597¼¼培训，这是需要说明的。宏F192的当前最先进性能：由（Bdeir和Ibrahim，2020）报告的95%，使用递归神经网络（RNN），一种基于DL的方法。3. 相关工作一些作品已经解决了文本分类的推文的问题。有许多相关的作品为英语短文本和鸣叫。然而，我们将看看选定的作品，因为它不是我们的主要主题。对于阿拉伯语，只有四个作品。3.1. 英语短文分类Lee et al.（2011）提出了一个框架，使用两种方法将Twitter趋势主题分为18类：词袋方法和基于网络的方法。在第一种方法中，朴素贝叶斯（NB），多项式朴素贝叶斯（MNB）和SVM用于分类任务。结果表明，MNB提供了最好的准确度为65%。在基于网络的分类中，对给定的主题使用决策树进行分类时，根据与基于共同影响用户数的前5个主题的相似度，取得了最好的分类效果，准确率为70.69%。Yin等人（2015）使用基于SVM分类器的半监督学习处理短文本分类问题。该方法首先利用数据字典信息对新浪微博和腾讯微博中的停用词进行切分和每一个短文本都是用向量空间模型表示的，并进行特征提取采用v2-test和tf-idf进行了有限元分析，tures加权。应用半监督SVM的结果进行比较，KNN作为基线和评价的preci- sion，召回率和F1得分。收集的数据分为五类：政治，经济，教育，娱乐和科技。结果表明，半监督SVM优于KNN，在“娱乐”类别中取得了最好的结果De la Peña Sarracén（2017）使用集成学习将西班牙选举推文分为五类：政治问题，政策问题，个人问题，竞选问题和其他问题。使用了五种分类器：逻辑回归、SVM、MNB、GNB和k最近邻。使用加权平均获得最终预测，其中每个分类器基于其在使用蛮力网格搜索的分类中的贡献被赋予权重。结果表明，集成分类器的宏观F1得分为58.47%，优于基分类器;支持向量机的宏观F1得分为54： 23%，优于基分类器。其他实验进行了使用集成分类器与两个特征选择方法和lemmatization。结果表明，特征选择方法并没有提高性能。然而，与词元化的文本，在性能上取得了显着的改善。遗憾的是，作者没有提到他们如何收集数据集，也没有提到数据集的大小。Zhang等人（2020）提出使用非负矩阵fac-torization特征扩展以克服短文本中特征的稀疏性。给定两个集合，短文本集合T和单词集合W。每个集合被分组为k个聚类。然后定义了描述短文本和词之间类型关系的矩阵R。此外，两个相关矩阵被用来表示文本和词的类型内关系。此外，两个矩阵用于聚类指标。这样，短文本的特征扩展就转化为文本和词的联合聚类。他们在三个不同的数据集上测试了他们的方法，包括六个类别（例如，棒球、篮球、足球）。该系统的准确率比使用卷积级CNN（卷积神经网络）高出32%，比Word2vec高出10.89%。3.2. 阿拉伯语短文分类Bekkali和Lachkar（2014）使用NB和SVM分类器研究了基于粗糙集理论（Rough Set Theory）的阿拉伯语短文本分类算法该数据集使用NodeXL Excel模板收集了450条推文，然后手动标记为六个类别：电影，纪录片，健康，经济，旅游和新闻。对语料库中的每条推文进行预处理，然后使用Rough集计算上下近似值，使用tf-idf计算术语权重。70%的推文用于培训，30%用于测试。结果表明，对于两种分类器，使用最小熵的SVM的F1得分为87.13%，优于NB的F1得分84.39%.使用集成学习的阿拉伯语推文分类由（Abdelaal等人，2018年）。使用Twitter搜索API收集了500条推文的数据集，并将其平均分为五个类别：体育，政治，技术，文化和一般。使用顺序最小优化（SMO）、NB和J48分类器进行分类。作者使用了单独的分类器，以及集成学习。对于集成学习，他们使用了三种技术：bagging，boosting和stacking。经过10倍交叉验证，结果表明，集成方法实现了每个单独分类器的准确性的提高。最好的准确性报告的装袋方法与NB的88.6%。SMO在升压和叠加方面分别达到了88.6%和88.4%的最高精度。Bdeir和Ibrahim（2020）研究了使用两种不同的DL算法（CNN和递归神经网络（RNN））对阿拉伯语推文进行分类。作者使用TwitterAPI收集了160，870条阿拉伯语推文。该数据集分为八类：篮球，足球，交通事故，刑事事故，歌手，美容和时尚，技术和经济。除了交通事故有8600条推文外，其余类别的推文数量较为均衡，介于20K至24K之间。作者使用了90%的数据集（144K tweets）来训练和验证DL模型，留下16K tweets（10%）用于测试。DL模型的性能非常接近。他们报告的准确性90.1%，而使用CNN，RNN-LSTM（长短期记忆）和RNN-GRU（门控递归单元）的宏F1性能分别为92.71%，92.86%和92.95%。Ibrahim等人（2021）使用三种标准NB分类器（MNB、GNB和互补朴素贝叶斯（CNB））评估了对论文和论文阿拉伯语标题的分类。论文和学位论文的标题是使用标准的报废技术从不同的存储库收集的。标题的长度变化很大，最短的是44个字符长，最长的是251个字符长，非常接近一条推文的最大长度。大部分的标题都在105个字符左右。当然，这个任务有资格作为短文本分类。作者汇编了7500本书，涵盖了10个不同的专业：地理学、宗教学、管理学、语言学、医学、计算机科学、立法和法律、历史、微生物学和数学。各专业之间的职称数量也不一样。数学和计算机科学仅占5%和6%的标题（re-martics），另一方面，我们有15%的标题属于立法和法律。数据集分为80%的训练数据和20%的测试数据。他们使用CNB分类器报告了他们最好的表现，F1得分为84%.对于其他两个分类器，MNB和GNB分别为81%和76%。S.M. Alzanin，A.M. Azmi和H.A. 沙勒萨姆沙特国王大学学报6598活泼地所有三个分类器在地理和立法方面表现同样出色，F1得分为90%。MNB分类器在语言学上表现不佳，平均F1分数低于40%.4. 我们提出的系统我们的目标是将阿拉伯语推文分类到一组预定义的类别中。建立一个文本分类系统要经过几个过程。从文本预处理开始，然后是特征提取，最后使用机器学习将文本分配到预定义的类别之一对于阿拉伯语，文本预处理包括几个重要的过程，包括标记化，之后可以删除不必要的符号和标记以消除冗余。对于功能，我们使用两种不同的方法来表示阿拉伯语文本，tf-idf与词干和单词嵌入，我们使用Word 2 vec。最后，我们使用机器学习将推文分类到预定义的类别之一。为了进行分类，我们使用了三种不同的分类器进行实验：高斯朴素贝叶斯（ GNB ），支持向量机（ SVM ）和随机森林（RF）。我们提出的算法如下所示。我们将更详细地介绍不同的步骤在算法的训练和测试阶段之间存在微小的差异为了方便起见，我们将两者结合在一个算法中。算法1：所提出的系统的伪代码，用于将推文分类为一组预定义的类别。4.1. 预处理预处理是一个旨在去除文本中的噪声并减少文本表示中的特征数量的过程。它导致更少的内存存储需求，并提高了分类器的性能。对于阿拉伯语，文本预处理包括几个过程。我们从删除类似sym的URLs开始，“#”（hashtag），“@”（提及），RT（retweet）和EOL（行尾）。使用Python NLTK（自然语言工具包）库删除阿拉伯语停止词。2规范化旨在将字母的所有变体强制为单一形式（例如，Ï！（i）。在阿拉伯语中，它被用来统一字母alif的不同形式，字母waw，字母ya.语音从而消除-“你好”和“你好”是同一个词，“你好”是同一个词loooooo”等，将被映射到“你好”。这一步之后是标记化。它是词法分析的一部分，其中字符串序列被分解为单词，短语或其他标记。4.2. 特征提取与选择对于功能，我们将尝试两种不同的方法。一种是使用词干词的tf-idf的手工特征，另一种方法是词嵌入。生成单词嵌入的一种更流行的方法是通过深度学习，避免了任何手工特征工程的需要。我们将涵盖这两种方法的细节。4.2.1. 基于手工的特征在基于手工的功能中，我们首先应用词干提取，其中推文中的每个单词都基于词干提取算法被简化为其根（或词干）形式。由于阿拉伯语的形态特征，这是一个必不可少的步骤词干提取算法将单词的不同形式简化为核心词根或词干，例如，这种对具有相同词根（或词干）的单词的分组增加了文档匹配的成功率在此之后，我们使用tf-idf作为加权度量。词干提取是一个计算过程，它将所有具有相同词根（或相同词干，如果前缀未被触及）的单词减少到一个共同的形式，通常通过剥离每个单词的派生和屈折后缀。例如，“他”这个词她写道：“写” ， “ 他们写 ” ， “ 他会写 ” ， “ 她会写 ” ，‘‘have 所有这些和少数几个，我们为了简洁起见，没有提到，有相同的词汇语义内容，这导致了“写作的概念”。因此，系统不会处理不同的六个单词，而是在将单词列表减少到相同的词干后处理单个单词在阿拉伯语中，我们有四种词缀：前缀、前缀、后缀和可以附加在单词上的后缀。例如，单个单词由前缀+前缀+“协商”+后缀+后缀。完整的意思是在此之后，阿拉伯语中有两种主要的词干提取方法：基于词根的词干提取和轻（或基于词干的）词干提取。我们进行启发式和语言形态分析，2见https://www.nltk.org。S.M. Alzanin，A.M. Azmi和H.A. 沙勒萨姆沙特国王大学学报6599þ-DFI- --þ-þ基于词根的词干提取技术来提取词根。为了发挥作用，这种技术通常需要一本阿拉伯语词根词典。然而，确实存在使用模板的算法将一个单词与一组模式进行匹配，然后提取其词根。该方案避免使用字典。在光茎-我们通过去掉前缀和后缀来简化这个词在skip-gram方法中，我们在给定中心词的情况下预测周围的上下文词，这增加了计算复杂度。例如，在CBOW模型中，我们最大化一个词在特定内容中的概率，Pr w ijw id;w id1;.. . ;w i1;w i1;. ;wid1;wid;2此方法不需要任何字典。有时，结果词可能是无效的，但它足以达到检索信息的目的（Almuzaini和Azmi，2020）。我们使用了NLTK库（见4.1节），它提供了几个阿拉伯语词干分析器。库中两个比较知名的词干分析器NLTK中的ISRI词干提取器是Taghva等人（2005）的基本ISRI（信息科学研究所）词干提取算法的略微修改版本此外，如果未找到词根，ISRI将返回单词的规范化形式，而不是返回原始未修改的单词。ARL（Arabic Light）是一种基于Abainia等人的轻型阿拉伯语词干提取算法。（2017年）。TFIDF是一个加权因子，旨在反映一个词对语料库中的文档有多重要（Leskovec等人，2014年）。它衡量一个特定的词在给定文档中出现的总次数，称为“词频”。然而，有些词，如停用词，经常出现在所有文件中;这些必须有系统地加以考虑。这个过程被称为一个词出现的文档数量越多，其价值就越低--作为区分特定文档的标志（Manning等人，2010年）。我们使用tf-idf，它是Scikit-learn库的一部分。3tf-idf的计算公式如下：其中wi是位置i处的单词，窗口的大小为2d 1.这产生了一个模型，是偶然的分布相似的话。词嵌入的维度因应用而异，通常在50到300之间我们决定使用预先训练的单词嵌入模型。最初，我们用AraVec进行实验（Soliman等人，2017年），一个开源Word2vec项目，在不同的阿拉伯语文本资源上进行了预训练。然而，结果却令人失望。然后我们切换到ArWordVec（Fouad等人，2020），另一个使用Gensim包在python中实现的预训练模型（Rehurek和Sojka，2010）。该模型使用不同主题的5500万条阿拉伯语推文的巨大存储库进行训练，其中超过80%的推文属于两个主题：政治和地理。作者发布了几个支持CBOW和SG方法的具有不同参数的模型。4我们使用CBOW-300-35. 数据集我们使用Twitter搜索API来收集推文。总共收集了35，627条推文。收集的推文被手动注释为五个类别。表1将收集到的tweet分为不同的类别。5.分类定义如下：如下新闻，一条针对公众的推文，wij 1/4tfij×log。 N，N ′有新闻价值的事件或可能是真或假的事实。对话，可能包括嘲弄、广告、威胁、文章、不赞成、评论、一般谈话或意见的推文。问题a其中tfij是单词i在文档j中出现的次数，dfi是包含单词i的文档数，N是文档总数5.1.1. 单词嵌入词嵌入基于分布假设，即出现在相似上下文中的词往往具有相似的含义。分布式表示试图通过考虑单词保持的公司来理解单词的含义（即，语境词）。词嵌入是固定长度的向量，是词的分布式密集表示，通过将词映射到实值向量来解释词的文本含义。假设相似的单词具有相似的向量（Socher，2014）。当单词嵌入被用作底层输入表示时，它已被证明可以提高不同NLP任务的性能。它已成功用于不同语言（如英语）的原始文本分类（Kim，2014; Lilleberg等人，2015），中文（杨和郑，2016），阿拉伯语（Almuzaini和Azmi，2020）等。不同的方法生成该映射，其包括神经网络、词共现矩阵的降维、概率模型等。对于词嵌入，我们使用Word2vec（Mikolov等人，2013），一种流行的基于预测的算法，其在空间和时间方面是有效的。Word2vec是一个两层神经网络，输入是文档，输出是一组预设固定维度的实值特征向量（每个单词一个向量）。连续词袋（CBOW）和跳跃语法（SG）是用于语言建模任务的两种主要学习算法在CBOW中，我们使用周围单词的窗口来预测当前单词，而3可查阅https://scikit-learn.org/。推特包括作者的问题Wish，一条包含作者愿望的推文其他的，一个不属于任何以前的类的推文。表2显示了收集到的推文样本。6. 评价和结果在本节中，我们将使用编译的数据集（第5节）评估我们提出的系统为了方便起见，本节分为以下较小的单元：（a）超调所用分类器的参数;（b）评估指标;（c）实验结果，其中我们报告使用不同文本表示的分类结果;以及（d）结果的讨论以及它们如何与竞争系统进行比较。我们使用Scikit-learn，使用三种不同的分类器GNB，SVM和RF进行监督学习。在分类之前，我们应用了合成少数过采样技术（简称SMOTE）（Chawla等人，2002年），一种过采样方法，通过在少数群体中创建“合成”示例来平衡每个类别中的数据，而不是复制它。6.1. 超调谐参数为了提高每个分类器的性能，我们调整了它们各自的超参数。超参数对模型的一般影响是已知的;然而，挑战在于最佳地设置超参数和相互作用的超参数的组合4从https://github.com/mmdoha200/ArWordVec下载。5我们计划在未来向研究社区公开发布注释的推文S.M. Alzanin，A.M. Azmi和H.A. 沙勒萨姆沙特国王大学学报6600表1收集的推文的一般统计数据类别计数新闻15，359对话12，485问题2，764愿望2，755其他2，264共计35 627人对于给定的数据集。配置超参数通常有一些通用的技巧或经验法则。我们可以客观地搜索模型超参数的不同值，并选择一个子集，该子集导致模型实现最佳性能在给定的数据集上，一种称为超参数调整或优化的方案。在参数优化中，最常用的两种方法是网格搜索和人工搜索。Bergstra和Bengio（2012）已经从经验和理论上证明，随机选择的试验比网格搜索更有效地进行参数调整。因此，我们对参数进行了随机搜索，其中每个设置都是从可能的参数值的分布中采样的。表3列出了不同的分类器及其超调参数。我们展示了两个词干提取器（见4.2.1节）和单词嵌入（4.2.2节）的调整参数。例如，对于分类器RF，森林中的树的数量范围在100和500之间。然而，超调参数为ISRI词干分析器选择了100棵树，为Word2vec选择了200棵树，而使用ARL词干分析器时选择了500棵树。表2收集的推文及其翻译的样本Tweet类型翻译（英文）Tweet（原创）新闻距离创造奇迹埃及人不畏严寒，徒步数百公里参加总统选举进入第二天。谈话解决互联网速度慢的问题，解决公民与电信公司的问题;我们厌倦了边缘化，每月为不充分的服务付费和订阅。在你看来，谁将在埃及总统选举中获胜？愿安拉赐予我们伊拉克的旋律、巴勒斯坦的橄榄、也门的咖啡和蜂蜜、大马士革的茉莉花、阿拉伯最好的荣耀和伊斯兰的胜利真主说：“人们，无论是商业还是买卖，都不能使他们忘记记念真主和谨守拜功。. 这是对这个国家的前身的描述*古兰经翻译自http://quran.ksu.edu.sa/。S.M. Alzanin，A.M. Azmi和H.A. 沙勒萨姆沙特国王大学学报6601¼¼×¼;TPFN¼;表3不同分类器的超参数设置及其调整值，以实现各自分类器的最佳性能。ISRI和ARL是词干提取算法。对于单词嵌入，我们使用ArWordVec（Fouad等人， 2020年）。调谐值分类器超参数描述值范围ISRIARLWord2vecGNB平滑所有要素的最大方差的一部分，该部分被添加到方差中以实现计算稳定性{1E-7、.....的问题。. 、1E-11}1E-111E-81E-7SVMC正则化参数减少过拟合{0.1，1，10}101010RF内核#树定义为内核的函数随机森林聚乙烯、RBF、S形{100，200，.. . 、RBF500RBF100RBF200500}max特征每次拆分对数，平方日志日志sqrt最小样本分割拆分内部节点{1，2，5}2526.2. 选择要素在计算tf-idf特征矩阵（见4.2.1节）之后，我们必须选择最佳特征。为此我们表4混淆矩阵。实际判决使用类似于（Alzanin和Azmi，2019）中使用的工艺。我们使用Scikit-learn选择v2的k-best方法来评估每个特征返回顶部k个具有最大相关性的特征。我们使用不同的k值进行实验，k值的范围高达5405，对应于最大数量的特征。图 1显示了每个实验的结果。正如我们所看到的，当k增加时，分类器GNB和SVM的准确性增加，除了具有ISRI词干的GNB在k 5405处的离群值对于RF，情况有所不同。准确度参差不齐。增加特征的数量会导致数据中增加噪声我们注意到，对于k2500，我们对所有三个分类器都得到了可接受的改进。添加更多的特征会导致更多的噪音或短暂的改善，但我们会面临不必要的训练时间增加。因此，选择最好的2500个特征会为我们的模型产生最好的结果。分类器预测True False阳性TP FP负TN FN显示了2 2混淆矩阵和相关的四个结果。准确度（Acc）是来自两个类的正确分类的实例的百分比。查准率（P）衡量分类器的准确性，而查全率（R）衡量分类器的完整性我们可以将P和R结合起来，产生一个称为F1的单一度量（前面称为F1得分），它是两个度量的加权调和平均值。这四个指标由Eq. （3）（Olson和Delen，2008年），加速度TPTNP¼TP;6.3. 评估指标公司简介RTPTPFFNF11/2PR= PPPRRP：ð3Þ为了评估所提出的系统的性能，我们衡量的准确性，精确度，召回率和F1分数方面的系统的有效性。这些措施是使用混淆矩阵定义的。混淆矩阵是用于描述二元分类模型在一组测试数据上的性能的表，其中真实值是已知的。对于分类任务，术语真阳性（TP）、真阴性（TN）、假阳性（FP）和假阴性（FN）将分类器的结果与已知判断进行比较。术语真和假指的是预测是否对应于实际判断，术语正和负指的是分类器表4然而，当我们有多个类标签时-就像我们的例子-那么我们需要重新定义等式中的度量。（三）、在这种情况下，对测量值取平均值可以更好地查看一般结果。我们将使用macro-average报告结果，它为每个类别独立计算度量，然后取平均值（因此平等对待所有类别）。6.4. 实验结果我们从收集的数据中随机选择70%作为训练集，剩下的30%作为测试集。图1.一、三个分类器对于不同特征集k的准确性，对于（a）无词干提取，（b）ISRI词干提取，和（c）ARL词干提取。S.M. Alzanin，A.M. Azmi和H.A. 沙勒萨姆沙特国王大学学报6602各个类别的详细分类结果示于表5中（也参见图1A和1B）。2-4）。对于ISRI词干提取器，GNB分类器报告了其在“对话”类上的最佳性能在五个类中，SVM和RF都实现了类“愿望”的最佳性能而对于ARL词干提取器，无论使用何种分类器，类“Wish”都实现了最佳性能此外，对于单词嵌入Word2vec模型，GNB在“Wish”类上取得了最好的表现令人惊讶的是，对于类在这里，GNB报告了其最差的表现，F1得分为49.25%，而SVM和RF实现了最好的表现，分别报告了99.30%和99.19%的F1似乎GNB分类器总是在类“Question”上有问题巨人银行表6总结了三个分类器在不同文本表示方法上的准确率和宏观平均精确率、召回率和F1分数方面的性能使用具有ISRI和ARL词干提取器的RF分类器，前两个最好的宏观平均F1得分（或简称宏观F1）分别为98.14%和98.13%即使是第三最好的宏观 F1是98.12%时，使用SVM分类器。我们得到最差的性能时，使用词嵌入与GNB分类器，低性能的宏F1的68.45%。6.5. 讨论表6中的一些接近值迫使我们进行统计检验，以确定这些差异是否显著。表5使用三个不同的分类器对推文的每个类别进行分类的结果高斯朴素贝叶斯SVM随机Forrest类别PRF1PRF1PRF1ISRI谈话0.98710.98470.98590.99090.99050.99070.99460.98510.9898新闻0.98630.98430.98530.99150.99590.99370.98710.99790.9925问题1.00000.88890.94121.00000.88890.94121.00000.88890.9412希望0.96440.98960.97680.99820.99130.99480.99650.99130.9939别人0.97950.97150.97551.00000.97150.98561.00000.97970.9897ARL谈话0.98830.98050.98440.99050.99050.99050.99540.98550.9904新闻0.98410.99250.98820.99150.99520.99330.98650.99830.9923问题0.88890.88890.88891.00000.88890.94121.00000.88890.9412希望0.98790.99130.98960.99650.99130.99390.99820.99130.9948别人1.00000.96750.98351.00000.97150.98561.00000.97560.9877Word2vec谈话0.72920.76840.74830.98680.98880.98780.99080.98550.9882新闻0.81070.75210.78030.98930.99170.99050.98600.99520.9905问题0.43590.56580.49251.00000.98610.99301.00000.98380.9919希望0.95410.76020.84620.99590.97560.98561.00000.97560.9877别人0.55560.55560.55561.00000.88890.94121.00000.88890.9412图二、使用分类器将推文分类到每个类别的精度（P）：GNB，SVM和RF，（a）ISRI词干分析器，（b）ARL词干分析器和（c）Word2vec嵌入。图3.第三章。使用三个分类器将推文分类到每个类别的召回率（R）S.M. Alzanin，A.M. Azmi和H.A. 沙勒萨姆沙特国王大学学报6603¼¼¼表6见图4。使用三个分类器将推文分类为类的F1分数。stemmers。因此，这两个分类器在使用两个词干分析器中的任一个解决推文分类问题每个分类器在不同文本表示上的性能摘要除准确度外，所有其他报告值均为宏观平均值。Stemmer分类器ACCPRF1ISRIGNB百分之九十八点四三百分之九十八点三五百分之九十六点三八百分之九十七点二九SVM九十九点二二百分之九十九点六一百分之九十六点七六百分之九十八点一二RF百分之九十九点一四百分之九十九点五六百分之九十六点八六百分之九十八点一四ARLGNB百分之九十八点六五百分之九十六点九八96.41%百分之九十六点六九SVM百分之九十九点一九百分之九十九点五七百分之九十六点七五百分之九十八点零九RF百分之九十九点一六百分之九十九点六百分之九十六点七九百分之九十八点一三Word2vecGNB74.52%69.71%68.04%百分之六十八点四五SVM百分之九十八点九三百分之九十九点四四百分之九十六点六二百分之九十七点九六RF百分之九十八点九五百分之九十九点五四96.58%百分之九十七点九九表7中示出了使用1/40： 05对三个分类器的五个类别的F1得分值的差异进行配对t检验的结果。p值<：05表示差异具有统计学显著性。例如，使用词干分析器ISRI，GNB和SVM分类器的相应宏F1为97.29%和98.12%（参见表6）。该差异具有统计学显著性，因为p值1/4：0253（见表7）。前四个宏观F1 得分的值范围在98.09%和98.14%之间，其p值分别为：.4176

下载后可阅读完整内容，剩余1页未读，立即下载