乌尔都语推文的文档聚类：方法和实验评估

199 浏览量更新于2024-01-17 收藏 1.07MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报乌尔都语推文Zarmeen NasimBagh，Sajjad Haider巴基斯坦信德省卡拉奇工商管理学院计算机科学学院人工智能实验室阿提奇莱因福奥文章历史记录：收到2020年2020年7月24日修订2020年8月16日接受2020年8月26日网上发售保留字：文档聚类主题建模无监督学习特征提取方法文档嵌入乌尔都语处理A B S T R A C T文档聚类允许用户对语义相似的文档进行分组。它一直是一个有趣的研究领域，在过去的许多年里，已经开发了各种方法和技术。然而，研究主要限于英语和其他高资源语言。对于低资源语言，如乌尔都语，文档聚类领域是开放的贡献。这项工作提出了一个实验评估聚类技术对乌尔都语的推文。这是一个具有挑战性的任务，语义聚类推文，由于其非常短的长度。在本文中，各种功能，包括句子和短语级嵌入，TF-IDF功能和文档嵌入提取的推文和聚类使用三种不同的算法：K-Means，平分K-Means，和亲和传播算法。并与传统的主题建模方法进行了比较实验结果表明，TF-IDF特征与K-means聚类算法相结合的聚类效果优于传统的©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍在过去的十年里，社交网络平台发展迅速.在线社交网站不仅将人们联系起来，而且这些平台还允许用户讨论他们对任何政治或社会问题的看法。来自世界各地的人们可以提高他们的声音，赞成或反对任何全球社会经济问题。此外，政策制定者可以从社交网络中获得对公众舆论的有用见解。最流行的在线社交网络之一是Twitter。根据2019年的统计数据，每月约有3.26亿人使用Twitter。每天有5亿条推文被发送，这意味着每秒有5787条推文被发布。该平台允许用户以34种不同的语言发布短消息或推文，包括阿拉伯语，英语，孟加拉语，中文，法语，西班牙语，乌尔都语和其他各种语言。人们经常使用Twitter来表达他们对政府举措、社会问题、宗教问题、*通讯作者。电子邮件地址：znasim@khi.iba.edu.pk（中）Nasim）。沙特国王大学负责同行审查制作和主办：Elsevierahttps://twitter.com/bhttps://blog.hootsuite.com/twitter-statistics/事务和其他主题的列表然而，每天产生的大量此外，人们使用各种标签来表达他们对同一主题的看法。这使得对语义上连贯的推文进行分组的任务更具挑战性。在自然语言处理领域中，文档聚类是一种用于对表现出相同感兴趣主题的文档进行分组的技术任何聚类算法的目标都是最大化聚类内的相似性，最小化不同聚类之间的已经提出了用于文档聚类的各种方法（Naik等人，2015; Patil andThakur，2018）。这些方法通常从文本的特征提取开始，而特征以词频-逆文档频率矩阵（TF-IDF）的形式表示。随着深度学习领域的最新进展，已经提出了一种语义上更丰富的文档表示，称为单词嵌入（Mikolov et al.，2013年）。与TF-IDF特征矩阵相比，词嵌入的使用极大地改善了各种自然语言处理任务，如机器翻译，情感分析，文档分类等。在特征提取之后，聚类算法被应用于所提取的特征。在过去的几十年里，文档聚类的复杂性已经引起目前仍在努力编制一组语义相关的文件。https://doi.org/10.1016/j.jksuci.2020.08.0081319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comZ. Nasim，S.Haider/ Journal of King Saud University2171与文档聚类一起，主题建模是一种替代性的统计技术，用于发现语料库中文档所表示的潜在主题。它确定构成主题的单词，然后确定将主题分配给文档的概率。文档可能包含多个具有不同概率分布的主题。潜在狄利克雷分配（LDA）（Blei等人，2003）是主题建模方法的一个实例。LDA使用Dirichlet分布构造了每文档主题模型和每主题词模型。与文档聚类类似，主题建模可用于识别展示相同主题的文档。据观察，迄今为止在文档聚类领域所做的大部分工作对于低资源语言，如乌尔都语，到目前为止很少有实验。在自然语言处理领域，如果可用资源（如词典和标记语料库）非常有限，则该语言被认为是低资源语言。乌尔都语是巴基斯坦的国语巴基斯坦有1100万讲这种语言的人，世界各地有3亿多讲这种语言的人（Daud等人，2017年）。在Twitter和其他各种在线平台提供的语言支持下，一个庞大的乌尔都语语料库正在以数字格式提供，这也为乌尔都语处理提供了研究机会本文评估了一些聚类技术的语料库写在乌尔都语的推文。已经使用推文的文本内容的不同表示进行了许多实验。推文的变化特征表示包括TF-IDF矩阵表示、使用Word 2 Vec嵌入的向量表示和短语向量表示。在这项研究中，一个新的技术特征提取的基础上短语嵌入也被提出。此外，不同的聚类算法，如K-Means聚类，二分法K-Means和亲和传播，以及LDA主题建模已被比较。本文还演示了使用特定领域的词嵌入聚类语义连贯的推文。本工作的主要贡献如下：a. 使用乌尔都语维基百科转储和Twitter语料库为乌尔都语训练Word2Vec和Doc2Vec模型b. 收集大量乌尔都语推文用于训练单词嵌入模型。c. 提出一种基于短语抽取的文档聚类方法d. 各种聚类算法的评估。本文的其余部分组织如下。第2节介绍了本文中使用的技术术语。第三部分介绍了英语和乌尔都语中聚类分析的文献综述所提出的方法在第4节中进行了说明，而第5节描述了各种聚类技术的实验评估。结果和发现讨论见第6节。最后，第7节对本文进行了总结。2. 技术背景本节简要说明文件中经常使用的技术2.1. 推文推文是用户在Twitter平台上发布的短消息。一条推文最多可以包含280个字符。Twitter允许用户发布推文，喜欢和分享网络上其他用户发布的推文。2.2. 词频-逆文档频率（TF-IDF）术语频率-逆文档频率（TF-IDF）测量属于不同类别的文档中单词的重要性。该度量将高分分配给表示特定类别文档的单词，并将低分分配给常见单词。2.3. 词嵌入词嵌入用于在向量空间中表示词。这些词以这样一种方式表示，即在相同上下文中使用的词在向量空间中彼此接近。Word2Vec模型由（Mikolov等人，2013）是学习单词嵌入的流行技术。Word2Vec模型是一个两层神经网络：输入层和输出层。Word 2Vec模型可以使用连续词袋（CBOW）方法和Skip-gram方法进行训练。在CBOW模型中，输入由上下文单词组成，输出是目标单词。该网络经过训练，可以从上下文单词中预测单词。在Skip-Gram模型中，输入是目标词，输出由上下文词组成。2.4. 文档嵌入文档嵌入是文档的矢量表示。一个文件可以由几个句子组成。Doc2Vec是Word2Vec模型的扩展版本。它的目的是产生一个数字表示的文件，无论其长度。在Doc2Vec模型中，与单词向量一起，向量文档ID还添加了在所有文档中唯一的。在训练词向量的同时，还训练文档向量，并且在训练结束时，文档向量保持文档的数字表示。2.5. 聚类算法本文评估了三种广泛使用的聚类算法，包括K-Means，Bisecting K-Means和Affinity Propagation。本文还比较了聚类算法与传统的基于潜在狄利克雷分配（LDA）的主题建模方法。以下是本研究中评价的算法的描述。2.5.1. K-Means（Lloyd，1982）K-Means是一种广泛使用的迭代聚类算法。该算法需要提供聚类数K作为输入。其工作原理如下：a) 随机初始化质心b) 计算数据点到每个质心的距离。c) 将数据点分配到最近的质心。d) 更新质心。e) 重复步骤（b）到（d），以获得所需的迭代次数。2.5.2. 平分K均值（Steinbach等人，（ 2000年）Bisecting K-Means是K-Means算法的一种变体。其工作原理如下：a) 随机初始化质心b) 选择一个集群。c) 将K的值设置为2时，对聚类应用常规K-Means算法。2172Z. Nasim，S.Haider/ Journal of King Saud Universityd) 重复步骤（c）指定的迭代次数，并选择具有最低平方误差和（SSE）的拆分e) 重复步骤（b）、（c）和（d），直到获得所需的聚类数2.5.3. 亲和力传播（Dueck和Frey，2007）在仿射传播中，数据点形成一个网络，并向网络中的其他数据点发送实值消息。该消息表示数据点已准备好成为范例。聚类中的样本是最能代表聚类中其他数据点的数据点。2.5.4. 潜在狄利克雷分配（LDA）（Blei等人，（2003年）潜在狄利克雷分配（LDA）是一种流行的主题建模统计技术。驱动LDA过程的核心思想是，文档可以由n个主题表示，主题可以由一组单词表示。主题的数量需要事先指定。LDA分配单词不同概率分布的主题。类似地，主题以一定的概率分布被分配给文档。3. 相关工作在英语中，大量的工作已经报告了文件聚类。然而，在乌尔都语中，有限数量的研究论文已经解决了这个研究问题。尽管本文的重点是乌尔都语推文，但本节首先介绍了为英语短文本开发的聚类分析方法，因为为乌尔都语提出的语言处理方法主要受到英语工作的启发。其次讨论了乌尔都语文献的聚类分析方法。对于英语，现有的方法可以分为两类。早期的工作主要集中在TF-IDF特征矩阵和经典的潜在狄利克雷分配（LDA），而最近的工作，另一方面，集中在词嵌入。3.1. 英语语言中的聚类现象研究对短文本（如tweets）进行聚类比对普通文本进行聚类更具挑战性。这是由于特殊字符、表情符号、拼写错误和较短的长度所引入的噪音。Rosa et al.（2011）比较了有监督学习方法和无监督方法在推文聚类上的性能。采用LDA和K-Means算法进行聚类。他们利用Twitter的主题标签作为真正的集群标签的指标。然后使用真正的聚类标签来训练监督模型。作者采用Rocchio分类器来训练模型。他们的实验表明，与非监督聚类方法相比，监督学习方法产生了更好的结果。Kim et al.（2012）提出了一种基于主题的核心聚类技术来聚类推文。该方法从推文中提取主题。在提取核心话题后，该方法对推文进行基于图的聚类。作者将他们的方法与K-Means进行了比较。比较表明，基于图的聚类效果优于K-Means。Mehrotra et al.（2013）在推文上应用了一种主题建模技术，从Twitter数据集中提取主题他们认为，传统的潜在狄利克雷分析（LDA）模型不能很好地处理推文，因为它们的长度很短因此，他们提出了各种各样的联营方案。池化方案包括主题标签池化、作者池化、时间池化等。他人结果表明，与其他池化方案相比，标签池化工作得很好池化方法的工作原理是将包含相似主题标签的推文连接到一个文档中，然后将其传递给LDA模型。Poomagal et al.（2015）提出了基于后缀树的推文聚类。该技术通过构造后缀树来确定相似推文的聚类。在构造后缀树的过程中，还使用WordNet计算了推文之间的语义相似度。作者比较了他们的方法与广义后缀树和Lingo算法。他们发现，使用语义相似性度量的后缀树的建设导致了改善相比，广义后缀树算法。Liang等人（2016）提出了一个动态主题模型进行聚类。动态模型被设计来处理twitter流的时间动态。该模型处理短期和长期的时间依赖性。作者使用吉布斯抽样（Geman and Geman，1984）来推断主题和文档概率分布。在Twitter流媒体数据集上进行了实验，并对该模型的检索效果进行了评价本文将所提出的方法与其他最先进的针对长文档的动态主题模型、针对短文本的静态主题模型、LDA模型、时间敏感语言模型以及针对微博的最先进的时间感知搜索模型进行了比较。结果表明，所提出的动态模型优于上述提出的聚类模型。随着深度学习的最新进展，自然语言处理（NLP）社区的研究兴趣现在已经转向单词的分布式表示，而不是单词袋模型。在各种NLP任务中，如情感分析，文档分类，命名实体识别，词性标注，作者消歧等，使用词嵌入带来了更好的性能。Vakulenko等人（2017）采用基于字符的神经网络对推文进行聚类。他们的工作扩展了Tweet2Vec模型（Dhingra等人，2016年）。作者认为，字符嵌入克服了Tweet2Vec表示中没有解决的词汇问题。（Fraj等人，2018年）采用词嵌入来表示推文。然后将聚类算法应用于推文的矢量表示。作者将其方法与传统的向量空间模型进行了比较。实验结果表明，基于词嵌入的推文表示比基于向量空间模型的文本表示更有效。Arınet al.（2018）开发了一种用于聚类推文的交互式工具。该工具包括词汇和语义聚类组件。词汇聚类组件采用基于后缀树的聚类技术对相似的推文进行在后缀树的构建过程中，使用了通过计算推文的词嵌入之间的余弦相似度来识别语义相似度作者将他们的结果与其他最先进的模型进行了比较，包括K-Means和基于单词的后缀树聚类。结果表明，该方法优于其他模型的聚类质量和计算时间。Curiskis等人（2019）试验了在线社交网络的各种文档聚类和主题建模技术。本文评估了四种不同的特征表示，包括TF-IDF特征矩阵，Word 2 Vec特征，由前1000个TF-IDF分数加权的Word 2 Vec特征，以及Doc 2- Vec特征。实验在Reddit和Twitter数据集上进行。作者评估了各种聚类算法，包括K-Means，K-Medoids，层次凝聚聚类和非负矩阵分解。实验Z. Nasim，S.Haider/ Journal of King Saud University2173结果表明，当K-Means聚类应用于Twitter和Reddit数据集中的Doc2 Vec特征时，性能最佳。3.2. 乌尔都语聚类研究现有的文献乌尔都语处理表明，非常有限的工作已经做了聚类乌尔都语。乌尔都语处理的调查（Daud等人，2017年）将集群列为一项具有挑战性的任务。这些挑战主要是由于缺乏基准数据集和乌尔都语预处理工具有限据我们所知，还没有一项工作不过，有几篇论文是关于乌尔都语文档聚类的，如下所列。Basit等人（2017）研究了潜在语义分析技术，以检索与给定文档相似的文档。Shakeel等人（2018）提出了一种乌尔都语文档的主题建模技术。作者认为，由于乌尔都语的词汇和形态的挑战，现有的LDA建模不能直接应用于乌尔都语文本。因此，作者提出了一个框架，该框架结合了语料库上的某些预处理步骤.预处理后，吉布斯抽样（Geman和Geman，1984）进行推断的文件的主题。Rahman et al.（2018）研究了乌尔都语文档的聚类。他们分析了各种相似性度量，如余弦相似性，Jaccard相似性和Levenshtein距离。作者使用K-means算法对乌尔都语文档的词频-逆文档频率（TF-IDF）矩阵表示。实验表明，Jaccard相似性度量往往是更有效的，并取得了最高的纯度分数相比，其他相似性措施。Rehman等人（2019）提出了一种变分贝叶斯LDA（VB-LDA）（Zhai等人， 2012）启发模型来确定乌尔都语文档中的主题。在使用VB-LDA对文档建模之前，作者还试验了对文档应用词干分析的影响。结果表明，VB-LDA在乌尔都语文档的主题推理方面优于现有的LDA模型。实验还表明，词干对VB-LDA产生的结果有很大的影响。本文的目的是研究聚类乌尔都语推文。研究的主题被采纳是因为它的重要性，因为每天在推特和Facebook等社交网络上写有数百万条帖子。聚类方法在若干应用中起重要作用。这包括推荐引擎、社交网络分析、搜索结果分组等。此外，有限的研究工作已经提出处理乌尔都语自然语言一般，特别是集群乌尔都语推文。此外，现有的乌尔都语文档聚类和主题建模技术通常涉及使用TF-IDF矩阵构建文档级特征表示，然后进行聚类以将文档分组为语义一致的簇。本研究还评估了基于词嵌入的特征提取技术以及传统的文档表示方法。4. 方法本节描述了聚类乌尔都语tweet的方法该方法包括数据提取、数据预处理、特征提取、聚类和评价等步骤。1.一、这些数据首先来自Twitter。由于原始文本包含噪声，因此需要对其进行预处理。因此，在数据提取时，对推文文本应用若干预处理操作。接着，提取各种特征，包括TF-IDF、句子嵌入、文档嵌入和短语嵌入。不同的聚类算法，然后应用于提取的功能和性能进行评估，使用三种不同的评价指标，其中包括纯度，调整后的兰德指数和调整后的互信息。在聚类阶段还应用了主题建模技术。4.1. 数据提取在这项研究中，从2018年4月1日到2019年3月15日的近一年的乌尔都语推文是使用TweidecPython库从Twitter中提取的。4.2. 数据预处理为了去除噪声并从原始文本中提取有用的信息，在UrduHackdpython库的帮助下执行了以下预处理操作a. 停用词的去除：停用词是一种语言中经常使用的词。这些词在自然语言处理任务中几乎没有重要性。因此，它们可以从语料库中移除以用于降维目的。在这项工作中，从给定的语料库中删除了343个乌尔都语停用词eb. 去除标点符号：标点符号是用来表达作者的情感。删除了注释，因为它们不包含相关信息。c. 删除标点符号和变音符号：在乌尔都语中，变音符号对理解单词的发音很有用然而，书面文本不需要这些符号，因此删除了标点符号和变音符号。d. 删除空白：从推文中删除了多余的空格。e. 删除非乌尔都语字符：推文包含英文字母和模式，如@，RT，via等。这些非乌尔都语字符被删除。f. 删除URL：URL也从推文中删除。4.3. 特征提取在这项研究中，一些功能，包括词频逆文档频率矩阵和词嵌入，已经评估和描述如下。4.3.1. 词频-逆文档频率矩阵从预处理后的文本中建立了由一元词和二元词组成的TF-IDF矩阵4.3.2. 词嵌入词嵌入在各种自然语言处理任务中显示出压倒性的结果。使用Gensim库f训练两个Word2Vec模型。一个模型在维基百科乌尔都语转储上训练，以服务于一般领域，而另一个模型在定制的Twitter语料库上训练。这两种模式如下所述。chttps://www.tweepy.org/dhttps://github.com/urduhackehttps://github.com/urduhack/urdu-stopwordsfhttps://radimrehurek.com/gensim/2174Z. Nasim，S.Haider/ Journal of King Saud UniversityNcsCFig. 1. 拟议方法的工作流程。a.Wikipedia Dump上的Word2Vec模型：Wikipediag的转储包含用乌尔都语编写的文章。经过预处理后，Word2Vec模型在560，704个句子上进行了训练。在一些初步实验之后，维度的数量被设置为100，上下文窗口大小保持为5。该模型使用连续词袋算法进行训练。由此产生的Word2Vec模型的词汇量为29916。图2呈现了在几个样本词上运行的相似词查询的结果。该模型以这样一种方式进行训练，即它将复合词（如伊斯兰堡）视为一个单词。B.Word2Vec模型对TwitterDump编写了一个Python脚本来从Twit获取乌尔都语tweets一年之内（2018年4月1日至2019年3月15日这个包含328，388条乌尔都语tweet的twitter转储用于生成特定于域的嵌入。在一些初步的实验，以确定尺寸的数量图3呈现了在几个样本词上运行的类似词查询的结果。一旦获得词嵌入，它们被用来生成句子嵌入和短语嵌入。4.3.3. 句子嵌入在获得word2vec模型之后，通过聚合tweet中出现的每个单词的词向量来生成4.3.4. 短语嵌入除了单词嵌入，还生成了短语嵌入。首先，使用Gensim Phraser模块h从Twitter和Wikipedia转储中提取二元和三元短语。在提取短语之后，组成短语的单词被从Gensim Phraser中提取的短语替换执行以下步骤来计算短语嵌入：a) 从tweet中提取短语。b) 对于每个短语，从Word2Vec模型中提取嵌入c) 计算短语嵌入的总和来表示推文。ghttps://dumps.wikimedia.org/urwiki/20160501/urwiki-20160501-pages-articles-multistream.xml.bz2表1给出了一个带有和不带有短语的tweet示例。用下划线（_）连接的单词表示短语或复合词。4.3.5. 文档嵌入使用Gensim Doc2Vec模块i训练Doc2Vec模型。该模型在包含328，388条乌尔都语推文的语料库上进行训练。在Doc2Vec模型的训练期间，维度的数量被设置为100，上下文窗口大小被设置为3.经过一系列实验确定了维度和上下文窗口大小的选定值。4.4. 聚类在特征提取之后，下面的聚类和主题建模算法被应用于对相似的推文进行分组。a. K-Means：使用K-Means的sklearn实现，同时将聚类数设置为数据集中真实标签的总数b. Bisecting K-Means：该算法是用Python语言实现的。簇的数量被设置为数据集中真实标记的总数。c. Affinity Propagation：Affinity Propagation不需要预先指定簇的数量。本文使用了Affinity Propagation的sklearn实现。d. 使用LDA的主题建模：潜在狄利克雷分配（LDA）用于发现数据集描述的潜在主题。主题的数量被设置为数据集中真实标签的总数。4.5. 评价在这项工作中使用了以下评估指标来确定集群的质量。4.5.1. 纯度纯度是簇质量的外部评价标准（Amigó等人，2009年）。它被定义为被正确分类的对象（数据点）纯度：1X最大值：100%哪里N是数据点的总数，C是聚类的数量，D是类的数量，Ci是属于聚类i的数据点的集合，Dj是属于类j的数据点的集合https://radimrehurek.com/gensim/models/phrases.htmlihttps://radimrehurek.com/gensim/models/doc2vec.htmlZ. Nasim，S.Haider/ Journal of King Saud University2175XXð ; Þ ¼图二. 使用维基百科转储的单词相似度结果。图三. 单词相似度结果来自使用twitter dump训练的Word2Vec模型。4.5.2. 调整互信息调整后的互信息（AMI ）（Vinh等人， 2010）是对互信息（MI）分数的调整。互信息度量数据集标签之间的相似性其计算方法如下：当产生大量簇时，无论质量是否良好，MI都较高。AMI旨在克服MI的这一局限性。它返回一个介于0和1之间的实值浮点数。值为1表示聚类产生与真实聚类标签匹配的完美聚类，而值为0表示随机分区。越高jUjjV j密耳i-1第1页jUi\VjjNNjUi\VjjjUijjVjjAMI评分越高，聚类结果越好。AMI计算如下其中U和V分别指真实标签和预测的聚类标签。AMIUV½MIU;V-EMIU;V]半avgHU;HV-EMIU;V]ð3Þ日志ð2Þ2176Z. Nasim，S.Haider/ Journal of King Saud University.卢恩¼表1从Tweet中提取短语。其中H是熵函数，E是聚类U和V的预期相互信息。4.5.3. 调整后的兰德指数Rand Index（RI）度量真实聚类标签和预测聚类标签之间的相似性兰德指数的计算方法如下：表2数据集分布。RandIndex其中，a2ð4Þ上述分布表明，数据集中占主导地位的主题标签是_。在这个标签下，大多数人都发了诗歌。图图4显示了n是聚类中的元素的数量A是指在真实聚类和预测聚类中处于相同聚类中的元素的数量。b是指在真实聚类和预测聚类中处于不同聚类中的元素的数量。调整后的兰特指数（ARI）（Hubert和Arabie，1985年）考虑到兰特指数的调整，计算如下。标签5.2. 特征提取在如第4.2中所述对推文进行预处理之后，从数据集中提取基于TF-IDF和嵌入的特征下面提供更详细的描述5.2.1. TF-IDF矩阵使用sklearnARIRI-ExpectedRI最大RI-期望RIð5ÞjTF-IDF模块。用31,624个词来表示特征矩阵的维数。表3列出了每种语言的前十个单词ARI输出0到1之间的值，其中0表示随机标记，1表示真实和预测聚类之间的完美匹配。5. 实验和结果本节描述了所提出的方法在选定数据集上的应用在描述了数据集之后，本节分析了不同特征提取机制（包括特定领域的词嵌入）对聚类算法性能的影响。5.1. 数据集该数据集包含2363条用乌尔都语脚本编写的推文。为了评估所提出的方法，tweets为此选择了六个标签文档集群5.2.2. 词嵌入如第4.3.2节所述，训练了两个Word2Vec模型。一个是在乌尔都语维基百科语料库上训练的，而另一个是在推特上训练的。在特征提取阶段，通过对句子嵌入应用K-Means并比较其纯度分数，对所选Twitter数据集评估了两种Word 2 Vec模型的影响。图 5显示了评估结果。如图所示，与从维基百科提取的嵌入相比，使用从推文提取的句子嵌入执行的聚类产生更高的因此，可以说，乌尔都语的特定领域嵌入比通用嵌入表现得更好。经过初步评估后，从Twitter Word2Vec模型中提取了单词嵌入特征，包括短语嵌入，句子嵌入和文档嵌入这些实验;他们在语料库中的分布显示在表2.jhttps://scikit-learn.org/stable/S. 没有Hashtag集群分布1.ﺑﺰﻡ_ﺷﺎﻋﺮﯼ#第112902.#Avenfield参考第25133.#PTI100天日程第3934.#选举巴基斯坦2018第42365.2018年独立日第51406.#APSPeshawar第691Z. Nasim，S.Haider/ Journal of King Saud University2177见图4。标签分布的图形表示。表3根据TF-IDF得分排名的频繁单词。S. 没有第1第2第3第4第5第61.ﺑﺰﻡﻓﯿﺼﻠﮧﺧﺎﻥﻭﻭﭦﭘﺎﮐﺴﺘﺎﻥﺩﺳﻤﺒﺮ2.ﺷﺎﻋﺮﯼﻧﻮﺍﺯﻋﻤﺮﺍﻥﭘﺎﮐﺴﺘﺎﻥﺁﺯﺍﺩﯼﻣﺎﮞ3.ﺑﺰﻡﺷﺎﻋﺮﯼﺳﺎﻝﻋﻤﺮﺍﻥﺧﺎﻥﺧﺎﻥﻣﺒﺎﺭﮎﺳﮑﻮﻝ4.ﻣﺤﺒﺖﺷﺮﯾﻒﺩﻥﻋﻤﺮﺍﻥﺁﺯﺍﺩﯼﻣﺒﺎﺭﮎﺍﺗﻮﺍﺭ5.ﺑﺰﻡﻣﺤﺒﺖﺟﺞﺣﮑﻮﻣﺖﻋﻤﺮﺍﻥﺧﺎﻥﺟﺸﻦﺑﮭﻮﻟﮯ6.ﺩﻝﻧﻮﺍﺯﺷﺮﯾﻒﮐﺮﻭﮌﺷﯿﺮﻭﻃﻦﮐﺎﺵ7.ﺷﺎﻋﺮﯼﺑﺰﻡﺟﯿﻞﭘﯽﻋﺰﺕﺟﺸﻦﺁﺯﺍﺩﯼﮨﻤﯿﮟ8.ﺳﻔﺮﺳﺰﺍﻧﻮﮐﺮﯾﺎﮞﭘﯽﺯﻧﺪﮦﺑﭽﮯ9.ﺳﻮﭺﺑﺸﯿﺮﺗﺒﺪﯾﻠﯽﮐﭙﺘﺎﻥﭘﺎﮐﺴﺘﺎﻥﺯﻧﺪﮦﭘﮭﻮﻟﻮﮞ10.ﺳﻮﭺﺳﻔﺮﺍﺏﺧﺎﻥﺻﺎﺣﺐﻟﺒﯿﮏﺑﺎﺩﭘﺸﺎﻭﺭ图五. Word2Vec模型之间的比较。表4显示了六个集群中每个集群的前十个常用短语。5.3. 聚类Means和Affinity Propagation聚类算法以及基于LDA的主题建模算法。LDA中的主题数量被设置为6个，模型被训练了10遍。在执行过程中使用了Gensim库kLDA返回概率分布在提取TF-IDF和基于词嵌入的特征向量后，tures，所提出的方法应用K均值，平分K-khttps://radimrehurek.com/gensim/models/ldamodel.html2178Z. Nasim，S.Haider/ Journal of King Saud University表4常用短语。S.No第1第2第3第4第5第61.联系我们ﻓﯿﺼﻠﮧ联系我们_联系我们ﻭﻭﭦﭘﺎﮐﺴﺘﺎﻥﺩﺳﻤﺒﺮ2.联系我们ﻧﻮﺍﺯﺩﻥﻋﺰﺕﺁﺯﺍﺩﯼﻣﺎﮞ3.ﺩﻝﺳﺰﺍﺣﮑﻮﻣﺖﭘﺎﮐﺴﺘﺎﻥ联系我们ﻣﭩﯽ4.ﺳﻔﺮﺟﯿﻞ联系我们ﺷﯿﺮﺧﺪﺍﺑﺮﺳﯽ5.ﻣﺤﺒﺖﻓﯿﺼﻠﮯﺗﺒﺪﯾﻠﯽ联系我们_联系我们联系我们ﮐﺎﺵ6.ﺑﺎﺕ联系我们_联系我们ﺧﺎﻥﺣﮑﻮﻣﺖﺍﺭﺽﺧﻮﻥ7.ﺳﻮﭺﺑﺠﮯﻗﻮﻡﮈﺍﮐﭩﺮ_ﻃﺎﮨﺮ_ﺍﻟﻘﺎﺩﺭﯼﻭﻃﻦ联系我们8.ﯾﺎﺩ联系我们联系我们_联系我们ﺧﺎﻥ联系我们联系我们_联系我们9.联系我们_联系我们_联系我们ﺁﺝﺟﮭﻮﭦ联系我们_联系我们ﭘﺮﭼﻢﺷﮩﺪﺍﺀ10.ﺷﺎﻋﺮﯼﺟﺞﻣﻠﮏﺗﺒﺪﯾﻠﯽﺷﮑﺮﺩﻥ表5评价结果。S.No特征提取聚类算法纯度AMIAri1TF-IDFK-Means0.7840.5500.680对分K均值0.7400.3700.270仿射传播0.5800.0400.0202句子嵌入K-Means0.7760.3730.400对分K均值0.7400.3600.590仿射传播0.8300.1700.0303短语嵌入K-Means0.7600.3400.364对分K均值0.7400.3760.540仿射传播0.8130.1510.0304文档嵌入K-Means0.6540.1700.090对分K均值0.6600.1700.180仿射传播0.6700.0700.0105LDALDA0.5700.0800.140在将每个主题分配给文档的过程中，LDA预测的具有最高概率的主题被考虑用于聚类标签的最终表5显示了使用纯度、调整后的随机指数（ARI）和调整后的互信息（AMI）测量进行评估时各种聚类算法的性能。如表中所示，使用K-Means算法对TF-IDF特征执行的聚类产生的结果优于其他方案。亲和传播算法在句子嵌入上获得了最高的纯度分数。然而，这导致了大量的许多簇只包含一些tweet。当使用纯度度量进行评估时，潜在狄利克雷分配（LDA）与K均值、平分K均值和亲和传播算法相比表现最差。正如文献调查中所讨论的，LDA在较短长度的文本中表现不佳。这导致了主题的重叠。尽管也应用了主题标签池化技术，如Mehrotra等人，2013），未发现显著改善。6. 讨论结果表明，TF-IDF为基础的特征提取技术结合K-Means算法产生了最好的结果时，使用AMI和ARI分数进行评估。在为英语所做的类似工作中（Curiskis等人， 2019），Doc 2 Vec模型结合K-Means算法对于短文本的聚类效果最好。研究还表明，Doc2Vec模型在超过3000个文档的大型语料库上训练时表现良好。尽管Doc 2 Vec模型在本研究中也在足够大的语料库上进行了训练，但与传统的基于TF-IDF的特征相比，Doc 2 Vec模型产生的聚类结果并不好。另一个有趣的发现是，LDA主题建模技术通常对内容丰富的文档效果更好，但对乌尔都语tweets聚类效果不佳。这也与（Ottesen etal.， 2017），其中作者得出结论，由于文档的稀疏性，传统的主题建模技术在短文本上表现不佳。此外，这项研究显示了在Twitter语料库上训练的词嵌入对乌尔都语推文聚类的影响和有用性。我们相信这是用于训练Word2Vec模型的第一个最大的乌尔都语推文语料库。（Nooralahzadeh等人，2019）也讨论了他们在英语语言方面的工作中的类似发现。他们从石油和天然气领域可用的文本语料库中训练了 Word2Vec 模型。除了 TwitterWord2Vec模型，我们提出的模型还包括一般领域词嵌入。在乌尔都语语言处理中，这一有趣的发现为构建包括新闻、健康、教育和金融在内的各个领域的特定领域嵌入提供了研究机会。总之，本文揭示了以下发现。a. 基于TF-IDF的特征提取技术比句子嵌入、短语嵌入和文档嵌入产生b. 与LDA相比，K-Means和其他聚类算法在短长度的乌尔都语文本中表现更好c. 从特定领域的乌尔都语语料库中获得的词嵌入比通用嵌入产生更好的结果。7. 结论本文采用了各种聚类技术乌尔都语推文。提出了一种基于短语嵌入的聚类方法结果表明，聚类结果表明，Z. Nasim，S.Haider/ Journal of King Saud University2179使用K-Means算法优于二等分K-Means和仿射传播方法以及传统的主题建模技术。研究还发现，基于TF-IDF的特征提取比基于词嵌入的特征提取更有用。词嵌入的实验评估也表明，特定领域的词嵌入是更有用的相比，通用的词嵌入。计划今后对这项研究进行若干改进首先，使用特定领域词嵌入的想法可以应用于Twitter以外的各种领域，例如乌尔都语新闻和产品评论语料库。其次，将探索基于深度学习的聚类技术，并将其添加到当前的方法中。最后，我们计划试验其他最先进的基于上下文的嵌入技术。竞争利益作者声明，他们没有已知的竞争性财务利益或个人关系，可能会影响本文报告的工作。引用Amigó，E.，Gonzalo，J.，Artiles，J.，Verdejo，F.，2009.基于形式约束的外部聚类评价指标比较。Inf. Retr.波士顿https://doi.org/10.1007/s10791-008-9066-8网站。阿林岛，Erpam，M.K.，Saygın，Y.，2018年I-TWEC：Twitter的交互式集群工具专家系统应用96，1-13。https://doi.org/10.1016/j.eswa.2017.11.055网站。Basit，R.H.，阿斯拉姆，M.，Martinez-Enriquez，上午，Syed，A.Z.，2017年。乌尔都语文档的语义pp. 234-243。Blei，D.M.，Ng，A.Y.，乔丹，MI，2003年。潜Dirichlet分配J. 马赫学习. Res.3，993Curiskis，S.A.，Drake，B.，T.R.奥斯本肯尼迪，P.J.，2019年。两个在线社交网络：Twitter和Reddit中的文档聚类和主题建模的评估。信息流程经理。Daud，A.，Khan，W.，切，D.，2017年。乌尔都语处理：一项调查。第内特尔Rev. 47，279Dhingra，B.，周志，Fitzpatrick，D.，Muehl，M.，科恩，W. W.，2016. Tweet2vec：社交媒体的分布式表示。arXiv准备arXiv1605.03481.Dueck，D.，Frey，B.J.，2007.无监督图像分类的非度量亲和传播，在：IEEE计算机视觉国际会议论文集。https://doi.org/10.1109/ICCV.2007.4408853Fraj，M.，Hajkacem，文学硕士Ben，Mr. Joussi，N. 2018.一种新的使用词嵌入的推文聚类方法，在：2018 IEEE/ACS第15届计算机系统和应用国际会议（AICCSA）。pp.1-7号。Geman，S.，Geman，D.，1984.随机松弛，吉布斯分布，和图像的贝叶斯恢复。IEEE传输模式分析马赫内特尔https://doi.org/10.1109/TPAMI.1984.4767596休伯特湖，Arabie，P.，1985.正在比较分区。J.Classif.https://doi.org/10.1007/www.example.comKim，S.，Jeon，S.，金，J.，Y-帕克H、余，H.，2012年。寻找核心主题：基于tweet聚类的主题提取，2012年第二届云计算和绿色计算国际会议。pp. 777-782Liang，S.，（1996），中国科学院，Yilmaz，E.，Kanoulas，E.，2016.流短文档的动态聚类，在：第22届ACM SIGKDD知识发现和数据挖掘国际会议

下载后可阅读完整内容，剩余1页未读，立即下载