基于印地语停用词的文本挖掘模型性能评估

195 浏览量更新于2024-01-18 收藏 2.7MB PDF 举报

学术期刊

文本挖掘

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

沙特国王大学学报基于印地语停用词列表的文本挖掘模型性能评估鲁比·拉尼·巴特尔，D.K.洛比亚尔印度新德里贾瓦哈拉尔·尼赫鲁大学计算机与系统科学学院阿提奇莱因福奥文章历史记录：收到2019年2020年2月23日修订2020年3月4日接受2020年3月12日在线提供关键词：停用词印地语文本分类文本聚类主题建模A B S T R A C T如今，一些新闻门户网站，政府网站和社交媒体网站正在生成大量的数字化印地语文本信息。停用词删除是文本挖掘任务中的一个重要因素，可以帮助矿工提高系统的性能。本文尝试使用统计和基于知识的方法构建印地语文本文档的语料库特定停用词列表。为了准备停用词列表，所提出的方法考虑了由不同方法给出的词的排名，然后使用基于社会选择理论的投票排名方法对这些方法的结果进行归一化。此外，我们提出了一个评估方法来评估准备停用词列表，并调查他们的行为，使用文本挖掘模型。我们还比较了我们准备好的停用词列表与基线，并得出结论，提取最佳功能的技术不一定能识别候选停用词。据我们所知，所提出的方法保证了候选停止词的删除，并具有最小的信息耗散。©2020作者由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。1. 介绍最近，包括社交网站、政府网站和博客在内的多个网站生成的数字印地语文本数据呈指数级增长，改善了用户对互联网平台的使用（Gulati和Sawarkar，2020年）。现在，在机器翻译领域中存在若干基于印地语文本的应用（Singh等人，2017），信息检索（Kumar等人，2019），文本摘要（Verma等人，2019年），命名实体识别（托马斯和桑吉塔，2019年），以及其他语言学观点。存在将印地语文档的提取文本分类为预定义的高质量信息、将长文本片段缩短为短信息数据以及将文本从一种语言翻译为另一种语言的广泛范围。一般来说，在处理文本时，我们会遇到几个词，包括指称性的引用或对文档语义的影响，即所谓的停用词。*通讯作者。电子邮件地址：ruby73_scs@jnu.ac.in（R. Rani），dkl@jnu.ac.in（D.K.Lobiyal）。沙特国王大学负责同行审查停用词没有辨别力，预测能力也最低。它有两种类型：通用停用词和领域专用停用词。通用停用词是帮助句子形成并且没有独立意义的语法词（Petras等人，2003年）。这些词被认为是标准的停用词，在各类文件中大部分都有 .目前，许多从事自然语言处理（NLP）和文本挖掘的研究人员和学者经常遇到这些词（Choy，2012）。另一方面，在特定领域的文档中，识别力很小的词被称为特定领域停用词。这些词根据文档的领域从一个文档到另一个文档而变化（Sinka和Corne，2003）。例如，“演讲”这个词在政治中可能是一个停止词，但在计算机科学中却是一个重要的与通用停止词一样，特定于域的停止词也取决于文档的稀疏性、词汇量大小和一个域中存在的子域的数量。已经构建了一些特定领域的停用词列表，包括人力资源、基因本体、物理学、生物信息学和历史等领域（Crow和DeSanto，2004; Seki和Mostafa，2005）。不管通用和域的不同性质具体到停用词，根据停用词在不同领域的应用情况，停用词去除有其优缺点。在文本挖掘过程中去除停用词的优点是减少了文本文档的维度（Ricardo和Modern，https://doi.org/10.1016/j.jksuci.2020.03.0031319-1578/©2020作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。制作和主办：Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.com2772河Rani，D.K. Lobiyal/沙特国王大学学报-计算机与信息科学34（2022）2771- 27861999），将词汇表的大小减少到40%，减少存储器开销，减少噪声和误报，并提高系统的性能。例如，假设我们搜索一个查询，例如，‘‘在任何搜索引擎上，样本空间为N个网页。如果搜索引擎希望搜索包含“什么”，“是”，“的”，“好处”，“的”，“停用词”，“删除”在“文本”中的网页搜索引擎将在O（N10）的时间内搜索网页。这些页面还包含单词然而，如果我们通过减少这些词来搜索查询，搜索引擎可以提取出涉及“ 时间复杂度为O（N）。这些常用的词，通常被称为停用词，在文本挖掘中的重要性可以忽略不计，因此从文本文档中删除它们将使查询变得简单。因此，停用词删除的主要好处是改善系统性能方面的内存减少和节省处理时间在索引和搜索分别。有时，减少用户查询、通用文档和标记文本文档中的停用词会删除语义上重要的术语，从而损害IR模型的实现。这些有意义的术语包括缩写和符号（Song等人， 2005年）。此外，在情感分析中，术语因此，研究人员应该仔细考虑如何删除停用词（Escheroff，1995;Forman，2003）。1.1.动机和贡献从第二节讨论的文献调查中，我们观察到已经为英语、俄语、阿拉伯语和汉语准备了几个停用词列表。据发现，全世界有近3.41亿以印地语为母语的人会说和理解印地语（MendoMehran，2019）。目前，许多行业和学者正在各种文本挖掘领域中研究印地语文本，例如情感分析（Joshi等人，2016; Akhtar等人， 2016），文本聚类（Jain等人，2016; Tayal等人，2015）、文档摘要（Kumar等人，2015; Kumar等人，2015），文本分类（Harikrishna和Rao，2015）和实体提取（Thomas和Sangeetha，2019; Singh等人，2018; Rao等人，2015年）。几种外语基于齐普夫定律构建停用词列表（Zipf，1995年;Forman，2003年; Joshi等人，2019年）。2016; Jain等人，2016;Zipf，1932）。根据齐普夫定律（Zipf虽然，据报道，这种观察并不适合在一些实时应用程序，其中的文档不是均匀分布在类别。因此，在印地语中，不同类别的文件的不平等分布限制了Zipf没有这样的特定于域的停用词列表可用于印地语文本文档。在（Jha等人，2016年;Pandey和Siddiqui，2009; Rani和Lobiyal，2018），一些通用的停止词列表是可用的，但它们不适合特定领域的文本挖掘任务。在过去的十年里，邹等（2006）提出了四种汉语通用停用词的准备方法。然而，他们没有评估他们的禁用词列表。因此，印地语停用词列表的不可用性和邹等人（2006）的方法促使我们构建印地语停用词列表。在本文中，我们借用了邹等人的概念。（ 2006年）为了解决印地语的问题，我们采取了一种方法。此外，本文的工作还具有以下贡献.⬛ 我们为印地语准备了实时的特定于领域的数据集，在那里我们从不同的网络源（如在线网站，新闻门户和博客）收集了各个领域的真实数据我们认为印度语言（IL）爬虫和IL-Sanitizer作为软件工具，分别抓取和消毒的数据集⬛ 我们使用改进的传统统计技术和基于知识模型的技术等排序方法，在经过消毒的标注语料库上自动构建基于领域的停用词列表⬛ 我们还使用基于社会选择理论的投票方法来稳定不同排名措施的结果，以输出标准化的禁用词列表。⬛ 此外，我们提出了一个新的网络排名性能评估（NRPE）的方法，评估基于域以及规范化的停用词列表，并检查他们的排名。NRPE从所提出的基于域和归一化的停用词列表中提取术语，然后基于K-最近邻（KNN）分类器、K-均值聚类和潜在狄利克雷分配（LDA）主题建模方法的性能来评估准备好的停用词列表。它还验证了基于语料库以及规范化的停用词列表的强度，以确定该术语是特征术语还是停用词。⬛ 此外，我们使用建议的NRPE方法来评估基线方法，并将它们与准备好的停止词列表进行比较。性能分析表明，拟议的基于域的自动停用词列表几乎涵盖了当前可用在线列表中的所有停用词（Taranjeet，2018; Ranks，2018; GitHub，0000）。⬛ 实验部分说明了从文本文档中去除提议的停用词列表对文本分类、文本聚类和主题建模模型的性能增强具有显著影响其余的文件安排如下。在第二节中，我们给出了相关的工作。第三讨论了背景。第4解释了建议的基于域的自动停止列表配置。在第五节中，我们提出了一种新的性能评估方法。第6节给出了实验结果和讨论。结论和未来的工作在第7中给出。2. 相关工作本节简要介绍了英语、网络语言、非英语和印地语禁用词列表构建方法的文献综述。传统的停用词列表。1957年，H.P. Luhn（Luhn，1957）讨论了停用词的概念，他基于统计概率来研究文本文档。在方法（卢恩，1957年），作者解决的水平，主题的具体性和那些话，传达最多的意义。1979年，Van Rijsbergen（Van Rijsbergen，1986）首先提出了一种用于英语的停用词抽取方法，它是最适合用于自然语言处理和信息检索等应用的停用词列表之一。后来，Fox（Fox，1992）为英语语言准备了最可采用的停止词列表，其中讨论了用于信息检索的词法分析器和停止词列表的设计和实现Fox（Fox，1992）发现，将停用词列表与词法分析器合并是构造停用词列表的有效方法Franciset al.（Francis and Kucera，1982）以类似的方式为英语准备了425 个停用词列表。在（ Makenchi 和 Kamel ， 2008 年）中，Makenchi等人讨论了从标注语料库中抽取基于领域的停用词列表的问题，其中作者考虑了后向搜索的思想，-R. Rani，D.K. Lobiyal/Journal of King Saud University- Computer and Information Sciences 34（2022）2771-27862773ward 滤波器级性能和训练数据的稀疏性来提取停用词。虽然，（Makenchi和Kamel，2008）中给出的停用词提取是基于文档频率的，并且使用称为后向过滤器级性能方法的传统方法来评估它们的排名。最近， Makalichi 等人（Makalichi 和 Kamel ，2017 ）扩展了（Makalichi和Kamel，2008）中给出的工作。White等人（White等人，2007）建立了一个包含36，000个英语产品的语料库，并在语言学分析的基础上构建了一个基于领域的停用词列表。在（Crow和DeSanto，2004; Seki和Mostafa，2005）中，作者手动创建了不同领域（如物理学、生物信息学和人力资源管理）的停用词列表。基于Web的停用词列表。Sinka等人（Sinka等人，2003）使用非监督方法生成基于web的文档的停用词列表，即，字熵，然后他们评估的名单，通过网络聚类方案。在（Sinka和Corne，2003）中，Sinka等人优化了（Sinka等人，2003）使用随机搜索算法和k均值聚类。在（Kawahara和Kawano，2001）中，Kawahara等人提出了一种基于受试者操作特征（ROC）分析的关联方法，用于生成停用词列表。非英语停用词列表。除英语外，还发布了其他语言的停用词列表，包括俄语（Petras 等人， 2003 ）、阿拉伯语（El-Khair，2006）和波斯语（Taghva等人，2004年）。Zou等人（Zou等人，2006年）构建了两个列表的停用词的中文，语言的基础上统计和知识为基础的模型。Hao等人开发了另一个汉语停用词列表（Hao和Hao，2008），该列表基于加权卡方方法。印地语停用词列表。最近，论文（Harikrishna和Rao，2015）;（ White 等人， 2007 ）讨论了社交网络工具（如 Facebook ，Twitter，聊天应用程序和电子邮件）的结果。印地语的一些停用词列表也已在（Jha et al.，2016;Pandey和Siddiqui，2009; Singh和Siddiqui，2012）;（Sharma和Namita Mittal，2019）。最近，Rani et al.（Rani和Lobiyal，2018; Rani和Lobiyal，2018）分别讨论了通用停用词列表和特定领域停用词列表。在本文中，我们扩展（Rani和 Lobiyal ，2018 ），通过采用Zou 等人（Zou 等人，2006），并使用文本挖掘和机器学习模型评估其性能。3. 背景在本节中，我们讨论了用于印地语语料库创建的软件工具的简明大纲，用于文本收集的在线印地语网络资源，印地语语料库的准备方法和创建的语料库的特点。3.1. 软件工具在这里，我们简要介绍了印度语言爬虫（IL-爬虫）和消毒（IL-消毒）工具，以及这些工具在自动爬行和清理巨大规模的功能从不同的网络来源的语料库。印度语言爬虫：计算语言学研发小组在印度尼赫鲁大学实现了印度语言爬虫工具。它是网络爬虫的一个变体，可以从不同的网站浏览和提取印度语言的有用信息，如孟加拉语，Bhojpuri，印地语，Odia，Urdu和Maithili在抓取过程中，它避免了无用的数据，如广告和促销内容。基于网页的结构，它使用深度优先搜索或广度优先搜索方法来抓取数据（Choudhary和Jha，2011）。印度语言消毒器：印度语言消毒器，一个更清晰的工具，从语料库中分离出不需要的、多余的或刺耳例如，它会删除顶级网页的标题，如教育，体育，新闻，日期和作者姓名。此外，它还创建了包含有价值信息的系统文件，可用于服务于各个领域，例如文本挖掘，信息检索和NLP任务（Choudhary和Jha，2011）。3.2. 博尔达Borda在这个一个赢家选举方案中，每个选民根据他对候选日期的不同偏好投票。例如，投票人将他的选票“n”投3.3. 支助评价技术在这里，我们讨论了支持评估方法，以验证准备好的停用词列表。为了验证，我们考虑以下三个文本挖掘模型作为外部影响因素：KNN文本分类器，K-Means文本聚类和LDA主题建模。选择这些模型的理由是，这些影响者的准确性受到停用词存在与否的影响。⬛ KNN-Classifier：它是一种文本分类方法，实现简单，需要较少的训练（Guo et al.，2006年）。采用K折交叉验证方法来测量KNN的准确度（Kevin，2019）。⬛ K-Means聚类：它是一种文档聚类分析方法，对噪声非常敏感，例如不相关的术语（停止词）。我们考虑肘曲线来找到最佳的聚类数量，并将精确度，召回率和F-Score作为准确性度量（维基百科，2019）。⬛ LDA-Topic Modeling：这是文本挖掘中的一种统计方法，用于从文档中发现高度依赖于数据性质的隐藏主题模式。一般来说，LDA从没有停止词的数据中找到定性主题（Blei，2012）。此外，主题模式（主题）的质量由对数困惑度决定。对数困惑度是一种度量，用于捕获模型在基于分配的概率预测有用信息时的“不确定性”。较低的困惑值意味着模型在预测中的不确定性较小（Benjamin，2018）。4. 停用词列表在本节中，我们通过调整排名措施（如传统的统计和基于知识的方法）来准备印地语的停用词列表每种排名方法都会产生不同的结果。为了获得最终的停用词列表，我们使用以下方法对从所有列表中准备的总体结果进行规范化：R.B. Myerson4.1. 符号和缩写表1描述了本文中使用的符号和缩写。第一部分：日本语第1页ij¼1;2774河Rani，D.K. Lobiyal/沙特国王大学学报-计算机与信息科学34（2022）2771- 2786表1表示和说明。表示插图T不重复项Y语料库中的文件总数wi文件中的第i项，1≤i≤ TDj语料库中的第j个文件，1≤ j≤ Y||文件D中的术语总数||Total count of terms in file D第i项的平均概率TFi;j术语-第j个文件中第i个术语的第i项的方差概率MVRwi第i项的均值方差比第i项的平均绝对偏差概率第i项的平均离差比第i个词的熵4.2. 拟议的排名措施4.2.1. 统计模型在这里，我们通过调整数字来构建停用词列表-4.2.2. 知识熵模型在印地语中，有一些常见的字符，如“”，“”和“”，而有些很少使用，“”，“”和“”。即将在编码字符串中使用的印地语字符的随机性使得文本挖掘的任务更加困难。克劳德·E. Shannon（Shannon，1948）指出熵是系统随机性的一种表达，在信息论中起着重要的作用。我们假设印地语单词在我们准备的数据集中的分布是香农通道，其中只有最高的信息（特征项）可以通过过滤通道中的噪声（停止词）通过通道。根据这一理论，在文本挖掘应用中，如IR、NLP和语言学应用，文档中可用的停用词的数量越多，文本挖掘系统的效率就越低，反之亦然（Kantor和Lee，1986）。受印地语语料库随机性的启发，本文基于词（项）的熵对语料库进行评价，简称为“项熵”（TE）。现在，我们根据词频TFi;j定义单词wi由方程式（六）、现有的统计技术。从统计学上讲，一些研究人员认为，一个术语的重要性可以通过它们在文档中的频率来定义，我们称之为术语频率（TF）。该论文（香农，1948年）提取噪声的基础上，他们的话TEwXjYTFi;j1×logTFi jð6Þ文件中的频率。Kantor和Lee在1986年的论文中指出，高频词与停用词相关，但这一规则并不适用于所有情况。受Shannon（1948）和Kantor and Lee（1986）的启发，我们通过调整五种传统的统计技术：对数传递函数的平均值（MLT）、对数传递函数的方差（Var）、平均方差比（MVR）、平均绝对偏差（MAD）和平均绝对偏差比（MDR），编制了一个印地语停用词表。● Log-TF的平均值（MLT）：统计平均值的变体，MLT计算每个词wi的值是所有文件中的词wi的聚合归一化TF与数据集中的文档总数“Y”的比率（一）.j Pj<$YLo ge.TFijY4.3. 排名的选举投票方法从以往的统计和基于知识的方法构建的停用词列表中可以观察到，每种技术产生的结果词的排名顺序不同。把一个技术人员准备的停用词列表当作标准列表不是一个好主意。在这里，我们对所有列表进行标准化，以获得最终的无偏停用词列表。Borda 计数方法（Myerson，2013; Myerson，1996）在第3.2中解释，用于从所有列表中获得规范化列表，并给出最终的停用词列表。正如我们在表2中所看到的，前10个术语通过不同的技术按升序排列我们假设每种方法都是投票者，单词是候选者，而分配给单词的排名是由特定的统计和基于知识的排名分配用言语来衡量最后计算出最终的排序中文（简体）第1页ð1Þ使用Borda每种技术赋予它的权重和最后一站● Log-TF的方差（Var）： Var测量单词的位移wi在文档Dj中从MLT值，并提供了稳定的单词的分布，如公式中所定义的。（二）、PjYMLTwi-TFij2通过设置阈值约束来准备单词列表。例如：如果单词'calling'（and）在构造的停止列表中被MLT排名'1 0，而被TE排名'2 0。因此，最后给单词“”（和）的等级是3。IY5. 拟议的业绩评价方法均值-方差比（MVR）：MVR使用等式计算MLT和Var值的比值。（三）众所周知，文本模型的性能可能由停用词的存在或不存在来定义。的MVR带阀MLT带阀ð3Þ这些停用词列表的有效性是通过测量每个我是瓦鲁维平均绝对偏差（MAD）：MAD是数据值与其中心值的绝对偏差的平均值。它是原始平均绝对偏差法的一个微小变体它由Eq.（四）、Pj<$YjMLTwi-TFijjY信息挖掘系统。Makenchi和Kamel（2017）在他们的论文中，使用文本分类方法测量了他们的pre-stopwords列表性能。尽管如此，文本分类器（Rocchio分类器）并没有给出更好的结果，因为它对噪声敏感，并且尽可能昂贵。在本文中，我们使用三个性能测量模型，即，K-最近邻（KNN）分类器，K-均值聚类和潜在狄利克雷分配（LDA）主题建模，以评估准备停用词列表。平均绝对偏差比（MDR）：在MDR中，MLT和MAD之间的比值使用公式计算。（五）、MDR，带MLT，带1/5我的疯狂5.1. 净值排名绩效评价假设我们有两个列表，比如SX^fwX1;wX2;···;wXng，表示为技术X的按升序和降序排列的停止词列表●●●ð2ÞMADwið4ÞðÞðÞ¼M=a-¼M=aR. Rani，D.K. Lobiyal/Journal of King Saud University- Computer and Information Sciences 34（2022）2771-27862775表2排名前10位的话排名措施和博达分别令wXi表示技术X中的第i个排名的词w，其中X表示不同的技术，即，MLT、Var、MVR、MAD、MDR、TE和Borda计数。对于技术X，我们将wX1定义为知识贫乏的词（停用词），将wXn定义为知识丰富的词（特征）。我们通过应用最佳m规则根据单词的排名来选择单词，其中前m个单词被省略，其余的单词被保留。我们认为a是接近m值的带大小，m值被称为阈值。词被认为是特征词。该方法使用Prf函数计算特征词列表的性能，该函数评估特定影响者模型在给定频带大小上的准确性。例如，精度被认为是K均值聚类的准确性度量。最后，该方法计算了每个排名措施的组合领先带（CLBX）NRPE类似地，算法2计算每个排序度量的组合拖尾带（CTBX）NRPE在算法2中，方法计算特征词列表的性能，算法1.领先净排名绩效评估（L-NRPE）输入：给定n个单词（数据集中的单词数）输出：针对不同的绩效指标模型，以领先的方式给出组合净排名绩效评估。1. 从S X中省略前m个字，其中m ≤ n。2. 从S X输入} n-m}个剩余单词作为特征。Prf，它还评估所使用的文本挖掘影响者方法的准确性。最后，该方法计算了每个排序测量的组合拖尾带（CTBX）NRPE。表6显示了CLB和CTB在不同排名技术曲线上与不同外部文本挖掘影响者的性能区域，如第3.3所述。算法2.后净排名绩效评估（T-NRPE）3. 对每个性能度量模型重复上述步骤4.I = a5.CLBX06.While（i =m）7.CLBX¼CLBXPrfSXn-SXa8.i = i + d9.End while10. 结束foreach在选取富M知识词和贫M知识词的基础上，建立了两种不同的性能评价方法第一种方法被称为引导-NRPE，其基于从词汇表SX中选择M-丰富的知识词来评估性能，另一种方法被称为尾随- NRPE，其作用于词汇表TX中的M-贫乏的知识词。具有不同级别的带（在建议的停用词列表上定义）的三个文本挖掘影响者的最终性能被称为网络排名性能评估（NRPE）。NRPE实现了两个目标建议NRPE提取不同的文本挖掘模型的特征项，然后评估和验证的基础上的分类器，聚类和主题建模的性能准备停止词列表。它还验证了基于域的以及规范化的停用词列表的强度，以确定该术语是特征术语还是停用词。在模拟中，我们假设列表SX和TX的阈值m = 1000个字，并且带大小a = 100个字。假设d = 100是递增因子，其被定义为两个带大小之间的差，即，d 1/4a2-a1。算法1计算第4.2节中定义的每个排名指标的组合领先带（CLBX）NRPE。在算法1中，该方法从数据集的集合中省略m个单词，并保留输入：给定n个单词（数据集中的单词数）输出：针对不同的绩效衡量模型，以尾随方式给出组合净排名绩效评估。1. 从T X中省略前m个字，其中m ≤ n。2. 输入T X中剩余的}n m}个单词作为特征。3. 对每个性能度量模型重复上述步骤4.I = a5.CTBX06.While（i =m）7.CTBX¼CTBXPrfTXn-TXa8.i = i + d9.End while10. 结束foreach6. 实验结果与讨论6.1. 基准数据集据我们所知，市场上没有足够的真实的特定领域的印地语文本数据。因此，我们首先通过从不同的在线门户网站收集真实世界的数据来准备特定领域的语料库。一些文献收集的门户网站包括收集的数据来自11，000个不同在线网页的4200多篇文章。收集的数据集涵盖四个不同的领域：政治（PL），农业（AG），经济（EC）和娱乐（ENT）。我们在运行于 Intel （ R ） Core （ TM ） i3 3110 M CPU@2.4GHz，64位window10操作系统上的Java 1.2中模拟了实验。统计方法基于知识的方法博达计数法MLTVarMVR疯MDRTE最终排名इस(is)(priyanka)के (ke)(samaachaar)के (ke)के (ke)के (ke)bhee（bhee）बल्(balki)（aur）हु(huee)（kee）मे(mein)है(hain)（par）केष(kshetr)मे(mein)मे(mein)酒店预订（hoteen）है(hai)电子邮件（use）（to）सवाल(savaal)है(hai)（phir）(hauvva)कक(ki)कर(kar)(nahin)日航（JAL）को(ko)中文（简体）को(ko)को(ko)中文（简体）हंैै (hain)中文（简体）（par）（in）कक(ki)中文（简体）ककया(kiya)（yah）जाया(jyaada)कक(ki)刺戳ने(ne)（kee）(hota)谎言（lie）साफ(saaph)का(ka)रहे(rahe)है(hai)का(ka)बात(baat)（aur）जबकक(jabaki)(tatha)电子邮件（use）（par）（par）कयया(diya)हो(ho)उसका(usaka)bhee（bhee）二氢苯并[d]芘का(ka)（yah）करना(karana)2776河Rani，D.K. Lobiyal/沙特国王大学学报-计算机与信息科学34（2022）2771- 2786表3为印地语文本准备的数据集的描述参数项目说明文本文件总数约18，400个文档表4.1前10名Borda农业（AG）经济（EC）娱乐（ENT）政治（PL）输入语料库大小约231 MB, (ke),(of), (ke),(of), (ke),(of)（ke），文档中的平均字数580字，（ki），（of）करना(karana)，（aur），（and）, (mein),(in)，（hai），（is），（ki），（of）（of）भी最大文件大小20 KB最小文件大小6 KBAG，EC，ENT，PLयैु धाची(Dudha¯c¯ı)（牛奶）हाइड् ोमैकट्क, (ki),(of)सकवता(Savita)(Savita), (mein),(in),ैू(parantoo),(but),(aaryabhat),（bhee），（also），（hai），农业领域文件数经济领域文件数娱乐领域政治领域的文件数量整个语料库中的术语数不同术语已爬网文档数-4832，已清理文档数-4329已爬网文档数-5136，已清理文档数-3524已爬网文档数-3523，已清理文档数-2895已爬网文档数-3825，已清理文档数-302163，54，78521,17,208（haidromaitrik）（Hydromatic）水动力学：（riporth）（报告）季风（barakha）（monsoon）季风（jabeen）（jabeen）कवचार(vichaar)(idea)年份：（年份）我知道了，（yojanaavaar），（PlanPeriod）计划期间（vaalen）（Walon）计划期间（Walon），（shikshaavallee），（EducationSchool）教育学校，（Saro），（湖泊）हासै् यसै् पय,(Ha¯syaspada),(funny)（Aryabhatta）मनै् यार,(Manda¯ra),(Malar)एलेकंैे डर(elekjendar)(Alexander),(Sudhakar), (Sudhakar), (edmishan),(Admission),(agraaneet), (Afaritan)（is）ऐसी(aisee),(such),(mein),(in)，（ka），（of）, (se),(from), (ki),(that),(ki),（of）tem，8 GB RAM.首先，我们从众多的网上检索数据，在不同的时间段使用 IL 爬虫的网络来源，例如，从 “NaiDuniaEditorial”网页的URL收集的数据是从2015年9月1日到2019年3月31日。一旦数据被提取，它将被IL消毒工具清理并整理成系统文件。为了解决兼容性问题，我们将文件编码为UTF-8格式。表3总结了本实验中使用的数据集的统计数据。6.2. 对拟议清单在本节中，我们计算了我们准备好的停用词列表在文本分类（KNN），文本聚类（K-Means）和主题建模（LDA主题建模）上的性能。首先，我们构建了特定于域的停用词列表，使用上述排名措施，印地语文本的大型语料库（231 MB）的四个域，包括AG，EC，ENT和PL。其次，我们使用Borda计数方法对准备好的列表进行归一化，以给出最终列表，如第4节所示。实验分两个阶段进行。第三，使用建议的排名措施准备的停用词列表的性能进行评估。第四，将建议的停用词列表与基线方法准备的停用词列表进行比较。在这两种实验中，文本挖掘模型，包括KNN文本分类器，K-Means文本聚类，LDA主题建模已被用作外部影响者的性能评估准备停用词列表。考虑进行比较的基线是无过滤器（无停用词删除），标准停用词列表（排名，2018），TF-IDF（Rajaraman，2011），通用停用列表（Rani和Lobiyal，2018）和高低单词计数（具有最高和最低计数的术语）。现在，我们分别使用算法1和算法2计算使用Borda计数以及领先和训练顺序的统计和基于知识的方法构建的域（AG，EC，ENT，PL）停用词列表表4.1（前导方式）和表4.1（尾随方式）分别给出了由Borda计数方法生成的特定领域（在给定语料库上准备）停用词列表图1-3（表4.2）显示了使用外部影响者（文本挖掘模型）准备的停用词列表的影响6.2.1. 文本分类器本节通过采用外部影响，使用建议的NRPE方法，（ko），（to）encer即，KNN分类器图 1.1说明了本文研究的拟议排名措施的领先NRPE和Netting波段之间的相关性。图1.2说明了建议的排名措施的尾随NRPE和Netting波段之间的相关性。每个图有大约350个实验，包括10个条带，5个k倍交叉验证和7个排名措施。在实验过程中，KNN分类器是由于其简单的实现和易受影响的行为对嘈杂的话。从图1.1中，我们预测波段大小对KNN方法的准确性有相反的影响，也就是说，随着波段大小的增加，该图显示了分类器准确性的一致下降。因此，我们可以说，在MVR方法中排名靠前的术语是停用词。与MVR不同，MLT和TE方法显示了随机行为，因此不像MVR那样可靠。此外，在覆盖面积方面，MVR覆盖的CLB面积最大，而MLT覆盖的面积最小。因此，MVR可以被认为是一种很好的停用词提取方法。从图1.2中，我们观察到，与其他方法相比，MLT方法具有一致的最低精度。因此，MLT不适合停止词提取，相反，它可以被视为同一数据集上的良好特征选择方法。因此，MVR在提取候选停用词方面表现良好。由于MDR和MAD方法的不稳定性，用于提取候选停用词。T-NRPE中组合拖尾带（CTB）下覆盖的较大区域意味着停用词提取中的排名措施的高能力，如表5所示。现在，我们比较建议的排名措施即MLT、var、MVR、MAD、MVR、TE和最终排名，采用考虑的基线方法，例如基线无过滤器、标准列表、TF-IDF、通用列表和以领先和落后方式的高低。图1.3显示了建议的排名措施的领先- NRPE与基线方法的比较。从图中可以看出，MVR和Borda的技术在候选停用词的选择上更有效。传统的TF-IDF技术取得了令人满意的结果，但我们不能得到很好的分类结果，通过考虑传统的列表或通用的停止词列表在给定的数据集。而且，停用词的去除基于其极高和极低的使用频率，不引人注意分类器准确性的显著提高图 1.4恶魔-R. Rani，D.K. Lobiyal/Journal of King Saud University- Computer and Information Sciences 34（2022）2771-27862777表4.2前10名Borda计数排名的话，每个领域的尾随时尚。农业经济娱乐政治, (jaivarasaayanikee),(Biochemistry),(moongadaincha),(Moongdine), (haddeerahit),(Boneless),(kaarbendaajim), (Carbendazim)मैू लै् यव ैान,(Mu¯lyava¯n),(Value),(tilaadee), (Tahadi)किर,(Gira¯vata),(falling), (bhumi),(land), (krshi),(Agriculture),(parivahan),(Transportation)阿克顺，（akshunn），（完好）阿克顺，（Y<$jana<$ka<$ra），（规划师）阿克顺，（badhaayee），（增强）阿克顺，（rakshaamantree），（国防部长）大众汽车（Volkswagen）,(rozagaaronmukh），（job oriented）工作导向的，（acheevament），（achievement）成就,(shikshaakshetr),(study field)कॉैं टैे सै् ट,(Koˇṇṭe¯sṭa),(Contest), (krodhik), (Angry), (Kapila),(Kapila), (kaasheenaath), (Kashinath), (insaaph), (Justice),(jasabeer),(Jasbir)बालमकि,(Ba¯lamaṇi),(Balamani),(futabaal），（足球）आयरैु ै् वैै जै् ञाकनक,(aayurvaigyaanik),(Anaerologist), (panjaabeepeediya),(PanjabiPedia)宗教生活，（dharmajeevan），（ReligionLife）, (eyarabes), (air Base), (naagarik), (Citizen),(pradhaanamantree),(Primeminister), (arthatantr), (Economy), (aatankavaadee), (Terrorist), (votabaink),(votebank), (indiya),(India), (charcha),(Discussion), (hind),(Hind)-, (sapa-kaangres), (SP-Congress)图1.1.使用KNN对整个语料库进行排名测量的领先排名带性能。图1.2.使用KNN对整个语料库进行排名测量的性能展示了建议的排名措施的Trailing-NRPE与基线方法的比较，其中我们发现TF-IDF在停止时显示出与MVR和MDR竞争的结果词语提取因此，从结果和讨论中可以观察到，通过不同的排名措施以升序对词进行排名会导致候选停用词的去除。2778河Rani，D.K. Lobiyal/沙

下载后可阅读完整内容，剩余1页未读，立即下载