没有合适的资源?快使用搜索试试~ 我知道了~
可持续运营与计算机3(2022)238基于机器学习的文本分类算法分析Sayar Ul Hassana,Jameel Ahameda,Khaleel Ahmadaa印度Telangana海得拉巴Maulana Azad国立乌尔都语大学计算机科学信息技术系ABsTRA cT文本分类是自然语言处理中最重要的领域,其中文本数据被自动分类到预定义的类集合中。应用文本分类在垃圾邮件过滤、决策制定、从原始数据中提取信息以及许多其他应用程序等商业工作中非常广泛。文本分类对许多企业来说更重要,因为它消除了手动数据分类的需要,手动数据分类是一种更昂贵和耗时的机制。本文对文本分类进行了比较分析,分析了不同机器学习算法在不同数据集上的效率 和比较支持向量机(SVM),k-最近邻(k-NN),逻辑回归(LR),多项式朴素贝叶斯(MNB)和随机森林(RF)是这项工作中使用的基于机器学习的算法利用两个不同的数据集对这些算法进行了比较分析本文进一步分析了用于文本分类的机器学习技术的性能指标,即准确度,精确度,召回率和f1分数的基础上。结果表明,逻辑回归和支持向量机优于其他模型在IMDB数据集,和kNN优于其他模型的SPAM数据集从所提出的系统获得的结果1. 介绍如今,开发自动化系统从非结构化文本源中提取可用的结构化数据,使行业受益匪浅。研究人员和行业专业人员将执行合理简单的查询,以检索与使用结构化资源的工业工作相关的所有信息[1]。我们可以将这些机器学习分类器用于环境领域,假设与可持续发展和气候变化相关的数据将从不同的来源收集。在这种情况下,可以将不同的机器学习技术应用于该数据,以便可以从它将帮助我们在不同的领域,如对未来的决策,也将得到一个关于我们应该如何可持续地使用现有资源的想法。我们也可以意识到人们对气候变化的问题。我们还可以在不同的平台上发布结果数据,以了解气候变化和可持续发展。文本分析是信息抽取的重要环节之一。文本分类是根据文本域将文本分类为不同的类。它是自然语言处理中的一个基本过程,是文本分类的工具。自数字文档出现以来,文本自动分类一直是一个重要的应用和研究课题。今天,由于全球每天产生大量的文本文档,因此需要进行文本分类[2]。文本分析将文本转换为数字,提供结构化数据,并更容易发现趋势。结构化的数据越多,分析就越好,最终决策就越好[3]。机器学习(ML)是人工智能(AI)的一个分支,它允许计算机在没有明确编程的情况下进行操作和学习。∗ 通讯作者。电子邮件地址:jameel. gmail.com(J. Ahamed)。https://doi.org/10.1016/j.susoc.2022.03.001[4]的文件。在这项研究中,不同的选择机器学习技术用于文本分类。除了这些技术之外,还有各种文本分类方法,但与机器学习技术相比,大多数方法都不能准确地对文本数据进行分类,而机器学习技术可以提供更有效的结果[3]。尽管已经开发了几种有效的文本分类方法,但文本分类仍然是一个困难的主题,在效率方面有很大的改进空间[5]。然而,组织和企业使用文本文档来跟踪他们的工业和政府服务[4,6]。在文本分类系统中,分类器是文本分类的主体。分类器的性能质量直接关系到文本分类的效率和效果。大多数分类器都是基于信息检索的方法和机器学习算法,这些算法是为了文本分类而引入的[7]。然而,一个好的文本分类器将有效地用于具有多个特征的大型训练数据集[8]。由于特征的高维性和噪声的存在,在这种情况下只选择最关键的特征是至关重要的文本分类。[9]的文件。本文基于不同数据集上采用机器学习技术的文本分类进行了比较分析。问题在于,对文本数据进行分类的手动过程是繁琐且非常耗时的[6]。 因此,自动化流程并增强数据驱动的决策非常重要[10,11]。在这项研究中,机器学习算法被应用并比较了不同数据集的最佳性能[12]。文本分类模型中的文档通过不同的步骤,即(i)将主文档转换为纯文本,对整个文档进行过滤,去除停用词,去除无用的词,以使用词干提取和词形化来减少称为词根的单个词中的不同词,以及(ii)选择用于训练和测试的数据,构建分类器,然后在不同的数据集上部署分类器[2,13,27]。此外,机器学习技术也可以应用于分类问题,以测量感知接收日期:2021年7月24日;接收日期:2022年2月20日;接受日期:2022年3月25日2022年4月1日上线2666-4127/© 2022作者。由Elsevier B.V.代表KeAi Communications Co.出版,这是一篇CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)可在ScienceDirect上获得目录列表可持续运营和计算机期刊主页:http://www.keaipublishing.com/en/journals/sustainable-operations-and-computers/鉴证组Hassan,J. Ahamed和K. Ahmad可持续运营与计算机3(2022)238239关于COVID-19大流行病的信息,并确定人口中的误解,这将有助于我们告知公共卫生组织,然后可以创建更好的方法来教育公众,使他们明白不要陷入这些误解[14]。机器学习技术也可用于解决诊断、疾病进展和流行病学领域的SARAS-COV-2危机[15]。机器学习是最重要的技术发展之一,使工业4.0能够在企业和行业中站稳脚跟。将人工智能和机器学习引入工业4.0标志着制造业组织的重大转变,可能带来新的业务前景和效益,例如提高生产力。人工智能、机器学习、深度学习也被广泛应用于医疗、金融、智能工厂等领域,工业4.0 [162. 相关工作文本分类是自然语言处理(NLP)的主要任务之一[6,20]。随着互联网应用的快速发展,大量的在线文本不断增加,文本挖掘的自动化程度不断提高表1系统性文献综述。分类器可以自动组织和分类文档。许多机器学习算法已被应用于通过从一组分类的训练文档中进行训练来制作自动文本分类器[21,22,23]。有几种文本分类模型已经为乌尔都语,英语,法语,中文和许多其他语言建立[24,25,26]。支持向量机(SVM)是使用分类算法解决两组分类问题的监督机器学习模型之一[28]。本文中使用并比较了文本挖掘中使用的许多文本分类器[8]。通常,有监督和无监督是用于文本分类的两类分类器。在文本分类中,训练“未知”NLP文本的过程不同的工具和方法来自该领域,在文本分类中有几个应用[30]。SVM也与其他算法进行了比较,但SVM在各种研究中优于其他算法[12,29]。查看和分析不同的分类器,以确定文档属于哪个类别我们可以使用核函数对非线性数据进行分类,以便对更大维度的数据进行分类[7,31]。支持向量机提供了高性能,但召回率较低,这是使用支持向量机的限制之一[31]。在k-最近邻中标题作者(年)方法结果使用选定的机器学习技术进行有效的英语文本分类[6]。罗晓宇SVM,朴素贝叶斯,逻辑回归计算精度、召回率和F1值用于评估分类器,其中SVM在两个数据集中优于另一个,Logistic回归在一个数据集中餐厅评论分类和分析[52]Dhirajj Kumar,Gopesh,AvinashChoubey,Pratibha Sing女士(2020)朴素贝叶斯,多项朴素贝叶斯,逻辑回归多项朴素贝叶斯算法在查准率、查全率和F1评分评价矩阵上均优于其他算法。机器学习基于深度学习的乌尔都语文本文档处理方法分类[53]。Muhammad NabeelAsim,Muhammad Usman Ghani,Muhammad Ali易卜拉欣,Waqar Mahmood,Sdheraz Ahmad,Andreas Dengel(2020)朴素贝叶斯支持向量机TF-IDF使用TF-IDF的向量表示使用机器学习技术进行文本分类[21]。EmmanouilK.Ikonomskis,Sotiris Kotsiantis,V.Tampakas(2019)朴素贝叶斯,K近邻,支持向量机分类性能取决于训练文本语料库。有了高质量的训练,语料库的表现会更好。机器学习算法的比较[4]第四话Kapil Sethi,Ankit Gupta,Gaurav Gupta,02 The Dog(2017)神经网络,K-近邻,支持向量机。支持向量机优于其他算法,该模型在医学,政府问题和其他不同领域是有用的印度语的文本分类自然语言处理算法研究[54]贾丝琳·考尔贾廷德·库马尔医生02 TheDog(2015)朴素贝叶斯支持向量机人工神经网络,N-gram有监督 的机器学 习算法表现出色印度人的无监督ML算法语言使用机器学习方法的乌尔都语词义消歧[55]。“Muhammad Abid,电影Jawad Ashraf(2017)贝叶斯网络分类器,SVM,决策树贝叶斯网络优于其他算法。使用机器学习方法进行文本分类。一项调查[56]。03爱的力量Love's Life(2016)朴素贝叶斯支持向量机KNN,决策树,SVM对于属于特定类别的文本文档提供了良好的性能,但对于多类分类则没有。鉴证组Hassan,J. Ahamed和K. Ahmad可持续运营与计算机3(2022)238240Fig. 1. 拟议模型的流程图。(k-NN)多数投票方法用于正确分类实例[32,33,34]。因此,这是一种新引入的方法,使用较少的文本数据进行测试,使用较大的文本数据进行训练,从而获得最佳性能和有效结果[33]。同样明显的是,机器学习模型的主要重点是自动学习,并根据经验提高模型建议的分类模型包括三个主要模块,即预处理原始数据、使用机器学习和最终分类模型[36]。该模型从过去的数据或经验中学习,以提高模型随着数字文档的引入,自动文本分类成为一个重要的研究领域[38]。 在机器学习技术中,SVM分类器在大多数分类问题的应用中取得了更好的结果,特别是疾病识别和人脸识别应用[39]。此外,随机森林、kNN和朴素贝叶斯等三种机器学习算法被应用于慢性肾脏疾病的预测。随机森林被证明有最好的结果[40,41]。准确的预测和更好的概括可以使用随机抽样和集成策略来实现[11]。机器学习技术也可以在医疗部门从医疗记录中分析疾病方面发挥重要作用。它还有助于我们在COVID-19大流行中发现不同的方面,例如公众的看法和误解[14]。机器学习技术也用于药物发现,每天呈指数级增长。根据用于预测新需求的药物,很容易分析以前的数据[42]。重要的是,医疗保健组织和卫生官员要了解公众对导致他们焦虑,压力和创伤的原因的看法,然后根据使用机器学习技术的可用数据制定更好的政策和更好的治疗方法。如今,任何新闻或信息都在许多社交网站上迅速传播,没有办法知道-ing它是否真实或真实,即使我们信任它。大多数个人都在利用这个平台作为武器来操纵公众舆论,用于政治,宗教或其他原因,但我们可以使用机器学习算法来确定新闻或信息是否真实 或欺骗性宣传[44,45]。从社交网站上提供的文本数据中提取情感,意见和态度的传统方法也可以使用机器学习算法[46,47]。不同的数据预处理技术对于模型提供更好的结果和良好的性能也是必不可少的[48]。TF-IDF是一种从文本输入中提取有意义信息的统计方法,但它对不均衡分布的文本信息提取效果不佳。然而,我们可以应用TF-IDF的升级版本来提高模型还有各种其他方法可以对文本数据进行分类,例如基于caps-net的多任务学习架构,用于文本分类,但与机器学习方法相比,对于同一问题,使用机器学习技术的结果要好得多。随着新的COVID-19变种的发布,整个世界都在经历医疗保健问题,这使得收集医疗保健记录以使用各种机器学习方法分析公众当前和未来的需求变得更加困难[51]。此外,关于机器学习对文本分类的有效性的系统性文献综述如表1所示。3. 拟议的制度和方法本研究工作中使用的方法将基于机器学习技术,即支持向量机(SVM),k-最近邻,高斯朴素贝叶斯(GNB),多项式朴素贝叶斯(MNB)和逻辑回归(LR)。基于ML的分类模型在不同的数据集上进行了比较,鉴证组Hassan,J. Ahamed和K. Ahmad可持续运营与计算机3(2022)238241表2机器学习算法概述。方法优势弱点应用支持向量机高阶数据可以通过使用内核功能协调发展的不适合大型数据集选择内核功能手写识别,文本和超文本分类,图像分类,K-最近邻对噪声数据稳健。易于实施,有效结果大量的训练数据,不要花时间去学习。计算成本高求K的值是困难的。医疗保健,细分,客户服务,欺诈检测。多项朴素贝叶斯易于实施。在大多数类中得到了较好的结果,需要少量的训练数据。概率并不准确,无法实现要素之间的交互实时预测,垃圾邮件和火腿过滤,情绪分析。逻辑回归(LR)快速训练数据,适用于分类数据,简单的参数估计,更适合线性数据。对于非线性数据并不好,所需的大样本量医药,文本编辑,酒店预订,财务预测。随机森林(RF)更适合大型数据集,用于检测变量相互作用的EX复杂的多值和不确定属性,需要更多计算能力。银行业、医疗保健业、客户情报、营销数据。每个模型。在开发分类模型之前,不同的技术用于预处理输入数据和预处理数据,然后用于训练和测试目的[57,58]。数据的一部分用于训练,其余用于测试,但用于训练和测试的数据根据训练中使用的技术进行划分[36,59]。这种基于机器学习的文本分类的流程如图所示。1.一、3.1. 机器学习技术众所周知,文本数据呈指数级增长因此,人工分类并不容易,因此希望找到不同的可行方法来在短时间内对大量数据进行分类后产生的数据称为信息,这些信息用于制定商业和工业应用的未来规划。在这项工作中,不同的机器学习算法被提议用于文本分类,如表2所示。有必要确定哪种机器学习算法将在哪种数据集类型上提供高精度这种比较分析将检查各种机器学习算法的效率,然后确定哪种算法更适合哪种类型的数据,因为我们知道不同的机器学习算法对文本数据的分类是不同的。因此,确定哪种方法适合特定的数据集类型至关重要。所有应用的机器学习技术的详细定义将在下一节中给出3.1.1. 支持向量机支持向量机是一种机器学习技术,可用于回归和分类,但它最适合分类问题[20,22]。它可以分类线性数据的帮助下,最大间距超平面(MMH),其中的距离是最大的数据点之间称为支持向量。分隔数据的两条平行线被称为正超平面和负超平面,因为我们可以绘制几个[60]。对于非线性数据,核函数可以用来形成多维超平面进行分类。有多个核函数可用于分类目的。研究人员使用了像String Subsequence Kernels(SSK)和ApproX imating Kernels(AK)这样的核函数。这两个内核使一个可以对文本数据进行高精度分类的分类器[61]。支持向量机在计算上是有效的,但有一些限制,这降低了它在小数据集上的性能[31]。有两种类型的数据分类使用SVM(i)线性数据分类和(ii)非线性数据分类。(i). 线性数据分类。为了使用SVM对线性数据进行分类,使用最大间隔超平面(MMH)来分离两个数据点以绘制多个超平面。我们希望找到一个向量点之间的距离最大的向量点,可以准确地对数据点进行分类,如图2所示。如图2所示,是正超平面和负超平面,而正超平面绘制在正数据点侧。相反,负超平面绘制在负数据点侧[62]。最好以这样的方式绘制超平面,以获得正负超平面之间的最大余量。(ii). 非线性数据分类。支持向量机(SVM)也可以在核函数的帮助下对非线性数据进行分类。它将数据转换到更高的维度以进行分类,如图3所示。有不同类型的内核函数可供我们用于分类目的[29]。这种方法必须找到合适的核函数来对数据点进行适当的分类。核函数在对数据点进行分类时,会将一类数据变换到更高的维度,得到决策面对数据点进行分类。3.1.2. K近邻分类器(KNN)K近邻算法是一种简单、易于实现的监督机器学习算法,可用于解决分类和回归问题[57,63]。该算法发现可用数据和新数据之间的相似性,并将新数据归类为具有更多相似性的类别[64]。K的值很难分析,因此k-NN的分类时间更长[33]。它也被称为一个懒惰的学习算法,因为它不是突然从训练数据中学习,而是在分类时起作用,如图所示。 4[27]。3.1.3. 多项朴素贝叶斯MNB分类算法用于对离散特征进行分类(例如,[65]第65话话在多项分布中-鉴证组Hassan,J. Ahamed和K. Ahmad可持续运营与计算机3(2022)238242图3.第三章。使 用 SVM的非线性数据分类。图二. 使用SVM进行线性数据分类。鉴证组Hassan,J. Ahamed和K. Ahmad可持续运营与计算机3(2022)238243||见图4。 K-NN的工作因此,需要整数特征计数,但实际上,TF-IDF等情况下的分数值也可以工作[66]。使用词袋方法,每个词构成一个特征,其中词序并不重要。朴素贝叶斯基于条件概率的贝叶斯规则[67],MNB在数学上定义如下P(h x)=���(□)(□)���������(其中h是假设,x是属性。3.1.4. 逻辑回归(LR)逻辑回归是一种用于分类目的的监督机器学习算法当数据是二进制形式时使用,即,0和1表示类是来自一个类别还是另一个类别。对于二进制值,我们可以使用两个函数,即logistic函数和sigmoid函数[10]。逻辑回归,也称为分类算法,如图5所示[64]。逻辑回归可以根据以下类别的数量进行分类。(i) 二项式:在目标变量中只有两种类型的值是可能的(ii) 多项:目标变量中可能有三种或更多种类型,这些类型是无序的(即,类型没有定量意义),如(iii) 有序:目标变量中的有序类别;例如,评估分数可以分类为:在这里,每个类别可以被赋予像0、1、2、3这样的分数,反之亦然。3.1.5. 随机森林存在几种分类算法,但随机森林(图6)是机器学习中最好的分类算法之一它可以也可用作回归技术,但由于其多样性和简单性,主要用于分类。正是学习模型的组合增加了最终结果[60,63,68]。在这种机器学习技术中,许多树被组合起来形成一个随机森林。如果我们有更多的不相关树,我们将获得更高的准确性[10]。缺失值可以使用随机森林填充[11]。此外,树分类器因其出色的性能而广受欢迎, 众所周知,随机森林是决策树的集合,因此它变得更健壮和更强大。一个简单的决策树 对于分类问题给出了更好的结果,具有高精度[69]。4. 结果本节将研究应用于两个独立数据集的不同机器学习算法的结果。使用各种性能指标(如准确度、精确度、召回率和F1分数)分别应用每种算法以确定机器学习算法的效率。在学习这些真正积极的评估方法之前,我们需要了解评估方法的基本模块真阴性、假阳性和假阴性。真阳性:模型正确预测阳性类别或分类器。可以用TP表示真负:模型或分类器正确地预测了一个负类。它可以由TN表示。假阳性:模型或分类器错误地预测阳性判定。可以用FP表示。假阴性:模型或分类器错误地预测了一个阴性类。它可以由FN代表准确性:它是机器学习模型的评估指标之一,我们可以说分类器对数据进行分类的准确程度。我们使用以下公式计算精度:精度=TP + TNP + N鉴证组Hassan,J. Ahamed和K. Ahmad可持续运营与计算机3(2022)238244图五. Logistic回归见图6。 使用随机森林分类。鉴证组Hassan,J. Ahamed和K. Ahmad可持续运营与计算机3(2022)238245见图7。情感属性的图形表示。精确度将告诉我们模型的精确程度(有多少个正识别的类是正确的)。我们使用以下公式计算精度:精度 为TPTP + FP回想一下:它将告诉我们模型的完整性(正确识别了多少实际阳性)。我们使用以下公式计算召回率:召回=TPTP + FNF1-Score:精确率和召回率的调和平均值给出精确率和召回率的平衡结果。我们使用以下公式计算f1分数:F1-分数=2分(精确度/召回率)精确度+召回率4.1. 使用的数据集我们在这项工作中使用了两个数据集,这些数据集是从在线存储库中收集的。在不同的机器学习算法上对数据集进行分析,以分析每个算法的效率。数据集的描述见下文小节。4.1.1. IMDB数据集该数据集回顾了互联网上可用的电影, 我们有50000条记录,有两个属性。一个是审查。另一是一种情感,如图7所示。此数据集具有相同数量的因此,这个数据集也被称为平衡数据集,这意味着数据没有偏斜。4.1.2. SPAM数据集这个数据集是所有关于正常的短信,其中我们有两个标签,火腿和垃圾邮件。这个数据集有50572条记录,有两个属性,标签和消息,如图8所示。在这个数据集中,我们表3ML算法的比较分析。算法(数据集)精度精度召回F1评分SVM(IMDB)85.5858786SVM(垃圾邮件)95.5969695kNN(IMDB)50.8507259kNN(垃圾邮件)98.5999998MNB(IMDB)84.4858786MNB(垃圾邮件)97.4989797RF(IMDB)74.9728177RF(垃圾邮件)96.5979796LR(IMDB)85.8858786LR(垃圾邮件)91.9939290don’t have an equal number of spam and ham labels, so this dataset is,also我们在IMDB数据集中有相同数量的积极和消极情绪。我们首先使用不同的预处理步骤清理数据,如删除标点符号,停止词,频繁词,词干和词形化[70]。 在预处理之后,然后使用词袋模型、词频模型、逆文档词频模型将文本转换为向量,最后使用另一方面,在垃圾邮件数据集中,有不同的标签,如火腿记录的数量比垃圾邮件记录的数量多。对于这个数据集,必须使用精度,召回率和f1分数来评估分类器。表3显示了算法在IMDB和Spam数据集上实现的准确度、精确度、召回率和f1分数。使用图形表示的这些算法的性能将给出明确的表示,以找出哪台机器学习算法优于其他算法。SVM和Logistic回归分别有85.5%和85.9%的准确度,如图所示。9.第九条。在垃圾邮件数据集上,支持向量机优于其他分类器。其余算法具有与支持向量机几乎相同的精度,即,95.5%,k-最近邻-鉴证组Hassan,J. Ahamed和K. Ahmad可持续运营与计算机3(2022)238246见图8。 标签属性的图形表示。见图9。IDBM数据集上所选ML算法的准确性。鉴证组Hassan,J. Ahamed和K. Ahmad可持续运营与计算机3(2022)238247见图10。所选ML算法在垃圾邮件数据集上的准确性。bor的正确率为98.5%,多项朴素贝叶斯的正确率为97.4%,随机森林的正确率为96.5%。此外,逻辑回归的准确率为91.9%,是所有分类器中最低的,如图10所示。表3中给出了各种机器学习性能指标的结果。5. 局限性和今后的工作在未来,这项研究可以扩展到包括更多的算法与超参数调整和合奏的方法。为了体现有效的信息发现,模型还可以用新的参数优化策略来实现。在文本分类领域,流数据处理还没有得到充分的探索,需要仔细研究。因此,如果使用正确,集成和校准方法将有利于文本分类。6. 结论自然语言处理中最重要的部分是文本分类,它自动将文本数据分类为一组理想的类别。基于机器学习的技术对于文本分类至关重要。因此,这项研究使用了五种算法:支持向量机,k-最近邻逻辑回归,多项式朴素贝叶斯和随机森林,以及两个数据集:IMDB和垃圾邮件。结果表明,在所开发的模型中,k-NN模型在垃圾邮件数据集上的识别准确率达到98.5%,优于其他模型。相比之下,LR模型在IMDB数据集中以85.8%的准确率超过了其他模型。竞争利益作者声明,他们没有已知的竞争性经济利益或个人关系,可能会影响本文报告的工作。CRediT作者贡献声明Sayar Ul Hassan:概念化,方法论,软件,可视化。贾米尔·艾哈 迈 德 : 数 据 管 理 , 写 作 - 原 始 草 案 , 苏 - pervision 。 KhaleelAhmad:写作引用[1] 纳亚特湖 Marti,C.B. 加西亚,文本分类技术, 油 在...中 工业应用,Adv. Intell.系统计算239(一月)(2014)v-vi,doi:10.1007/978-3-319-01854-6。[2] M. Ikonomakis,S. Kotsiantis,V. Tampakas,文本分类使用机器学习技术 , WSEAStrans.comput 。 4 ( 8 ) ( 2005 ) 966-974 , doi :10.11499/sicejl1962.38.456。[3] A. Wilkinson,N. Wenger,L.R. Shugarman,关于预先指令的文献综述,美国卫生与公众服务部,华盛顿特区,2007年。[4] E.尤萨尔A. Ozturk,机器学习算法在不同数据集上的比较,在:第26届IEEE信号处理和通信应用会议,SIU 2018年,第26期。ICIC 2017,2018,pp. 1 -4,doi:10.1109/SIU.2018.8404193。[5] J. Wang,Y. Li,J. Shan,J. 鲍角,澳-地宗湖,澳-地赵,使用基于作用域的卷积神经网络进行大规模文本分类-一种深度学习方法,IEEE Access 7(2019)171548-171558,doi:10.1109/ACCESS.2019.2955924。[6] X. Luo,使用选定的机器学习技术进行古代英语文本分类工程师J. 60(3)(2021)3401 -3409,doi:10.1016/j.aej.2021.02.009。[7] L.韦湾,澳-地韦湾,澳-地Wang,Text classification using support vector machinewithMIXof kernel,Journal of Software Engineering and Applications 5(2012)55.[8] C.N. Kamath,S.S. Bukhari,A. Dengel,传统机器学习和深度学习方法用于文本分类的比较研究,在:2018 年ACM文 档工 程研讨会论 文集 ,2018年8月,第 10页。1比11[9] M. Trivedi,S.夏尔马,加-地索尼,S。Nair,文本分类算法的比较,国际工程研究技术杂志&(IJERT)4(02)(2015)。[10] A. 莫希Din,K.Syed,T.Rabani,Q.Rayees,使用临床文本数据检测COVID-19的基于机器学习的方法,Int. J. Inf. Technol. 12(3)(2020)731 -739,doi:10.1007/s41870-020-00495-9。[11] D. Mahesh Matta Meet Kumar Saraf , D. Mahesh Matta , M. Kumar Saraf , S.Memeti,使用机器学习技术预测COVID-19,2020年。[12] C. C. Aggarwal和C.X. Zhai,Mining text data,vol.9781461432。2013年。[13] A.萨卡尔,S。Chatterjee,W.达斯D. Datta,使用支持向量机的文本分类,国际工程科学发明杂志4(11)(2015)33-37。[14] M.古普塔A。班萨尔湾Jain,J.Rochelle,A. M.S. Oak Jalali,天气是否会帮助我们度过COVID-19大 J. Med. 告知。 145(2020年11月)(2021)104340,doi:10.1016/j.ijmedinf.2020.104340。鉴证组Hassan,J. Ahamed和K. Ahmad可持续运营与计算机3(2022)238248[15] H.B. Syeda,M.Syed,K.W.Sexton,S.Syed,S.Begum,F.赛义德,. . F. YuJr,机器学习技术在应对COVID-19危机中的作用:系统综述,JMIR医学信息学9(1)(2021)e23811。[16] D. Nagar,S.拉哈夫A。巴德瓦杰河Kumar,P.Lata Singh,R. Sindhwani,机器今日Proc. 47(2021)3676 -3682,doi:10.1016/j.matpr.2021.01.267.[17] M.A. 卡丹普尔,S. Al Riyaee,皮肤癌检测-应用深度学习- 模型驱动架构 在 的云 为 分类 真皮 细胞图像通知Med. Unlocked 18(November 2019)(2020)100282,doi:10.1016/j.imu.2019.100282。[18] N.F.霍德里体育场Yuhaniz,N.F.M. Azmi,S.M. Shamsuddin,处理信用卡欺诈中的类不平衡使用reservation方法,Int.J. Adv. Comput。Sci.申请9(11)(2018)390-396,doi:10.14569/ijacsa.2018.091155。[19] K. Crowston,F. Bolici,机器学习对工作的影响,Proc. Annu。夏威夷国际会议系统Sci. 2019年1月(2019年)5961 -5970,doi:10.24251/hicss.2019.719。[20] B.S. Singh , S.A. Nayyar , A review paper on algorithms used for textclassification,International Journal of Application or Innovation in Engineering&Management(IJAIEM)2(3)(2013)。[21] M. Ikonomakis,S. Kotsiantis,V. Tampakas,使用机器学习技术的文本分类,计算机上的WSEAS交易4(8)(2005)966-974。[22] A.I. Anik,S.是的,人工智能。侯赛因,A. Chakrabarty,使用机器学习算法预测ODI板球运动员500-505[23] Nigam,K.,McCallum,A.,米切尔,T.M. (2006年)。使用EM的半监督文本[24] I.作者:Rasheed,V.班卡角Kumar,Urdu文本分类:使用机器学习技术的比较研究,在:2018年第十三届数字信息管理国际会议(ICDIM),IEEE,2018年9月,pp。274-278[25] N.阿尔杰达尼河阿洛泰比山Taileb,Hmatc:使用机器学习的分层多标签阿拉伯语文本分类模型,埃及信息学杂志22(3)(2021)225-237。[26] Y. Zhan,H. Chen,S.F. Zhang,M. Zheng,基于特征权重学习的中文文本分类研究,见:2009机器学习与控制论国际会议,3,IEEE,2009年 7月 ,pp. 1723-1726年。[27] J.Sreemathy , P.S. Balamurugan , An efficient text classification using knn andnaive baidance , International Journal on Computer Science and Engineering 4(3)(2012)392.[28] S.马约尔湾Pant,使用支持向量机的文档分类,国际工程科学与技术杂志4(4)(2012)。[29] F. Colas,P. Brazdil,文本分类任务中SVM和一些旧分类算法的比较,IFIP Int.Fed。信息流程217(2006)169-178,doi:10.1007/978-0-387-34747-9_18。[30] S. Tong和D.Koller,45[31] J. Shawe-Taylor和C. Watkins,[32] B. Trstenjak,S. Mikac,D. Donko,KNN与基于TF-IDF的文本分类框架,ProcediaEng. 69(2014)1356 -1364,doi:10.1016/j.proeng.2014.03.129。[33] L. Baoli,Y.Shiwen和L.秦,过程东方。朗,2003年。[34] E. M. Elnahrawy,Conf. INF. 知道。沙尔(IKS 2002),2002年。[35] G. Khazal,A. Zamyatin,阿拉伯语文本分类的特征工程,J.Eng. Appl. Sci. 14(7)(2019)2292 jeasci.2019.2292.2301。[36] S. Vijayarani,M.N. Nithya,用于自动信息分类的高效机器学习分类器,Int.J.Mod. Trends Eng. Res.(Ii)(2015)685-694。[37] B. Agarwal , N. Mittal , Text classification using machine learning methods-asurvey , in : Proceedings of the Second International Conference on SoftComputing for Prob- lem Solving(SocProS 2012),December 28-30,2012,Springer,New Delhi,2014, pp. 701-709[38] S.H. Jambukia,V.K. Dabhi,H.B. Prajapati,使用机器学习技术进行ECG搏动分类 , Int.J. Biomed 。 Eng. Technol. 26 ( 1 ) ( 2018 ) 32-53 , doi :10.1504/IJBET.2018.089255.[39] “Machine[40] Parul Sinha,Poonam Sinha,使用KNN和SVM进行慢性肾脏疾病预测的比较研究 , Int. J. Eng. Res. V4 ( 12 ) ( 2015 ) 608-612 , doi : 10.17577/ijertv 4 is120622。[41] I.易卜拉欣,A. Abdulazeez,机器学习算法在诊断疾病中的作用,J.Appl. Sci.技术趋势2(01)(2021)10-19,doi:10.38094/jastt 20179。[42] M. Elbadawi,S.盖斯福德,A.W. Basit,药物发现中的先进机器学习技术,今日药物发现26(3)(2021)769-777。[43] 普拉芬河伊塔马拉湾Deepak,Analyzing Indian general public[44] 美 国 医 学 会 汗 代 , Q.R.Khan , S.T.Rabani, Detecting text propaganda usingmachine learning techniques,Baghdad SciJ 18(1)(2021)199-209.[45] 美国医学会汗代,Q.R. Khan,S.T. Rabani,Identifying propaganda from onlinesocialnetworksduringCOVID-19usingmachinelearningtechniques ,International Journalof Information Technology 13(1)(2021)115-122.[46] N. Yadav,O. Kudale,A.拉奥,S。古普塔A。Shitole,使用监督机器学习进行Twitter情 感 分 析 , Lect. Notes Data Eng. Commun。 Technol. 57( 2021) 631-642,doi:10.1007/
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 前端面试必问:真实项目经验大揭秘
- 永磁同步电机二阶自抗扰神经网络控制技术与实践
- 基于HAL库的LoRa通讯与SHT30温湿度测量项目
- avaWeb-mast推荐系统开发实战指南
- 慧鱼SolidWorks零件模型库:设计与创新的强大工具
- MATLAB实现稀疏傅里叶变换(SFFT)代码及测试
- ChatGPT联网模式亮相,体验智能压缩技术.zip
- 掌握进程保护的HOOK API技术
- 基于.Net的日用品网站开发:设计、实现与分析
- MyBatis-Spring 1.3.2版本下载指南
- 开源全能媒体播放器:小戴媒体播放器2 5.1-3
- 华为eNSP参考文档:DHCP与VRP操作指南
- SpringMyBatis实现疫苗接种预约系统
- VHDL实现倒车雷达系统源码免费提供
- 掌握软件测评师考试要点:历年真题解析
- 轻松下载微信视频号内容的新工具介绍
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功