没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报使用Apache Spark和MLlib在集群中对DNN与其他机器学习技术进行性能评估A.N.M. JayaLakshmi,K.V.克里希纳·基肖尔Vignan科学、技术和研究基金会计算机科学与工程系阿提奇莱因福奥文章历史记录:收到2018年2018年9月4日修订2018年9月26日接受在线发售2018年关键词:情绪分析分类文本挖掘大数据Apache Spark框架A B S T R A C T由于数据的多样性和性质,对大数据的情感分析变得具有挑战性。互联网的进步,以及大数据的可用性,消除了传统的分布式计算的局限性。这项工作的目标是在Apache Spark分布式框架上进行情感分析,以加快计算速度并提高机器在不同环境中的性能。分析,如极性识别,主观分析和电子邮件垃圾等,都存在于各种文本数据集上。预处理后,采用词频-逆文档频率(TF-IDF)和无监督Spark-Latent Dirichlet Allocation(LDA)聚类算法进行特征提取和选择,以提高准确率。使用深度神经网络(DNN),支持向量机(SVM),树集成分类器来评估该框架在单节点和集群环境中的性能。最后,所提出的工作旨在建立一种方法,以提高机器性能,更多的是在运行时间超过准确性。©2018作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍在过去的十年中,在情感分析领域产生了广泛的兴趣,其应用范围从客户服务到医疗保健到营销。由于Web的快速发展以及Web上产生的内容多为文本形式,文本挖掘成为各种应用的必然在不同的领域。这种实时文本数据,主要是非结构化数据,这对处理和获得用户所需的结果是一个挑战。特别是挑战涉及人们的经验,意见和感受。可以感觉到,在机器学习技术的帮助下,文本数据的处理(Khan等人,2016)可以在各个领域提供有用的应用这解释了情绪分析在过去十年中日益重要的原因。为了进行情绪分析,从各种形式的网络源(诸如社交媒体新闻文章和实时期刊)抓取数据(Ahmed等人, 2015年)。其中,社会*通讯作者:Vignan电子邮件地址:jayalakshmialuru94@gmail.com(K.V. Krishna Kishore)。沙特国王大学负责同行审查与其他来源相比,媒体引起了极大的关注。情感分析涉及使用自然语言处理(NLP)技术来系统地提取、识别主观信息,并从抓取的数据中研究有效状态。因此,文本分析强调使用文本数据来了解一些事情,例如根据调查预测新推出产品的市场价值。极性检测基于用户评论、电影评级等,主观性客观性分析和垃圾邮件检测是基于邮件中的文本内容。情感分析领域的这种急剧增长使得其应用程序能够扩展到处理大量的大数据。大量的数据是由用户通过各种来源产生的,这将分布式编程带入框架。分布式编程技术的应用有助于实现可扩展性,并解决了各种结构化和非结构化数据的性能问题,这些数据不能由单个节点系统处理。因此,与现有模型相比,情感分析与分布式框架的混合可以提供更有效的结果。在本文中,我们的目的是比较情绪分析与基于Apache Spark框架的分布式环境(Burdorf,2015)。对不同数据集的文本进行预处理和特征选择。分类是使用监督机器学习算法进行的,其中也包括使用集成技术。我们分析了https://doi.org/10.1016/j.jksuci.2018.09.0221319-1578/©2018作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com1312A.N.M. JayaLakshmi,K.V.Krishna Kishore/沙特国王大学学报通过专注于从输入中提取的特征,而不是准确性,我们的工作建立了模型。文章内容安排如下。第二部分是对该领域相关研究成果的回顾. 第三部分,讨论了分布式计算框架。第4节解释了所提出的系统中使用的工作和分类算法的实现。最后,第5节对所获得的结果进行了评价,而第6节得出了结论,并对该领域的未来范围提出了建议2. 相关作品对情感分析领域的兴趣的巨大增长主要是由于数据的可用性和互联网时代带来的改进,新技术和算法的进步(Pang和Lee,2006; Suttles和Ide,2013; Beththa等人,2017)已经证明,将情感分析与机器学习相结合可以为新推出的产品提供更大的成功预测范围。对监督和无监督机器学习技术进行的比较研究揭示了监督技术(如SVM)在情感分析中优于无监督技术的有效性。用于实时解决情感分析问题的各种方法和方法 , 例 如 极 性 转 换 问 题 、 二 进 制 分类 、 数 据 稀 疏 和 准 确 性 , 在(Abirami和Gayathri,2016)中进行了描述。有了如此广泛的分析应用,各种形式的分析,如预测,描述性,规范性和诊断,可以为使用Apache Strom,Hive和HBase的实时大数据分析提供巨大的优势。使用Apache Spark的情感分析的实现已经在(Baltas等人,2017),其中通过Twitter抓取的数据已使用二进制和三进制分类器进行分类。已经评估了Spark上的密集机器学习算法(Svyatkovskiy等人,2016年)。策略扩散检测问题(US)被认为是一个用例,其中使用了带有Spark数据帧的分布式文本处理管道,包括Avro框架,Spark ML,Graph Frames和Histogram套件。分布式分析现在被证明在实时应用中发挥重要作用(Oussous等人,2017),其确实可以提供以最小时间复杂度处理大规模数据的改进设施。因此,极端学习框架超越了由Oneto等人提出的大数据分析,2016年),其中统计学习理论(Statistical Learning Theory,缩写为ELM)构 建 了一 个 极 限 学 习 机 ( Extreme Learning Machine , 缩 写 为ELM)。他们使用传统的ELM来使用部署在Hadoop集群上的Spark处理大数据。深度学习模型(Alsheikh et al., 2016)是在移动大数据分析(MBD)中提出的,是一个使用ApacheSpark的可扩展学习框架。该模型通过将MBD切片为Spark弹性分布式数据集(RDD)中的许多分区来提出深度模型的并行化。结果表明,与传统的轻量级模型相比,使用深度学习模型通过Activetracker数据集上的Spark框架实现了更高的性能,其中包括来自563名众包用户的6种常规活动的加速度计样本,如慢跑,步行,爬楼梯,站立,坐着和躺下。实现了使用Apache Spark的总体邮件垃圾邮件检测系统(KarthikaRenuka等人, 2017年)。提出了在发现药物中使用Apache Spark的靶标预测(Harnie等人,2017年),其中使用Apache Spark对现有管道进行改造,用于损伤蛋白质的药物分子的靶向预测。社交媒体上的SA,如Reddit、Live Journals、Twitter等,已经在各个领域得到了巨大的应用。 Nodarakis等人, 2016年提出了使用Spark对大规模推文进行情感分析。标签和表情符号在分布式计算环境中,推文被认为是输入特征并被分类为Bloom过滤器用于压缩大小并提高性能。文献中提出的情感分析中的各种方法主要集中在性能上,而不考虑时间复杂度。如果数据量小,分析将在时间范围内完成。但是,当分析大型语料库时,时间是一个主要的约束,因此,所提出的框架将减少情感分析所花费的时间。3. 分布式计算环境3.1. Map Reduce模型Hadoop是一种处理框架,用于支持分布式计算中大型数据集的处理(Bhosale和Gadekar,2014)。Map Reduce是Hadoop生态系统中的一个强大支柱Map Reduce是一种分布式并行编程模型,它支持在集群计算环境下处理大数据Map Reduce编程主要由两个函数组成Mapper根据提供给工作节点的输入分区的数量提供输入数据的映射,并生成一个键值对作为输出。Sort and Shuffle阶段,根据给定的键输入对数据进行排序,并生成Reducer可读的格式Reducer阶段接受这些中间数据的输入,并对给定键值的值进行转换,然后生成所需的输出。Apache Hadoop环境提供了在其上实现MapReduce框架的可行性。Map Reduce有一个缺点,因为它在每次迭代和数据之间将数据刷新到磁盘。在每次迭代时从磁盘读取,这在时间和磁盘I/O操作方面花费很多。通过使用Apache Spark克服了这个缺点,Apache Spark是一个分布式编程框架,用于处理大量数据存储器中的数据3.2. Apache Spark模型Apache Spark是一个新的框架,它可以为Map Reduce模型提供改进的替代方案。与map reduce模型不同一旦内存被填满,它就会将数据溢出到硬盘上因此,Spark也可以被称为内存处理.与mapreduce模型相比,spark的这一优势可以使其处理速度非常快Spark通 常 被 Spark 框 架 可 以 以 各 种 形 式 实 现 , 例 如 Stan- dalone ,Hadoop Yarn(集群管理器),Cassandra或HBase。这形成了spark的另一个优势,与map reduce不同,它(Verma等人,2016年),而火花可以运行在各种其他形式,如上所述。Spark的架构如图所示。 1. Spark框架使用master/worker架构,其中worker节点由master节点管理。一旦在集群上部署了spark,工作节点中的执行器就会隐式地构建,并且任务会按照集群管理器(例如:Yarn)给出的指令运行驱动程序是用户命令接口,用户通过它以Spark Context 或Spark Session的形式发送SparkSession充当spark 2.0及以上版本的spark通信的中央网关Spark的核心是基于弹性分布式数据集(RDD)的概念A.N.M. JayaLakshmi,K.V.Krishna Kishore/沙特国王大学学报1313Fig. 1. Spark Architecture.RDD提供了诸如分布式数据收集、节点容错、使用各种数据源的能力和并行性等实现。我们提出的模型使用数据帧来存储和操作数据集。数据框为处理表格数据提供了一种更自然的方式。虽然使用数据框不会对工作的实现产生影响,因为文件将继续作为RDD分发只是语法发生了变化。Spark执行两个基本操作,即,转变和行动。transformations在RDD上执行工作并将输出返回给RDD3.3. SparkMLlib是Sparks机器学习库,形成了机器学习技术的实现。它是一个可扩展的机器学习库,可以实现分类,回归和聚类技术Spark是基于Scala编程语言构建的4. 执行图2给出了所提出的用于实现的模型的架构。在第一阶段,进行向上,然后提取用于建模的特征。然后,采用Spark MLlib对特征集进行分类,建立模型。初始预处理的第一步之后是特征向量,该特征向量被分类器用于对来自每个给定文本的情感进行分类。图3示出了系统的总体工作流程。 显示了群集中的工作分布。Spark将程序执行视为一个作业,将作业划分为RDD的并行分区。一个spark作业被称为对那些划分 成 阶 段 的 分 区 的 计 算 。 执 行 中 的 作 业 被 默 认 的 Spark DAG 图(Directed Acyclic Graph,有向无环图)分成N个阶段。每个阶段都有一个id,DAG调度器维护下一个阶段id的跟踪。因此,DAG调度器将给定的作业拆分为一个集合。连续执行所需的转换和操作的阶段。 一个阶段可以依赖于其他阶段,因此可以触发依赖阶段的执行。Stage只能在RDD的分区上工作。 每个RDD的集合的分区被划分为用于每个阶段的相应任务(n个分区的n个任务)。 当创建Spark Context时,每个工作节点都会启动一个Executor。Executor在节点上运行任务,并以RDD的形式返回结果。结果阶段是最后一个阶段,它跟踪所有阶段的完成情况,并将火花操作返回给用户程序。所提出的系统在spark集群上的执行工作流程也遵循相同的流程1314A.N.M. JayaLakshmi,K.V.Krishna Kishore/沙特国王大学学报图二. 系统概述。图三. 工作流程概述。如上所述。将项目视为4个步骤的序列,其中需要执行一个步骤,然后执行另一个步骤,其中涉及从随后的文件中读取数据通过标记化和停用词去除、计数向量和TF-IDF、主题建模或LDA、分类。各个步骤基于用户程序被划分为N个阶段默认的DAGtask作为N个任务运行在工作节点上执行。这些阶段作为任务在8个工作节点的集群中执行。任务在节点之间随机分配,并对数据集执行转换. 表1显示了用于spark操作(如数据集上的转换和操作)的方法。A.N.M. JayaLakshmi,K.V.Krishna Kishore/沙特国王大学学报1315M.很 好。- 是的.ΣΣ4.1. 特征描述4.1.1. 提取和变换在本节中,我们将展示如何利用这些特征对分类器进行建模。对于给定的文本,我们将特征组合到其各自的特征向量。我们使用基于数据框架的API进行特征提取和转换,这遵循词频-逆文档频率(TF-IDF)的实现(Liu和Yang,2012)。TF-IDF是文本挖掘中广泛使用的一种特征向量化它反映了语料库中分配给文档的术语的重要性。术语频率TF(t,d)其中它指的是术语“t”在文档中出现的次数文档频率DF(t,d)是包含术语“t”的文档的计数。而逆文档频率是信息量的数字计数,一个术语提供。TF_IDF是TF和IDF的乘积。IDFt;dlgjDj1=DFt;D11优化器参数。该参数是一个迭代的小批量采样,对于分布式模型更友好。TFIDF的输出向量作为LDA主题建模的输入从通过这种无监督学习获得的提取主题中,我们使用监督技术对数据进行分类4.2. 监督学习:4.2.1. 朴素贝叶斯分类器朴素贝叶斯(Huang and Li,2011)是一种著名的多类分类器。Spark MLlib有多项朴素贝叶斯和伯努利朴素贝叶斯分类器。多项式朴素贝叶斯(Jurafsky和Martin,2016)是一种区分文档分类的方法。项频率tf(t,d)被计算为:标准化词频<$tft;dft=nd3其中,在多项式模型中,文本x的类别条件概率P可以计算为:TFIDFt;d;DIFUTFt;dIFUIDFt;DIFUIDFt; DIFUIDFt; dIFUIDFt;dIFUIDFt哪里|D|是语料库中的文档总数。P.公司简介Yi¼1P. xijwjð4ÞSpark4.1.2. Spark中的潜在Dirichlet分配潜在狄利克雷分配(LDA)是一个主题模型,它从文档集合中提炼主题。LDA(Onan等人,2016)用于对文档进行聚类,其中聚类中心是指来自给定文本数据的主题。这种无监督的机器学习算法是通过基于RDD的Spark聚类API实现的,该API将在线LDA优化器作为多变量Bernoulli朴素贝叶斯模型是对二进制数据的文本文档进行特征向量具有值1表示该单词在特定文档中出现,值0表示该单词在文档中不存在伯努利试验写如下MPxjwj<$P xijwjb·1- P xijwj1- b其中 b2 0;151/1表1模型中使用的方法方法名称功能SparkSession.builder.appName('nlp').getOrCreate():Spark Session是在Spark中处理数据帧的入口点。使用构建器函数创建新会话或提取现有会话。Spark.read.csvsep参数显示数据文件中的列分隔符。Tokenizer(inputCol =StopWordsRemover(inputCol =默认情况下,Case Sensitive布尔属性设置为false,以指示将单词视为不区分大小写。使用的停用词列表是默认的英语停用词列表,可以从Glasgow Information Retrieval Grouphttp://ir.dcs.gla.ac.uk/resources/linguistic_utils/stop_words找到。CountVectorizer():计算单词在给定文档中出现的次数IDF():计算单词在整个文档中的重要性StringIndexer():将数值分配给字符串列。流水线(stages = [stage1,stage2,Stage n]):流水线化给定指令的执行序列。VectorAssembler(inputCol =“tf_idf'],outputCol =”features'):Assembler组装特征向量内容并提供输出特征。LDA(featurescol=“features”,k= 10):根据给定的k值为获得的特征向量提供主题建模。df.select(卡方特征选择(numTopFeatures = 10,featuresCol=pyspark.mlDecisionTreeClassifier():使用决策树算法对数据进行分类pyspark.ml.RandomForestClassifier(labelcol =pyspark.ml. NaiveBayes():对样本数据进行分类以构建模型pyspark.ml。MultilayerPerceptronClassifier():使用反向传播神经网络对数据进行分类。(training,testing)= Feature Vector.randomSplit([0.9,0.1]):random Split方法将预处理后的数据(在系统概述中描述为Feature Vector)按照给定的100个数据样本中90个训练样本和10个测试样本的比例进行Model =pyspark.ml.classification.MultilayerPerceptronClassifier().fit(training):fit方法拟合训练数据,使用提供的分类器构建模型。测试结果=模型。Transform(测试):transform方法使用构建模型转换测试数据并形成预测标签。MulticlassClassificationEvaluator(metric Name =变换Head():默认情况下,它输出数据框中的前10行行动Show(count,truncate = False):它将应用于数据的转换输出给用户,默认情况下截断值设置为False。Collect():用于从数据框中收集数据1316A.N.M. JayaLakshmi,K.V.Krishna Kishore/沙特国王大学学报XX.Σ.XzX●P^xijxj 1/4。dfxi;y1=dfy26经验比较证明,如果词汇量相对较大,则多项模型优于多元伯努利模型,因为多元伯努利模型在词汇量较小的情况下表现良好(McCallum and Nigam,1998)。4.2.2. 决策树算法决策树(Barros等人, 2012)遵循执行特征的递归二进制划分的贪婪方法。决策树被认为是分类、预测和解决决策问题的有效分类器。决策树通常被称为覆盖分类和回归(或)CART的树为了最大化树节点argmaxs处的信息增益,将IG(D,s)应用于数据集D.目前的实现提供了两个杂质的措施,这是基尼杂质和熵。当前工作中的实现是基于当前在spark 2.2.0版本上完成的实现目前的工作使 用 spark 框 架 的 默 认 参 数 , 这 些 参 数 是 maxDepth , 值 为 5 ,maxBins(每个节点用于拆分的bin数量),值为32,杂质(默认值:gini)CGini杂质:Gini1-Gini1;Gini71/1C熵:-filogfi;81/1哪里● f i是频率,C是唯一标签的计数。4.2.3. 合奏Spark MLlib库支持著名的集成算法、Gra- dient Boosted Trees(GBT)和Random Forest Classifiers(RF)4.2.4. 线性支持向量机支持向量机(SVM)(Mullen和Collier,2004)用于分类,回归和其他任务。SVM为多维区域生成超平面超平面作为函数裕度,降低了分类器的错误率。Spark的ML分类器支持使用线性核函数的SVM进行二进制分类。spark的线性SVC分类器在包含大规模数据集的分布式框架中表现良好。默认参数设置为maxIter(最大迭代次数):100,tol(错误率):1 e-06。4.2.5. 深度学习多层感知器分类器(MLPC)(Ain等人,2017)是基于前馈人工神经网络的分类。MLPC包含多层节点,从而实现深度学习。每一层与下一层互连,形成网络。特征向量连接到输入层的节点。隐藏层的节点使用S形(逻辑)函数作为激活函数或过渡函数(Mhaskar等人,1994),而输出层的节点使用Softmax激活函数。在当前工作中实现的深度神经网络(DNN)总共包含4层,其中中间两层是隐藏层,第一层是输入层,包括选定的numTopFeatures(选定的顶部特征的数量)数量的神经元。最后一层是输出层,它包含两个基于给定数据集中唯一类标签的神经元。隐藏层中的神经元数量对于每个数据集是随机选取的,以提高准确性。spark的Multilayer PerceptronClassifier()方法的默认参数用于当前工作中的MLPC实现。默认参数为maxIter(最大迭代次数):100,blockSize(堆叠输入数据的块大小)默认值:128,seed:1234,solver(算法)默认值:l-bfgs。Sigmoid函数:fzi1=1e-zi10(Gupte等人,2014年)。这些GBT和RF集成模型使用决策树作为其基础模型。随机森林分类器被认为是解决现实世界分类问题的最佳分类器之一NSoftmax功能:fzzieik¼1ezk!ð11Þ问题(Fernán-Delgado等人,2014年)。随机森林列车一组决策树,以并行地实现训练。组合来自每棵树的预测减少了方差,从而提高了测试数据的性能。GBT迭代地训练决策树以最小化损失函数并将预测值与标记数据进行比较。随机森林算法的工作原理是从总共M个特征中随机选择K个特征,其中K M。使用最佳分裂算法在k个特征中选择节点d。使用最佳分裂方法进一步划分dode的子节点。在当前工作中使用spark版本2.2.0的默认K值。spark实现中RFC、GBT的默认参数用于对建议的工作进行分类。默认参数设置为num- Trees(树的数量)默认值:20,maxDepth(树的最大深度)默认值:5,maxBins(用于在每个节点处拆分的bin的数量)默认值:32,impurpose值:gini对数损失:N电子邮件:info@fengx.com.cn1/1哪里N是实例数, 日其中,N是输出层中的节点的数量,其形成类的数量,并且Zi被计算为zi= wi x+ bi,其中wi是第i个节点的权重,b是每个节点的偏置5. 实验评价通过一系列实验,主要从运行时间和分类性能两个方面对模型的性能进行了评估。在分析机器学习模型的性能时,考虑了数据集的多样性和节点的数量。根据所考虑的数据集他们每个人都有四个2.4 GHz处理器和16 GB RAM,以及200 GB硬盘。在每个节点上安装了64位Centos版本7操作系统。其中一个节点被认为是主节点,其他7个节点被认为是从节点。Spark版本2.2.0是在Hue之上建立的。Huespark应用程序是最近创建的,它允许用户通过任何系统从任何浏览器直接与spark应用程序交互。Pyspark库设置安装了所需的pythonAPI,以便在Scala内置的spark上运行应用程序。提出的模型已在Spark数据框架上实现,● yi = i例如日读取表格值格式的数据有弹性的dis-● xi是i例如,日贡献数据集(RDD● F(xi)= i的预测标签例如在集群中的不同节点上工作A.N.M. JayaLakshmi,K.V.Krishna Kishore/沙特国王大学学报1317表2电子邮件垃圾数据集性能度量朴素贝叶斯决策树随机森林梯度提升树线性SVCDNN精度(单节点Tf_idf)94.9895.0195.9696.9897.9695.40调用(单节点Tf_idf)91.5792.3493.3293.0297.9195.49F评分(单节点Tf_idf)92.4792.9893.1893.2597.8395.27精度(群集Tf_idf)94.4694.4595.695.8890.9695.4调用(群集Tf_idf)91.9392.2793.1694.9690.9695.49F分数(聚类Tf_idf)92.5793.2294.1194.1190.9695.27精度(单节点LDA)76.6493.3393.9493.9475.5988.16召回(单节点LDA)87.8193.9594.4894.8386.7888.78F评分(单节点LDA)81.8193.2793.8094.1080.5385.61精度(群集LDA)72.5592.9993.1792.9785.988.15召回(群集LDA)85.3793.1293.1293.1287.7288.60F评分(聚类LDA)78.2592.8193.0193.7886.8885.46表3主观/客观数据集性能度量朴素贝叶斯决策树随机森林梯度提升树线性SVCDNN精度(单节点Tf_idf)89.2588.288.8989.2589.2788.05调用(单节点Tf_idf)89.2488.5189.1289.5889.2688.04F评分(单节点Tf_idf)89.2488.5189.2389.1189.2788.04精度(群集Tf_idf)89.9788.8989.5490.2190.4388.05调用(群集Tf_idf)89.9688.1390.4390.9690.488.04F分数(聚类Tf_idf)89.9688.5490.2991.1290.4088.04精度(单节点LDA)65.5065.3868.1568.7564.6367.90召回(单节点LDA)65.7363.9465.3866.1265.1369.45F评分(单节点LDA)64.2363.3565.3365.3364.0968.64精度(群集LDA)66.2065.6164.7965.1165.2166.28召回(群集LDA)66.4466.1966.5966.8765.0366.60F评分(聚类LDA)66.1465.3966.1366.5865.1667.42表4极性数据集的性能度量朴素贝叶斯决策树随机森林梯度提升树线性SVCDNN精度(单节点Tf_idf)79.4779.8180.0180.4582.3970.43调用(单节点Tf_idf)79.4279.4580.2080.8982.3569.27F评分(单节点Tf_idf)79.4179.9480.1680.5482.3569.12精度(群集Tf_idf)79.6380.1281.1681.6782.4868.85调用(群集Tf_idf)79.5580.4580.9881.6382.4669.80F分数(聚类Tf_idf)79.5580.8981.3482.2282.4669.00精度(单节点LDA)51.6753.7654.8454.1453.2351.99召回(单节点LDA)52.2454.5054.7354.7350.6751.93F评分(单节点LDA)46.8852.6553.1954.4352.1450.26精度(群集LDA)52.2954.1254.8655.1476.1452.95召回(群集LDA)52.4154.2754.2954.8987.1253.43F评分(聚类LDA)47.2053.5352.8754.3281.351.49见图4。 LDA的总体数据集的准确性1318A.N.M. JayaLakshmi,K.V.Krishna Kishore/沙特国王大学学报图五.具有Tf_idf的总体数据集的准确性图六、使用LDA的整个数据集的时间复杂度见图7。具有Tf_idf的整个数据集的时间复杂度A.N.M. JayaLakshmi,K.V.Krishna Kishore/沙特国王大学学报13195.1. 分类性能和运行时间的分类性能的模型进行评估的准确性,使用随机分裂的方法。使用集成分类器训练的模型优于其余分类器。通过集成树技术(如随机森林和梯度提升树)生成的输出显示出更高的准确率。假设准确度也可以取决于各种影响因素,也可以考虑具有55-60%准确度范围的分类器在这个框架中,我们实现了在准确性方面可能不出色的模型,但在运行时间方面它是一个有效的模型表2-4显示了模型在所提供的数据集上的精确度,召回率和F分数性能。在群集和单节点系统上都要考虑这些值。图4-7显示了各种分类器性能的图形表示。 这些图推断了各种性能指标,如准确性,各种分类器的运行时间,如朴素贝叶斯,决策树,随机森林,梯度提升树Entrance技术和深度神经网络,线性SVC。图4示出了在具有LDA的各种分类器上的总体数据集上的准确度的绘图。分类器的准确性上的单节点与集群显示- cased。类似地,图5中的图表显示了TF-IDF对整个数据集的性能指标,该数据集显示了单个节点和Spark集群上数据集的性能。图 图6和图7显示了在单节点和集群环境下运行的各种分类器上使用LDA和TF-IDF特征选择的模型的时间复杂度。6. 结论和今后的工作在这项工作中,实现了一个高效的Spark框架与clus-ter,以改善分析的时间复杂度从给定的语料库或从实时流的情感分析。语料库中的文本数据作为输入其中,在所提出的模型中提取特征,并且进一步进行使用LDA的聚类,然后使用各种分类器进行分类。与单个节点上的性能相比,使用各种分类器的所提出的框架的性能在集群上更好。评估表明,DNN和LinearSVC、树包围分类器的性能通过评估,我们已经证明了我们提出的系统是可扩展的计算方面的大数据而且高效目前的工作的局限性依赖于基于LDA的分布式环境下的情感分析的特征提取。在工作中使用了默认火花版本上的LDA的当前可用性LDA的建模与基于排名的主题建模,可以进一步提高模型的准确性今后,将考虑在大量数据中提取最佳特征。此外,我们将设计一个更好的机器学习模型,如生成对抗网络,以更快的速度提高大数据量下的性能。未来可将准确度作为进一步实施的目标。引用Khan,W.,Daud,A.,纳西尔,J.A.,Amjad,T.,2016. NLP背景下最先进的机器学习模型的 调 查 。科威特湾Sci. 43 ,95-113.Ahmed,K.,Tazi,N.,El Hossny,A.H.,2015.社交网络上的情绪分析:综述。2015年IEEE国际会议系统人,Cybern。,2174https://doi.org/Burdorf,C.,2015.分布式情绪分析。开发环境Pang,B.,李湖,2006年。意见挖掘和情感分析。Found. 趋势®Pang , B. , 利 湖 , 澳 - 地 ( 2006 年 ) 。 Opin. 小 敏 。 Anal. Found. Trends® Inf.Retrieval , 1 ( 2 ) , 91doi 10.1561/1500000001n Retr.1 , 91 -231 https : //doi.org/10.1561/150000001。Suttles,J.,Ide,N.,2013.离散二进制情感分类的远程监控。Lect. Notes计算Sci.(包括Subser。Lect. Notes Artif. 内特尔第7817章. LNCS,121-136 10.1007/978-3-642-37256-8_11。B.K.,Rodrigues,A.P.,Chiplunkar,N.N.,2017.机器学习技术在情感分析中的比较研究 ICICCT2017Proc.Int.Conf.Inven.Commun.Comput. 技 术 人 员 :216https://doi.org/10.1109/Abirami,M.A.M.,Gayathri,M.V.,2016.情感分析方法与途径综述。2016年第八届国际先进计算机大会72-76. https://doi.org/10.1109/ICoAC.2017.7951748。Baltas , A. , B , A.K. , Tsakalalovan , A.K. , 2017 年 。 云 计 算 的 数 学 方 面https://doi.org/10.1007/978-3-319-57045-7的网站。Svyatkovskiy,A.,Imai,K.,Kroeger,M.,Shiraito,Y.,2016.使用Apache Spark的 大 规 模 文 本 处 理 管 道 Proc.Conf.大 数 据 , 大 数 据 2016 ,3928https://doi.org/10.1109/BigData。 2016.7841068。Oussous,A.,Benzoun,F.Z.,Ait Lahcen,A.,Belfkih,S.,2017年。大数据技术:一 项 调 查 。 J. King Saud University. 信 息 科 学 https://doi.org/10.1016/j 的 网 站 。jksuci.2017.06.001网站。奥内托湖Bisio,F.,Cambria,E.,Anguita,D.,2016年。统计学习理论和ELM用于社会大数据分析。EeeComput.内特尔口径45-55https://doi.org/10.1109/MCI.2016.2572540。Alsheikh,文学硕士,尼亚托,D.,林,S.,谭,H.-P.,汉,Z.,2016年。使用深度学习和ApacheSpark的移动大数据https://doi.org/10.1109/ MNET.2016.7474340.Karthika Renuka,D.,Visalakshi,P.,Rajamohana,S.P.,2017. hadoop环境下用于垃 圾 邮 件 分 类 的 集 成 分 类 器 。 应 用 数 学 信 息 科 学 11 ,1123https://doi.org/10.18576/amis/110419Harnie,D.,Saey,M.,Vapirev,A.E.,Wegner,J.K.,Gedich,A.,Steijaert,M.,Ceulemans,H.,Wuyts河,De Meuter,W.,2017.使用Apache Spark扩展机器 学 习 用 于 药 物 发 现 中 的 目 标 预 测 。 未 来 Gener. Comput. 系 统 67 , 409-417 。https://doi.org/10.1016/j.future.2016.04.023网站。Nodarakis,N.,Tsakalalovan,A.,Sioutas,S.,Tzimas,G.,2016.使用spark对twitter进行大规模情绪分析。CEUR研讨会程序,1558Bhosale,H.S.,Gadekar,D.P.,2014年。关于大数据和Hadoop的评论文章Int. J. Sci.Res.Publ.4,2250维尔玛,A.,Mansuri,A.H.,Jain,N.,2016.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功