没有合适的资源?快使用搜索试试~ 我知道了~
Journalof King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com使用朴素贝叶斯、决策树和KNN分类技术Muhammad Bilal*,Huma Israr,Muhammad Shahid,Amin Khan巴基斯坦白沙瓦农业大学IBMS CS/IT系接收日期:2015年7月31日;修订日期:2015年10月14日;接受日期:2015年2015年12月12日在线发布摘要情感挖掘是文本挖掘的一个领域,用于确定人们对特定产品、主题、新闻组帖子中的政治家、评论网站、Facebook帖子上的评论等的态度。一个重要的问题是,意见可以用不同的语言(英语、乌尔都语、阿拉伯语等)。为了解决每种语言,是一项具有挑战性的任务。情感挖掘的大部分研究工作都是在英语语言中完成的。目前,对阿拉伯语、意大利语、乌尔都语和印地语等其他语言的情感分类进行了有限的研究。本文提出了三种分类模型使用Waikato Environment for Knowledge Analysis(WEKA)进行文本分类。用罗马-乌尔都语和英语撰写的意见摘自博客。这些提取的意见被记录在文本文件中,以准备包含150个正面和150个负面意见的训练数据集,作为标记的示例。测试数据集提供给三个不同的模型,并在每种情况下的结果进行了分析。实验结果表明,朴素贝叶斯算法在准确率、精确率、召回率和F-测度方面优于决策树和KNN算法©2015作者。制作和主办由爱思唯尔B.V.代表沙特国王大学。 这是CC BY-NC-ND许可下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍*通讯作者。电 子 邮 件 地 址 : qec_mbilal@aup.edu.pk ( M.Bilal ) ,huma.gmail.com(H.Israr),shahid_swabi@yahoo.com(M.Shahid),amin-khan@aup.edu.pk(A. Khan)。沙特国王大学负责同行审查由于计算机、智能手机和高速互联网的广泛使用,人们现在使用网络进行社交联系、商务通信、电子营销、电子商务、电子调查等。人们分享他们对特定产品、服务、政治实体和时事的想法、建议、评论和意见。有这么多的用户生成的意见,可在网络上。从所有这些意见中,很难判断积极和消极意见的数量(Khushboo等人,2012年)。这使得人们很难做出正确的决定购买特定的产品。上http://dx.doi.org/10.1016/j.jksuci.2015.11.0031319-1578© 2015作者。制作和主办由爱思唯尔B.V.代表沙特国王大学。 这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier关键词罗马乌尔都语;意见挖掘;词袋;朴素贝叶斯;决策树;k近邻罗马乌尔都语的情感分类选项331另一方面,制造商或服务提供商也难以跟踪公众对他们的产品或服务的意见并管理这些意见。同样,分析师希望进行调查,以获得公众对特定主题的反馈他/她将在博客上发布主题,以分析人们对该主题的看法。在这篇文章上会有很多对于所有这些意见,很难知道有多少意见是积极的和消极的。因此,可以训练计算机机器以快速和准确的方式做出这样的决定。意见挖掘的关键是提取和分析人们的反馈,以发现他们的意见。越来越多的意见丰富的资源,如在线博客,社交媒体,评论网站的可用性;提出了新的机会和挑战(Pang和Lee,2008)。人们现在可以积极地利用信息技术来搜索他人的意见。意见挖掘涉及的问题很多。第一个是一些词在一种情况下代表积极意义,在另一种情况下代表消极意义。例如,考虑一个意见“这个手机的尺寸很小”。在这里,“小”这个词有积极的意义。另一方面,考虑另一种观点,“这款手机的电池时间很短”。在这里,“小”一词被负面地解释(Rashid等人,2013年)。意见挖掘中的另一个问题是,大多数文本处理系统都依赖于这样一个事实,即两个句子中的微小差异不会改变太多的含义。在情感分析中,文本“电影很棒”与“电影不棒”是不同的。人们在陈述中可能会有矛盾。大多数评论都有正面和负面的评论,这是一个有点管理的分 析 句 子 一 次一 个 。 然 而 , 在 更 非 正 式 的 媒 体 , 如Facebook,Twitter和博客,缺乏上下文使得人们很难根据一小段文字来理解某人的想法。意见挖掘中的一个重要问题是,产品评论、评论和反馈可能使用不同的语言(英语、乌尔都语、阿拉伯语等),因此根据语言的方向来处理每种语言是一项艰巨的任务(Rashid等人, 2013年)。情感挖掘的大部分研究工作都是在英文和中文中完成的。目前,对其他语言如阿拉伯语、意大利语、乌尔都语和印地语等的情感分类的研究有限。乌尔都语是一种使用扩展的波斯语和阿拉伯语脚本的印度-雅利安语言。乌尔都语的罗马字母没有任何拼写标准。一个单词不仅可以由不同的人写成不同的形式,而且可以由同一个人在不同的场合写成不同的拼法。特别是,乌尔都语元音字母和相应的罗马字母之间没有一对一的映射(Ahmed,2009)。乌尔都语和印地语的发音没有很大的区别,因此乌尔都语和印地语的罗马版本几乎是一样的。因此,这项研究是在罗马乌尔都语进行的,可以在罗马印地语中应用。这些是在巴基斯坦、印度、孟加拉国以及生活在世界不同地区的这些地区的人们中使用最多的语言。先前的工作(Daud等人,2014)通过使用键匹配方法进行罗马乌尔都语意见挖掘。这些观点的形容词与人工设计的词典相匹配,以找到该观点的极性。 人们发现,这项工作的准确性很低,因为形容词本身不能决定一个观点的极性。例如,考虑一个评论因此,它表明,所有的意见是同样重要的,以表明一个评论,无论是积极的或消极的。因此,该模型将使用词袋模型和三种不同的分类技术,以提高罗马-乌尔都语情感分类的准确性。本研究的目的是从博客中挖掘以罗马语和乌尔都语混合书写的公众意见的极性,使用训练数据集训练机器,并建立朴素贝叶斯、决策树和KNN分类模型,并使用这些分类模型预测新意见的极性。本文分为五个部分。在第一和第二部分,引言和以前的相关工作进行了简要说明。在第三部分中,解释了执行不同实验所采用的方法。第四部分对实验进行了计算和评价,得到了各种结果,并对这些结果进行了讨论。最后一节根据研究结果得出了一些结论。2. 相关工作2015年,Daud等人提出了一个名为罗马乌尔都语意见挖掘系统(RUoMiS)的系统,该系统使用自然语言处理技术来发现意见的极性。在这项研究中,形容词的意见进行了比较与人工设计的字典,以找到极性的意见。实验结果的准确率为27.1%,然而,RUoMiS错误地分类了约21.1%的意见。2014年,Kaur等人使用混合技术进行旁遮普语文本分类(Kaur等人,2014年)。在这项研究中,朴素贝叶斯和N-gram技术相结合提取N-gram模型的特征,并将其作为训练数据集对朴素贝叶斯进行训练。然后通过提供测试数据对模型进行了测试。通过与已有方法的结果比较发现,所提出的方法的准确性是有效的。Ashari等人在2013年使用朴素贝叶斯、决策树和k-最近邻,通过使用WEKA作为数据挖掘工具来搜索替代设计,并开发了三个分类模型(Ashari等人,2013年)。他们的实验表明,决策树是最快的,KNN是最慢的分类技术。他们提到的原因是,在决策树中,不涉及计算。采用树型分类规则进行此外,KNN是最慢的分类器,因为分类时间与数据的数量直接相关。如果数据量很大,则必须执行更大的距离计算,这使得KNN非常慢。他们的结论是,朴素贝叶斯在准确性、精确度、召回率和F度量方面优于决策树和KNN。 Jebaseeli和Kirubakaran在2012年研究了三种分类器的使用,即朴素贝叶斯,KNN和随机森林,用于预测对M学习系统的正面或负面意见,332海里Bilal等人目的分析这三种分类器的分类效率。研究中采用了包含300个意见的训练数据集,其中100个正面意见,100个负面 意 见 和 100 个 中 立 意 见 ( Jebaseeli 和 Kirubakaran ,2012)。在预处理步骤中,通过使用SVD方法去除常见词和罕见词。SVD用于评价单词的重要性。将得到的预处理数据用作随机森林算法的输入。在该实验中,实现了55-60%的准确度范围。Khush- boo等人在2012年使用了一种基于计数的方法来进行英语语言的意见挖掘。使用否定词和肯定词的总数,然后进行比较(Khushboo等人,2012年)。在这项研究中,朴素贝叶斯算法被使用,并观察到,如果字典是好的,那么,它真的给了很好的结果。为了提高该算法的精度,在传递给算法的参数方面进行了改变。Zhang等人在2008年通过使用机器学习方法进行了中国意见挖掘(Zhang等人,2008年)。使用三种分类器SVM、朴素贝叶斯多项式和决策树对标注语料进行训练,学习特定的分类函数。为此,使用了AmazonCN评论数据集。实验结果表明,该系统的性能是令人满意的,而使用支持向量机与字符串核。Abbasi等人在2008年提出了情绪分析方法,用于对阿拉伯语和英语网络论坛上发布的意见进行分类(Abbasi等人,2008年)。在这项研究中,特定的特征提取组件被集成到考虑阿拉伯语的语言特征。所提出的系统是非常好的准确性(93.62%)。然而,该领域非常具体,因为该系统只对与仇恨和极端主义团体论坛有关的情绪进行分类,因为仇恨和极端主义词汇有限,并且不难区分积极和消极词汇。此外,没有涉及对阿拉伯语非常重要的预处理步骤。Pang等人在2002年根据总体情绪而不是主题对文档进行分类,以确定是否评论是正面的或负面的。电影评论被用作数据集。发现标准机器学习方法绝对优于人类产生的基线(Pang等人,2002年)。然而,他们的结果表明,朴素贝叶斯,最大熵分类和SVM在情感分类上的表现不如传统的基于主题的分类。Syed等人在2014年开发了一个基于语法模型的框架。这种方法侧重于句子的语法结构和词的在这种技术中,两种类型的语法图1提出的模型。结构提取和连接,形容词短语和名词短语。形容词短语被称为感觉单位,名词性的是他们的目标。应用浅层解析和依赖解析方法,发现其准确率为82.5%(Syed et al.,2014年)。以上所有关于意见挖掘的工作都是用英语进行的。除英语外,还用中文、阿拉伯语、马来语和日语进行了研究。文献表明,在乌尔都语,特别是在罗马版本的工作已经做了较少。3. 材料和方法该模型分为五个步骤。首先,使用Easy Web Extractor软件从博客中提取用罗马乌尔都语撰写的意见所提取的意见被记录在文本文件中,以准备包含150个正面意见和150个负面意见的训练数据集,作为标记的示例。首先 , 在 简 单 CLI模 式 下 , 使 用WEKA 的 Tex Directoryloader命令将数据集转换为ARFF(属性-关系文件格式)。然后将ARFF中的数据集加载到WEKA资源管理器模式,作为训练机器的训练数据集。首先使用WEKA滤波器对数据进行预处理,然后使用三种不同的算法,即在数据集上应用朴素贝叶斯、KNN和决策树对机器进行训练,建立了三个测试数据集提供给三个模型,并在每种情况下的结果进行了分析。 在方法学中遵循以下步骤(图11)。①的人。3.1. 预处理在预处理步骤中,数据在被转发进行分类之前被准备好,以获得准确的结果。以下步骤用于预处理。3.1.1. 提取提取过程涉及在特定网站中爬行在这项研究中,Easy WebExtractor被用来提取博客(www.example.com)上发布的用户评论http://hamariweb.com/blogs/blogdetails.aspx?id=59& Page=1)。 该博客包含关于“Facebook使用的影响”的公众评论。用户自由地发表他们的意见,大多是在多语言,例如,“你的手机不错的干草”,“你的凸轮achi条件我干草”,“是移动ke电池寿命ziada干草”等原因是英语的影响,在乌尔都语社区(艾哈迈德,2009年)。同样,在这项研究中,不同的评论被张贴在多种语言的主题。例如,“facebookaik信息网站hay”,“是网站pe学生apnasaratimewastekartayhain”,“是setalebilmokeestudyparnegativeasarpartahy”,“是网站pe学生apnasaratimewastekartayhain”,“是网站pe学生apnasaratimewastekartayhain”等。要开始提取过程,首先在Easy Web Extractor软件中创建一个项目,然后执行以下步骤:第一步:在输入框中输入源网站的网址,上传网页步骤2:按下一个按钮。它将打开提取模式窗口,在该窗口中选择要提取的区域,并为其准备HTML DOMð Þ¼þn n n n n n nn~罗马乌尔都语的情感分类选项333第三步:选择第一条记录(意见)作为数据列.第4步:选择下一页网址以访问其他页面。第5步:点击提取按钮从所有页面中提取数据步骤6:将提取的数据导出到计算机并制作数据集。在语料库中具有相对重要性的术语的权重(Rajaraman和Ullman,2011)。TF–IDF value increases在这项研究中,使用TF-IDF消除了不相关的术语3.1.2. 语料库开发tft;d0: 50: 5×ft;dmaxffw;d:w2dgð1Þ每一个提取的意见,存储在单独的文本文件,通过使用Easy Web Extractor软件。它给出了一组文本文件。文本文件被放置在两个不同的文件夹中,使得具有正面意见的文本文件被放置在正面文件夹中,并且包含负面意见的文本文件被放置在负面文件夹中。在本研究中,150个正面和150个负面评论作为训练数据集。3.1.3. 将提取的数据转换为Arff利用WEKA软件对训练数据集进行预处理、WEKA接受属性-关系文件格式(ARFF)的数据。因此,通过在WEKA的简单CLI模式下使用以下文本目录加载器命令,将由300个文本文件(150个阳性和150个阴性)组成的训练集转换为单个属性-关系文件格式(ARFF)>java weka.core.converters.此命令加载目录中的所有文本文件,并使用文件名作为类标签。在我们的例子中,子目录是正的和负的,它们反映为ARFF中的类标签。文本文件的内容存储在一个String属性中,该属性带有相关的类标签。3.2. 特征提取与选择在文本分类的情况下,特征(属性)是数量大并且影响在建立模型所花费的时间方面的效率的术语(单词标记)。所以特征约简是必要的。它有两个目的。首先,它减少了有效词汇的大小,这使得在训练数据上应用分类器变得有效,其次,它消除了噪声特征,这减少了新数据上的分类错误。在本研究中,在预处理下,使用WEKA滤波器进行选项卡.3.2.1. StringToWordVector过滤器StringToWordVector过滤器用于将String属性转换为一组属性,这些属性根据所使用的标记器表示单词的出现在这项研究中,StringToWordVector过滤器用于通过设置下面讨论的某些参数将文本(通过TextDirectory加载器命令加载到weka)转换为一组单词标记。3.2.1.1. TF-IDF 变 换 TF–IDF stands for Term Fre- quency–Inverse 它用于分配像“the“这样的术语根据术语频率(TF),更频繁地使用术语“the”的文档将错误地获得更多权重,而不会给予更有意 义但不 太常 见的术 语, 如“Good” ,“Excel-lent” 和“Bad”。因此,将逆文档频率(IDF)因子与TF结合,以调节文档集中频繁出现的术语的权重,并增加很少出现的术语的权重:Nidft;Dlogjfd2D:t2dgj2这里:N代表总数。在语料库中的文件jfd2d:t2dgj:表示出现项t的文档的数量(即, tft;d-0)。3.2.1.2. 词频-逆文档频率。然后tfidfft;d;Dtfft;d× idfft; D 33.2.1.3. 小写记号。小写标记参数用于在添加到字典之前将所有单词标记转换为小写。设置此参数的目的是将所有单词转换为可轻松用于预测的单一格式。3.2.1.4. 最小词频。此参数允许用户指定单词标记出现的最小值,以供其在特征选择中考虑。如果我们在最小词频中设置值2,则在特征选择中不会考虑出现少于2次的单词标记。在我们的例子中,出现至少为1的值是很重要的,因此,该值被设置为1。3.2.1.5. 输出字数。此参数用于统计单词标记在单个文档中出现的次数。例如,一个词在一个文档中出现三次,在向量矩阵中将反映该值。在这项研究中,没有使用输出单词计数,因为特征被转换为二进制形式,这表明如果一个单词出现在意见中,则其值为1,否则为0。3.2.1.6. Tokenizer. 一个简单的tokenizer,使用的是java。util.StringTokenizer类将字符串拆分为word代币Tokenizer通过读取分隔符r从字符串中创建令牌 不n.,;: ’ “()?!->& lt;#$%&*+/@^_=[]{}| 01年23456789.下面是tokenizer的代码。~n n n nn n334海里Bilal等人//创建一个过滤器String text. String();//创建一个tokenizerint n = new int n();String delimiters='' r t n.,;: '“()?!-><#$%&*+/@^_=[]{}|“01 2 3 4 5 6 7 8 9 ” ;setDelimiters();filter.setTokenizer(wt);//通知过滤器关于数据集过滤器.setInputFormat(data);3.2.1.7. WordsToKeep. 此选项使我们能够限制每个类的特定单词数。一般来说,分类器保留尽可能多的小频率词是有好处的。但是,保留过多的词作为特征会严重影响分类器的效率,因为大量的特征(属性)会使分类器在建立模型时花费更长的时间。然而,不同的过滤器,如TF3.2.2. 重新排序过滤器在应用StringToVector过滤器之后,字符串属性被转换为单词标记,每个单词标记都有一个特定的值,作为TF-IDF值。类属性仍然是列表中的第一个标记。因为WEKA将最后一个属性视为类属性。因此,使用Reorder过滤器将class属性重新定位到WEKA将其作为class属性读取的末尾。使用了以下命令weka.filters.unsupervised.attribute.Reorder:Reorder-R 2-last,1重新排序过滤器使用属性的新顺序生成输出如果你想把一个属性移到最后作为类属性使用,这是很有用的(例如: 使用“-R 2-last,1”)。3.2.3. 数字到二进制过滤器利用WEKA的NumericToBinary过滤器将数值属性转换为二进制属性。该过滤器将所有数值属性转换为二进制属性(除了class属性)。如果numeric属性的值正好为零,则新属性的值将为零,否则它将为1。其语法为:weka.filters.unsupervised.attribute.NumericToBinary 在意见文档中出现单词标记是代表-表示为1,而其在文档中的缺失表示为0。3.2.4. 词袋模型在词袋模型中,文档被表示为无序的单词集合,而不管语法甚至词序如何。对于自然语言处理,文档被表示为其词的Bag(多集),而不考虑文法和词序,但保持多样性。词袋模型是文档分类中常用的模型,它以每个词的出现频率作为训练分类器的特征。考虑两个文本文档:阿里喜欢使用Facebook。Maryam也喜欢Facebook。阿里也喜欢看电影。在上述两个文本文档的基础上,构建字典:{‘‘Ali”:‘‘likes”:‘‘to”:‘‘uSe”:‘‘facebook”:‘‘also”:‘‘movie”:‘‘watch”:‘‘Maryam”:‘‘too”:}它有十个不同的词。通过使用字典的索引,每个文档由10个条目向量表示向量-1:[1,2,1,1,2,0,0,0,1,1]向量-2:[1,1,1,0,0,0,1,1,0,0]在这里,向量的每个条目指的是相应单词在词典中出现的次数。例如,vector-1表示第一个文档,它的第一个和第二个条目是“1,2”。第一条目对应于单词“Ali”,其是字典中具有值“1”的第一个单词,这表明“Ali”在第一文档中出现一次。类似地,第二条目引用单词“likes”,其是字典中具有值“2”的第二个单词,这表明“likes”在第一文档中出现两次,然而该向量表示不遵循原始句子中单词的顺序。在二进制化形式中,单词标记的存在由1表示,并且其不存在由0表示。通过这种方式,上述矢量被写为(图1)。(2):向量-1:[1,1,1,1,1,0,0,0,1,1]向量-2:[1,1,1,0,0,0,1,1,0,0]3.3. 分类分类是一种将类别标签分配给一组未分类病例的技术(Shrivastava,2014)。有两种类型的分类:(i) 监督分类。(ii) 无监督分类(i) 监督分类:在监督分类中,类别标签是预先知道的。训练数据是一组具有多个属性的记录,包括具有预定义类标签的类属性。在这种技术中,通过分析训练数据集来开发模型。该模型用于为测试数据集分配类标签(ii) 无监督分类:在这种类型的分类中,类别标签事先不知道。分类后罗马乌尔都语的情感分类选项335图2矢量矩阵。图3在WEKA中构建模型。通过基于某些自然相似性对记录进行分组来为记录分配类标签。聚类是无监督分类。3.3.1. 朴素贝叶斯、J48和KNN分类模型的建立为此,使用WEKA工具的“分类选项卡“。WEKA 3.7.10版的“分类选项卡”中有53种分类算法。这台机器是用采用朴素贝叶斯、决策树(WEKA中的J 48)和k-最近邻(WEKA中的IBk)三种分类技术对训练数据集进行分类,建立了三种分类模型。这些模型提供了测试数据,以预测意见的极性,如积极或消极(图1)。 3)。3.4. 模型测试这些模型是使用测试数据集提供的。测试数据集是博客上发布的新观点的集合。的336米Bilal等人步骤1:点击“设置.. .”钮.步骤2:点击“打开文件”. 步骤3:选择测试数据集文件。步骤4:点击第5步:右键点击每个模型,选择“在当前测试集上重新评估模型”选项.3.5. 结果分析在此步骤中,分析结果以了解分类模型对传入意见进行分类的所有三个分类模型都在相同的测试数据上运行,并比较结果以确定哪个分类器更准确地分类测试数据。结果进行了分析和评价,通过使用标准的方法,信息检索,即。精确度,召回率和F-测量。4. 结果和讨论表3朴素贝叶斯在训练集上的总结结果。类TP率FP率精度召回F-测量ROC区域积极0.9930.0470.9550.9930.9740.999负0.9530.0070.9930.9530.9730.999总体(合计)0.9730.0270.9740.9730.9730.999测试数据集也被预处理并转换成ARFF文件。通过使用“分类选项卡”并在“测试选项”面板中选择“提供的测试集”选项,将测试数据集加载到WEKA之后,执行以下步骤本节描述了本研究中进行的实验结果,以及根据研究中概述的既定目标对这些结果进行的用三种分类该算法具有更好的准确率、召回率和F-度量值,被认为是最有效的,当应用于训练数据集以及测试数据集大小时。4.1. 朴素贝叶斯分类以150份正面和150份负面意见文档为训练样本,采用朴素贝叶斯算法建立分类模型。使用weka内置过滤器对数据进行预处理,如详细章节所述。训练数据的预处理形式是图4 ROC曲线。表1训练集上朴素贝叶斯的准确性。年龄(%)正确分类的病例292 97. 33分类不当的情况8 2.67实例总数300 100表2训练集上的朴素贝叶斯列联表。XY一1491B7143149(TP)1人(FN)7(FP)143(田纳西州)罗马乌尔都语选项的情感分类3374.1.2. 测试数据集利用朴素贝叶斯算法在训练集上建立分类模型后,将测试数据集提供给模型,并使用weka选项“在当前测试集上重新评估模型”进行测试。结果见表4-6和图5。4.2. 决策树分类再以包含150份正面意见和150份负面意见的训练数据集为样本,建立基于决策树的分类模型。在WEKA Explorer界面上传预处理后的训练数据。分类选项卡使我们能够选择用于决策树的J48算法。4.2.1. 在训练数据集表6测试集上朴素贝叶斯的总结结果。在weka中选择J48算法后,应用于训练集以构建模型。结果示类TPFP精度召回F-ROC在表7率率测量区域积极1.0000.0500.9521.0000.9761.000负0.9500.0001.0000.9500.9741.000表7决策的准确性树上训练集整体0.9750.0250.9760.9730.9751.000Number年龄(%)(合计)分类正确的实例分类不正确的实例总数284 94.66716 5.333300 100在WEKA Explorer界面上传。Classify选项卡使我们能够选择朴素贝叶斯分类器。4.1.1.在训练数据集在weka classify选项卡中选择朴素贝叶斯分类算法后,将该算法应用于训练集上建立模型。结果见表1- 3 和 图 2 。四、图5 ROC曲线。表8训练集上的决策树列联表X YA 140 10B 6 144表4测试集上朴素贝叶斯的准确性。Number年龄(%)正确分类的实例3997.5分类不正确的实例12.5的实例的40100表5测试集上朴素贝叶斯列联表。XY一200B119338海里Bilal等人表9 苏马里斯在训练集上编辑决策树的结果类TP率FP率精度召回F-measureROC 区域积极0.9330.0400.9590.9330.9460.969负0.9600.0670.9350.9600.9470.969总体(合计)0.9470.0530.9470.9470.9470.969图6 ROC曲线。4.2.2. 测试数据集利用决策树算法(J48)在训练集上建立分类模型后,将测试数据集提供给模型,并使用weka选项“在当前测试集上重新评估模型”进行测试。结果见表10-12和图7。4.3. KNN分类第三种算法再次采用由150个正面和150个负面意见在WEKA Explorer界面上传预处理后的训练数据。Classify选项卡使我们能够选择IBk算法,该算法用于实现KNN分类。4.3.1. 在训练数据集在weka中选择了IBk算法,并设置了必要的参数(即k=3,使用的搜索算法=线性NN表12 测试集上决策树的详细结果类TP率FP率精度召回F-measureROC面积积极0.9000.0500.9470.9000.9230.948负0.9500.1000.9050.9500.9270.948总体(合计)0.9250.0750.9260.9250.9250.948表10测试集上决策树的准确性。Number年龄(%)正确分类的实例3792.5分类不正确的实例37.5的实例的40100表11 测试集上的决策树列联表XY一182B119罗马乌尔都语选项的情感分类339图7 ROC曲线。4.3.2. 测试数据集在使用KNN算法(IBk)在训练集上建立分类模型之后,将测试数据集提供给模型,并使用weka选项“在当前测试集上重新评估模型”进行测试。结果见表16 -18和图16。9.第九条。4.4. 结果比较在同一数据集上应用三种算法后,得到了以下结果。这些结果被合并在一个表中,用于这些算法的性能比较从表19中,获得以下结果搜索,距离函数=欧几里德距离),将该算法应用于训练集以建立模型。结果见表13 -15和图15。8 .第八条。(1) 与决策树和KNN相比,朴素贝叶斯算法在罗马乌尔都语意见分类中表现最好,具有更高的准确率、更高的精度、更高的召回率和更高的F-测度值(2) KNN的查准率随着样本量的增加而显著降低,而召回率和F-测度则随着样本量的增加先增大后减小。表15总结了KNN在训练集上的结果类TP率FP率精度召回F-measureROC面积积极0.8930.1600.8480.8930.8700.936负0.8400.1070.8870.8400.8630.936总体(合计)0.8670.1330.8680.8670.8670.936表13KNN在训练集上的准确性Number年龄(%)正确分类的实例26086.667分类不正确的实例4013.333的实例的300100表14KNN在训练集上的列联表。X YA 134 16B 24 126340海里Bilal等人图8 ROC曲线。表16KNN在测试集上的准确性。Number年龄(%)正确分类的实例3895分类不正确的实例25的实例的40100表17 KNN在测试集上的列联表XY一191B119(3) 决策树的召回率随着样本量的增加而显著增加,而精确度和F-测度则随着样本量的增加先增加后逐渐减小。这些结果以图表的形式表示在图1A和1B中。 10-154.5. 讨论从上述实验中可以看出,朴素贝叶斯算法优于其他两种算法,即:决策树的KNN。它的性能是最好的准确率,精度,召回率和F-措施。决策树是最快的分类技术,而KNN是最慢的分类技术(Ashari等人,2013年)。原因是,决策树中没有计算过程。它通过遵循某些树规则来执行分类,这些规则比朴素贝叶斯和KNN中涉及的计算更快。另一方面,KNN是上述三种分类器中最慢的,因为它的分类时间与数据的大小这意味着如果数据量更大,将执行更大的距离计算,这就是KNN非常慢的原因。朴素贝叶斯是一个简单的分类器,但它可以比其他复杂的分类算法更好地执行。它是快速和准确的,甚至适用于大型数据集(Han和Kamber,2001)。它在学习和预测过程中具有良好的速度。它的学习时间与样本的数量成线性关系,而它的预测时间与样本的数量无关(Pazzani andBilsus,1997)。就计算而言,朴素贝叶斯在学习和分类方面比决策树更有效(Amor等人,2004年)。这一事实背后的原因是,它显示了正确类别的良好概率估计,这使得它能够执行正确的分类(Domingos和Pazzani,1996)。朴素贝叶斯优于其他两种分类技术的另一个原因与其他损失函数不同,只要将最大概率分配给正确的类,它就不会对不准确的分类进行惩罚。表18 总结了KNN在测试集上的结果类TP率FP率精度召回F-measureROC面积积极0.9500.0500.9500.9500.9500.976负0.9500.0500.9500.9500.9500.976总体(合计)0.9500.0500.9500.9500.9500.976罗马乌尔都语的情感分类选项341图9 ROC曲线。表19结果比较算法数据集所用时间(秒)准确度(%)精度召回F-measureROC面积朴素贝叶斯培训0.0997.330.9740.9730.9730.999测试0.0197.500.9760.9730.9751.000决策树培训0.0294.670.9470.9470.9470.969测试0.0092.500.9260.9250.9250.948KNN培训0.1386.670.8680.8670.8670.936测试0.0495.000.9500.9500.9500.9761.00000.98000.96000.94000.92000.90000.88000.86000.84000.82000.8000朴素贝叶斯决策树0.98000.97000.96000.95000.94000.93000.92000.91000.90000.8900朴素贝叶斯决策树图10三种算法在训练数据集上的结果比较。图11三种算法在测试数据集上的结果比较。朴素贝叶斯具有良好性能的另一个原因类似地,当所有属性之间的依赖性一起工作时,它们可以抵消彼此的影响,因此依赖性不再影响分类。这就是违反条件独立性假设实验结果表明,k-近邻算法的性能优于朴素贝叶斯算法和决策树算法. KNN使用最近邻的数量k的值以及距离函数和加权函数会影响分类器的性能(Batista和Silva,2009)。 在本研究中,我们取k=3。当测试更大的k值时,即k=5,7,9,342米Bilal等人图12样本量对KNN中F-测量的影响图13样本量对KNN中精确度和召回率的影响分级机的性能下降。对于所有加权函数和距离函数,KNN的性能随着k值的增大而降低。KNN的一个弱点是它的运行速度慢和内存需求大(Bay,1999),因为k-NN分类器需要一个大的存储器来存储整个训练集(Lee,1991)。这意味着数据集越大,存储训练数据所需的内存就越多,随后将执行更大的距离计算,这使得它比其他方法慢且效率低。决策树的召回率随着样本量的增加而显著增加这意味着训练集越大,树的大小就越大,并且将获得比从子集构建的树更准确的结果(Catlett,1991)。它提高准确率和召回率的原因是因为树和训练实例的额外大小。这提供了额外的规则,并允许在构建树时更好地选择属性,以及更好地选择子树以在构建后进行修剪罗马乌尔都语的情感分类选项343图14样本量对决策树中F-测度的影响图15决策树中样本量对查准率和查全率的影响5. 结论本研究是在罗马乌尔都语意见挖掘,使用三种分类算法,即。朴素贝叶斯、决策树和KNN。使用包含150个正面和150个负面意见的训练数据集作为标记示例来训练机器并开发三个模型。将测试数据提供给三种不同的模型进行分类。实验结果表明,与决策树和KNN算法相比,朴素贝叶斯算法具有更高的准确率、更高的精确率、更高的召回率和更高的F-测度值。就计算而言,朴素贝叶斯在学习和分类方面比决策树更有效(Amor等人,2004年)。其良好性能的原因是,在许多情况下,概率估计可能很差,但正确的类仍然具有最高的估计,从而导致正确的分类(Domingos和Pazzani,1996)。朴素贝叶斯分类优于其他两种方法的另一个原因是朴素贝叶斯分类中使用了0 - 1损失函数。决策树是最快的分类技术,而KNN是最慢的分类技术(Ashari等人,2013年)。原因是,决策树中没有计算过程。 KNN的精度随着样本量的增加而显著下降,344海里Bilal等人尺寸增大。然而,回忆率和F-测量值随着样本量的增加先增加后逐渐减少。由于KNN使用最近邻数决策树的召回率随着样本量的增加而显著增加,而精确度和F-测度则随着样本量的增加先增加后逐渐减小。这意味着从非常大的训练集构建的树比从子集构建的树更大,更准确(Catlett,1991)。引用Abbasi,A.,陈洪,Salem,A.,2008.多种语言的情感分析:网络论坛中意见分类的特征选择。ACM Trans. Inf. Syst. 26(3).http://dx.doi.org/10.1145/1361684.1361685.Ahmed,T.,2009.罗马语到乌尔都语的音译。在:语言和技术会议的会议记录,305Amor,N.B.,Benferhat,S.,Elouedi,Z.,2004.入侵检测系统中的朴素贝叶斯与决策树。In:ACM Symp.应用计算机,pp。420-424Ashari,A.,帕留迪岛Tjao,A. M.,2013.在能量模拟工具中比较朴素贝叶斯、决策树和k-近邻法在搜索方案设计中的性能. Int.J. 高级计算Sci. Appl.4(11),33-39.巴蒂斯塔,G.E.A.P. A席尔瓦,D.F.,2009. k-近邻参数如何影响其性能。In:Simposio Pastino de Inteligencia Artificial,pp. 95比106南达科他州贝
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 平尾装配工作平台运输支撑系统设计与应用
- MAX-MIN Ant System:用MATLAB解决旅行商问题
- Flutter状态管理新秀:sealed_flutter_bloc包整合seal_unions
- Pong²开源游戏:双人对战图形化的经典竞技体验
- jQuery spriteAnimator插件:创建精灵动画的利器
- 广播媒体对象传输方法与设备的技术分析
- MATLAB HDF5数据提取工具:深层结构化数据处理
- 适用于arm64的Valgrind交叉编译包发布
- 基于canvas和Java后端的小程序“飞翔的小鸟”完整示例
- 全面升级STM32F7 Discovery LCD BSP驱动程序
- React Router v4 入门教程与示例代码解析
- 下载OpenCV各版本安装包,全面覆盖2.4至4.5
- 手写笔画分割技术的新突破:智能分割方法与装置
- 基于Koplowitz & Bruckstein算法的MATLAB周长估计方法
- Modbus4j-3.0.3版本免费下载指南
- PoqetPresenter:Sharp Zaurus上的开源OpenOffice演示查看器
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功