没有合适的资源?快使用搜索试试~ 我知道了~
Journalof King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com使用半监督学习法瓦兹Mahyouba,b, Muazzam A.Siddiquia,*, Mohamed Y.达哈布河a沙特阿拉伯吉达阿卜杜勒阿齐兹国王大学计算机和信息技术学院b也门塔伊兹,塔伊兹大学计算机科学和信息技术学院2014年9月28日在线发布摘要情感分析是从以自然语言书写的文本中确定预定义情感的过程,该文本相对于其所指的实体。一些词汇资源可以用英语来完成这项任务。一个这样的资源是SentiWordNet,它为英语WordNet中找到的单词分配情感分数。在本文中,我们提出了一个阿拉伯语的情感词汇,情感分数的阿拉伯语WordNet中找到的话。从正面和负面单词的小种子列表开始,我们使用半监督学习通过利用同义词集关系来我们的算法在阿拉伯语WordNet中为超过800的单词分配了积极情感得分,为超过600的单词分配了消极得分,为超过6000的单词分配了中性得分。该词典通过将其纳入基于机器学习的分类器进行评估。这些实验是在几个阿拉伯语情感群体上进行的,我们能够达到96%的分类准确率。©2014沙特国王大学。制作和主办:Elsevier B.V.All rights reserved.1. 介绍情感分析是从以自然语言编写的关于特定主题的在线文本中确定预定义情感的过程。情感分析的需要是博客、评论和讨论形式的固执己见或多愁善感的文本突然增加的产物(Pang和* 通讯作者。电 子 邮 件 地 址 : fawazh7@gmail.com ( F.H.H. Mahyoub ) ,maasid-diqui@kau.edu.sa ( M.A. Siddiqui ) , mdahab@kau.edu.sa(M.Y.Da- hab)。沙特国王大学负责同行审查Lee,2008)。处理这些评论或评论的想法吸引了文本挖掘领域的许多研究人员,目的是从互联网上大量的非结构化数据中提取关于一个项目或主题的一般性意见。在本文中,我们提出了一个阿拉伯语情感词汇,是开发利用语义关系中发现的阿拉伯语WordNet。虽然之前有几个使用WordNet构建英语情感词典的例子(Kim和Hovy,2004;Esuli和Esutiani,2005,2006),但据我们所知,这是第一次尝试使用阿拉伯语WordNet构建阿拉伯语情感词典。阿拉伯语WordNet是WordNet的阿拉伯语版本,可以被看作是一个网络,其中包含一组语义相似的单词(称为同义词集)作为节点,以及一些语义和词汇关系作为同义词集节点之间的链接我们使用半监督的方法从一个小的积极和消极的http://dx.doi.org/10.1016/j.jksuci.2014.06.0031319-1578© 2014沙特国王大学。制作和主办Elsevier B.V.保留所有权利。制作和主办:Elsevier关键词情感词典;情感分析;阿拉伯语自然语言处理;文本挖掘;半监督学习418F.H.H. Mahyoub等人阿拉伯语WordNet中的单词。我们设计了一种算法,识别阿拉伯语WordNet中包含种子列表中单词的节点,并迭代地将这些单词的分数传播到相邻节点,直到到达整个网络。每个术语的评分表示为包含阳性、阴性和中性评分的三重组合。一个术语的三元组中的这些组成分数中的每一个都表示为正数值。该方案有点类似于SentiWordNet中的分数表示方式,但在我们的情况下,分数是非标准化的,即,该词的正面、负面和中性得分之和不等于1。这项工作的主要贡献是开发了一个阿拉伯语情感词汇 , 其 中 包 含 7.5 K的 条 款 , 利 用 - ING在 阿 拉 伯 语WordNet的关系除了情感分数之外,词典还包含每个术语的词性标签及其用于词汇消歧的变音形式对于某些术语,包含术语定义的注释也可用。本文的其余部分结构如下:下一节简要介绍阿拉伯语WordNet。在第三节中,我们介绍了以前开发情感词典的主要方法。在第4节中,我们描述了阿拉伯语情感词汇的发展在第5节中,我们评估了所提出的算法。最后,第6节是结论和未来的工作。2. 什么是阿拉伯语WordNet?WordNet是一个英语词汇数据库。与字典不同,这些词,包括名词、动词、形容词和副词,被分成一组同义词,称为同义词集。这些同义词集通过不同的语义和词汇关系相互关联;因此,WordNet可以被 视 为 一 个 有 向 图 ( Fellbaum , 1998 ) 。 阿 拉 伯 语WordNet 是 英 语 WordNet 的 阿 拉 伯 语 版 本 。 阿 拉 伯 语WordNet数据库结构由四种主要的实体类型组成:项目、单词、表单和链接。项目是概念实体,包括同义词集、本体类和实例。一个词的实体是一个词的意义。表格是一种特殊的表格,被认为是字典信息。链接是同义词集之间的关系。它们根据相关同义词集(动词、名词、形容词和副词)的词性(POS)或根据它们的类型(词汇、语义和词汇-语义关系)进行分类。表1呈现了WordNet和阿拉伯语WordNet统计(WordNet 3.0数据库统计)(Fellbaum 等人, 2006 年) 。 表2 根据 其分类 类型 显示了 阿拉伯 语WordNet 中 的 不 同 关系 ( Mahdi Boudabous 等 人 , 2013年)。3. 相关工作虽然有大量的研究可以在英语和其他语言中建立情感词汇,但阿拉伯语尚未得到该领域研究人员应有的关注。在这一节中,我们将介绍关于建立英语情感词汇的最著名的研究,以及以前建立阿拉伯语情感词汇的尝试。此外,我们还将涵盖声称语言独立的研究。Hatzivassiloglou和McKeown(1997)提出了一种预测形容词方位的算法。Turney和Littman(2002)提出了一种确定文档极性的方法该方法涉及向Web搜索引擎发出查询。该方法的目标是形容词和副词;因此,它依赖于一个巨大的POS标记语料库的存在,这是阿拉伯语的罕见可用的POS标记器不完全有资格识别所有词性,并且不能区分不同的句子类型(Farra等人,2010年)。词汇资源,如WordNet(Fellbaum,1998),在Kim和Hovy(2004),Esuli和Eschtiani(2005,2006),Kamps等人(2004)中使用。这些研究始于表2阿拉伯语WordNet关系分类(Mahdi Boudabous,2013)。类型对应语义关系有下位词有全息部分有subvent有实例参见原因有holo成员动词组地域词范畴词有holo由Be构成处于状态使用术语近义词近反义词例如虚拟现实下义词有虚拟现实,虚拟现实部分全息有虚拟现实,虚拟现实子实体有虚拟现实一个实例有一个实例َ�ﺫٰ�ﻛَ�ﺮCausesﺗَ�ﺬٰ�ﻛَ�ﺮ第二次世界大战成员holo有一个新的角色,ﺍﻟﺒﻠﻘﺎﻥterm Regionﺣﺮﻭﺏﺍﻟﻴﻮﻧﺎﻥ这是一只猫,制作的全息图中的全息图,在Be中的全息图中,中文(简体)ﻓﺮﺩ synonym nearﺍﻧﺴﺎﻥﺃﺏantonym Nearﺃﻡ从相关的非线性方程组中导出的非线性方程组具有非线性方频率93526971281067192753341523554860833122722词汇语义关系有关推导4774178表1WordNet和阿拉伯语WordNet数据库统计。POS奥恩PWN单词形式同义词单词形式同义词名词15,8907,960117,79882,115动词6,0842,53811,52913,767形容词1,24366121,47918,156副词2641104,4813,621总23,48111,269155,287117,659使用半监督学习构建阿拉伯语情感词典419小手工制作的种子列表,并通过以下WordNet关系,他们能够扩大种子列表。Kim和Hovy(2004)使用了44个动词(23个阳性和21个阴性)和34个形容词(15个阳性和19个阴性)的种子列表,随后使用WordNet迭代扩展了种子列表形容词的扩展主要是利用同义词和反义词的关系,动词的扩展主要是利用同义词。研究者获得了5880个肯定形容词、6233个否定形容词、2840个肯定动词和3239个否定动词。Esuli和Esutiani(2005)使用WordNet根据术语的注释分类来确定术语的方向作者假设具有相似方向的术语EsuliandRumintiani(2006)将他们的方法从Esuli andRumintiani(2005)扩展到确定术语主观性和术语定向。 Kamps等人(2004)通过计算词与两个种子词“good“和”bad”的相对距离来确定WordNet中形容词的情感。这种方法在阿拉伯语中很难适应,因为阿拉伯语WordNet中的关系数量比英语中的关系少得多。此外,大多数同义词集的注释在阿拉伯语WordNet中不可用。Elhawary和Elfeky(2010)使用相似性图来构建阿拉伯语词典。相似图是一种图,其中两个单词或短语如果在极性或含义上相似则具有边。边的权重表示两个节点之间的相似程度。研究人员最初使用了1600个单词的种子列表(600个阳性,900个阴性和100个中性),随后在阿拉伯语相似性图上进行了标签传播。从相似性图创建的阿拉伯语词典由两列组成,其中第一列是单词或短语,第二列表示单词的得分,该得分是连接到该节点(单词/短语)的所有边的得分之和。他们应用过滤规则来避免数据的稀疏性和无用节点。他们删除了具有大量加权边的节点,并保留了该单词排名最高的25个同义词。这种方法依赖于庞大的阿拉伯语语料库来构建相似度图,这是我们无法获得的。所创建的词典中的条目是没有分数的极性词。阿 拉 伯 语 词 汇 资 源 , 例 如 Penn Arabic Treebank( Maamouri et al. , 2004 年 ) 和 SentiStrength 项 目(Thelwall例如,Abdul-Mageed和Korayem(2010年)和El-Halees(2011年)案中分别使用了这两种方法。Abdul-Mageed和Korayem(2010)基于Penn Arabic Treebank手动创 建 了 一 个 阿 拉 伯 语 SSL 。 研 究 人 员 从 Penn ArabicTreebank的前四个部分提取了所有形容词,并手动选择了他们认为是积极或消极的形容词。他们的方法只针对形容词,而强度分数则缺失。El-Halees(2011)基于两个资源手动创建了一个阿拉伯语SSL:Senti- Strength项目和在线词典。研究人员翻译了SentiStrength项目中的英语列表,然后手动过滤,将常用的阿拉伯语单词添加到词典中。机器翻译的缺点包括当翻译成其他语言时,一些词的极性情感的丢失。Elarnaoty等人(2012年)和Abdul-Mageed和Diab(2012年)的作者在现有的英语极性词典上开发了一个简单的机器翻译过程。Elarnaoty等人(2012)创建了一个阿拉伯语情感词典,通过手动翻译MPQA 词典(Wilson等人,2005年)。Abdul-Mageed和Diab(2012)使用机器翻译程序来翻译可用的英语词典,包括SentiWordNet(Esuli和Matiani,2006),这是最著名和最广泛使用的英语极性词典(Abdul-Mageed等人, 2011年),阿拉伯文。他们检索了229,452个条目,包括社交媒体中常用的表达。作者报告说,有些条目的覆盖面和质量都有问题。他们还表示,他们还没有测试系统的情绪分析任务El-Beltagy和Ali(2013)创建了一个埃及方言句子词典。研究人员确定了一组表明主观性的词汇句法模式,使用了380个手动构建的单词的种子列表,随后对从tweeter收集的数据集进行了模式匹配。不正确学习的候选术语被手动过滤。他们共检索到4,392个词条(193个复合否定词,83个复合肯定词,3,344个否定词,772个肯定词),这些词条都是针对埃及方言的方言或俚语,因此不适合用于其他方言。4. 建立词典本节介绍我们的算法,该算法为阿拉伯语WordNet中找到的单词分配情感得分,以构建情感词典。从一个小的积极和消极的单词的种子列表开始,我们使用半监督学习,通过利用syn- set关系来传播阿拉伯语WordNet上的分数。我们使用在开发WordNet-Affect中使用的关系(Valitutti等人,2004)数据库。这些关系包括八种语义/词汇关系{near_synonym、verb_group、see_also_wn15、has_derived 、 related_to 、 has_subevent 、 causes 和near_antonym}。我们使用D中定义的种子列表。Turney和L. Littman(2002年)。种子列表包含14个词{好,好,优秀,积极,for-tunate,正确,优越,坏,讨厌,贫穷,消极,不幸,错误,低劣}。我们将它们翻译成阿拉伯语,并根据它们在阿拉伯语WordNet中的可用性对其进行过滤过滤后的列表只包含四个积极和四个消极的词。我们的扩展算法的初始运行表明,对于种子列表中的八个单词,该算法无法到达阿拉伯语WordNet网络中的所有同义词集。通过从同义词集中随机选择以前的种子列表无法访问的新词,并将这些词添加到以前的种子列表中,来扩展重复该过程,直到达到所有同义词集表3给出了正种子列表,表4给出了负种子列表。4.1. 扩展算法扩展算法伪代码如图1和图2所示。图1所示的过程扩展算法将三个参数作为输入。这些包括正面和负面种子列表、阿拉伯语WordNet数据库和在扩展种子列表的过程中使用的特殊情感取向标签。种子列表初始化为零级别,并添加到扩展集(第1-3行第8行和第9行中的过程调用OrientationSearch过程两次,一次使用肯定种子列表,下一次使用负面种子名单420F.H.H. Mahyoub等人表4负面种子名单。Buck WalterAinoHiTaATﺍْ�ﻧﺤَ�ﻄﺎﻁ亚哈奥拉普َ�ﺟَ�ﻬْ�ﺎﻟَ�ﺔquboHُ�ﻗْ�ﺒﺢ法阿勒َ�ﻓَ�ﺸﻞ欧多瓦安ُ�ﻋْ�ﺪَ�ﻭﺍﻥ>axoTa>aﺃْ�َ�ﺧَ�ﻄﺄَ�哈扎纳َ�ﺣَ�ﺰَ�ﻥ艾诺塔卡达ﺍْ�ﻧﺘَ�َ�ﻘَ�ﺪfaAsidَ�ﻓﺎﺳﺪ马基特َ�ﻣﻘﻴﺖ英语注释比先前的状态差的状态;从较好的状态逐渐下降愚蠢或鲁莽不能给感官带来愉悦的品质丧失正常恶意的且通常是无端的暴力行为犯错误或不正确伤心在道德上或因放纵或纵欲而堕落强烈地不喜欢;对……感到反感或厌恶表3积极种子名单。Buck Walter$jAEﺷﺠﺎﻉﺇْ�ﺑَ�ﺪﺍﻉﺃَ�َ�ﺣٰ�ﺐَ�ﺳٰ�ﻠﻰُ�ﻣْ�ﺒﺘَ�ﻜﺮَ�ﺑﺎﺭﻉَ�<博达AE>aHab~a穆博塔吉尔baAriEfariHsaEiyd> boyasal~aYَ�ﺟﻤﻴﻞ贾米耶英语注释勇敢的拥有或表现出勇气的;能够毫不犹豫地面对和处理危险或恐惧的独立思考和行动的能力发现令人愉快的或令人愉快的为创造新事物具有或显示出知识、技能和才能表现出或引起快乐和愉悦;特别是使人快乐的;享受、表现出或以快乐、高兴或好运为特征无色的,无色的:具有最大亮度的无色的;由于几乎所有的入射光都被反射而使感官愉悦的或令人兴奋的智力或情感上的钦佩的过程方向搜索如图2所示。该过程采用种子列表、阿拉伯语WordNet数据库、用于扩展种子列表的情感方向关系以及扩展情感方向标记。优先级扩展采用队列结构,相邻种子列表逐层扩展。队列是用第1行中的种子列表初始化的。然后,迭代地从队列中移除前节点,以扩展其相邻的程序扩展算法输入:Seed Pos:一个Positive类别的种子列表。SeedNeg:否定类别的种子列表。一个XML对象包含AWN数据库。SameOrientationRelations:{ 'near_syntax','verb_group','see_also_wn15',(第3行),在阿拉伯WordNet数据库中搜索预定义关系中的当前节点邻居(第4行),对于每个未访问的邻居,其深度增加1(第7行)。然后,如果当前节点和邻居之间的关系具有相同的方向关系,则将该节点添加到相同的方向扩展集和队列中以进行进一步扩展。如果当前节点和相邻节点之间的关系具有相反的方向,我们只需将此节点添加到相反方向扩展集中。重复该过程,直到访问了所有可到达的节点。在扩展算法完成后,使用Eq. (1):'has_derived','related_to','has_subevent','causes' } OppositeOrientationRelations:{ 'near_antonymXn .¼-同义词集深度i!输出量:Expansion Pos:阳性类别的扩展集。Synset阳性;阴性1/1种子评分i最大深度POS 深度阴性对照Expansion Neg:负类别的扩展集。开始:对于种子位置中的每个节点N,在这里,ð1ÞN.level ← 0将N添加到扩展位置;将N标记为正方向访问n是到达当前synset的synset的数目Seedscore是种子词的得分,我们设置为1; depth是从初始种子开始的同义词集深度;对于SeedNeg中的每个节点N,N.level ← 0将N添加到扩展负;将N标记为负方向访问R ← SameOrientationRelations .union(OppositeOrientationRelations)OrientationSearch(SeedPos,G,R,+1)OrientationSearch(种子阴性、G、R、-1)端图1扩展算法(主程序)。depthPos是算法通过以下方式达到的最大深度:正取向;以及depthNeg是算法通过负方向所达到的最大深度。通过使用(1),每个同义词集的得分作为每次迭代中从种子词开始的深度的函数降低了一些使用半监督学习构建阿拉伯语情感词典421表5按词性(包括搭配)分类的正面、负面和中性词的数量表9从不同网页抓取的评论分布。程序定位搜索输入:种子:AWN数据库中要扩展的一组节点。一个XML对象包含AWN数据库。R:一组关系,节点通过这些关系展开。方向:膨胀的方向,+1表示正膨胀,-1表示正膨胀。负膨胀输出量:Expansion Pos:阳性类别的扩展集。Expansion Neg:负类别的扩展集。开始:queue ← Seed //初始化一个包含seed节点的队列CurrentNode ←从队列中删除前节点NeighborNodes ←搜索G中的CurrentNode邻居,R关系对于NeighborNodes中的每个节点N,如果N未被定向N.level ← CurrentNode.level+1(如果方向>0)如果N.relation在SameOrientation中将N添加到扩展位置;将N标记为正方向访问把N加到队列中如果N.relation处于OppositeOrientation,则将N添加到ExpansionNeg否则,如果方向为0如果N.relation在SameOrientation中将N添加到扩展负;将N标记为负方向访问把N加到队列中如果N.relation处于OppositeOrientation,则将N添加到扩展位置端图2扩展算法(扩展过程)。5. 实验评价为了评估词典,我们使用了一种基于任务的评估方法,将词典中的分数纳入用于情感极性分类任务的特征中。该任务在两个不同的阿拉伯语语料库上进行,OCA语料库(Rushdi-Saleh等人,2011)和书评语料库。OCA是一个电影评论语料库,由250个阿拉伯语的正面和负面电影评论表7显示了OCA语料库的统计数据。书评语料库是通过抓取几个书评网站并手动注释每个评论的情感极性而开发的。表8显示了书评语料库的统计数据。 表9显示了用于开发书评语料库的源网站。该语料库由两名阿拉伯语母语者作了注释。计算为Kappa统计量的注释者间一致性为0.95。预定值(Kim和Hovy,2004; Godbole等人,2007年)。每个同义词集的最终得分是所有路径上接收到的得分之和。我们应用(1)为扩展算法返回的每个同义词集设置分数(正和负)。我们将阿拉伯语WordNet中所有其他不可达的同义词集设置为中性词。最后,该词典包含超过23,000个术语,其中得分三元组描述了该术语的积极,消极和中性得分。出于总结的目的,我们还为每个术语分配了情感取向积极的消极的中性的分数通过考虑携带该术语的最高得分的情感表5显示了正面、负面和中性术语由此获得并按其各自的词性分类。扩展后的词典进行人工词义消歧分析,并删除所有的搭配和多个意义的词在同一词性。该操作的结果显示在表6中。名词88647514,52915,890网页积极负中性动词84152347206084www.goodreads.com288326302形容词40361.1671243www.reading4arab.com37428副词27255264http://roaa.me/blog500总1769104120,67123,481总330330330表7来自OCA语料库的统计数据。积极文件总数共计27,595代币总数121,392Avg.每个文件中的令牌485判刑共计负25024,28394,556378488120表6按词性分类的阳性、阴性和中性一元词的数量。POS积极情绪负面情绪中性情绪总名词47328145965350动词37530110471723形容词3631400467副词133236总88561660757576表8书评语料库的统计数据。积极负中性文件共计330330330类型共计24,31712,5987947总代币75,38935,99817,165Avg.每个文件22810952判刑总数636127341719Avg.每个文件1985POS积极负中性总情绪情绪情绪422F.H.H. Mahyoub等人表10序列匹配示例。Pos=阳性; Neg=阴性。序列1序列2M*T**R*ﺍﺗﻘﻦﺍﺗﻖﺍﻥ490.889ﻣﺒﺘﻬﺞﻣﺒﺘﻬﺞﻭﻥ5120.833ﻓﺮﺡﻱﻓﺮﺡﻭﻥ390.667ﺳﻊﻱﺩﺳﻌﺪﺍﺀ390.667ﻓﺴﺎﺩﺍﻝﻓﺴﺎﺩ4100.80ﺭﺏﺏﺭ140.50*M是匹配的数量。**T是两个序列中元素的总数。*R= 2*M/T是序列相似性。表11基于NB的书评语料库的结果。特征权重精度召回精度POSNegPOSNeg二进制0.97730.92020.91520.97880.9488TF0.92640.91620.91520.92730.9213TF*以色列国防军0.94080.91740.91520.94240.9291评分0.93730.90910.90610.93940.9232二进制分值0.95250.91570.91210.95450.9341Pos =阳性; Neg =阴性。使用不同的加权方案,包括二进制,变量特征极大地提高了速度和内存需求,但是,删除这些特征可能会降低分类准确性,因为它可能会删除词典中具有情感得分的术语。因此,我们在去除噪声特征时并入了词典,其中我们保留了词典中出现的那些术语,即使它们仅被发现一次。5.1.从词典我们没有使用精确匹配来匹配文档单词和词典单词,而是在Python中定义了一个SequenceMat- cher类的对象来比较序列对(Ratcliff和Metzener,1988)。此对象包含一个称为ratio的函数,该函数返回序列相似性的度量,作为范围[0,1]中的一个参数。该比率可以计算为2M/T,其中T是两个序列中的元素总数,M是匹配的数量。注意这是1.0如果序列相同,则为0.0,如果它们没有共同点。我们将匹配率设置为>0.80,并按匹配率对返回的单词进行排序。然后,我们从有序列表中获取具有第一个最大比率的单词的得分。表10给出了序列匹配过程的一些示例。我们使用数据挖掘工具RapidMiner1,通过两个机器学习来构建情感极性分类模型1www.rapidminer.com。分类器:支持向量机(SVM)和朴素贝叶斯(NB)。这些分类器应用于从上述两个语料库创建的文档术语矩阵。对于每个语料库,创建了五个不同的文档术语矩阵,代表五种不同的加权方案。这些包括二进制,TF,TF* IDF,分数和二进制分数。前三个方案不包括词典中的情感得分,并作为我们的基线。分数加权方案通过将词汇中的情感分数与术语的频率相乘,将词汇中的未归一化分数纳入TF表示中。二进制分数将分数与术语的二进制表示相乘,1表示文档中存在术语,0表示文档中不存在术语。表11和表12分别显示了在书评语料库上应用朴素贝叶斯和支持向量机分类器的结果表13和14显示了在OCA语料库上应用朴素贝叶斯和支持向量机分类器 图 3和4分别绘制了书评和OCA语料库的相 同 结 果 。结果表明,平均分类准确度没有提高。一种可能的解释是,在不操纵其他因素(如单词的位置和顺序)的情况下,纳入情感评分可能不会产生理想的结果。感情可以用微妙的方式表达表12基于SVM的书评语料库结果。我们使用向量空间模型(Salton等人,1975年)代表-特征重量精度召回精度发送了语料库中的文件在向量空间模型中每个文档被表示为n维中的向量。POSNegPOSNeg空间,其中n是语料库中的术语总数。二进制0.77500.70260.65760.80910.7388结果是一个d*n文档项矩阵,其中d是num-TF0.76210.73350.71820.77580.7478*ber是文档的数量,m是语料库中的术语数量TF IDF0.77330.76040.75450.77880.7669文档项矩阵中的文档向量可以是rep-Score0.75080.72080.70300.76670.7358二进制分值0.77990.74640.73030.79390.7632词频(TF)和词频-逆文档Pos =正; Neg =负。频率(TF * IDF)。要转换核心中的文本文档,请执行以下操作:把这些文件放入矢量表示中,nized,并使用简单的字母将阿拉伯语的标准化方案。无词干或POS标记表13结果在OCA语料库与NB。因为它的存在,使它变得困难。特征权重精度召回精度在词典中查找术语,因为用于POSNegPOSNeg该术语可以从词典中获得。对于一个文本目录-二进制0.98380.97230.97200.98400.9781情感极性分类、特征TF0.94160.96710.96800.94000.9544选择是去除不相关和噪声的重要步骤TF*以色列国防军0.95290.97140.97200.95200.9622功能. 我们去除了单变量特征,即,的特征评分0.95650.96760.96800.95600.9621在每个类别中只发生一次移除uni-二进制分值0.96030.96770.96800.96000.9341使用半监督学习构建阿拉伯语情感词典423表14OCA语料库上的SVM结果。dent,它可以用于任何意见语料库,除了书评或影评。SSL由以下人员进行评价:特征权重精度召回精度将其纳入向量空间模型中,POSNegPOSNeg学习类。实验表明,二进制0.85710.84310.84000.86000.8501由NB产生的预测精度高于SVM实验-0.8626 0.8992 0.9040 0.8560 0.8809TF* IDF 0.8593 0.9217 0.9280 0.8480 0.89050.8740 0.9118 0.9160 0.86800.8929二进制分数0.8745 0.9156 0.9200 0.8680 0.8501Pos=阳性; Neg=阴性。在几个阿拉伯语情感语料库上进行了测试我们能够达到97%的分类准确率。开发用于情感分析的AWN还有很多工作要做:第一,考虑不同的方言和特殊的区域词;第二,考虑法语阿拉伯语;第三,考虑法语阿拉伯语。”(《论语·释》),《孝经》。成语、短语和谚语。1009590858075706560二进制发生TF TF*IDF评分二进制评分朴素贝叶斯SVM引用Alaa El-Halees,2011年。阿拉伯语意见挖掘使用组合分类方法,国际阿拉伯信息技术会议,pp. 10-13号。Andrea Esuli,Fabrizio Pastiani,2005.通过注释分析确定术语的语义方向,CIKM- 05会议记录,第14届ACM信息和知识管理国际会议,第14页。617-624Andrea Esuli,Fabrizio Pastiani,2006.确定术语主观性和术语取向的意见挖掘,EACL-06,计算语言学协会欧洲分会第11次会议的会议记录。Andrea Esuli,Fabrizio Pastiani,2006. SentiWordNet:一个公开的意见挖掘资源,第五届语言资源和评估会议(LREC'06),pp。417-422图3利 用 书 评 语 料 库 计算word的得分。1009590858075706560朴素贝叶斯SVM图4使用电影评论语料库计算单词的得分。TF*、TF* IDF*是影评语料库作者产生的结果。不使用任何表面上的否定词。使情感分析变得困难的其他因素是短语可以用讽刺,讽刺和/或否定来表达。6. 结论在本文中,创建了一个包含超过7.5 K个术语的阿拉伯语SSL,其中三个分数描述了这些术语是积极的,消极的或中性的。所创建的词典是上下文无关的。Christiane Fellbaum等人,2006.介绍阿拉伯语WordNet项目,第三届全球WordNet会议论文集Fellbaum,Christiane,1998. Wordnet是一个电子词汇数据库。麻省理工学院出版社,马萨诸塞。Jaap Kamps , Maarten Marx , Robert J. Mokken , Maarten deRijke,2004.使用Wordnet来测量形容词的语义取向,LREC-04会议录,第四届国际语言资源和评估会议,第4卷,第100页。1115-1118John W. Ratcliff,David Metzener,1988.模式匹配:完形方法,多布的J。,p. 四十六Muhammad Abdul-Mageed,Mona Diab,2012. Toward building alarge-scale Arabic sentiment lexicon , Proceedings of the 6thInternational Global WordNet Conference.Muhammad Abdul-Mageed,Mohammed Korayem,2010年。在形态丰富的语言中主观性的自动识别:阿拉伯语的情况下,第一次主观性和情感分析计算方法研讨会(WASSA)的会议记录。2-6.Muhammad Abdul-Mageed,Mohammed Korayem,Ahmed YoussefAgha,2011.“是的,我们可以吗?”:健康领域的主观性注释和标记Mohamed Elarnaoty,Samir Abdel Rahman,Aly Fahmy,2012.一种机器学习方法,用于意见持有者提取阿拉伯语,在CoRR中。Mohamed Elhawary , Mohamed Elfeky , 2010.Mining Arabicbusiness reviews , IEEE International Conference on DataMining Work-shops,pp.1108-1113Mohamed Maamouri , Ann Bies , Tim Buckwalter , WigdanMekki,2004. The Penn Arabic Treebank:building a large-scaleannotated arabic corpus , NEMLAR Conference on ArabicLanguage Resources and Tools,pp. 102比109Mohamed Mahdi Boudabous , Nouha Chaa Chabben Kammoun ,Nacef Khedher,Lamia Hadrich Belguith,Ambaha Sadat,2013.通过形态词汇的精度精度424F.H.H. Mahyoub等人模式,在通信,信号处理,及其应用(ICCSPA),2013年第1届国际会议,沙迦,pp. 1-6.Namrata Godbole,Manjunath Srinivasaiah,Steven Skiena,2007.新闻和博客的大规模情感分析,网络日志和社会媒体国际会议论文集.Noura Farra,Elie Challita,Rawad Abou Assi,Hazem Hajj,2010.Sentence-level and Document-level Sentiment Mining for ArabicTexts ( 英 语 : Sentence-level and Document-level SentimentMining for Arabic Texts)1114-1119Vasileios Hatzivassiloglou,Kathy McKeown,1997年。预测形容词的语义方向,第8次会议的会议记录,欧洲分会的计算语言学协会,页。174-181。萨姆哈河El-Beltagym,Ahmed Ali,2013年。阿拉伯社交媒体情感分析中的开放问题:案例研究,第9届信息技术创新国际会议(IIT)论文集,第10页。215-220Soo-Min Kim,Eduard Hovy,2004.确定意见的情绪,COLING-04会议录,第20届国际计算语言学会议,pp。公元1367-1373年。彭波,李,莉莲。,2008.意见挖掘和情绪分析。Found. 趋势信息Retr. 2(1 -2),1-135。Peter D. Turney,Michael L. Littman,2002年。从一千亿词语料库中进行无监督的语义方向学习,Techni- cal Report EGB-1094,National Research Council Canada。Rushdi-S aleh,Mohamme d,MartBun-Valdivi a,MariaTeresa,UrenBunaLopez,LuisAlfonso,Perea-Ort ega,JoseM.,2011年。OCA:阿拉伯语意见语料库。J. Am. Soc. Inform. Sci. Technol.62(10),2045- 2054.Salton,G.,Wong,A.,杨,C. S.,1975.自动标引的向量空间模型。Commun. ACM 18(11),613-620。Thelwall,Mike,Buckley,Kevan,Paltoglou,Georgios,Cai,Di,2010. 短非正式文本中的情感强度检测。J. Am. Soc. Inf.Sci. Technol.61(12).Theresa Wilson,Janyce Wiebe,Paul Hoffmann,2005.在短语级情感分析中识别上下文极性,人类语言技术和自然语言处理经验方法会议论文集,pp.347-354瓦利图蒂, 亚历山德罗, 斯特拉帕拉瓦, 卡洛, 股票,Oliviero,2004年。开发情感词汇资源。 Psychology 2(1),61-83.WordNet 3.0数据库统计。[联机]。https://wordnet.princeton的网站。edu/wordnet/man/wnstats.7WN.html#toc.
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- 李兴华Java基础教程:从入门到精通
- U盘与硬盘启动安装教程:从菜鸟到专家
- C++面试宝典:动态内存管理与继承解析
- C++ STL源码深度解析:专家级剖析与关键技术
- C/C++调用DOS命令实战指南
- 神经网络补偿的多传感器航迹融合技术
- GIS中的大地坐标系与椭球体解析
- 海思Hi3515 H.264编解码处理器用户手册
- Oracle基础练习题与解答
- 谷歌地球3D建筑筛选新流程详解
- CFO与CIO携手:数据管理与企业增值的战略
- Eclipse IDE基础教程:从入门到精通
- Shell脚本专家宝典:全面学习与资源指南
- Tomcat安装指南:附带JDK配置步骤
- NA3003A电子水准仪数据格式解析与转换研究
- 自动化专业英语词汇精华:必备术语集锦
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功