没有合适的资源?快使用搜索试试~ 我知道了~
制作和主办:ElsevierJournalof King Saud University沙特国王大学沙特国王大学学报www.ksu.edu.sawww.sciencedirect.com挖掘意见成分来自非结构化评论:一个评论Khairullah Khana,*, Baharum Baharudina, Aurnagzeb Khanb, AshrafUllahba马来西亚马石油技术大学计算机和信息科学系b巴基斯坦班努科技大学工程与计算科学研究所接收日期:2012年8月31日;修订日期:2013年5月31日;接受日期:2014年2014年5月28日在线提供意见挖掘是一个有趣的研究领域,因为它在各个领域的应用。通过网络收集人们对产品、社会和政治事件以及问题的意见正变得越来越流行。用户的意见是有帮助的公众和利益相关者在做出某些决定时。意见挖掘是一种通过搜索引擎、Web博客和社交网络检索信息的方法。由于大量的评论都是以非结构化文本的形式出现的,因此不可能手动汇总这些信息。因此,需要有效的计算方法来从语料库和Web文档中挖掘和总结评论。本研究提出了一个系统的文献调查的计算技术,模型和算法挖掘意见组件从非结构化的评论。2014年沙特国王大学。制作和主办:Elsevier B.V.All rights reserved.内容1.导言. 2592.意见挖掘2592.1.应用2602.2.文本中的意见表述2612.3.相关学科2612.3.1.自然语言处理2612.3.2.文本挖掘262*通讯作者。联系电话:+60 1609702807。电 子 邮 件 地 址 : Khairullah_k@yahoo.com ( K. Khan ) ,pertonas.edu.my(B.Baharudin),Aurangzebb_khan@yahoo.com(A.Khan)。沙特国王大学负责同行审查1319-1578年< $2014年沙特国王大学。制作和主办:Elsevier B.V.All rightsreserved.http://dx.doi.org/10.1016/j.jksuci.2014.03.009关键词意见挖掘;情感分析;信息检索;文本挖掘;Web挖掘从非结构化评论中挖掘意见成分2592.3.3.Web挖掘2623.意见挖掘任务2623.1.主观性和极性分类2633.2.意见目标识别2663.3.意见来源识别2684.意见摘要2695.研究问题和挑战2706.结论271参考文献2721. 介绍这项研究提出了一个系统的文献调查,包含了最近的研究趋势,进展和挑战的全面概述。本研究的目的是为研究人员和学生提供意见挖掘的最新作品,因为他们框架的新思想和进一步发展的做法。在过去几年中,该领域的研究有所增加,最近发表的几篇研究调查论文证明了这一点(Khan等人,2009; Pang和Lee,2008; Tang等人,2009年,Tsytsarau和Palpanas,2011年)。例如,Pang和Lee(2008)对意见挖掘(OM)的概念和技术进行了广泛的回顾。Khan et al.(2009)提供了关于意见挖掘领域中各种问题的已发表作品的简短概述Tang等人(2009)回顾有关情绪分析和极性分类的技术。Tsytsarau和Palpanas(2011)注重总结观点和分析矛盾。他们还对情感分类的机器学习算法进行了比较分析。本文综述了自2008年以来OM研究的各种进展。因此,建议的工作提出了意见挖掘的基础上意见成分分析的非结构化文本,相应地,本文不同于现有的论文在几个方面。在这项工作中,我们讨论了2008年之后发表的引文,这些引文与非结构化评论的意见组成部分有关。 我们根据与意见挖掘相关的子任务对论文进行了划分。这些方法包括主观性和极性分类、意见目标提取、意见来源识别和意见总结。每一部分都对相关子任务进行了全面的文献综述。已经探索了一些新的方向,例如,通过词汇资源和基于概念的分析进行分组、意见目标识别和基于语义的相关性评分。本文的组织结构如下。第2节介绍了意见挖掘问题的一般概述,它的应用,以及相关领域。第三节介绍了基于意见成分的意见挖掘的技术观点。第4节为意见摘要,第5节为概述挑战和问题,第6节结束了论文。2. 意见挖掘意见是个人的私人状态,因此,它代表了个人对特定主题/主题/项目的想法,信仰,评估,判断和评价。Liu等人(2012)得出结论,他人组织和社会团体在决策过程中。在这个过程中,人类需要快速、准确、简洁的信息,以便做出快速、准确的决策。通过意见,人们可以在决策时整合许多人的不同方法,经验,智慧和知识。人们参与讨论并表达自己的观点是很自然的。在决策过程中,人们经常向朋友、家人和领域专家询问信息,他们的意见和观点基于经验、观察、概念和信念。一个人意见可以用不同的方式表达。以下是意见陈述的例子。Shahid Afridi是一名优秀的球员。她不是一个好演员。早餐很不错。酒店很贵。恐怖分子不值得怜悯!A旅馆比B旅馆贵。咖啡很贵,但茶很便宜。这款播放器不值得任何价格,我建议你不要购买它。意见有三个主要组成部分,即,意见持有者或意见来源,意见所表达的对象以及评价、观点或评价,即意见。就意见识别而言,所有该等组成部分均为重要。虽然意见可以从不同来源收集,例如,个人互动,报纸,电视,互联网等,互联网已成为收集意见的最丰富来源。在万维网(www)出现之前,人们手动收集意见。如果一个人要做出决定,他/她通常会征求朋友和家人的意见。为了获得公众意见,组织经常通过重点群体进行调查。然而,这种调查既昂贵又费力。现在,互联网提供这些信息,只需点击一下,成本很低。随着Web 2.0的出现,互联网允许Web用户在线生成Web内容并独立发布其信息。互联网的这一方面允许Web用户参与协作的全球环境。 因此,互联网已经成为社交网络、客户反馈、在线购物等的丰富来源。根据一项调查,每天有超过45,000个新博客创建,每天有120万个新帖子(Pang和Lee,2008)。通过这些服务收集的信息用于各种类型260K. Khan等人决策的过程。例如,社交网络可用于政治、宗教和安全问题以及政策制定,而客户反馈可用于产品销售、购买和制造。不仅在线购物的趋势每天都在增加,而且供应商通过这些门户网站收集客户反馈,以预测未来趋势和改进产品。为这项工作提供灵感的关键因素是.. . 意见虽然互联网是一个丰富的意见来源,数以百万计的博客,论坛和社交网站提供了大量的更新信息,Web数据,不幸的是,通常是非结构化的文本,不能直接用于知识表示。此外,如此庞大的数据量无法手动处理。因此,需要有效的工具和潜在的技术来提取和总结其中所载的意见。研究界正在寻找一种有效的方法,将这些Web信息转化为知识需求,然后以简洁和可理解的方式将知识呈现给用户。Web 2.0的出现使通过Web发布和收集意见变得更加容易,但这些意见的质量控制、处理、编辑和总结已成为潜在的研究问题。意见挖掘(opinion mining,OM)一词最早出现在2003年的一篇论文中(Dave et al.,2003),尽管一些论文先前已经解决了相同的任务(Carbonell,1979; Pang等人,2002;Turney , 2002; Wiebe , 1994; Wilks and Bien ,1984)。2003年的论文将OM描述为对实体评论的分析,并提出了一个将文档极性分类为推荐或不推荐的模型。这项工作为NLP和文本挖掘的应用研究开辟了新的途径,在几年内,在这一领域进行了广泛的研究(Abbasi等人,2008; Changli等人,2008; Hsinchun和Zimbra,2010; Hu和Liu , 2004; Liu , 2010 a; Tang 等 人 , 2009; Wei , 2011;Yang等人,2009; Yi等人, 2003年)。OM是一种用于从文本中提取观点的过程。‘‘OM is arecent discipline at the crossroads of information retrieval, textmining and computational linguistics which tries to detect theopinions expressed in natural language texts’’ ( OM是一个知识发现和数据挖掘(KDD)领域因此,OM任务涉及意见识别、意见分类(正面、负面和中性)、目标识别、来源识别和意见总结。因此,OM任务需要来自NLP,信息检索(IR)和文本挖掘领域的技术。主要关注的是如何从非结构化文本中自动识别意见成分,并从大量的非结构化文本中总结出对实体的意见。文本信息可以分为客观信息和主观信息。客观陈述代表事实,而主观陈述代表感知、观点或意见。自然语言处理的研究最初集中在从文本中挖掘事实信息,这是一个有着广泛应用的重要领域;然而,随着Web 2.0的出现,允许用户生成Web内容,一些新的和有趣的想法已经发展到从用户生成的话语中提取知识。Web 2.0设施提供了从Web用户获取所需信息并将IR和KD技术应用于各种应用的机会。网络上的用户反馈是通过社交网络收集的。网络,博客,商业组织,营销等数百万的评论和意见收集通过营销和服务网站(亚马逊,旅行顾问等),社交网络(Facebook、Flicker、YouTube等),商业和社交媒体(美国之音、BBC、CNN、雅虎等),还有很多博客和论坛网站。这些评论的挖掘可以为许多研究问题提供答案从用户生成的话语中挖掘知识被称为主观性分析,其有两个子领域,即,意见挖掘和情感分析。一些作者已经互换地使用这些域(Liu,2011),而另一些作者认为情感分析是OM的子领域(Tang等人,2009年)。根据(Tang etal.,2009),OM与情感分析略有不同,因为情感分析只是将文本分析或分类为意见持有者的积极或消极态度。OM涉及信息检索、分析和用户对诸如产品、电影等实体的意见的评级而情感分析涉及文本中情感和情感陈述的提取和分析。该领域最近的一个有趣的发展是基于自然语言概念的认知模型的开发,该模型使用在类脑宇宙中组织的人工神经网络从客户评论中挖掘意见(Cambria等人,2013年)。主体性分析领域仍处于发展阶段,各种相关问题正在被研究者所关注。根据(Pang and Lee,2008),意见挖掘虽然是一个智力上困难的问题,但在实际应用中非常有用。2.1. 应用OM在不同领域有不同的应用。OM在日常生活中的应用最有趣,因为OM可以用于改善人们如何看待政府政策?公众对新的税收政策的意见如何?谁是大选机构的有力候选人?为什么一个产品的销量下降了公众喜欢或不喜欢产品的哪些功能?● 为什么人们更喜欢一种产品而不是另一种?虽然意见挖掘的目标是有一个集成的在线环境,直接回答问题,如上面列出的,这个目标只实现了部分,因此,目前的研究集中在这个问题。许多网站都有收集用户对各种主题的意见和支持搜索这些问题的答案的功能。一些作者专门研究了客户评论的应用程序(Balahur和Montoyo,2008年; Chen等人,2006; Das等人,2001; Ganesan等人,2010; Jin等人,2009年; Liu等人,●●●●●从非结构化评论中挖掘意见成分2612005年; Thet等人,2007),而其他人则将OM应用于报纸和网站的挖掘 ,以提取公众意见( Liang et al. , 2011;Maragoudakis等人,2011年;Stepinski和Mittal,2007年)。Simmons等人(2004)将OM的概念应用于在线拍卖,以预测物品的最终价格,而其他论文则报道了政府决策(Stylios等人,2010年)。(Furuse等人,2007)开发了一种用于提取意见陈述的基于开放域查询的搜索引擎。Miao et al.(2009)开发了一个名为“AMAZING”的工具,用于使用数据挖掘和信息检索技术的意见挖掘。提出了一种基于时间观点质量(TOQ)的信息排序机制。该系统包括客户评论的趋势运动和正面和负面评价之间的比较与视觉摘要。一些专门的网站一直致力于从各种社交媒体和网站收集意见,然后对收集到的意见进行排名。Appendix是一个在线信息交换框架,具有广泛的数据库,其中包括从博客,Twitter,Facebook,论坛,报纸和杂志文章以及广播和电视转录中提取的数百万条意见,用于识别,分析和监控个人意见。应用程序用于各种目的和各种领域,如教育、政治、技术、娱乐、商业、健康和旅游。虽然OM可以应用于社会和商业部门,但研究人员也在努力将其有效地应用于其他重要领域,例如,健康、教育、旅游等(Goeuriot等人(2011)提出了社交媒体网站,人们在其中发布关于他们的疾病和治疗的信息,以挖掘疾病和治疗信息。在OM的一个有趣的应用中,Swaminathan等人(2010)提取了生物实体之间的关系,例如食物和疾病。本文还提出了一个模型,预测一段关系Xia等人(2009)应用组织形态学技术对英国国民健康服务(NHS)的患者意见进行分类,分析数据来自NHS网站。2此外,OM正被应用于若干商业领域,例如旅游、汽车购买、电子产品评论、电影评论和游戏评论,以及各种政治领域,例如公共管理、战略规划、营销等(Abulaish等人,2009年; Blitzer例如,2007; Das等人,2001; Feldman等人,2007年; Kessler例如,2010; Lin和Chao,2010;Zhuang等人, 2006年)。上述工作只是OM应用的一小部分。关于OM在实际生活中的现有工作和潜在应用已经进行了各种调查,从而表明OM的重要性(Pang和Lee,2008; Tang等人,2009年;Tsytsarau和Palpanas,2011年)。2.2. 文本中的意见表达本节描述了以文本形式呈现的私人国家或个人意见的特征。研究已经确定了各种常用的特征和模式,1http://appinions.com。2http://www.patientopinion.org.uk。表 达 私 人 国 家 ( Hatzivassiloglou and McKeown ,1997;Liu,2010 a; Wiebe,1994,2000)。虽然在现有研究中广泛报道的主要元素是形容词的使用,但在上下文中使用副词,动词和名词也用于识别私人状态和意见。私人国家在文本中以明示或暗示的方式呈现。明确的陈述是直接的主观陈述,例如,“房间非常舒适”。在这种状态下,形容词“舒适”代表了拥有这种体验的个人的积极态度;因此,它表明了一种明确的意见。另一方面,隐含的意见是间接表达的,例如,“房间很热”。虽然这句话表达了对房间的负面看法,但形容词“热”并不直接表达不满。同样,在句子“I have a cup of hot coffee”中,形容词“hot”隐含地表示对咖啡的积极态度。隐性意见主要通过语言中的共现模式来识别。比如说,如果“hot”被用来描述房间的温度,那么它可能有负面的含义,但是如果“hot”被用来描述咖啡,那么它可能有正面的含义。因此,采用基于语料库的机器学习技术来制定基于同现的相似性(Dagan等人,1999年; Lemaire和Denhie` re,2008年; Panicheva等人,2009年)。Zhang和Zhu(2013)开发了一种新的基于共现关联的方法,该方法从客户评论中提取隐含特征,从而提供更全面和细粒度的挖掘结果。另一个潜在的指标的意见或一个人的私人状态是比较声明。在语篇中,比较句通常代表私人陈述,表示对两个对象的判断和比较。因此,比较句被用于从文本中提取意见(Jindal和Liu,2006)。比较句通常包含比较形容词和副词,如更多,更强,更快乐,最好等,然而,有些句子与这些词是不比较的。例如,“我不能再学习了”。同样,有些句子不包含特定的比较词,但它们仍然被归类为比较级。例如,“我喜欢它的颜色,但不喜欢它的这种类型的句子被称为非等级比较级。Jindal和Liu(2006)讨论了一种基于句法模式的有效模型,用于识别比较意见。他们的方法使用一组关键词和关键短语。主要格式包括比较级形容词、比较级副词、最高级形容词和最高级副词。关键词包括但不限于以下内容:相同、相似、不同以及偏好、击败、获胜等,(Liu,2010 a,b)。2.3. 相关学科本节简要介绍了OM相关学科,其中两个是自然语言处理(NLP)和使用文本挖掘技术的信息检索(IR)。OM的广泛范围包括Web挖掘,因为意见主要是从Web收集的,并且OM采用了Web使能技术。2.3.1. 自然语言处理OM是自然语言处理的一个有趣的应用,强烈依赖于NLP技术。NLP是一个262K. Khan等人利用NLP技术知识库输入文件/列车分类器分类预测收款单一套用于分析自然语言文本的计算技术,使计算机能够理解人类语言。因此,自然语言处理在纯文本信息检索和知识发现中起着至关重要的作用。NLP分析不同语言层次的文本,即,在形态、词汇、句法、语义、语篇和语用等层面上。‘‘The OM discipline places itself at the关于IR,OM有两个方面与NLP特别相关,即,信息提取(IE)和QA旨在回答那些用自然语言编写的问题。例如,“穆斯林世界对阿富汗战争的看法是什么?”在问答系统中,搜索引擎以公众意见为目标,回答与社会事件、声誉、广告代理人等相关的问题。NLP的基本单位是语言术语。每一个语言术语都具有不同的语言特征,如语法范畴、意义、语义、共现相似性、语境关系等,这些特征被用来进行术语分类和主观性分析。Polanyi和Zaenen(2004)描述了“关于态度的最突出的线索是作者的语言选择,但文本的组织也提供了与评估态度相关的信息”。因此,OM的工作始于术语分析,终于文档分析。NLP任务需要一个用于信息提取和分析的知识库。虽然有些技术是建立知识库所必需的,但其他技术使用现有的知识库来分析文档。NLP任务的总体概述见图。1.一、IE和QA都使用各种NLP和统计技术进行主观分析。在这一领域的研究已经取得了很大的成就,并采用了多种方法来完成主观性分析。2.3.2. 文本挖掘文本挖掘是一组用于文本的知识发现和预测的技术,深深植根于通常与Web文档相关联的信息的检索,例如“文本挖掘技术用于Web搜索引擎中以提取与搜索查询最相关的文档”。信息检索背后的基本概念是词、短语、句子和文档之间的相似性度量。一个简单的例子,搜索相关的文档,在图。 二、文本挖掘的另一个视角涉及学习和分类的预测。文本挖掘技术应用统计方法和公式来生成术语、短语、句子和文档之间的相似性得分,以预测隐藏模式,然后对其进行分类。一个领域,图1NLP技术和知识库。一组文档输入文档/查询相似性匹配提取文件图2检索匹配文档(Weiss等人, 2010年)。图3分类和预测。投资者关系取决于机器学习和分类技术,这些技术在各个层面都有应用。例如,在分类的术语层面,有必要确定该术语是否是意见,以及它是否具有正极性或负极性。类似的分类在短语、句子和文档级别上进行。因此,文本挖掘技术在OM中有很大的应用。分类的一般概述见图10。3.第三章。2.3.3. Web挖掘万维网是知识发现的丰富信息来源之一。Web挖掘是指利用文本挖掘技术从Web文本中提取有用的知识。OM通常与Web挖掘有关。通过Web内容挖掘获得的用户反馈,挖掘客户行为,关于政治问题的公众意见,社会网络分析,以及其他与意见相关的领域意见挖掘的实际目标是开发一个集成和有效的系统,为Web用户提供一个界面,作为与任何学科相关的Web文章的查询反馈数据(Pang和Lee,2008)。虽然这一领域最近的发展显示出相当大的增长,但它尚未实现其目标。尽管如此,Web内容挖掘近年来受到了相当大的关注,这是由于其需求的增加及其潜在的应用,一般来说,更具体地说,用户反馈分析(Liu,2011;Tsytsarau和Palpanas,2011; Wei,2011)。3. 意见挖掘任务OM问题及其子问题,其中每一个都有自己的相关重要性,在各种主题中找到。OM问题的主要组成部分是意见的来源,意见的目标,以及意见持有者的评价性表达或评论。Liu,2010a,b定义了OM问题。‘‘Given a set利用NLP技术从非结构化评论中挖掘意见成分2632极性意见目标OM意见来源意见图4意见挖掘任务(Liu,2010)。意见挖掘的目的是提取在每个文档中被评论的对象的属性和成分,并确定评论是积极的、消极的还是通常,意见由表达关于实体(目标对象,例如,人、物品、组织、事件、服务等)。OM问题及其子组件的概述如图4所示。每个子问题都有相当重要的意义,在各种著作中都有讨论。下面的小节描述了意见挖掘每个子问题的关键任务和方法3.1. 主观性和极性分类意 见 挖 掘 的 核 心 任 务 是 自 动 识 别 文 档 中 的 意 见 文 本(Montoyo等人,2012年,Cambria等人,2013年)。然后将挖掘的文本分类为客观和主观。现有的研究大多认同客观文本是事实信息,而主观文本是个体观点、信念、意见或情感。因此,大多数意见挖掘系统采用主观文本来确定意见(Ortigosa-Herna'ndezetal., 201 2)。虽然OM的这一子任务采用了各种方法,但最常见的包括语言学和话语结构,粗粒度和细粒度分析,关键词和概念分析(Cambria和Hussain,2012)。根据库克(1989)的说法,话语是意见挖掘与文本的语境密切相关,语篇分析是意见挖掘过程中的一个重要环节。目前的文献已经定义了几种通过话语分析进行意见挖掘的机器学习方法。在这个过程中,情感词典创建从巨大的语料库使用无监督的技术,然后应用于意见罩确定。现有的研究将观点判断分为两个子任务,即,主观性分类和意见极性分类。主观性分类技术用于将术语、句子和文档分类为意见和非意见,而极性分类技术用于将意见性术语分类为正面,例如,好的和负的,例如,不好,声明。一些作品采用加权技术来确定主观性的强度,即,弱正和强正或弱负和强负。Xu et al.(2011)在各个层面进行了主观性分析。例如,一些系统考虑整个文件作为一个单位。这样的系统提取所有固执己见的术语,并以极性总结意见。然后,他们得出结论,该文件是否提出了积极或消极的意见。其他系统依赖于基于数据的分析。在这种类型的系统中,每个句子都根据术语和上下文事件被分类为积极或消极。因此,一个句子可以包含积极和消极的意见。例如,这家酒店的服务很好,但房间很小。因此,由于复杂的句子可能包含多个观点,最近的工作集中在表达水平的观点分析(刘,2010a)。细粒度级别被称为级别分析,因为它识别术语是正面的还是负面的。Whitelaw et al.(2005)提出了一个基于评价理论的良好分类法。评价组的分类法包含一个属性层次结构,如图5所示。他们的论文利用评价组进行电影评论分类,这种方法证明了重要的结果。然而,分类学的发展需要人工努力,并且通常是领域相关的。表1给出了一个基于上述分类法将评估组分析为“不太高兴”的示例主 观 性 分 析 的 早 期 研 究 是 在 20 世 纪 80 年 代 进 行 的Carbonell(1979)提出了一种基于主观理解的信念系统的计算机模型理论。基于这一理论,他在一个名为“政治”的计算机系统中实现了一个过程模型。该系统被用来制定人类的意识形态推理,理解国际政治事件的自然语言文本Wilks和Bein(1984)提出了一个计算机理解自然语言的信念模型,该模型受到人类心理功能的该模型基于说话者对实体的信念和说话者对其他说话者的信念,反之亦然。本文提出了一种基于推理规则的多环境下的信念知识结构,这一思想为提取人对实体的信念或意见奠定了基础,并逐渐使用各种技术实现Wiebe(1990)提出了一种算法,用于识别叙事文本句子中的主观人物。作者在本文中特别关注的是含有人物私人陈述或视角的句子。该算法被设计为在句子中识别故事中呈现他/她的观点的人物,其取决于表示文本如何开始、继续和恢复人物Hearst(1992)描述了一种将句子意义强制转换为抽象模型的方法,并提出了语义图5评估分类法(Whitelaw et al., 2005年)。264K. Khan等人表1“不太高兴”的评价组的示例(Whitelaw等人, 2005年)。特征值特征值特征值态度一个选择态度一个选择态度一个选择取向积极取向积极取向负力中性力高力低重点中性重点中性重点中性极性无标记Polarity无标记极性‘‘not very标记解释以确定句子的方向性,用于在混合信息访问系统中实现。本文的目的是提出一个基于文本的智能系统,它提供了一种方法来回答有关包含用户感知和信念的文档的Sack(1994)描述了一个关于从一个简短的扩展摘要中提取一个观点的想法。因此,作者提出了一个基于对故事中各种观点和观点的识别的理解现实主义故事的系统。Wiebe(1994)开发了一种算法,用于理解文本中的心理观点。这种方法依赖于一个自然发生的叙述和对作者在文本中的观点的尊重。作者实现了一个实证评估的算法Hatzivassiloglou和McKeown(1997)描述了一个预测形容词语义指向的模型。该方法使用从大型语料库收集的间接信息自动检索语义取向信息,并且基于将语言特征或指示符与语义取向相关联的文本语料库的分析。由于该方法依赖于语料库,它提取领域相关信息,并在语料库发生变化时自动适应新的领域。该方法具有较高的精密度(>90%)。因此,本工作的目标是在一个更大的系统中使用所提出的方法来自动识别反义词和区分近义词。语义指向问题是主观性分析的关键。Terveen等人(1997)开发了PHOAKS(people helpingeach another know stuff)系统,用于在Web上共享推荐,使用协作过滤来识别和重用推荐。PHOAKS自动识别、积累和重新分发从互联网新闻消息中挖掘的Web资源一些作者在主观性分析的不同层面做出了重大贡献(Bruce和Wiebe,1999;Wiebe,2000; Wiebe等人, 1999年),提出了一个案例研究,以提高编码器间的可靠性,在话语标记的基础上统计技术。他们还开发了第一个用于主观性分析和客观与主观句子分类的黄金标准数据集,并致力于识别强烈的主观线索。同样,Hatzivassiloglou和Wiebe(2000)认为形容词是主观性的强预测因子,他们研究了不同类型的形容词对主观性分类的影响。本文提出了一种新的依赖于统计方法的机器学习分类器,并通过结合可分级形容词的两个指标来证明分类器的性能。Das等人(2001)提出了一种从股票留言板中提取小投资者情绪的方法。本文使用了一种混合技术,该技术使用投票方案结合了不同的分类器算法。作者进行了一项与时间序列相关的实验,并包括消息信息的横截面聚合。结果表明,该技术提高了结果情感指数的质量,特别是在存在俚语和歧义的情况下。作者认为,这些算法可用于评估人工公告、新闻稿、第三方新闻和监管变化对投资者意见的影响。Turney(2002)提出了一种无监督学习算法,用于将评论分类为推荐(拇指向上)或不推荐(拇指向下)。该算法利用两个给定的种子词,即,“差”和“好”。该算法依赖于两个连续单词的模式,其中一个单词是用于方向的副词或形容词,另一个单词用于表示上下文。使用具有不同术语类别模式的形容词和副词进行语义定向,如果其短语的平均语义定向为正,则将评论归类为推荐,如果其短语的平均语义定向为负,则不推荐。Pang等人(2002)在文件级别进行了审查分类,从而确定审查是正面还是负面。基于经验评估,作者提出标准机器学习技术的表现优于人类生产的基线。因此,本文采用了三种机器学习方法(朴素贝叶斯,最大熵分类和支持向量机),并确定支持向量机表现良好。作者进一步假设,使用复杂技术而不是基于位置的提取的某种形式的话语分析是必要的。虽然不同的术语,如主观性分析,情感分析,情感分析,信念和感知提取,以及观点提取,在许多论文中使用了一些同义词,但出现在(Dave等人,2003年,它首次引起了研究人员的注意。 作者提出了一个意见挖掘系统,用于从客户评论数据中提取消费者意见。随着主观性分析和观点挖掘技术的逐步完善,主观性分析和观点挖掘成为自然语言处理和文本挖掘的重要领域。因此,随着时间的推移,OM中更有趣的应用和发展很快被引入。更具体地说,在 **Dave(2203)的论文发表后从非结构化评论中挖掘意见成分265ð Þ ¼为应对这一快速增长。也就是说,OM研究已经在各种应用 中 进 行 ,在 不 同 的 领 域 。 ( Tang 等 人 , 2009 年 ;Tsytsarau和Palpanas,2011年)。意见词汇资源在识别和评估意见陈述中起着关键作用(Esuli,2008)。‘‘Opinion bear- ing words are instrumentalin opinion mining’’ (意见词汇资源由两种类型的词组成积极的极性词,为文本提供积极的含义,例如,好的,优秀的,好的,等等,和消极的词。如前所述,一个积极的极性词,而消极的极性词,这提供了负面的内涵,以文本,例如,在OM的早期阶段,只有形容词的出现被认为是舆论导向的有力线索(Hatzivassiloglou和McKeown,1997;Hatzivassiloglou和Wiebe,2000)。然而,它的精度性能相对较低.Hatzivassiloglou和McKeown(1997)解释了形容词连词具有相同的极性.本文采用基于连词约束的对数线性回归模型预测形容词连接词的极性,并对一个大型语料库进行处理,提取出与连词and,or,but,either-or,neither-nor连接的形容词。研究结果发现,如果一个形容词的极性是已知的,那么连接的形容词的极性将是相同的。研究结果表明,82% 的形容词连词具有相似的极性。Kanayama 和Nasukawa,2006年)在对日语单词的研究中采用了类似的方法。该方法进一步扩展(丁和刘,2007)在一项研究中,增加了上下文极性。所有这些研究都描述了来自大型语料库的基于模式的学习技术。最近的工作发现,基于句法模式的方法已经得到改进。 (Qiu等人, 2009)提出了一种基于模式的方法,该方法利用特征和意见术语的依赖关系来提取意见词,具有正极性。然而,一些观点词不依赖于上下文,例如,当与语境转换词或否定词(不,从不,不,两者都不是,等等)一起使用时,意见词的极性会发生变化。(Polanyi和Zaenen(2004))。一些作者也研究了极性的强度。简而言之,人们对术语极性给予了相当大的关注,并采用了许多方法来识别文本中的这种极性在一项关于两个统计分类器的研究中,即,Salvetti et al.(2004)描述了用于极性识别的朴素贝叶斯(NM)和隐马尔可夫模型(HMM)对机器学习技术用于极性分类的准确性他们的论文描述了两种类型的词汇过滤器-Baroni和Vegnaduzzo(2004)描述了一种根据主观评分对大量形容词进行排名的方法,而无需任何词汇资源或手动注释。该方法依赖于一小部分35个形容词的种子词类似的方法已经在其他论文中报告了词典生成,其中他们开始与极性形容词的一个小列表,并通过添加由词典搜索生成的同义词来扩展。Turney和Littman(2003)使用了以下积极和消极形容词的种子列表。积极的;良好的;优秀的;积极的;幸运的;正确的;优越的负的;坏的;讨厌的;可怜的;负的;不幸的;错误的;不好的类似的方法由(Kamps等人,2004年,他只使用了两个种子词(好的,坏的)。本文使用以下公式从WordNet词典中查找单词的语义方向。一种基于种子列表的双传播自举技术,用于识别意见词的极性。极性识别SO wdistance_w;bw;bad_distance_w; gw;good_w距离差ð1Þ是一本字典。例如,许多作者(Hu和Liu,2004; Kim和Hovy,2004; Woooff和Wiebe,2003)都专注于基于词典的极性识别方法。如前所述,OM的另一个主要任务是极性分类。极性分类用于将固执己见的术语、句子或文档分类为积极、消极或中性。正极性意味着意见持有者的陈述对目标对象/特征表现出积极的态度,而负极性意味着意见持有者的陈述对目标对象/特征表现出消极的态度。在执行意见挖掘过程期间,通过意见词典识别术语极性。一个意见词典可以由一小部分极性已知的种子词组成,也可以由一个具有术语含义的大词典组成。如果这个词与一个积极的极性词相似或同义,那么它被认为是积极的。如果它与一个否定极性词相似另一方面,一些观点词是上下文相关的,例如, 在这里,这个词在这个等式中,距离表示单词w和种子单词(好的,坏的)在WordNet层次结构的图中。种子词的方法,描述了(金和霍维,2004年),是通过分配分数的积极和消极的话。Kanayama和Nasukawa(2006)描述了一种用于构建基于领域的词汇数据库的无监督方法,用于主观分类,其中他们使用语料库中的上下文一致性来基于语料库中一致性的整体密度和精度选择候选极性。在密度估计方面,采用了统计技术进行候选细化,并开发了最终词汇列表,而无需手动调整阈值。在他的关于OM词汇资源自动生成的博士论文中,(Esuli,2008)从WordNet(Stark和Riesenfeld,1998)进行了融合的注释分类,并开发了一个巨大的具有意义的术语数据库(SENTIWORDNET3)(表2表示一组示例意义术语)。其他词汇资源(SenticNet、General Inquirer、OpinionQuestion、VerbNet、ConceptNet、SentiFul和Turney‘‘short’’ 在声明中,“亲-图片打印的cessingtime ishttp://swn.isti.cnr.it/。266K. Khan等人表2SentiWordNet中的术语含义示例#POSIDPOS. 评分Neg. 评分同义词集术语Adj.17400.1250能力#1名词174000实体1动词174000Take_a_breath#1呼吸#2呼吸#3Adv183700Anno_domini#1 ad#1 a.d.#1名词193000物理实体#1Adv198100Common_era#1 ce#1 c.e.#1Adj.209800.75无法#1名词213700摘要#6 abstract_entity#1Adv214200公元前#1年#1年#1Adj.231200背侧#2背侧#1动词23250.1250呼吸#2形容词列表)用于主观分类和极性识别。例如,Jesus et al.(2013)提出了一种方法,通过为概念分配情感标签,用情感信息丰富SenticNet概念。虽然极性分类的问题已被认为是非常重要的,但还需要进行更多的研究。针对这一需求,近年来的研究主要集中在主题相关性、领域分析、语言依赖和语境依赖等方面。(Ge和Houfeng,2011; Li等人,2010; Pak和Paroubek,2011;Wilson,2008)。最近的一项研究利用主题相关性来定义极性(Wiegand and Klakow,2009),研究了基于句法信息的主题术语和极性表达的联合分析的有用性,以将文档分类为积极或消极。3.2. 意见目标识别意见对象是指表达意见的人、物体、特征、事件或主题。由于意见目标识别是OM的一个基本特征,因此有必要对与意见目标提取相关的方法进行广泛的概述。根据消费者的意见对产品的各个方面进行深入分析,对公众、商家和制造商都同样重要(Zhang和Liu,2011)。为了比较评论,有必要自动识别和提取评论中讨论的那些特征。因此,产品的特征挖掘对于意见挖掘和摘要是重要的,特别是 考 虑 到 特 征 挖 掘 的 任 务 为 意 见 摘 要 提 供 了 基 础(Feldman等人,2007年)。然而,存在与意见目标提取相关的问题。一般来说,如果系统能够识别句子或文档中的目标特征,那么系统也必须能够识别这些句子中的固执己见的术语或评价性表达
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 5
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 展开
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
最新资源
- Android圆角进度条控件的设计与应用
- mui框架实现带侧边栏的响应式布局
- Android仿知乎横线直线进度条实现教程
- SSM选课系统实现:Spring+SpringMVC+MyBatis源码剖析
- 使用JavaScript开发的流星待办事项应用
- Google Code Jam 2015竞赛回顾与Java编程实践
- Angular 2与NW.js集成:通过Webpack和Gulp构建环境详解
- OneDayTripPlanner:数字化城市旅游活动规划助手
- TinySTM 轻量级原子操作库的详细介绍与安装指南
- 模拟PHP序列化:JavaScript实现序列化与反序列化技术
- ***进销存系统全面功能介绍与开发指南
- 掌握Clojure命名空间的正确重新加载技巧
- 免费获取VMD模态分解Matlab源代码与案例数据
- BuglyEasyToUnity最新更新优化:简化Unity开发者接入流程
- Android学生俱乐部项目任务2解析与实践
- 掌握Elixir语言构建高效分布式网络爬虫
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功