没有合适的资源?快使用搜索试试~ 我知道了~
跨领域情感分类方法的跨域分析器(CDA)对大数据分析进行了审查,提高了准确性和精度
⃝++⃝可在www.sciencedirect.com上在线获取ScienceDirectICT Express 3(2017)128www.elsevier.com/locate/icte跨领域分析器,以获得审查熟练的大数据分析Deepali Virmania,Preeti Aroraa,Pradnya Satish KulkarnibaCSE,BPIT,New Delhi,Indiab数学,COER,印度接收日期:2016年10月2日;接收日期:2017年3月2日;接受日期:2017年4月13日2017年5月10日在线发布摘要情感分析是数据领域中提取相关信息的卓越技术。本文提出了一种跨领域情感分类方法-跨领域分析器(CDA),它将提取积极的词,并替换其同义词,以升级极性。此外,该方法混合了两个不同的领域,并检测所有自给自足的话。这是在亚马逊数据集上执行的,其中两个不同的域被训练来分析另一个域中评论的情感。所提出的方法有助于有前途的跨域分析的结果,并实现了92%的准确性。在BOMEST,CDA提高了精度 和召回率分别提高了16%和7%。c2017韩国通信信息科学研究所。出版社:Elsevier B.V.这是一篇开放获取的文章,CC BY-NC-ND许可证(http://creativecommons. org/licenses/by-nc-nd/4. 0/)。关键词:特征提取;意见挖掘;情感分类1. 介绍情感分析是一种处理技术,可用于博客,评论(电影,美容,在线购物网站等)。来评估他们的情绪是积极的还是消极的顾客表达他们对他们使用的产品或设施的看法通过分析这些观点,消费者可以有效地改善他们的决策。情绪分类已应用于各个领域,如市场分析,意见挖掘和意见摘要[1,2]。在单域分析中,所有情感都与单个特定域相关,这可能不会为不同域产生足够的范围因此,需要针对所提出的跨域分析器(CDA)[3,4]的解决方案,其针对一个或多个域训练分类器,并在已知具有更好性能的不同域中使用训练的分类器。本文提出了一种领域相关词的显示和独立词的推断方法一种美德-*通讯作者。电子邮件地址:deepalivirmani@gmail.com(D. Virmani),erpreetiarora07@gmail.com(P. Arora),syk iitr@yahoo.com(P.S.Kulkarni)。同行评审由韩国通信信息科学研究所负责。这篇论文已经由教授处理许俊提出了一种跨域信息分类的新方法和CDA算法,以改善跨域信息,最大限度地减少域间的差异。该算法BOMEST采用了Jain等人[5]的修改版本。该算法有效地工作在一个单一的域的准确率为78%。BOMEST基于二元模型,该二元模型然后,通过将正极性增量值乘以0.45而负极性减量值乘以0.35来计算指数化数据的分数,并将0.0至1.0范围内的所有线相加。本文件的结构如下。第2节总结了相关文献并描述了研究。第3节描述了我们提出的方法和与Amazon数据集一起使用的CDA算法。最后,我们的实验结果在第4节进行了验证。第5节提出结论。2. 文献综述Blitzer等人。[4]专注于跨域分类和使用源域训练分类器的挑战。他们将训练好的分类器应用于目标域,http://dx.doi.org/10.1016/j.icte.2017.04.0042405-9595/c2017韩国通信信息科学研究所。Elsevier B. V.的出版服务。这是CC BY-NC-ND许可证下的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4. 0/)。D. Virmani等人/ ICT Express 3(2017)128-131129识别特征,并使用学习框架来发现源和目标域特征的重要性。Pan和Ni [6]提出了一种用于情感分类的方法,该方法使用光谱特征对齐(SFA)算法将来自不同领域的特定领域单词分组到统一的聚类中,从而弥合了领域之间的差距。这些聚类可以用于减少来自两个域的特定于域的词之间的间隙,从而增强情感分类器。3. CDA3.1. 拟议方法在本文中,我们提出了一个跨域分析的CDA方法。迄今为止,现有的跨域方法使用单源域和分类器来预测目标域。CDA的流程图如图所示。 1,详细解释如下:来自数据集的原始数据:我们提出的CDA方法的第一步是 收集 所 有感 兴 趣的 评 论。 用 于实 现 的数 据 集是 在http://jmcauley.ucsd.edu/data/amazon/上可用的Amazon数据集。该数据集包含1996年5月至2014年7月期间160,792条婴儿产品评论,198,502条美容产品评论,346,355条在数据收集之后,通过删除所有HTML标记、多余空格、空白、重复单词、停止词、图像、URL、视频和音频来清理数据并准备分类,这些都对文本的含义没有贡献。然后,使用Porter Stemming算法从单词中删除后缀,将它们减少到它们的根,以压缩数据集的维度强化计数:词干提取后,使用BOW方法对评论进行标记。然后BOMEST用于POS标记,它有效地识别名词,动词,副词和形容词,以创建索引数据,分配分数,并将其存储在训练的字典中[5,7]。然后,我们使用MS Word Intro确定了评论中可用的单词的所有同义词。同义词被替换为单词,并计算单词出现的总数。 例如,数据集将“偶”和“差”分别识别“Even” is matched with its synonyms, and all the 如图2A所示评估总计数。类似地,将“bad”与其同义词进行比较,并生成其计数,如图2所示。2B.词法Boms字典:词法Boms字典是输出,包含每个单词的出现计数的正极性和负极性列表,如图2所示。 图3A和3B是根据不同类别的所有评论生成的。特征分类器:在情感分类中,目标是频繁的词,POS,短语或术语,显着影响意见,以显示积极或消极的极性。选择合适的目标可以获得更高的分类精度Fig. 1. CDA工艺顺序。图2A. +ve同义词替换。图2B. 否定同义词替换。通 过 减 少 文本 的 范 围 。 同 义 词替 换 ( WSR ) 和CDA(CBM)目标-替换给定单词的所有同义词搜索和替换文字与字增加了总数130D. Virmani等人/ICT Express 3(2017)128表1出现同义词的积极/消极词词同义词词同义词中国人(20854)静止(22085)、平滑(1516)、恒定(556)、相等(171)中国人(4053)可怕(576),邪恶(31),严重(378),贫穷(1019)表2ABOMEST,CDA(单域)。BOMESTCDAS.no.评论计数S.no评论计数婴儿数据集图3A. 同义词出现阳性。1.积极125 9101.积极172 9142.负18 9102.负15 0923.中性18 0823.中性12 086Beauty数据集1.积极145 9101.积极188 5132.负26 1102.负9 6193.中性26 4823.中性12 303图3B. 同义词出现率为负数。正极性计数。然后,找到不同领域的标记词和未标记词。跨域分类器[8,9],以发现和消除不必要的,不适当的,冗余的元素,从数据,不有助于准确性。在这些功能的帮助下,使用CDA,精确率,召回率和准确率的计算结果如结果部分所示。跨域分类器:WSR专注于降低源域数据的“非常差”类的权重最后,在源域中训练分类器,并使用下一节中针对算法描述的步骤来预测目标域的正极性和负极性评论。在表2A和2B中清楚地示出,当在单个域和跨域中使用时,我们提出的算法增加了正面评论的计数。3.2. 该算法CDA是设计的算法,它使用亚马逊评论[12]作为输入数据集(婴儿,美容,健康和电子产品的分析不同的领域是一个耗时且昂贵的过程,因为必须为每个新领域训练分类器。因此,需要一种可以在跨域中有效工作的新方法。因此,跨域分类器被用于通过组合两个不同的源域并使用算法中定义的步骤预测目标域的结果来增强现有方法的准确性。为了生成跨域情感分析的CDA方法的结果,使用来自Amazon的不同产品评论。对于该实现,随机选择训练分类器,而剩余的用于测试分类器。4. 结果分析为每个域选择1500个正面评论和1500个负面评论其中,每个极性的1000个评论用于在实验中,两个域的随机组合作为源域。剩下的领域++→+ → +→fpt pη+tp++。表2B目标域上的CDA。D. Virmani等人/ ICT Express 3(2017)128-131131BOW和BOMEST,用于POS标记。正面评论和负面评论的总数存储在索引的S.no.评论婴儿计数美容计数健康跨域1.阳性172 914 188 513 288 4132.负15 092 9 619 25 6193.中立12 086 12 303 15 323表3精确度、召回率和准确度结果。婴儿+美容→健康BB( H),婴儿+电子→美容作为BE( B)和电子+健康→美容作为EH( B)BM+ WSR+ CBM见图4。 Precision–recall–accuracy对于作为目标域的数据集。 例如,婴儿美容保健,婴儿电子产品美容;和电子健康美容被称为BB(H)、BE(B)和EH(B),用于计算精确度、召回度和准确度。估计度量是跨域分类器,其通过确定来自源域的与域无关的词来正确地预测目标域的评论。基于上述结果,计算分类器的精确度、召回率和准确度,其中精确度(P)确定分类器的接近度。它被定义为:召回(R)de-定义了分类器的完整性和完整性。它被定义为:ftp。准确度(A)决定了一种情绪接近积极或消极情绪的频率。它被定义列表,该列表进一步用于将所有同义词替换为匹配的词以升级极性。然后,训练两个不同的源域来为剩余的目标域提取评论。然后,使用CDA来发现所有的自足词,这些词被用来弥合来自不同领域的文本之间的差距。BM、WSR、CBM、目标提取和跨域分类器用于发现和消除数据中对准确性没有贡献的不必要、不适当和冗余方面。当应用于跨域时,所提出的CDA算法获得了92%的准确率。BOMEST算法在单域上的查准率和召回率分别提高了16%和7%。结果表明,相对于现有技术,CDA在精密度和准确度方面提高了5%。在本文中,所提出的算法实现的跨域。因此,在未来的工作中,我们将尝试在多个域上实现所提出的算法。所提出的方法不涉及时间和空间复杂度,所以我们将尝试最小化所提出的算法相对于现有算法的时间和空间复杂度利益冲突作者声明,本文中不存在利益冲突引用[1] M.胡湾,加-地Liu,Mining and summarizing customer reviews,in:KDD,2004,pp. 168-177。[2] B. 庞湖李,意见挖掘和情绪分析,发现。趋势Inf. Retr.(2008)1-135。[3] Y. Lu、X.Zhai,N.Sunnaresan,额定方面总结短评论,在:万维网,2009,pp. 131-140。[4] J. Blitzer,M. Dredze,F. Pereira,传记,宝莱坞,boom-boxes和blenders:情感分类的域适应,在:计算语言学协会第45届年会论文集,布拉格,捷克共和国,2007年,pp. 440-447[5] 诉Jain,D. Virmani,P.Arora,A.阿罗拉,BOMEST一个重要的方法,Extract the Propitious Information from the Big Data , LNNSSpringer's,2016,ISSN-2367-3370,(in press).如:tpPS NS在表3中,清楚地呈现了召回率和精确率[6] S. 平移X。Ni,J. Sun,Q.杨,Z. Chen,通过光谱特征进行跨域情感分类,在:WWW 2010,ACM,Raleigh,NorthCDA 相 对 于 BOMEST 的 度 量 增 加 。 使 用 TN(tokenization)、BOWN(bagofwords andn-gram)和BM(BOMEST),获得了66%的准确率、82.5%的召回率和88.75% 的 BM , WSR 和 CBM ( Cross BOMEST ) 产 生77.25%的精确度,90.5%的召回率和92%的最大准确率,高于BOMEST(即,81%,如图所示。 四、5. 结论提出了一种跨领域情感分类方法CDA。所提出的方法被用于形成了一个词汇字典。字典是用来增加积极的极性评论,通过过滤后,垃圾删除和词干的评论。这些评论然后被标记化,Carolina,USA,2010,pp. 751-760. 978-1-60558-799-8/10/04。[7] H. Fang,A re-examination of query expansion using lexical resources,in:ACL,2008,pp. 139-147[8] B. 陈威Lam,W.曾达良王,文本挖掘中领域适应的判别概念提取。第15届ACM SIGKDD知识发现和数据挖掘国际会议论文集,ACM,纽约,纽约,美国,2009年,pp. 179-188.[9] B.- S. 作者:David,J. Crammer,F. 佩雷拉分析领域适应的表示,在:神经信息处理系统年会,第19卷,麻省理工学院出版社,剑桥,MA,2007年,第100页。137-144。[10] D. Bollegala,D. Weir,J.Carroll,跨域情感分类使用情感敏感的词库,IEEE trans.knowl.DataEng. (2013年)。[11] S. Xie,W.Fan,J.Peng,J.任,潜空间域之间高转移维重叠分布,在:第18届国际万维网会议,2009年,第18页。91比100[12] J. Mcauly,2016年。http://jmcauley.ucsd.edu/data/amazon/2016网站。特征提取精度召回精度TN+ BOWN+ BM百分之六十六百分之七十百分之八十二点五百分之九88.75%百分之九十二
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功