没有合适的资源?快使用搜索试试~ 我知道了~
数据科学与管理5(2022)57研究文章面向中文在线评论的多特征融合搜索产品特征提取黄勋江*,刘亚倩,王阳,王雪东北大学工商管理学院,沈阳,110169A R T I C L E I N F O保留字:产品特征提取中文在线评论tf-idf字跨度语义相似度A B S T R A C T越来越多的中文在线评论包含了丰富的产品需求信息,尤其是搜索产品。提出了一种基于多特征融合的在线评论产品特征提取模型该模型结合中文网络评论的句词特征,探讨了词的词汇特征、词频特征、跨度特征和语义相似度特征。然后,通过序列关系分析,将它们融合在一起,识别出顾客最关心的特征识别的产品特征为产品创新提供方向,方便客户选择产品最后,以iPad Air为例对该模型进行了验证。实验结果表明,PFEMF模型的抽取性能优于传统的词频-逆文档频率(tf-idf)算法、词跨度算法和语义相似度算法。1. 介绍互联网和电子商务技术的不断发展对公司的业务流程和消费者的购买行为产生了深刻的影响(Kwark等人, 2014年)。 应用平台和通信模式已成为交易网站的重要组成部分(Chen et al., 2012; Fan等人,2020年)。作为一种新的网络口碑形式,网络评论具有明显不同于传统口碑的特点(Chen and Xie,2008; Viglia et al.,2016年)。关于电子口碑(e-WOM)的信息对消费者的行为有着至关重要的影响(Jiang etal.,2021年)。 在线评论可以为消费者提供多维度的信息,包括评论的数量、产品的特点、评论者的专业水平、评论者的情绪和情绪倾向或强度等,消费者可以通过在线评论分享和获取更多的产品信息(ParkandNicolau,2015;Qietal.,2016;Li和Li,2019)。之前的研究表明,70%的消费者更信任在线评论,而不是其他人的推荐。此外,在线评论也将对消费者的决策产生影响(Cheung等人, 2008年;尼尔森,2013年)。产品特征是隐藏在消费者评论中的产品性能的描述性信息(Bafna和Toshniwal,2013; Jeong等人,二 〇一一年;Suganya等人, 2019年)。它不仅可以帮助消费者更全面地了解产品的各种性能,便于产品的选择,而且可以帮助生产者了解其产品的优点和缺点这样,生产者就能够识别消费者最关心的产品特征,获得更有价值的产品创新信息。海量的非结构化文本信息增加了消费者如果人工处理在线评论,将是非常耗时费力的工作。消费者可能有不同的能力,以获得不同类型的产品的信息(纳尔逊,1970年;1974年)。Nelson提到,根据获取产品信息的完整程度,产品可以分为体验型产品和搜索型产品。基于信息获取和利润的比较,会有大量的搜索行为为搜索产品获取信息,而体验型产品的搜索行为较少(Nelson,1970; 1974)。当消费者购买体验式产品时,主观评价对消费者购买行为的影响更为深刻。消费者在购买搜索产品时,会更关注网站提供的产品质量信息,以及搜索产品同行评议由Xi交通大学负责* 通讯作者。电子邮件地址:Xjhuang@mail.neu.edu.cn(X. Huang)。https://doi.org/10.1016/j.dsm.2022.04.002接收日期:2021年11月9日;接收日期:2022年4月5日;接受日期:2022年4月7日2022年5月11日网上发售2666-7649/©2022 Xi'an Jiaotong University.出版社:Elsevier B.V.代表科爱通信有限公司公司这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。可在ScienceDirect上获得目录列表数据科学与管理杂志主页:www.keaipublishing.com/en/journals/data-science-and-managementX. Huang等人数据科学与管理5(2022)5758将更强(Ghose和Ipeirotis,2007; Weisstein等人, 2018年)。本研究以搜索产品为研究对象,采用客观的产品评论来识别产品特征。提出了一种基于多特征融合的产品特征提取方法(PFEMF),该方法依赖于词的词性、词频、词跨度和语义相似度等多个参数。第二部分总结了粗粒度文本挖掘方法和产品特征提取方法。第三部分提出了产品特征提取模型。详细介绍了各参数的计算方法。第4节以iPad Air为例,从产品在线评论中提取产品特征,并以图表的形式给出了提取结果。第5节报告了一个关于iPad Air的示例的实验结果。第六节是结论部分。2. 文献综述文本挖掘技术可以分为两类,即粗粒度文本挖掘和细粒度文本挖掘。粗粒度文本挖掘方法通常针对文本级别和章节级别的文本研究,其主要考虑在线评论的基本元素对消费者感知的有用性的影响(Mudambi和Schuff,2010; Kor fiatis等人,2012年)。基本要素应主要包括网络评论的主观性和客观性、评论的篇幅、评论的可读性、工作人员的专业水平、评论时间、是否有附加评论等。根据Chen and Lurie(2013)的研究,评论中发布的时间信息可以影响消费者对正面评论的归因,并通过消除负面偏见来增强正面评论的感知有用性。 Ghose和Ipeirotis(2011年)表明,审查可能是主观的。可读性和拼写错误率对评论的感知有用性有影响。过去发表的评论的平均有用性积极影响了今天发表的评论的有用性(Ghose和Ipeirotis,2011;Risselada等人, 2018年)。 在有限的长度范围内,评论的长度对感知的有用性有积极的影响。当评论的长度太长时,长度和感知的有益性之间的正相关关系不再显著,除了专业评论员(Huang et al., 2015年)。在线评论数量的增加更有利于潜在消费者以更容易的方式获得信息,这增强了他们为相应商品或服务付费的意愿(Zhu和Zhang,2010)。 关于在线评论的研究表明,在线评论的质量与评论者的可信度之间存在显著的正相关关系(Song等人,2013; Metzger,2014)。在处理来自在线评论的产品的情感态度时,Hu和Liu(2004 a)首先阐明了产品的每个特征的情感倾向,与整体情感态度相比,应该得到更多的关注。在线评论的文本挖掘从章节级别进行,产品特征级别称为细粒度文本挖掘。 从网上评论来看,Zhang et al.(2021)采用文本挖掘的方法获取消费者的重复购买意向。细粒度文本挖掘算法可以分为监督算法、半监督算法和无监督算法。 Carenini等人(2005)采用关联规则将挖掘出的产品特征通过相似度映射到产品层次模型。Su and Thidar(2013)通过形容词、副词、动词和名词,从评论文本中总结出关于产品特征的意见词或短语的模式,并生成有意义的摘要。机器学习算法也被用于监督文本挖掘。Aravindan和Ekbal(2015)使用基于极性分类器的关联规则挖掘和有监督机器学习算法,实现特征提取和意见挖掘。Ruan and Xia(2019)和Do et al.(2019)将深度学习方法应用于产品评论的方面提取和情感分类。产品特征或标记训练集的手动定义被用作文本挖掘中的监督算法虽然这种方法确保了提取结果的准确性,但这是一项非常耗时和劳动密集型的任务,因为来自不同领域的专家需要在不同领域合作标记。Popescu andEtzioni(2007)首先提取了评论中经常出现的名词和名词短语作为候选产品特征,然后使用WebPMI(Web版本中的模型之一)计算产品候选特征与产品之间的关系。然而,该方法具有较高的时间复杂度。与有监督的产品特征提取方法相比,无监督的产品特征提取方法不需要维护词表,也不需要人工训练或标注评论。 Li等人(2007)提出了一种新的基于词频-逆文档频(tf-idf)的多策略中文新闻文档关键词抽取方法。 Hu和Liu(2004 b)利用关联规则提取高频特征词,并通过剪枝提高抽取结果的准确率和召回率。并辅之以相邻的形容词,找出低频属性词。根据Yu和Shan(2015),改进的Web中文关键词提取算法可以从文档中自动提取关键词 Liu等人(2016)选择了满足贝叶斯非参数模型(BNP)的N-gram作为候选,并使用N-gram的边界平均信息熵和子串依赖来过滤候选,并提取最终的产品特征值。 Biswas等人(2017)通过使用集合节点权重(KECNW)构建了一种新的基于非监督图的关键字提取方法,称为关键字E X牵引,该方法可以通过集体采用各种干扰参数来确定关键字的重要性。Rodrigues和Chiplunkar(2016)使用Apriori算法进行特征提取,并基于无监督SentiWordNet方法对产品特征进行分类。 Li(2010)构建了一种基于自举和迭代二分器3(ID3)的组合方法,用作自举迭代中的特征选择算法以实现产品特征提取。Ma andYan(2014)提出了一种新的基于潜在狄利克雷分配的产品特征提取方法,并以JD.com为例验证了该方法的有效性。虽然无监督提取算法不需要人工标注单词简单易行,提取准确率较低。因此,提出了一些利用关键字提取算法识别产品特征的半监督挖掘算法Zhan and Wu(2014)提出了一种基于TF统计和句法分析的中文关键词抽取算法,提高了中文关键词抽取的准确性和实用性。Wang(2017)使用人工方法将主观文本与产品评论分离,将产品评论人工为四种句型,然后提出了一种基于副词的方法来提取各种评论文本中的产品意见词和特征词 He等人(2018)提出了一 种 Word2vec 加 权 TextRank 词 图 构 建 方 法 , 改 进 了 经 典 的TextRank产品特征提取算法,从而有效提高了产品特征提取的准确性。Bakar等人(2016)提出了一种半自动化方法,称为自然语言需求重用的特征E X牵引(FENL),用于提取短语并表示软件功能。该方法结合了中文文本词的词频、相关性、PoS、位置等特征,能够更好地分析中文文本的关键词X. Huang等人数据科学与管理5(2022)5759þþþKtfi;j;比以往任何时候(张,2013)。Tsai et al.(2020)构建了分类器来识别有用的评论,并以系统化的方法分析评论的关键词。3. 拟议的PFEMF模型PFEMF模型综合考虑了词性、词频、词跨度和语义相似度等特征,并以核心特征词集为中心进行聚类。采用序贯关系分析方法对特征进行线性融合,得到产品特征的重要性排序。本研究的硬件配置参数为:操作系统:Windows 10(64位);处理器:AMD A6-9210 RADEON R4,5位CORES 2C 3G;编程语言:python;词向量工具:Word 2 vec。该模型的实现包括6个阶段:文本预处理、词性识别、基于tf-idf的频率识别、词跨度识别、语义相似度识别和线性加权。本研究中产品特征提取的流程图如图所示。1.一、所有阶段的详情呈列如下。3.1. 阶段1:文本预处理中国在线评论的发布者是匿名的,评论会实时更新。 Jianget al.(2021)证明了网络评论的信息质量会对信息采纳产生一定的影响。因为由于网络用户的随机性和评论的不规范性网络评论中存在大量与产品无关的重复评论和噪声数据与英语句子的写作特点不同,中文网络评论在词与字之间有一定的连续性,句与词之间没有间隔符号因此,在对中文文本进行分析之前,有必要对文本 Liu等人(2019)提到,解霸分词是一个由Python开发的中文文本分词包。它的技术成熟,对于中文文本的分割非常有效。(1) 数据清理:从文本数据中删除重复的评论 删除低会员级别,低评论喜欢的项目,低评论的项目。删除可读性和可解释性低的评论。清理后备份文本数据,将评论按照时间顺序进行排序,以便后续文本分析。(2) 标记化:根据自定义的词表,使用标记化工具“界霸”对处理后的文本进行分词。(3) 词性标注:语料库中的单词根据词性进行分类,每个单词都带有词性标签。(4) 停用词删除:创建一个标准的停用词列表,然后从语料库中删除这些相应的停用词。3.2. 第二阶段:词性在PFEMF模型中,为了提高程序的效率,在去除停用词后,还需要对候选特征词的词性进行筛选,去除具有无用词性的词Hu和Liu(2004 a)使用关联规则将产品特征定义为名词成分根据汉语名词短语的表达特点,李等提出了汉语名词短语的概念。(2009)实现了数码相机的特征提取。Wang(2017)将网络评论中的意见词定义为形容词、副词形容词、情感动词和副词情感动词,将产品特征词定义为名词、名词短语和动词。Zhang(2013)对关键词的词性分布进行了统计分析。在现有文献的基础上,采用词性标注的方法来定义产品特征,筛选词性。因此,以词性为划分标准,对产品特征词进行统计,结果如表1所示。综上所述,根据统计结果,名词性词素、动词性词素和形容词性词素被保留为候选产品特征词。3.3. 第3阶段:TF-IDFtf-idf称为频率逆文档频率。tf-idf被用作衡量文档所代表的词向量的加权标准(Barkha和Sangeet,2018)。在信息检索领域中,根据词频提取关键词是一种常用的方法在这项研究中,我们使用TFIDFi;j作为产品特征提取的参数假设评论的集合是S1/4s1;s2;s3;sn nn,候选产品特征词Vi2si,特征词Vi(1):ni;j<$Pnk j(一)Fig. 1. 产品特征提取流程图。表1词性分布统计。词性名词动词形容词副词别人量8,4313,4051,830659675百分比(%)56.222.712.24.44.5X. Huang等人数据科学与管理5(2022)5760ð Þ..¼ ðÞVipPðÞ..其中,tfi;j表示候选产品特征词Vi在评论集Sj中的出现频率,ni;j为词Vi在评论集Sj中的出现次数,knk;j为评论集Sj中所有词的出现次数之和。候选产品特征词的逆文档频率被计算,如等式(1)所示。(二):单词Vi,lastVi表示Vi在文本中最后出现的位置,first Vi表示Vi在文本中第一次出现的位置,sum是文本中的单词总数。3.5. 阶段5:语义相似性粗粒度文本挖掘用于在文本级或idf¼logjDj(二)句子层面,主要侧重于对整体特征的影响I.j:Vi2sj1其中,jDj为评论集中的评论数量,fj:Vi2sjg为包含候选产品特征词Vi的评论数量。最后,单词Vi的tf-idf被定义为:关于消费者感知的有用性的评论本研究认为,具有高度感知帮助的产品评论更容易引起消费者的注意。将粗粒度文本挖掘方法与特征提取方法相结合,在粗粒度文本挖掘结论的基础上识别标准评论集的Ffreqi 1/4tfi;j×idfi(三)标准评论集的识别过程如图所示。二、通过使用图中所示的步骤。2、10篇评论选自采用tf-idf算法计算候选产品特征词的频率特征,反映特征词的重要性。3.4. 第四阶段:单词跨度消费者在电商平台上发布在线评论时,会参考已有的在线评论。消费者关心的一些重要产品特征将被反复提及。词跨度可以用来表示一个词在一篇文章中所占的重要性,从而显示文本的重要性(McNaught和Lam,2010)。因此,电子商务平台的产品评论具有一定的时间跨度。将时间跨度值设置为t。t越大,产品特征的重要性越大。单词跨度是指文本中单词或短语第一次出现和最后一次出现之间的距离 本研究在获得分析语料的基础上,将产品评论按照评论时间进行排序,并巧妙地引入了时间跨度度量。单词跨度越大,表明该单词对文本越重要。对于评论集中的任何候选产品特征词Vi,词跨度被计算为评审集,以形成标准评审集,P S1;S2;S3-S9;S10,以及通过使用人工标注和词云从标准评论集中选择15个特征词以形成核心词集(Heimerl等人, 2014年)。Word 2 vec是一种无监督学习模型,通常包括 两种结 构模型 ,连续 词袋模 型(CBOW )和 Skip-gram模型(Barkha和Sangeet,2018)。与Skip-gram相比,CBOW更适合于短文本来预测目标词的出现概率(Jiang和Wang,2016)。 在本研究中,Word2vec中的CBOW用于训练所获得的评论训练集的词向量。如果把用向量表示的词放在坐标系中,就会发现语义相似的词在空间坐标系中是非常封闭的,而语义独立的词在空间坐标系中则相距甚远。K-均值聚类算法是一种简单快速的算法,它使用均值作为聚类中心进行聚类(Likas et al.,2003年)。采用K均值聚类算法计算核心词向量的质心。通过使用余弦距离计算候选特征词与质心之间的语义相似度,其被定义为V·p如下所示:span_(四)相似性Vi;pi(五)我概括其中,span_V_i_表示候选产品特征的词span其中,相似度Vi;p为候选产品特征词与质心的余弦距离,p为核心词的质心向量。图二. 标准审查集的识别程序。X. Huang等人数据科学与管理5(2022)57表6161i¼kwn¼1nnVIP水平秩评论排名评审内容时间喜欢页面标题产品版本******五星五星我是第一个发表评论的吗?昨天8点在网上买的我太高兴了2019-03-27十点三十七分2019-03-2714211AppleiPadAppleiPadWLAN 64GWLAN 64G***五星我觉得还可以,推荐买。十二点四十七分2019-03-2711AppleiPadWLAN 64G十三点十五分******加上加上五星五星没想到今天收到了iPad。我想我下个月会得到它我喜欢在这个平台上购物 总之,强烈推荐!我在网上订购后很快就收到了我还买了一年的保险,2019-03-27十五点三十一分2019-03-27116AppleiPadAppleiPadWLAN 64GWLAN 64G***五星因为我的手机经常掉交货很快。一天后我才得到它太快了十六点三十二分2019-03-270AppleiPadWLAN 64G***加上五星我喜欢iPad很久了我终于买了最新版本。我是从十七点五十分2019-03-2727AppleiPadWLAN 64G八点整到站台我真的很喜欢,哈哈哈哈。十八点三十三分******加上五星五星我昨天从JD.com买了2019年的iPad,今天中午收到了。我非常信任这个平台,包装没有坏。我用了4年的iPad,电池寿命很短。最新的价格2019-03-27十八点四十六分2019-03-2737AppleiPadAppleiPadWLAN 64GWLAN 64G***加上五星版本不贵,所以我就买了,我喜欢。交货非常快,我喜欢它。太谢谢你了,快递员。十九点十八分2019-03-270AppleiPadWLAN 64G***五星哈哈我昨天买的,今天早上收到的我会给好的评论。十九点二十八分2019-03-271AppleiPadWLAN 64G***加上五星JD.com从来没有让我失望过!自2019年春季出版以来,2019年iPad引起了我的注意二十点十三分2019-03-2714AppleiPadWLAN 64G***加上五星没想到今天能收到iPad。我晚上打开它,二十一点十二分2019-03-276AppleiPadWLAN 64G***五星全电池。使用5年不会有问题。昨天8点在网上买的我喜欢京东。二十一点十七分2019-03-273AppleiPadWLAN 64G***加上五星它是光滑和轻。我喜欢!二十二点三十七分2019-03-273AppleiPadWLAN 64G***五星早上八点半到的。我昨晚看到它被送到后感到很兴奋。我喜欢它的二十二点五十三分2019-03-275AppleiPadWLAN 64G听着二十二点五十八分3.6.第6阶段:线性加权这三个参数的权重在产品特征提取中起着重要的作用 PFEMF模型采用序贯关系分析法对三个参数进行线性加权。单词的权重被定义为Con i,计算如下:式中,wk为评价指标的权重,其中重要性比Rk由各指标的查全率决定(3)确定权重wk。根据特征值之间的查全率,计算Rk的大小计算重量的公式(八)、Coni¼μ1Ffreqiμ2spaniμ3Similarityi其中μ,μ和μ(六).XYk½2i¼k!-1Ri(八)根据郭(2007年),其计算如下:(1) 确定顺序关系。 如果决策者对某件事情的决策有n个评价指标,则这n个指标的重要性排序如下:x1>x2>x3>n>xn(并且:wk-1<$Rk wk k<$2;3;n;n-1;n(9)顺序关系分析法的证明过程如下。由于QnR i^wk-1,sum k from 2 to n。我们可以看到:在本研究中,这三个参数的重要性的评价标准是召回率。这与传统的Xn .YnRi!¼Xwk-1w(十)序贯关系分析,其中的重要性排序,参数通常由专家分析k½ 2i¼knk½ 2n(2) 比较和判断评价在-而kP1wk1。因此,可以得出以下结论:n是三个参数的权重系数公司简介1þ23X. Huang等人数据科学与管理5(2022)57表6262指示器。根据评价指标的评价标准,xk-1与xk之间的重要程度为Xn .YnRi!1/4wn-1(11)如Eq.(七)、k½2i¼kwk-1=wk¼Rk(7)可以得到Eq。(8)使用Eqs.(10)和(11),我们也可以得到方程。(9)使用Eq. (七)、1þX. Huang等人数据科学与管理5(2022)57表6363候选词的tf-idf。Number候选词加权1好0.05842相当不错0.05433买0.05014JD.com0.04335屏幕0.03486快速0.03377像0.03358感觉0.03319流利0.032510iPad0.0319表4候选词的词跨度。见图4。核心词的重心。表5候选词的语义相似度利用序贯关系分析方法,可以得到词频、词跨度和语义相似度三个参数的权重,分别为μ1、μ2、μ34. 说明性示例本研究主要针对搜索产品。 JD.com是中国具有代表性的电子商务平台之一,因此我们从京东获得产品评论数据。 在线评论提供了更有价值的产品信息(Tan和Xiao,2021)。消费者关注的产品特征从海量线上评论中识别,方便消费者选择产品这些产品特征也为产品的改进和未来的创新提供了指引,并推动推出更受欢迎和盈利的产品。的本文以iPad Air的在线评论为例进行了特征提取。数据预处理的具体过程如下:(1)我们从JD.com上抓取了5,000条iPad Air的评论,这些评论构成了一个测试集。与此同时,还抓取了3万多条关于类似产品的评论,包括手机和笔记本电脑,以形成一个训练集。爬取的评论示例如表2所示。图三. 评论的词云Number候选词加权1好0.99892感觉0.99733视频0.99574买0.99455EX ceed0.99306EX经验0.99267像0.99268相当不错0.99059值得0.987810快速0.9871Number候选词加权1苗条0.72612形象设计0.70843触发0.65184反应速率0.64735系统操作0.60366画质0.60317运行速度0.59998感觉0.59989性能0.574210声音0.5740X. Huang等人数据科学与管理5(2022)5764表6参数的重要性参数TF-IDF词跨度语义相似度查全率0.430.450.65重量0.280.290.43表7产品特征的综合权重值特征词权重(3) 根据第3节,清理数据集,并使用Jieba(标记化工具)加载产品特征字典。分别对测试集和训练集进行标记化、词性标注和停用词去除(4) 保留指定的词性词,过滤其他词性词。数据分析详述如下(1) 将数据预处理后的每条评论语句保存为列表,并通过Eq.计算候选产品特征词的tf-idf。(三)、计算结果见表3(仅1触发0.5524(注:前10名)。2感觉0.5357(2)测试集中的评论按照时间排序3性能0.5311序列,数据预处理后的单词用po-位置,并且每个候选词的词跨度由等式(1)计算(4)、详细结果见表4。7外观0.5127(3)测试集中的标准评论集标记如下8系统0.5125图 二、同时,核心词集的构建也是基于9效果0.5034根据词云的结果进行人工标注(崔1011苗条A120.50180.5013例如,2010年)。核心词集包括以下词:12A120.4969屏幕,速度,耐力,体验,物流,性能,13运行速度0.4943mance,处理器,感觉,外观,性价比,系统,14反应速率0.4932A12,包装和功能。图中显示了云这个词。 3.15轻浮0.4919Word2vec中的CBOW模型用于训练词集中的词18EX经验0.4880利用K均值聚类计算核心词的质心,19性能0.4845质心图如图2所示。 四、当量(5)用于计算20处理器0.4831候选词与质心之间的相似度,以及结果见表5。(2) 根据iPad Air及其同类产品的描述,通过参考搜狗网络情感词典,人工构建了包括网络情感词和产品特征词在内的共计1,500个词汇数据库通过以上计算,我们可以分别得到三个参数的召回率。 利用召回率确定三个参数的重要性顺序,通过序贯关系分析最终得到候选产品特征词的综合权重。图五. iPad Air的产品特征词(英文中非常相似的词不在此显示)。16做工0.489917流利0.48924速度0.52545薄0.52206iPad0.5208X. Huang等人数据科学与管理5(2022)5765¼¼ ×见图6。 不同提取方法的性能评价。5. 结果和讨论计算测试集的tf-idf、词跨度和语义相似度三个参数的重要关系见表6。三个参数的查全率分别为0.43、0.45和0.65,并可以得到三个参数之间的顺序关系即语义相似度>词span> tf-idf。三个参数的权重分别为0.28、0.29和0.43最后,通过线性加权得到产品特征词的重要性排名,如表7所示(本研究仅列出前20个特征词及其权重值)。这项研究提取了iPad Air在线评论中的前100个词。有68个候选词可以被定义为产品特征词,如图所示。 五、tf-idf、词跨度、语义相似度和PFEMF模型的性能使用经典的度量进行比较,例如精确率、召回率和F-度量,其计算如下:包括六个阶段:预处理、词性、TF-IDF频率词跨度、语义相似性和线性加权。预处理后,利用序贯关系分析对候选词的词频、词跨度和语义相似度进行线性融合。实验结果表明,PFEMF模型的特征提取效果优于传统的tf-idf算法、词跨度算法和语义相似度算法。然而,这项研究仍然存在一些局限性。本研究不涉及情感词与产品特征词的关系以及产品特征词的同义表达。情感词与产品特征词之间的关系是一个很有前途的竞合利益作者声明不存在利益冲突致谢本工作得到了国家哲学社会科学规划办公室的资助(批准号:20BGL044)和中央大学基础研究基金(批准号:N2106012)。引用Aravindan,S.,Ekbal,A.,2015.在线产品评论中的特征提取和意见挖掘。2014年IEEE信息技术国际会议。IEEE,第 94比99Bafna,K.,Toshniwal,D.,2013.基于特征的在线产品客户评论摘要。Procedia计算Sci. 22(1),142- 151。巴卡尔,新罕布什尔州,Kasirun,Z.M.,Salleh,N.,例如,2016.从网上提取特征软件评审以帮助需求重用。应用软计算49(12月),PrM NM(十二)公元1297- 1315年。Barkha,B.,Sangeet,S.,2018.使用词向量表示的在线消费者评论的情感分类。Procedia计算Sci. 132(6月)、 1147- 1153.Biswas,S.K.,Bordoloi,M.,Shreya,J.,2017年。一种基于图的关键词抽取模型(十三)F-测度2Pr×Re(14)Pr其中Pr、Re和F-measure分别表示查准率、查全率和F-measure。 M可以从人工标注的产品特征词中提取,N是人工标注的产品特征词的总数,Z是提取的产品特征词的总数。PFEMF模型的Pr、Re、F测度分别为0.428、0.680、0.525。 图6给出了PFEMF模型和其他三种方法的提取性能。如图所示。6、所提出的PFEMF模型在查全率、查准率和F-测度性能上优于其他三种方法。此外,还发现有监督的产品特征提取方法在产品特征提取方面优于无监督的方法。本研究提出的PFEMF模型作为一种半监督的产品特征提取方法,结合了粗粒度文本挖掘和细粒度文本挖掘,并包含了候选词和核心词之间的语义相关性该模型有效地综合了时间跨度、文本跨度和频率参数,提高了抽取效果。6. 结论产品特征提取和关键词提取是文本挖掘领域的两个重要分支基于现有的文献中的关键词提取和词性分布,产品特征被定义为名词语素,形容词语素,动词语素在本研究中。提出了一种基于PFEMF模型的产品特征识别方法,使用集体节点权重。EX pert系统Appl. 97(12月)、 51比59Carenini,G.,Ng,R.T.,Zwart,E.,2005. 从评价性文本中提取知识。第三届国际知识获取会议论文集。ACM,pp. 11比18陈志,新罕布什尔州卢里,2013.网络口碑影响中的时间邻近性和消极性偏差。J. Mar. Res.50(4),463- 476。陈玉,谢,J.,2008.网络消费者评论:口碑营销传播的新元素。经理。Sci. 54(3),477- 491。陈洪,蒋,R.H.L.,弗吉尼亚州斯托里2012年。 商业智能和分析:从大数据到大影响。MIS Q.36(4),1165- 1188。张智强,李,M.K.O.,Rabjohn,N.,2008年电子口碑的影响:在线消费者社区对在线意见的采纳。Internet Res. 18(3),229- 247.崔,W.,吴,Y.,Liu,S.,例如,2010.保留上下文的动态词云可视化。IEEE计算Graph.Appl. 30(6),42- 53.做,H. H。Prasad,P.,Maag,A.,例如,2019.深度学习用于基于方面的情感分析:比较综述。EX pert系统Appl. 118(3月)、 272- 299。范泽,Li,G.,杨湖,2020.基于在线评论的产品排名信息融合过程与方法综述。INF. Fusion 60(8月), 87比97Ghose,A.,Ipeirotis,P.G.,2007.设计新颖的评论排名系统:预测评论的有用性和影响。 第九届电子商务国际会议论文集。ACM,pp. 303- 310Ghose,A.,Ipeirotis,P.G.,2011.评估产品评论的有用性和经济影响:挖掘文本和评论者特征。IEEE Trans. Knowl. DataEng.23(10),1498- 1512。Guo,Y.,中国科学院,2007年综合评价理论、方法及应用。 科学出版社,北京。他,J.,郭志,Wang,K.,2018.基于TEXTRANK的网络评论产品特征提取方法青岛大学学报.31(1),109- 114。Heimerl,F.,Lohmann,S.,Lange,S.,例如,2014年。 词云浏览器:基于词云的文本分析 。 第 47 届 夏 威 夷 国 际 系 统 科 学 会 议 ( 47th Hawaii International Conference onSystem Sciences)IEEE,第 1833- 1842年。胡,M.,刘,B.,2004年a。挖掘和汇总客户评论。第10届ACM SIGKDD知识发现与数据挖掘国际会议ACM,pp. 168- 177。胡,M.,刘,B.,2004年b。在客户评论中挖掘意见特征。第19届国际人工智能会议论文集。AAAI,pp. 755- 760。Huang,A.,中国科学院,陈凯,Yen,D.,例如,2015.影响网上评论有用性的因素研究。Comput. Hum. 行为举止。48(7月), 十七比二十七郑,H,Shin,D.,崔,J.,2011. Ferom:Feature Extraction andRefinement forOpinionMining. ETRI J. 33(5),720- 730。X. Huang等人数据科学与管理5(2022)5766江,L. Wang,D.,中国科学院,2016年。 基于连续词袋模型的领域术语自动抽取。图书情报服务新技术2(9月), 9比15Jiang,G.,刘芳,刘伟,例如,2021.信息质量对社交媒体评论平台信息采纳的影响:感知风险的调节作用。数据科学经理。1(1),13- 22.Kor fiatis,N., GarcíA-Bari ocanal,E., S'anchez-Alonso,S.,2012年。评估内容质量在线产品评论的有用性:评论有用性与审查内容。电子通讯。Res. Appl.11(3),205-217。Kwark,Y.,陈杰,Raghunathan,S.,2014.在线产品评论:对零售商和竞争制造商的影响。INF. 系统Res. 25(1),93- 110。Li,Z.,2010.产品特征提取与组合方法。第三届智能信息技术与安全信息学国际研讨会。IEEE,第 686- 690。Li,S.,Li,F.,2019.网络评论与免费样品对消费者下载互动影响之实证分析。INF. 过程经理。 56(6),102071。李杰,Fan,Q.,张,K.,2007.基于tf/idf的中文新闻文档关键词抽取。武汉大学J. Nat. Sci.12(5),917- 921。Li,S.,叶,Q.,李,Y.,例如,2009.面向中文在线顾客评论的产品特征挖掘方法研究。J. 经理。Sci. China 12,142- 152.Likas,A.,Vlavis,M.,Verbeek,J.,2003年。全局K-means聚类算法 模式识别36(2),451- 461。Liu,T.,张,C.,吴,M.,2016.一种基于边界平均熵的在线产品特征提取算法。《系统工程理论与实践》,36(9),2416- 2423页。Liu,K.,Ergu,D.A.,蔡玉,例如,2019.一种新的未登录词处理方法金融舆论。Procedia计算Sci. 162(Dec.)、 523- 531妈妈,B.,颜志,字,2014年。基于LDA模型的在线评论产品特征提取Comput. 积分制造商系统 20(1),96- 103。McNaught,C.,Lam,P.,2010.使用Wordle作为辅助研究工具。质量。众议员15(3),630Metzger,M.J.,2014.网络可信度的理解:评估网络信息的模型和对未来研究的建议。J. Am.社会信息科学Technol. 58(13),2078- 2091。Mudambi,S.M.,Schuff,D.,2010.什么是有用的评论?对亚马逊网站上顾客评论的研究。MIS Q. 34(1),185- 200。Nelson,P.,1970.信息和消费者行为。 J. Polit. Econ. 78(2),311- 329.Nelson,P.,一九七四年广告作为信息。J. 有礼貌经济 82(4),729- 754。尼 尔 森 , 2013 年 。 下 一 篇 : 消 费 者 对 广 告 的 信 任 可 查 阅 : http ://www.nielsen.com/us/en/insights/news/2013/under-the-in-consumer-trust-in-consumer.html。公园,S.,Nicolau,J.L.,2015年。在线消费者评论的非对称效应Ann.第50号旅游业决议(1月), 67比83波佩斯库,上午,Etzioni,O.,2007年从评论中提取产品功能和意见自然语言处理和文本挖掘。Springer,London,pp. 9-28齐,J.,张志,Jeon,S.,例如,2016.从在线评论中挖掘顾客需求:产品改进的视角。INF. 经理。 53(8),95
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功