没有合适的资源?快使用搜索试试~ 我知道了~
沙特国王大学学报通过用户生成内容提取产品竞争力:一种混合概率推理模型李明芳a,张国祥a,赵路涛a,b,c,刘伟,宋涛a,da中国北京科技大学数学与物理学院b北京理工大学能源与环境政策研究中心,中国北京c北京理工大学管理与经济学院,中国北京d中国北京第一鹏泰有限公司阿提奇莱因福奥文章历史记录:2021年12月12日收到2022年3月7日修订2022年3月16日接受2022年3月30日在线提供保留字:文本挖掘贝叶斯网络社交媒体情感分析用户生成内容A B S T R A C T提出了一种BERT-MDLP-贝叶斯网络模型(BMB)来分析基于用户生成内容(UGC)的电子商务产品改进策略。该模型分为四个部分:清除获取的UGC上的冗余数据,提取产品属性和词向量生成产品属性,建立对应于UGC的产品属性贝叶斯网络,推断产品属性之间的因果关系。为了验证所提模型的有效性,以一款亚马逊平板电脑产品为例进行了实证分析。与传统模型相比,BMB模型在特征多样性、特征长尾和属性差异性三个方面具有更好的产品特征挖掘性能。在实际应用中,该模型能够有效地描述产品的核心问题,为电子商务企业修改营销策略、确定新的产品开发方向提供建议。©2022作者(S)。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。1. 介绍随着互联网的迅速发展,越来越多的用户选择在网上进行日常活动,其中购物行为十分普遍。由于网络购物的方便、快捷和安全,人们的注意力正逐渐从线下转移到线上,推动亚马逊、淘宝、京东等代理销售平台。这些平台使用用户生成内容(UGC)策略来创新消费者购物模式。随着越来越多的客户和消费者的购买,越来越多的来自大数据的产品消费者评价已被用于创建潜在的知识系统。消费者通常会选择在购买产品前浏览产品评价信息,然后根据产品知识体系判断自己是否购买产品*通讯作者:北京理工大学管理与经济学院,中国北京。电子邮件地址:ltzhao@ustb.edu.cn(L.- T. Zhao).沙特国王大学负责同行审查因此,消费者评估数据变得越来越重要(Benkhelifa和Laallam,2020;Vyas等人,2020; Bae等人,2005年)。消费者评估数据的现有在线信息分析系统仍然包含必须探索的信息(Ali等人,2020年)。随着UGC在电子商务平台的应用,消费者的评价是有价值的(Hassanpour和Zahmatkesh,2012)。在电子商务环境下挖掘UGC的方式已经改变为使用现有大数据的消费者评估。然而,在大数据时代,文本数据挖掘存在大量冗余数据和语义表达不清晰的问题,特别是当标注中包含多个否定时,会对标注分类产生重大影响。因此,产品的特性会影响结果,特别是当负面类别被误判为正面时:如果负面影响无法纠正,则会在语义分析期间产生许多问题(McColl-Kennedy等人,2011; Orthaber,2019; Pournarakis等人,2017年)。Aguwa et al.(2012)通过构建CSR指标描述了客户满意度,发现如果产品公司忽视消费者评论中的负面评论,不加以控制,公司的声誉将受到严重影响。消极的消费者评论影响了客户期望和互动之间的关系,并威胁到在线品牌社区(Lee等人, 2014年)。 Assaf等人2015年:酒店研究https://doi.org/10.1016/j.jksuci.2022.03.0181319-1578/©2022作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章(http://creativecommons.org/licenses/by-nc-nd/4.0/)。制作和主办:Elsevier可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页:www.sciencedirect.com李明芳,张国祥,赵路涛,等。沙特国王大学学报2721评估发现,客户满意度和投诉是重要的客户资产变量,直接影响酒店的业绩。消费者因此,如何有效地从消费者的声音中提取产品的缺点并加以改进,是值得研究的问题另一方面,在准确识别出文本的消费者定位后,如何从消费者对产品的评论中提出产品的优势和劣势,从而生成产品的竞争力,则是一个问题。Liu et al.(2021)通过综合和多维度的在线评论消除了单一来源评论的偏见Bi等(2019)通过战略分析获得产品竞争力。然而,在分析产品竞争力的过程中,产品属性是影响消费者满意度的基本要素哪些属性对消费者满意度影响最大是企业提高产品竞争力的重要依据。然而,许多研究都忽略了产品属性信息。为了解决UGC信息挖掘中的这些局限性,并从消费者评论数据中构建知识系统,提出了一种基于贝叶斯网络推理的BERT-MDLP-贝叶斯网络(BMB)。该框架使用带有未知产品标签的消费者评论数据,从语义角度挖掘产品改进建议,以便商家及时调整销售策略和产品功能。首先,利用BERT模型对评测数据进行分类,去除评测中的异常数据,解决评测语义混乱的问题,并提取关键属性的产品。然后,我们通过提取的关键属性构建贝叶斯网络。利用贝叶斯网络的边际推理检验和后验概率推理分析产品特性,获取产品属性的核心优势和劣势,生成关键词网络,利用大数据概念挖掘评论数据中的少数关键信息,识别出急需改进和保持良好态势的潜在产品属性。及时的改变可以改变用户对电子商务品牌的不良印象,并恢复潜在的产品离开用户。最后,与传统模型(Seo等人,2020),从关键词网络的特征多样性、特征长尾和属性差异性等方面证明了该模型的优势。本文的结构如下:在第二,现有的对国内外关于UGC的文献研究进行了回顾和总结,从用户和商家的角度分析了UGC的应用优缺点和方法,并介绍了本文的研究工作。第三部分给出了本文的研究框架,并系统地介绍了所提出的方法,以证明所提出的方法的有效性。第四部分应用亚马逊平板电脑消费者评论数据集给出了实证结果,并与其他方法进行了对比分析,说明了其优势。第五部分总结了本文的工作,分析了模型的优点和局限性,并对未来的研究方向进行了展望。2. 文献综述2.1. 基于用户视角的分析UGC信息挖掘基于大量消费者评论数据进行潜在语义分析(Seo etal.,2020; Sezgen等人,2019; Maddulapalli等人, 2012年)。因为-消费者表达了他们的愿望,UGC信息挖掘可以从消费者的角度来执行(Mrsement和Poel,2008; Takeuchi等人,2009; Sparks等人,2016年)。企业可以从用户的角度出发,根据对前一款手机的评论信息,确定手机改进的方向和内容(Zhangetal., 2018年)。 Riaz等人(2019)量化情感信息,通过用户的主观表达,清晰洞察用户的偏好和行为。通过优化保修成本和消费者满意度之间的权衡,重视高层反馈,降低保修成本,达到客户和企业双赢的目标(Aguwa et al. 2017年)。在汽车行业,监督学习用于识别具有用户创建内容的竞争对手,特定领域的情感分析用于量化客户态度(Liu等人, 2019年)。2.2. 基于商家角度的分析UGC信息挖掘的核心点是试图识别什么增加了消费者满意度(Tianet al.,2020;Birch-Jensen等人,2020; Deng等人, 2019年)。从企业的角度来看Xu等人(2011)从客户评论中提取并可视化了产品之间的比较关系,并考虑了关系之间的相互依赖性,以帮助公司发现潜在的风险。 Carulli等人(2013)通过实时整合和收集产品配置偏好数据提取文本特征,供商家参考。 Aguwa等人(2012)提出了一种解释和分析客户声音的另类方法,将文本和定性数据转换为通用的定量格式,用于开发企业社会责任地图。2.3. 产品竞争提取产品竞争力的主要工作,无论是从用户的角度还是从商家的角度,都是先对文本进行结构化,然后利用结构化向量,通过优化算法 找 到 问 题 的 最 优 解 。 在 文 本 结 构 问 题 中 , Ramaswamy 和DeClerck(2018)提出了NLP技术的建议,以探索如何理解客户感知,这表明未来的工作必须建立一个完整的相关文本语料库,并应用深度学习CNN和RNN模型。在将基于语言的非结构化数据转换为结构化数据的算法中,语言模型最早出现。后来,Word 2-vec(Chuan等 人 , 2020 ) 、 Transformer ( Lee 和 Hsiang , 2020 ) 、 ELMO( Koutsomitropoulos 和 Andriopoulos , 2021 ) 、 OpenAI-GPT(Chang等人,2021)等预训练模型,但只能进行单向语义分析,应用范围有限。表1显示了预培训模型的优点、缺点和为了对消费者评论进行语义抽取和分析,并对具有双向语义的句子进行 优化算法已 广 泛 用 于 各 种 领 域 ( Abualigah 等 人 , #20201; 求 最 优 解 。Abualigah等人(2021 b)根据自然界中捕获猎物过程中的行为提出了Aquila Optimizer方法Abualigah等人(2022)提出了爬行动物搜索算法,使其在优化过程中难以陷入局部解,但难以学习贝叶斯网络的结构。2.4. 本研究以往的研究从用户和商家的角度对UGC信息挖掘进行了研究。因此,建议李明芳,张国祥,赵路涛,等。沙特国王大学学报2722ð···Þð···Þ表1预培训模式概述。类型模型参考文献灵感来自优势缺点N-gram向量空间N-gram独热Zhu等人(2021年)Pham & Le(2018)快速推拉窗将文本表示扩展到原理简单,操作方便容易理解语义鸿沟与数据稀疏高维TF-IDF03 The Dog(1972)欧氏空间计算单词无监督学习严重依赖信息增益Shen等人(2022年)计算信息熵丰富的理论分词低频和差异稀疏数据TextrankX平方分布Textrank03 The Dog(2003)Zhang等人(2018年)度量相关建立图模型丰富的理论没有深厚的语言学复杂的公式提取速度慢语义分析LSAFilieri等人(2021年)应用低维项快速高效忽略语法BayesBayes别墅和沃克(2022)应用有向无环图低复杂度信息缺乏身体意义神经语言马尔可夫CRFNNLMZhao et al.(2022)Zhao etal. (2022年)Trappey等人,2020与当前状态相关的无向图学习模型构建简单的三层网络预测系统概率广泛的使用场景紧向量客观预测不匹配计算复杂度高存在多义单词嵌入LBLMC WMnih和Hinton(2007)科洛伯特和韦斯顿提出层次观念生成词向量高精度和简单的模型低计算性能下降仅本地上下文Word2vec(二零零八年)Aghzal和Ehhir(2021)表示同现特征复杂性更快、更灵活静态优化工作fastText手套崔和李(2020)Sakketou和Ampazis通过Hash进行基于全球词频支持多种语言更快的训练更大的字典和参数大内存Elmo(2020年)Peters等人(2018年)统计用于训练的的问题消费功能弱多义提取器GPT伯特李和香(2020)Guven和Unalir(2022)单向Transformer堆栈双向多层膜强大的特征提取能力强特征提取字符丢失更多培训技术一种Transformer结构能力所提出的建议往往包含空洞和广泛的问题,而不是集中在商家如何改进产品的根本问题上。Abd et al.(2020)通过引入社交网络研究了用户兴趣偏差。Deng等人(2019)构建了RDF三元组来描述知识网络结构中产品的特征。当商家设计电子产品时,通常包括其用户群体价值的产品属性。由于屏幕质量和用户的阅读体验受到制约,游戏速度和产品价格也是有联系的,用户的购买力和产品价格之间也存在因果关系。因此,产品属性之间的因果关系可以决定消费者本研究与其他研究不同,分析了商家和用户。采用能较好表达词向量的BERT模型提取产品属性。利用Mi-Climbing方法对贝叶斯网络的网络结构进行优化,可以推断产品属性之间的因果关系,找到产品竞争力的核心概念。3. 方法提出了BERT-MDLP-Bayesian(BMB)集成框架用于消费者评价分析(图1)。首先,对采集的原始评测数据进行分词和去除停用词的预处理;其次,建立L-BERT模型对消费者评论进行情感分析,提取评价关注的主要产品属性;再次,利用M-BN模型对产品属性进行重构,建立贝叶斯网络。最后是关键词提取算法分析了产品竞争战略。参见附录A中的所有变量名称3.1. L-BERT模型本文将LOF方法与BERT方法相结合,称之首先,双向编码器表示从变压器(BERT)模型被应用于进行发送,情感倾向判断的评价模型分析研究e1;e m其中m是sam的数量。请。基于情感分析得到BERT模型的参数和网络结构,从评论中生成句子向量和词向量。其次,提出了局部离群因子算法(LOF)模型方法,根据评估数据的标签识别异常数据,获取修改后的评估数据的文本内容。最后,采用词频-逆文档频率(TF-IDF)模型提取产品属性x1;X t其中t是亲的数量,管道属性从评估数据,以获得主要产品,风管属性进行评估。BERT、LOF和TF-IDF模型的介绍见第3.1.1节至第3.1.3节。3.1.1. 类别标签的抽取与结构化向量本文采用BERT模型提取类别标签和结构向量。BERT模型(Arase和Tsujii,2021)是最近提出的,在各种自然语言处理任务中表现良好,并有效地将非结构化文本转换为结构化向量。现有的预训练模型是基于训练期间的大量数据迁移学习应用李明芳,张国祥,赵路涛,等。沙特国王大学学报2723ð···Þð···Þð···Þ ð Þ···ð···Þ ð···Þð···ÞPknk; j1。 c j2m:t i2c j.ð···ÞFig. 1. BMB模型框架。基于评估数据集C1;Cm,并使用预训练模型微调情感分析,以获得类别标签E1;EM和适用的情感数据集的模型参数。BERT模型基于Transformer模型,通过引入编码集成、NSP问题和随机掩码进行训练,使其具有长时间学习和双向信息特性。此外,该模型可以可用于扩展多个NLP任务。提出了基于BERT模型的训练情感分析,以微调预训练模型。通过训练确定模型参数后,应用构建评估数据,c1;C m 成矢量s1;的作案对于句子向量,基于位置的池化方法信息用于提取更多的特征信息,同时加速矢量提取。对于词向量,通过平均获得因此,提取准确的词向量和句子向量是成功的,由于高他们可以选择最合适的样本。 因此,在本研究中将k设置为4,以研究附近四个点的离散关系。该算法不要求消费者评论集转换后的结构化向量的分布符合一定的概率函数,并从评价集向量之间的离散度角度识别异常点,具有一定的鲁棒性。3.1.3. 关键词提取TF-IDF算法(Erkan和Radev,2004)提取产品属性x1;X t 从评论c1;cm,这使得它可以准确地过滤掉重要但不常用的单词,删除介词、冠词和其他无用的单词。TF-IDF算法在压缩密钥信息从消费者评论数据集中,并且可以从评论中过滤对企业有价值的信息。TF-IDF算法的公式如下:BERT情感分析任务的准确性。3.1.2.审查数据TF-以色列国防军(IDF ),jmjð1Þ局部离群因子算法(LOF)(Asniar等人,2021)识别审查数据C1;CM中不满足该数据集中的特征的异常数据。LOF是一种无监督学习算法,它比较数据之间的距离。对于任何评论,如果总体评价趋于正面,但有一些过渡性的词,比如“however”,“but”,“okay”,也会有一些负面的评论。如果将这部分评论包含在贝叶斯网络模型中,则会出现偏差。为减少异常注释对结果的影响,应用LOF的相容性描述数据离散的特征,并使用标点符号作为单个注释的分隔符,选择异常数据前10%作为必须剔除的异常注释。唯一的LOF超参数是局部邻居的数量k,并且其最佳值难以确定,因为离群值的分散不能被准确地量化(Ma等人,2016年)。因此,我们根据领域专家的知识边界,通过经验确定它。在具有不同k的一些样本中提取正面和负面评论 价值观,并向专业人士展示,其中ni;j是单词ti在注释cj中出现的次数,并且m是评论总数。3.2. M-BN模型首先,构造BERT模型的向量相似度,对产品属性x1;xt的特征进行过滤,得到产品属性的连续值特征;最小描述长度原则(MDLP)方法(Fayyad和Irani,1993),用于重构产品属性特征,以描述评价的总 体情感状 态。第三 ,互信息 攀爬搜索 方法(MI-Climbing)(Chen et al. , 2021年,成立-分析了产品fea的条件独立性,tures并生成贝叶斯网络G(Wang等人,2022年)。通过构建贝叶斯网络描述产品属性之间的因果关系,得到描述评论倾向的关键属性。最后,贝叶斯网络后验概率推理允许最关键李明芳,张国祥,赵路涛,等。沙特国王大学学报2724ðÞ ¼. B.BPbð Þ吉吉联系我们ð·· ·Þ潜在的属性特征的负面和积极的评论倾向被挖掘,生产产品的最需要改进的营销策略和产品的优势。3.2.1. 构建产品属性特征根据TF-IDF算法提取的关键词属性,对评论数据中的产品属性进行特征提取。定义了产品属性特征和评审相关性。产品属性特征(相关性)描述了评论中的属性与描述的相关性,评论的相关性显示了评论中产品属性描述的整体相关性。产品属性特征是将第k个元素按标点符号划分为Nk个片段,生成句子向量fi;k 作为产品属性x i特征和fa k 基于BERT模型作为产品评论。 f i;k的范围 而fk是[0.1],其中0表示不存在相关性,1表示最强相关性:其次,采用基于互信息统计量的假设检验方法,检测同一父节点Z属性的X、Y该方法通过测量网络结构与观测数据之间的KL距离来评价网络结构的质量。当两者之间的距离最小时,网络结构与观测数据之间的相似性最大。应用信息论的原理来降低计算复杂度。我们假设IX;Y0,并使用z检验(95%双侧检验)。为了使销售者更清楚地了解产品属性之间的因果关系,发现消费者对产品的关注点,建立贝叶斯网络来表达产品属性之间的因果关系。贝叶斯网络的原理是贝叶斯概率,由于产品属性之间存在一定的因果关系,因此可以通过构造贝叶斯网络来描述属性之间的关系,有利于结果的描述。 在构建贝叶斯网络时,Ji et al.fi;kMaxz2Njjwi·skzjjwi j ·jskzjð2Þ(2013)设计了一种人工蚁群算法来搜索和构建网络结构,以加快网络结构其中wi是第i个关键词的词向量,skz是第k个句子的第z个段落的句子向量,Nj是数字生成,因为贝叶斯网络的结构是NP的困难问题。第j个句子的句子段落,f在第i个关键字下的第j个i;z 就是然而,模型构建的速度并没有提高因此,为了加快贝叶斯网络生成的速度在fa. wbi·sz.第一阶段,由MI条件独立得到的结果3zwwi·jszj其中wi表示关键字的术语向量的总和,并且其中t是产品属性的数量,sz是z-证据算法作为第二阶段的先验知识在第二阶段,应用基于最大信息熵的爬山算法确定属性间的因果关系,生成贝叶斯第i个句子向量,并且faz是与总和关键字的第i个句子相似度。3.2.2. 特征重构为了构建贝叶斯网络,我们使用信息熵离散化(MDLP)(Tsai和Chen,2019)通过分箱离散化产品特征,这是一种监督学习方法。根据评论的购买意愿,产品属性特征fi;z和评论相关度faz为除以信息熵:最小值ET;SminXjSijEntSi4网络在计算过程中不需要预先确定节点的顺序,从而扩展了评分函数的应用范围。搜索操作符有三种搜索策略:添加边、减去边和翻转边。从初始网络结构出发,通过三个搜索算子改变当前网络结构,得到一系列候选网络结构,然后计算每个候选网络结构的得分。具有最大得分的结构被选择为最优候选结构。 如果最优候选结构的得分大于当前网络结构的得分,则最优候选结构TgTgi2NsjSj被认为是当前的网络结构,继续;否则,搜索停止,当前网-其中S表示fi、z和faz的特征值的集合;Tg是划分特征值的方法;Ns是划分集合的数目并且EntSi是集合Si的信息熵。然后,我们进行迭代,直到信息增益保持恒定。对于每个产品属性,根据产品属性的数据特征和分布情况生成不同数量的类别,用于后续生成贝叶斯网络。3.2.3. 构建贝叶斯网络为了从贝叶斯网络中去除冗余信息,MI互信息分布(Zhong等人,2021)用于判断独立性的每个属性x1;···x t。第一、的条件是建立默认情况下:CovI X;Y Zi;I X;Y ZJ0;因此,假设关系,父节点的Z属性下的X和Y属性之间的关系不会随着Z属性的更改而更改工 作 结 构 返 回 。 评 分 函 数 是 BDe crite- rion ( Behjati 和 Beigy ,2020)。与K2评分函数(Behjati和Beigy,2020)相比,该标准具有更大的应用空间。在构建贝叶斯网络时,根据TF-IDF得到的属性重要度x1;xt,依次将属性加入贝叶斯网络。贝叶斯网络构建完成后,对其进行训练和预测,选择由具有最高的F1-得分,并且该模型被用作产品的最优贝叶斯网络:如果两个网络的F1-得分相同,则选择具有最少特征的贝叶斯网络;如果许多网络的F1得分总是等于给定值,则选择具有最多特征的网络来描述特征之间的因果关系。所提出的方法的具体实现在算法1中示出。¼李明芳,张国祥,赵路涛,等。沙特国王大学学报2725←我--ð Þ← ð Þ ðÞ← ðÞð···Þð···Þð···Þ¼¼¼算法1贝叶斯网络结构确定输入:培训数据D、测试数据T、产品属性xi i¼1···t在正负两类中选择绝对值最大的产品属性特征作为产品一杯。xi jj ma x. . p.xi j-p-.xij. ;p。xi jn>p-。xij=0;j<$0;· ··;Ni-1:输出:最优贝叶斯网络结构G1) 初始化变量F1-分数0¼0我我我ð7Þ2) 第1页A-.X马X。.p.X轴p. x100。p.X轴p. xj0N13)选择按特征重要性排序的前m个产品属性的数据作为Di和Ti4)从Di中识别节点集Vi并初始化贝叶斯ijj. 吉吉IJ --我i j. ;IJ-<-我IJ;¼;···;i-:ð8Þ网络Gi5)结构参数6)oldScore f Gi;HG;Di;f Gi;HG;Di表示BDe评分函数7)用于增加、减少和转动边缘到新的G0,8)tempScore f Gi;HG;Di9)将tempScore与oldScore进行比较,以选择具有最高得分Gωi的网络10)端11)贝叶斯网络Gωi 根据特征的数量和相应的值生成12)该模型通过EasyEntrance算法进行训练和预测,得到F1得分,13)将F1得分i与F1得分0进行比较,得到得分最高的网络结构G和对应的属性x1;xn14) 端3.2.4. 产品属性问题提取在构造了乘积贝叶斯网络后,我们对贝叶斯网络进行了边际推理和反向推理通过边缘推理(算法1中的模型训练过程的的评价数据与n产品属性<$x1;···;xn<$根据贝叶斯网络的因果关系,可以描述网络P<$x1;···;xn<$通过:Px1;···;xn Pxnjx1;···;xn-1···Px2jx1Px15贝叶斯网络的后验概率推理使用基于贝叶斯概率理论的概率计算来计算后验概率分布。利用贝叶斯网络中产品属性x1,;xn之间的条件独立关系,表达了一个联合概率分布,并给出了一个实例。以图表和概率表的形式表示。在完成消元计算后,定义了xi的边际概率分布或某些变量的概率分布。然后,假设所有变量的集合是X,证据变量的集合是Ee k,查询变量的集合是因此,推理过程的公式可以表示为:Pxi <$j;ek<$e其中,A-代表产品最大优势的属性特征3.3. 产品竞争战略关键词网络决定的产品属性才是真正影响用户购买倾向的潜在因素本节提取了与以下内容最相关的评论的关键字:产品属性x1;xn通过最相关的评论,描述的产品的优势和弱点由最关心产品属性的人来表达,并发现产品属性的特征,从而商家可以准确地定位其产品中的重要产品属性。4. 实证分析4.1. 数据描述和预处理本研究中使用的实验数据是GitHub上的公共数据集,该数据集是对训练数据和亚马逊平板电脑产品“Fire7”的消费者评论的集合,用于经过数据清理和重复项目筛选后,数据集的描述如表2所示。结果发现,在这个数据集中,每个产品的正面评论远远多于负面评论,显示了负面评论的重要性。我们应该对正面评论进行大数据挖掘,并重点关注负面评论。将文本从小写英文字母转换为小写英文字母,并执行删除常用停用词的操作以清理数据。4.2. 产品属性提取4.2.1. 基于BERT在对文本数据进行预处理和清洗后,使用BERT模型对评论进行情感分析。几种现有的基线算法和现有库的注释,诸如Textblob(Li等人,2019),用于比较本节中的不同模型。本研究中使用的基线算法是基于Doc2vec的机器学习算法(Budiarto等人,2021),其被转换为用于标签预测的词向量。本研究中研究的机器学习算法是支持向量分类( SVC ) ( Liu et al. , 2022 ) 、 决 策 树 ( DT ) ( An 和 Zhou ,2022)、 朴素 贝叶 斯( NB )( Vu, 2022 )、 逻辑 回归 (LR )(Jyothi和Babu,2022)和人工神经网络。pxi je k ePeke6人工神经网络(ANN)(Jain等人,2022年)。图2显示了Fire7产生的文本分类结果。图2显示了三个其中ek是证据变量,e0; 1。通过G的后验推理,当复习倾向作为先验知识时,1当趋势为正时,且e0当趋势为负时,影响产品评价的潜在产品属性xi的概率分布可以被获得通过式(6)、哪里pin。xi j;p-i. 其中,xi j=;j^0;· ··;N si-1,并且N si是x i的色散。然后表2产品数据统计。名称位置否定总训练数据25,545158127,126测试数据1010281038李明芳,张国祥,赵路涛,等。沙特国王大学学报2726¼¼图二.文本分类结果的比较。BERT模型的各项指标最高,0.98. SVC、LR、NB、DT和ANN算法的准确率当使用Textblob库进行预测时,对消费者来说很重要,而作为应用的消费者的游戏和阅读体验是其核心属性。提取的属性召回率达到64.28%,准确率达到100%。其计算公式如下:由于基线模型的原因,三个指标的评价效果均低于BERT模型的评价效果。对其他算法也进行了分析。综上所述,BERT模型表现更好召回nTPn官员9×100<$14× 100< $64: 28%±9%BERT模型训练产生的权值可以可靠地用于确定文本向量。精密度nTPnBMB9×100<$9× 100< $100%±10 μ m4.2.2. 异常评论通过基于LOF模型对每个评论进行筛选,识别并消除分类为好评论的差评论和分类为差评论的好评论。Fire7的一个积极评价的例子是:我已经考虑了一段时间的“智能家居”现象。尽管我总体上喜欢科技,但这个特殊的方面似乎对我个人没有太大的吸引力。我的印象是它然后一些朋友得到了回声随着色调照明系统和巢恒温器。当我看到这一切是多么的融合,多么的酷,我很感兴趣。这足以让我冒险一试。从这个例子中,LOF模型将文本“我的印象是它还没有完全到达”归类通过这种过滤操作,我们可以消除不符合类别语义的句子,以提高模型的整体准确性。此外,为了在统计检验方面显示异常点和规则点之间的差异,每个分割段的句子向量与其中,nTP表示通过所建立的BMB模型提取的正确产品属性的数量。nofficial表示产品官方网站上标注的属性数量。nBMB表示通过所建立的BMB模型提取的产品属性的数量。结果表明,该方法有效地实现了属性筛选功能,提取的特征均有效,便于后续产品竞争力的提取。4.3. 贝叶斯网络4.3.1. 产品属性在通过特征构造算法确定产品属性的描述变量fi、k和faz执行基于特征值的MDLP方法以生成每个产品类别的编号,如图3所示。The ‘Kindle’表3产品属性。应用四个最接近的点。最后比较了异常点和离散度的平均值,归因官方标注的属性网站BMB认可的属性常规点,以及通过非重复方差分析(Martin and Böckenhoff,2006)组内和组间均为0.001,说明异常点和正常点的注释数据离散度有显著差异。4.2.3.关键字提取本节使用TF-IDF算法提取关键词,重点是去除无关词,如Fire7的功能属性是最功能平板电脑品牌Kindle Kindle火火亚马逊亚马逊应用书籍,阅读书籍,阅读游戏游戏应用程序视频音乐屏幕电池用户类型She呵呵价格价格价格李明芳,张国祥,赵路涛,等。沙特国王大学学报2727ð···Þð···Þ.Σ2.- 是的 Σ.- 是的Σ图三.属性类别的总数。这表明在这些属性中可以挖掘更多的信息。“书”、“游戏”、“他”的离散数4.3.2. 贝叶斯网络的结构在完成产品属性确定和特征重构后,本节测试了贝叶斯网络的正确性和有效性。基于贝叶斯网络生成的属性x1;xt,根据算法1计算模型中的属性数量,确定的因果关系之间的属性x1;x n来决定情感标签。五个基线模型-梯度下降(SGD )( Li 等人, 2022),naive Bayes用贝叶斯网络(BN)作为三个评价指标,用同样的方法对神经网络(ANN)和在产品维度中,选取最佳的F1-score准确率、召回率、F1-score和每个模型中的特征数构建表4。表4表明,贝叶斯网络性能与每一个产品产生优秀的结果.F1值为0.623,分别高于其他常规算法,说明所构造的贝叶斯网络是合理的。结果表明,SGD算法的运行时间最短,ANN算法的运行时间最长,BN算法的运行时间居中。在时间复杂度和空间复杂度方面,SGD的时间复杂度最低,DT的时间复杂度最高,LR的空间复杂度最低,ANN的空间复杂度最高,BN的复杂度最高。贝叶斯网络采用互信息爬山贝叶斯网络如图4所示。从贝叶斯网络中,我们可以确定每个产品类型的因果关系。评论主要包括用户对价格和品牌的感受。评论和品牌影响力决定价格。应用程序功能的情感购买倾向由阅读功能和商品价格共同决定,表明Fire7生产商应保持高质量的阅读体验和价格优势。表4最佳模型文本分类结果。模型查准率查全率F1-score Number运行时间(ms)时间复杂度空间复杂度SGD 0. 329 0. 700 0. 448 10 2. 697O1On上海市浦东新区浦东大道1000号LR0.498 0.575 0.531 8 2.499 OONB 0.511 0.662 0.545 4 2.502O第二代 O第二代DT 0.504 0.575 0.534 6 2.497O最大深度人工神经网络0.396 0.812 0.5273 7 10.392O nd2O nd2BN 0.551 0.795 0.623 4 3.524O n2nO n2注:n定义为训练样本的数量d被定义为数据维度。k是支持向量的个数最大深度被定义为树的最大深度c是类别数见图4。 Fire7的贝叶斯网络李明芳,张国祥,赵路涛,等。沙特国王大学学报2728联系我们图五. 每个产品绝对值的后验概率的推断表5产品的优点和缺点归因-标签值类型功能-0 0.118位置品牌-5- 0.116否定应用程序-1-0.116否定注:4.3.3. 贝叶斯网络分析与改进建议网络生成在构建贝叶斯网络后,进行贝叶斯网络推理,计算每个产品的后验概率,如P Brand 0标签 0百分之二十四(即,当用户在负面评价之后评论产品时,“品牌”属性计算该评论在“0”类别中的24%概率)每个产品的最大后验概率与推断的潜在概率之间的差异如图5所示。产品中属性的离散特征总数如图所示。3.第三章。为了向商家提供关于如何改进产品和产品的优点的建议,选择具有最大正属性和最大负属性的两个属性,作为检索条件的各产品的后验概率与得到的属性特征的差值如表5所示。产品功能和阅读功能特性的改进幅度较大,说明产品属性在消费者中存在争议,产品商家应鼓励消费者多了解该产品。 0个特征的价格属性甚至会导致评论成为正面的类别标签,2个特征更容易导致评论倾向于负面的类别标签,表明产品的价格会导致评价为负面。对于Fire7,应进行一定的宣传活动,以提高消费者对阅读体验评价的热情。其根本属性是竞争优势。4.4. 获得产品竞争力贝叶斯网络生成后,获取影响购买倾向的Fire7产品属性,从产品属性中提取最相关的特征,并对相应文本进行关键词提取,生成关键词网络。关键词网络的目的是根据消费者的评价,告知产品图 6显示关键词网络结果,便于决策者发现存在的问题。 图 6.a是提案模型的结果,图6是提案模型的结果。 6.b是比较模型(CO)(Seo图六、正反向倾向关键词网络注:带“_pos”的词为正面评价关键词,带“_neg”的正面评价关键词和负面评价关键词与属性特征相关联红线连接积极关键词,绿线连接消极关键词。连接越深,属性和关键字之间的关系就越紧密。李明芳,张国祥,赵路涛,等。沙特国王大学学报2729KMωNP表6BMB模型和共现模型的指标基于亚马逊的平板电脑消费者评价数据,通过用户对平板电脑的评论来提取产品竞争力。首先,使用BERT模型对购买倾向进行训练和预测,准确率和召回率均在0.98以上因此,在确定评价的购买倾向之后,该模型在提取词向量方面表现良好,LOF模型用于识别分类为差评的好评,反之亦然,其中异常数据和有效数据的离散度满足假设检验,p值小于0.001。第二、差异阴性特征从消费者对产品的评论中提取关键词注意:正特征和负特征的平均最短路径比定义为1PmPndvm;vn,其中M是正面特征的数量,N是负面特征的数量v是特征,dv到v. 平均是从v出发的最短路径v产品属性之间的因果关系,并构建贝叶斯网络来描述产品属性之间的因果关系,购买意向。购买意愿预测的F1得分特征,im;n属性系数定义为1kl k,其中K是属性的数量,l k是与k连接的特征的数量。属性数是关键字网络中的属性数。属性的范围被定义为lmaxk-lmink,其中lmaxk是lk的最大值,lmink是lk的最小值。例如,2020年)。总的来说,本文提出的BMB模型的优点在于,可以直观地发现app在产品中的劣势集中在价格属性上,而优势却不能集中在某一个属性上。例如,从图6.a中可以直观地看出,产品的应用使用体验差(apps_neg)与其价格密切相关。因此,我们可以通过调整产品价格来提升用户当涉及到应用程序和品牌的整体属性时,很表6定量比较了两种模型在评价指标上的表现,从多样性特征、长尾特征和属性差异三个方面选取了七个二级指标,显示了BMB模型进行综合评价的优势.在二级指标中,只有平均最短路径的负特征比负特征小,即模型的负特征平均最短路径比例较小,性能较好.其余6个二级指标均为正指标,数值越大,模型性能越好。在特征多样性方面,正属性为4,负属性为1.25的BMB模型的平均系数大于对比模型,说明该模型能挖掘出更多的产品特征。在长尾性特征方面,BMB模型的负属性范围为3,大于对比模型的值0。BMB模型具有更好的区分性质差异程度的特点。负面特征的平均最短路径比为2.5,小于对比模型的4,表明BMB模型具有更大程度的属性差异。与传统模型相比,本文提出的BMB模型在产品特征多样性长尾度和属性差异度方面都有了改进。5. 结论为了提高电力产品的竞争力,本文提出了一个面向用户生成内容(UGC)的BMB集成框架,即数据挖掘基于贝叶斯网络的最大似然比为0.623。通过贝叶斯网络基于边际推理的概率分布和后验概率分布的购买倾向,该模型可以对产品属性的竞争力提供解释。最后,与传统模型相比,该模型在特征多样性、特征长尾和属性差异性三个方面对产品特征挖掘有更好的表现,为商家改进产品提供了建议和方向对于商家来说,该产品有以下营销策略和产品发展方向。Fire7的产品属性对消费者
下载后可阅读完整内容,剩余1页未读,立即下载
cpongm
- 粉丝: 4
- 资源: 2万+
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- RTL8188FU-Linux-v5.7.4.2-36687.20200602.tar(20765).gz
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功