虚假评论检测方法研究进展

53 浏览量更新于2024-01-16 收藏 1.99MB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

制作和主办：Elsevier沙特国王大学学报虚假评论检测方法研究进展Arvind Mewada，Rupesh Kumar DewangMotilal Nehru National Institute of Technology Allahabad，Prayagraj 211004，India阿提奇莱因福奥文章历史记录：收到2021年2021年7月10日修订2021年7月29日接受2021年8月5日在线发布保留字：垃圾邮件评论虚假评论检测Spammer功能查看垃圾邮件检测方法比较审查功能A B S T R A C T如今，虚假评论很受欢迎，其中产品评论员在电子商务和餐厅门户网站上没有体验或购买产品的情况下撰写评论。目前，虚假评论识别方法采用系统化的评论过程，对研究中有意义的内容进行提取、归纳和分类，比较分析各种虚假属性的表征力，以及识别方法特征设计和识别方法设计是虚假评论文本识别的关键步骤。在最近的研究中，采购大规模标记的评论数据集是困难的。他们只是在识别作为讨论核心的虚假评论文本。本文介绍了在不同领域（酒店和电子商务）的虚假评论检测的评估。在本文中，我们还确定了虚假评论者和虚假评论者群体之间的关系。本文分析并指出了目前在数据采集、虚假特征设计和识别方法设计等方面存在的问题，并对虚假评论检测的未来研究提出了建议版权所有©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一个开放的访问CC BY-NC-ND许可证下的文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。内容1.导言75312.文献收集75313.垃圾邮件评论数据集7532......................................................................................................................................................................................................................................4.特征工程75324.1.审查尺寸特征设计75334.2.审查员尺寸特征设计75334.2.1.重复审查行为75344.2.2.异常评分行为75354.2.3.早期审查行为75354.2.4.突然审查行为75364.2.5.频繁的评论75374.2.6.评论75374.3.相关尺寸特征设计75385.方法学设计75385.1.基于标记数据的检测方法75385.1.1.基于审查特征的分类器75385.1.2.基于评论者和关系特征的分类器75395.2.半标记基于数据的检测方法75395.2.1.基于Co-training 7539的分类器*通讯作者：计算机科学与工程。电子邮件地址：arvindmewada@mnnit.ac.in（A. Mewada），rupeshdewang@mnnit.ac.in（R.K. 德旺）。沙特国王大学负责同行审查https://doi.org/10.1016/j.jksuci.2021.07.0211319-1578/©2021作者。由爱思唯尔公司出版代表沙特国王大学这是一篇基于CC BY-NC-ND许可证的开放获取文章（http://creativecommons.org/licenses/by-nc-nd/4.0/）。可在ScienceDirect上获得目录列表沙特国王大学学报杂志首页：www.sciencedirect.comA. Mewada和Rupesh Kumar Dewang沙特国王大学学报75315.2.2.基于正-未标记7540的分类器5.3.未标记的基于数据的检测方法75405.3.1.语义分析75405.3.2.聚类方法75415.3.3.时间序列法75425.3.4.马尔可夫随机场75425.3.5.基于规则的检测方法75426.分析与讨论75426.1.未来的方向7.结论7543竞争利益声明参考文献75431. 介绍Web 2.0的发展使互联网用户可以在社交媒体和门户网站上自由表达自己的意见。用户通过在社交媒体和电子商务平台上发布他们对产品、服务的意见和投诉来分享经验。随着互联网用户和在线门户网站的不断增加，产品、服务和投诉评论的数量与之成比例地快速增长。根据美国评论网站Yelp（Alamoudi和Azwari，2021），截至2020年第三季度，该网站拥有超过2.2亿条用户评论，如图1所示，评论在不同业务基础上的分布如图2所示（Ching，2019）。产品评论对消费者的购买决策有重大影响（Samha和Xia，2008年; Samha等人，2014年）。一些公司雇佣垃圾邮件发送者，他们写虚假的产品评论来推广他们的产品或降低竞争对手的产品。Jindal et al.（Jindal and Liu，2007）在2007年首次提出了“评论垃圾邮件”的概念。他们将垃圾评论分为三类：不真实的评论、只针对品牌的评论和非评论，如图3所示。这样的评论广泛存在于各种在线购物和评论网站中（Ott等人，2012），具有影响大、隐蔽性强、识别难度高等特点，成为相关研究关注的焦点。垃圾评论的研究和识别对象主要有三类：虚假评论、虚假评论者和虚假评论者群体。发表的关于错误综述识别主题的文献（Rastogi和Mehrotra，2017），其中63%是错误综述文本识别的目标。笔者进一步统计发现，这一比例还在持续上升，截至2017年达到年均66%。虚假评论文本的识别是该领域的一个研究热点，构成了虚假评论者和群体识别方法的研究。然而，目前研究中仍然缺乏针对虚假评论文本识别方法研究现状的文献综述，尤其是缺乏对数据集、特征、模型和研究方法等关键问题的综述和比较。因此，本文参考Barbara Kitchenham这项研究涉及的主要问题包括：1. 识别垃圾评论检测方法的最新趋势以及每种方法中使用的数据、特征、模型的类型和特征。2. 比较不同类型的特征和方法对提高预测性能的贡献3. 揭示目前研究中存在的问题，并提出未来的研究方向。2. 文献收集我们提出了文献数据程序，以获得关于虚假评论检测领域的研究文章，如图4所示。我们使用“评论垃圾邮件检测”、“虚假评论分析”、“欺骗性评论检测”、“评论垃圾邮件检测”、“虚假评论检测”、"垃圾评论检测”、“评论垃圾邮件发送者”和“社交媒体垃圾邮件检测”作为主题搜索的搜索词。检索范围设定为2007年至2020年期间发表的SCI期刊或高索引会议研究论文。在不同数据库中进行文献检索，例如Web of Science、ACMDigital Library 、 IEEE Xplore 、 ScienceDirect 、 ACL 和 LNCS 、Cornell University、SSRN。初步检索到900多篇与该主题相关的文章质量评估和参考文献追踪显示了322篇研究论文，如图5所示。 6、符合我们的质量要求。其中162篇研究期刊文章被鉴定为虚假评论文本，11篇旧评论文章和139篇来自有用会议的文章三个标准下排除的文献数量是文献质量评估中使用的标题、判断方法（阅读文献、关键词、深度阅读）和参考文献标准根据系统的文献综述（Kitchenham，2004），最终112篇研究论文是在研究文章逐一阅读时提取的。基于对提取数据的分类和分析，现有的垃圾评论检测技术研究图7：审查数据集采集、数据预处理、特征工程、模型构建、结果评估。评论数据集主要包括商业评论和众包评论;垃圾评论特征主要分为：基于评论的特征、评论者维度特征和关系维度特征，如图8所示。机器学习依赖于有限的标签数据，并且需要花费大量的时间和资源来标记数据。现有的研究主要采用评价方法和指标对文本分类和信息检索任务的结果进行评价。在以上给出的步骤中，垃圾邮件的评论特征和识别方法的设计是该领域的关键问题。最后，选取了112篇最具代表性的研究论文，对虚假评论检测研究的关键问题进行了综述，总结和比较了现有识别方法的特点、性能和适用性。如今，虚假评论的识别已经不局限于学院标签研究阶段，各大电商网站正在得到重视和实践。例如，亚马逊、Yelp、淘宝和大众点评已经推出了A. Mewada和Rupesh Kumar Dewang沙特国王大学学报7532Fig. 1. 评论2019年至2020年在Yelp网站上的贡献（Ching，2019）。识别和惩罚虚假帖子的规则，公共评论网和Yelp实现了评论的分类显示机制（Li和Chen，2014; Ott等人，2011年）的报告。但由于商业网站对虚假评论的识别方法不同，技术属于商业秘密，不对外公开。根据我们收集的信息，这些网站它们还可能包括，例如，用户操作日志、注册信息、不能公开获得的网站内部数据，如鼠标点击行为和互联网协议地址（Mukherjeeet al.， 2013年）。3. 垃圾邮件评论数据集根据来源，现有研究中使用的评论数据集可以分为两种类型：商业评论数据和众包评论数据。真实世界的购物网站，restau- rants网站和评论门户网站是商业评论数据的来源这种类型的数据通常是无标签的，虚假和非虚假评论是混合的。商业评论数据应用研究主要采用规则标注、手工标注、商业标注等方式实现数据标注。众包点评数据包括真实点评数据和虚假点评数据两部分。其中，真实的评论一般是研究人员根据一定的标准从商业网站上获得的。相比之下，虚假评论被发布在众包平台上，并且参与者基于具有准确注释的虚假评论获得报酬。因此，需要花费大量时间来注释评论数据。表1显示了两类综述数据和不同标记方法的特征。表2显示了具有代表性的公众评论数据集，并列出了其获取方法。4. 特征工程特征设计虚假评论特征设计从评论数据集中提取和构造特征，可以有效地识别虚假或非虚假评论以及通过欺诈评论活动的可疑用户。根据不同的特征分析维度，从评论中提取了以下类型的虚假评论特征：评论特征、评论者特征、产品特征、卖家特征和关系特征，如图所示。9.第九条。图二. Yelp上基于业务的评论分布（Ching，2019）。图3.第三章。综述示例（Ott et al.， 2012年）。A. Mewada和Rupesh Kumar Dewang沙特国王大学学报7533见图4。文献收集过程。图五. 2007年至2020年第一次入选标准后的研究论文。见图6。研究论文发现后发表的第一个选择标准从2007年至2020年。4.1. 查看尺寸特征设计评论者通过语言表达他们对评论对象的感受、观点或情感。假评论是评论者编造的谎言。他们的内容是基于不真实的经验，并在评论的语言使用中留下错误的线索。审查维度的功能设计以文本为中心，本文从词汇、句子、语篇和语义四个方面对评论进行了分析，并对评论的词汇、句法和语义进行了分析，以获得评论的语言和语篇特征。审查维度特征如图10和表3所示，其提取方法。4.2. 审阅者尺寸特征设计一个评审只与一个评审人和一个评审的产品相关，并且可以从要素中得出错误的线索审查维度的设计非常有限。评论者认为它可以对多个产品发布多个评论，并留下更多错误线索。假审稿人达到了他们的目的，他们的审稿行为与正常审稿人有很大的不同。因此，审查员的尺寸特征设计以审查员的行为为中心。挖掘和设计可以有效地消除虚假和真实评论者之间的行为差异。实现过程主要有三个步骤：1. 观察和分析审稿人的异常行为2. 总结和设计描述异常行为的特征。3. 建立数学模型，对特征值进行量化。A. Mewada和Rupesh Kumar Dewang沙特国王大学学报7534见图7。SRD的一般过程（Mason Chris Wiggins 2010）。见图8。查看垃圾邮件检测的一般过程.表1数据标签方法和代表性公共数据集。推荐的综述（Mukherjee等人， 2013年度）4.2.1. 重复审查行为文本相似度计算方法比较简单，原理也容易理解。它是计算词集之间的交集和并集的比率值越大，两个字符越相似当涉及到大规模并行计算时，该方法具有一定的优势.为了减少撰写虚假评论的时间成本，垃圾邮件发送者复制了自己或他人的评论，导致评论内容更加相似（ Ee-Peng Lim 等人，2010;Mukherjee等人，2012年）。余弦内容相似性技术可以应用于查找重复评论（Mukherjee等人，2013年，由作者撰写。数据集类型标记方法优势缺点数据集描述业务基于规则：-如果简单高效，体积大有效性难以确定5.8百万亚马逊审查数据文本相似度≥90%（Jindal和Liu，2008）手动标注：邀请Turker执行标签有一个绝对的基础（Mukherjee等人， 2013年度）准确率低（Li和Chen，2014年）; a审查数据根据判断进行虚假评论的标准（Li等人，2011）商业注解：商业网站为审判高精度、大标签少量标记，高标记成本（Li等人，（2011年）召回率难以确定（李64 K，Yelp评论使用他们的内部算法来分类和显示评论。例如，Yelp将评论分为推荐评论和非推荐评论。和Chen，2014; Li等人， 2014年度）数据，多领域Yelp点评数据，大众点评小数据集众包审核数据众包注释：人工筛选来自电商网站的真实评论，并通过AMT（Ott）等众包平台人为伪造虚假评论准确率高，能反映审稿人的心理特征（Ott et al.，标签数量少，标签成本高，信息量少，数据分布与现实世界不匹配（Mukherjee et al.，2013年度）‘‘gold standard” hotelreview dataset, ‘‘goldsstandard”例如，1107; Li等人，2014; Ott等人， 2013年度）（1107）数据集A. Mewada和Rupesh Kumar Dewang沙特国王大学学报7535×表2文献中使用的不同公共评论数据集标注方法数据集名称数据集描述数据集字段基于规则亚马逊产品评论亚马逊书评TripAdvisor预订评论5.8 M评论和215万评论者6.8 K评论和4.8 K评论者2.8 K评论书籍、DVD、音乐、产品（Jindal和Liu，2008）书籍（Fornaciari和Poesio，2014）酒店（Hammad，2013）人为本EpinionTripAdvisor6 K评论3 K评论产品（Li等人，2011）酒店（Ren等人， 2014年度）基于模板的过滤Yelp酒店67.4 K评论和38 K评论者旅馆和餐馆（Mukherjee等人， 2013年度）Yelp hotelDianping3.59 M评论和16K评论者6086万条评论和260万名评论员10 K条评论和9 K名评论员酒店和餐馆（Rayana和Akoglu，2015）酒店和餐馆（ Rayana 和 Akoglu ， 2015 ）餐馆（ Li 和 Chen ，2014）亚马逊TurkerTripAdvisor 酒店点评TripAdvisor 酒店点评TripAdvisor多域800条评论1600条评论3032评论旅馆（Ott等人，1107）旅馆（Ott等人， 2013年度）酒店、餐馆、医生（Li等人， 2014年度）4.2.2. 异常评分行为垃圾邮件发送者可以通过给出与正常评论者不一致甚至极端的评分来达到提高或降低评论产品综合评分的目的（Jindaland Liu，2008）。1. 极端评级：-确定审查者是否总是给一个非常积极或消极的分数，以特定的产品p从5星级评级系统审查R1。评级1星是极端负面的，而5星是极端正面的（Mukherjee等人， 2013年）。2. 正面评价的百分比：-计算评论者倾向于发布正面评价的程度在大于4星的5星评级评论中，有正面评论（Mukherjee等人， 2013年）。3. 评分偏差：-计算评论者对某个产品的评分分母表示5星评级系统中4星的最大评级偏差（Geli Fei等人， 2013年）。4.2.3. 早期审查行为垃圾邮件发送者倾向于在产品首次发布时对其进行审查（Ee-Peng Lim等人， 2010），能最大程度地影响消费者对产品的印象。1. 早期时间框架：-计算评审员评审产品的最新评审时间和发布时间的提前时间。在这里8个月是早期审查阈值，估计值为7个月（Mukherjee等人，2013年）。见图9。评论、评论者、产品和卖家的关系，功能有限。A. Mewada和Rupesh Kumar Dewang沙特国王大学学报7536见图10。查看内容功能。表3常见评论的特征和提取方法特征类别特征函数的提取语言特征Bag of Words（1-gram，2-gram，n-gram）词性特征语言查询和字数统计功能以矢量形式表示文本并计算评论文本的相似度捕捉真实和虚假评论从语言学和心理学角度解读虚假评论文本词法分析，建立一个词袋模型或n-grams模型，常用的有Unigram、Bigram和Trigram。词汇分析，执行词性标注和词频统计词汇分析，使用语言查询和单词计数工具语法结构利用概率上下文无关语法进行句法分析，得到评论文本或依赖关系分析树情绪捕捉虚假评论的极端情绪化倾向语义分析情感分析文本特征通过建立词的语义分析，得到评论的深层语义表示嵌入模型，用于文本表示的深度学习模型。文体风格获取评论者句法特征分析与提取元数据获取评论、评论者和评论从查看语言以外的角度查看对象提取与评审机构以外的评审相关的数据，例如评审长度、评审时间、评级、ID、产品ID。2. 第一次评论比率：-计算所有评论者的评论都是标题评论的比例4.2.4. 突然审查行为虚假评论者在短时间间隔内进行多次评论，以达到快速影响消费者的目的评论对象的hensive评分和操纵评论的情感倾向（Mukherjee等人，2012; Xie等人， 2012年）。1. 审阅突发性：-计算审阅者的第一次审阅时间和最后一次审阅时间之间的接近程度的A. Mewada和Rupesh Kumar Dewang沙特国王大学学报7537见图11。基于产品的特性。爆发期的阈值和估计值为20天（Mukherjee等人， 2013年）。2. 突发评论比例：-计算一个评论者的所有评论中突发评论的比例评论者的所有评论中的评论的集合是评论突发期（Mukherjee等人， 2013年）。3. Singleton Ratio：--单篇评论是指一个评论者只发表过一篇评论，其为虚假评论者的可能性很高（Xie et al. 2012年）。产品评论的收集（Ruan等人， 2020年）。4.2.5. 经常检讨普通评论者发布评论的时间和数量通常是随机的。相比之下，虚假评论者的评论时间和数量由于特定的任务而具有一定的规律，例如每天和每个月都有一定数量的评论（Mukherjeeet al.， 2013年）。1. 最大评论数：-计算评论者在一天内发布的评论的最大数量与其他评论者在一天内发布的评论的最大数量的比率（Mukherjee等人，2013年）。2. 发布频率：-计算每月实际评论数量与评论者平均评论数量之间的最大差异（Rout等人， 2017年）。4.2.6. 有针对性的审查正常评论者的评论对象通常是随机的，而虚假评论者发布的评论则具有很强的针对性，比如只对特定的产品、品牌或店铺进行评论（Li et al. 2016年）。1. 品牌偏差分数：-计算代表品牌的评论者对不同品牌的评论数量的分布差异，品牌被评论的概率，通过熵来衡量（Li等人， 2011年）的报告。2. 异常产品评审比例：-异常产品是指只有一个评审员评审的产品。该功能计算了评论者的所有评论中离群产品评论的比例（Wang等人， 2020年）。3. 评论密度：-计算评论者对特定产品类别、商店或时间的评论密度（Melleng等人，2019年; Li等人， 2016年）。综述元数据也是行为特征分析的重要数据源，例如，综述长度、购买历史、综述时间和位置。虚假评论者的评论长度通常较短（Mukherjee et al.，2013）;具有真实购买记录的评论的可信度高于没有购买记录的评论的可信度（Ji等人，2020; Geli Fei等人，2013; Rout等人，2017年）。作者（Li等人，2015）基于多个含有互联网协议地址的大众点评网站的商业注释数据，分析了真实和虚假评论者的元数据模式、时间和空间模式。他们提出了一系列具有强烈虚假表征的时间特征和空间。此外，许多元数据可以反映评论者的偏好和社交行为特征，例如评论者的照片、签到、收藏以及评论者之间的添加好友、关注、回复和喜欢的行为。社会关系分析有助于识别虚假评论（Zhanget al.，2016; Rahman等人，2015; Viviani和Pasi，2017;Goswami等人，2017年）。文献（Mukherjee等人，2013; Zhang等人，2016）指出，评论者行为特征比评论者维度特征具有更好的虚假陈述能力。然而，这种基于对审稿人异常行为的观察和分析来提取特征的方法1. 不可能找到行为与正常评论者没有太大区别的虚假评论者（Chengzhang和Kang，2015）。2. 一旦虚假评论者意识到这种基于异常行为的检测机制，他们就会迅速调整自己的行为模式，以消除与正常评论者的差异（Xue等人， 2019年）。3. 基于人工观察的特征是主观的。一些观察到的行为线索不能完全证明评论者一定是垃圾邮件发送者。例如，在同一产品上发布多个评论的可疑行为也可能表4关系维特征的图模型图的类型代表性模型二分图模型节点在审阅者中没有附加功能-产品图模型（Fang等人，2020; Akoglu等人， 2013年）。三分图模型在评审员-评审-产品图模型中，每个节点有评论者，评论和产品功能（Rayana和Akoglu，2015）。评审者-评审图模型中的节点包含相关的评审者和评审特征（Yuqing等人，2013;Shehnepoor等人，2017年;Saumya和Prakash Singh，2020年）。reviewer-IP-reviewgraph模型中，每个节点具有对应的reviewer和review特征，并且共享相同IP或reviewer节点的review节点往往具有相同的标签（Ren等人， 2014年度）A. Mewada和Rupesh Kumar Dewang沙特国王大学学报7538见图12。基于两步的是由正常的评论者多次购买产品引起的（Guo等人， 2021年）。4.3. 相关尺寸特征设计虚假评论者模仿真实评论者的语言或行为模式相对容易。然而，他们很难模仿不同主题之间的网络关系（图7所示的评论者，评论和产品关系以及图11所示的产品特征）（Zhang et al.，2020; Mengxiao等人，2019年）。关系的维度特征设计以主体间关系为中心，将主体间关系作为虚假特征进行分析。从文献研究来看，现有的研究大多是基于图论建立学科间关系的图模型，通过分析图中节点的邻接关系和节点附加属性的特征来揭示审稿人的虚假行为（Xue et al.，2019年）。根据图模型中节点类型数量的不同，垃圾评论检测中使用的图模型可以分为两种：二分图模型和三分图模型，如表4所示。在研究中，相关性特征被更多地用于垃圾邮件群体的识别. 图12个。5. 方法论设计该方法设计的目的是建立一个基于各种评论特征的垃圾评论检测模型，并对评论文本标签进行最终预测。由于机器学习依赖于标签数据，因此可以分为使用标签数据、半标签数据和未标签数据的方法。5.1. 基于标记数据的检测方法基于标记数据的检测方法是现有研究中应用最广泛的方法。它主要基于有监督机器学习的文本分类方法，将评论分为两类，虚假和非虚假。该方法的核心问题是数据集构造、特征选择和分类器构造。现有分类方法所使用的训练和测试数据集主要是众包和商业标签数据。常用的分类器包括支持向量机，朴素贝叶斯，逻辑回归，决策树。根据建筑在分类模型方面，现有的分类方法可分为基于评论维度特征的分类方法和结合评论者特征及其关系的分类方法5.1.1. 基于审查特征的早期的研究主要通过分析评论文本的词汇和句子水平来提取评论特征（Ott et al.，2011年;Li等人， 2014; Sadman等人， 2020; Feng等人， 2012; Hussain等人，2020; Qiongkai and Zhao，2012）.在语言层面，ott等人（Rastogi和Mehrotra，2017）研究了n元语法，部分在语音特征中，支持向量机分类器在“黄金标准”数据集上的验证准确率在句子层面，作者（Feng et al.，2012; Qiongkai andZhao，2012）将Unigram和PCFG（Probably Context-Free Grammars）的特征结合起来，模型的准确率超过90%;也有基于词汇和句法特征从文本写作风格的角度分析评论的研究（Hussain et al.，2020; Shojaee等人，2013年;Dewang和Singh，2015年）。例如，Dewang（Dewang and Singh，2015）提出了描述语言风格的特征集，如词汇密度，符号比率，平均短语长度。他们在“黄金标准”数据集上使用了支持向量分类器91.51% F-测量值。作者（Abri等人，2020年; Li等人，2014）证明了LIWC特征显著影响分类精度的提高。Karami等人（Karami和Zhou，2015）提出了基于LIWC特征的虚假性指标，例如标点符号得分、积极或消极情绪得分、个人兴趣相关词与一般词汇得分之间的差异。在“金标准”数据集上的识别准确率超过93%。为了深入挖掘评论语义层面的错误线索，一些研究应用了词嵌入模型（Kumar，2003; Zhang et al.，2016; Cao等人，2020;Hernandez-Castaneda和Calvo，2017）和神经网络模型（Hajek等人，2020; Anass等人，2020; Fahfouh等人，2020;Ren和Ji，2017; Li等人，2017年; Sun等人，2016）获得评论的文本表示特征，这在处理评论数据域迁移问题中表现出良好的性能。然而，基于评论特征的分类模型的准确率相对较高，特别是因为众包数据的准确率接近90%。但是慕克吉（慕克吉例如，2013）报道，这种模型在注释数据集上的准确率为68%，远低于众包数据集的结果。原因在于众包数据集中真假评论的来源不同，两者的语言也有较大差异，数据分布与真实世界分布不匹配。其他研究（Hussain等人，2020）在手动标记的数据集上测试了基于评论内容特征的分类模型。分类准确率为84%，模型不稳定。原因是不同的人工标注数据集在评审领域、语言、数据量和标注质量上存在较大差异，影响了模型的性能。特征选择和优化提高了机器学习算法的性能。作者Laith Abualigah（ Abualigah et al. ， 2021; Abualigah 等人， 2021; Abualigah 和Dulaimi，2021; Abualigah和Diabat，2021）调查并提出了不同的优化算法，包括SCAGA，Aquila优化器和算术优化算法，这些算法可以应用于评论垃圾邮件检测。Aquila Optimizer以四种方式工作。它通过沿垂直方向高飞选择搜索位置，在收敛范围内利用搜索空间，在不同的搜索空间内通过轮廓飞行和短距离滑翔攻击进行搜索，在搜索空间内通过低飞慢着陆攻击和俯冲进行步行和捕捉猎物。算术优化算法使用四个基本的数学运算X、/、+和-。与x7相比，A. Mewada和Rupesh Kumar Dewang沙特国王大学学报7539Aquila 5.2994的最优权值为3007.74，算术算法5.2867的最优权值为2997.92，SCAGA算法与SCA算法相比避免了5.1.2. 基于审稿人和关系特征的大多数研究者选择商业注释来构建实验数据集，因为众包注释和数据的手动注释。在建立分类模型和使用评价特征时，将评价者和关系维特征相结合，提高了分类性能。Mukherjee等人（Mukherjee等人，2013）在基于评论维度特征的支持向量机分类器中增加了评论者行为特征，如最大评论数、首评率、评论长度、评分偏差和最大内容相似度等，将识别准确率从66%~ 68%提高到85%~ 86%。文献（Zhang etal.， 2016）验证了非语言特征，如社会行为特征和元数据特征比语言特征更重要。特别是，元数据包含丰富的时间和空间属性。Santosh etal.（Kc and Mukherjee，2016）通过对真实和虚假评论的时间序列分析提取时间特征，结合行为和文本特征构建的分类模型具有89%-90%的准确率。文献（Zhiwei Guo等人，2020; Goswami等人，2017; Yin等人，2021; Wang等人，2016; Sedighi等人， 2019）将基于深度学习模型获得的文本表示特征与评论者的行为特征相结合，以提高分类方法在商业评论数据集上的稳定性。AoLi（Li等人， 2019）使用卷积神经网络模型来自动学习文本表示特征，并通过有效的编码方法对行为特征进行编码。结合这两种类型的特征实现了93%的准确性;Wang等人（Wang等人， 2016），通过张量分解方法，将审稿人和产品特征矢量化，结合n-gram特征，使用SVM分类器，准确率达到90%。Lee等人（Rastogi and Mehrotra，2017）基于图模型协同分类中节点相邻关系的估计，利用评审和评审特征、节点标签等观察特征构建了评审者-IP-评审三方图模型，在数据集上获得了82%的准确率。结合评论者和关系维度的特征的分类模型在商业数据集上取得了良好的结果，并且当应用于用规则标记的数据集时具有更好的准确性（Lin等人，2014年）。利用评论特征构造的分类模型具有较好的鲁棒性。虽然该方法在众包标注数据集上的准确率高达95%。Viviani（Goswami等人，2017）使用多个特征聚合模式和多域决策模型，根据评论元数据和评论者行为特征对评论的虚假性进行评分。最优聚合算子组合用于商业标注数据集，识别准确率达到82%。综上所述，该方法使用带注释数据的整体性能相对较高，基于评论特征的分类模型逐渐提高了检测准确率作为语言层面所涉及的深层特征（词、句、文、义）。然而，这种类型的模型在商业评论数据集上的准确性较低，可以通过将评论者和关系特征融合到模型中来提高分类性能。在评论特征中，使用基于深度学习模型获得的文本表示特征，在各种评论数据集中取得了相对稳定的预测性能，具有良好的泛化能力。在评论者的行为特征中，突然评论和评分偏差特征具有较强的虚假表征力。同时，时间序列分析和特征选择技术也是提高分类性能的有效手段。虽然使用标注数据的方法具有很高的识别准确率，但这类方法所使用的标注数据集的准确性和适用性存在疑问，极大地影响了最终结果的可信度5.2. 基于半标记数据的检测方法由于缺乏大量准确标记的数据集，一些研究提出了半监督机器学习方法。它使用半标记数据来识别虚假评论，并使用分类器自动标记大量未标记数据，以帮助少量标记数据进行学习。现有的研究是常用的，算法包括共同训练和积极的非标记学习。5.2.1. 基于Co-trainingCo-Training学习方法（下面给出的算法）要求数据具有两个不同的特征子集，这些特征子集足够冗余并满足条件独立性。此时，对于这些视图中的任何一个，另一个视图是“冗余”的，这两个视图条件对于类别标签是独立的综合应用多种类型的功能，可以实现，为了有效地提高分类性能，将许多初始特征直接输入到模型中可能容易导致高维特征空间问题（Heredia等人，2017; Capuozzo等人，2020年）。一些研究使用奇异值分解（Guangyu等人，2010）和信息增益（Heredia et al.，2017; Koven等人，2014）、卡方检验（ Karami 和 Zhou ， 2015; Crawford 等人， 2016 ）、信噪比（Crawford 等人， 2016 ）和神经网络（ Goswami 等人，2017;Hema等人，2020）和其他特征选择方法，分析特征集的意义和重要性，通过选择虚假特征化特征，算法：1协同训练算法（Blum Mitchell 99）给定：标记数据L无标签数据使用回路：步骤1.使用L训练g12.使用L训练g23.允许g1标记p为正，n为负来自U的例子4.将这些自标记的示例移动到L（开始在Looptures和特征组合以实现目的提高了识别性能并降低了计算成本。除了上述审查外-基于监督机器学习的分类方法，Li等人（Li等人，2013）提出了一种基于贝叶斯的主题垃圾邮件检测方法，该方法使用概率主题模型LatentDirichlet Allocation（Ya et al.，2020）和词袋特征，以获得评论的主题分布，并比较虚假和真实主题上的评论。上述的概率预测了Lee等人（Li等人，2011）确信虚假垃圾邮件发送者继续撰写虚假评论，并且评论特征评论者行为特征可以识别这一点。文献（Li等人，2011年）使用了两个功能集相关的审查和批判性相关。基于少量的标记样本，在测试数据集上获得了69%的F测量值。分类效果较好A. Mewada和Rupesh Kumar Dewang沙特国王大学学报7540×而不是使用小数据集的完全监督分类。CoFea（Zhang等人，2016）和CoSpa（Zhang等人，2016）方法，利用注释术语和语法特征构建双视图，在“黄金标准”数据集上的识别准确率达到80%以上。5.2.2. 基于正-未标记的正-未标记学习方法通过标记的正样本P和大量未标记的样本U来训练二进制分类器。正-未标号问题中P的大小通常很小，并且很难扩展P集。相比之下，U集的大小通常很大，并且很容易获得。此功能与错误的Review检测问题非常匹配。虚假评论可以被视为P集，而未标记的评论被视为U集。 Hernandel-Fusilier（Fusilier等人，2013; Fusilier等人，2015）将所有未标记的数据视为阴性，并从“黄金标准”数据集中选择20%的评论作为阳性，结合NB分类器，获得的F-测量值为84%，而不使用阳性未标记的学习分类F-测量值仅为58%。Li等人（Li等人，2014年）认为，将所有未标记的数据视为负面例子是不准确的。他们使用Spy方法将一些“spy”阳性样本注入U集中，以获得更可靠的阴性样本集，显著提高了模型召回率。Ren Yafeng提出的MPIPUL方法（Renet al.，2014）侧重于识别容易被误分类为未标记样本的样本。该模型使用20%的“黄金标准”数据，获得84%的准确度。基于半监督机器学习的分类方法可以用少量的标记数据达到更好的分类性能，在一定程度上解决了标记数据不足的问题。正非标记学习算法在不同的数据集上具有更稳定的性能，并且具有更好的泛化能力。但总体而言，采用半监督识别方法的研究并不多，假特征的使用也比较简单，主要是用于审查维度特征。它与词法分析和句法分析一样，涉及词、短语、句子和段落中所包含的意义。目的是使用句子。语义结构代表语言的结构。语义分析分为词汇级语义分析和句子级语义分析，图13中示出了通用语义分析模型（Salloum et al.，2020年）。对于不同的语言单位，语义分析的任务是不同的。在词汇层面，语义分析的三个主要方面是词义消歧、句子层次的语义角色标注和文本层次的指称消歧，也称为共指消解。1词汇级语义分析：-词汇级语义分析的内容主要分为两部分：(a) 词义消歧：在自然语言中，一个词具有多种含义的现象非常普遍。在已知一个词有多个词义的情况下，如何自动学习该词的多个词义或根据上下文确定词义是词义消歧研究的内容bank这个词可以指银行或河岸.因此，基于这一现状，词义消歧的任务语义消歧方法大致分为基于背景知识的语义消歧方法第一种方法是基于规则的方法（也称为字典方法

下载后可阅读完整内容，剩余1页未读，立即下载