利用情感极性与SMOTE过采样提升虚假评论检测

需积分: 23 4 下载量 6 浏览量 更新于2024-09-08 1 收藏 1.01MB PDF 举报
本文提出了一种基于情感极性与SMOTE过采样的虚假评论识别方法,旨在解决在线商品虚假评论的识别问题。该方法通过构建多维特征模型,结合情感极性的统计指标(如均值和标准差),以及处理不平衡数据集的SMOTE算法,优化随机森林分类器,提升识别准确性。 文章详细介绍了研究背景和方法。在电子商务平台上,虚假评论严重影响消费者的购物决策,因此,有效地检测虚假评论是保护消费者权益的关键。研究者首先分析了虚假评论的特性,并构建了一个包含多种特征(可能包括文本内容、用户行为模式等)的模型。接着,他们改进了情感极性算法,添加了情感极性的平均值和标准差,以更全面地评估评论的真实性。这些统计指标有助于捕捉到虚假评论中可能存在的情感异常。 面对数据集中正负样本不平衡的问题,研究者采用了SMOTE(Synthetic Minority Over-sampling Technique)过采样技术。SMOTE是一种常用的处理类别不平衡问题的方法,它通过生成新的少数类样本来平衡两类样本的数量,从而避免分类器偏向多数类。将SMOTE应用到随机森林分类器上,可以显著改善模型对少数类(如虚假评论)的识别能力。 为了验证这种方法的有效性,研究团队使用了大众点评网的真实评论数据进行实验。实验结果显示,该方法在处理不平衡数据集时,能实现更高的准确率、召回率和F值,证明了其在过滤虚假评论方面的优越性能。这一方法对于电商平台来说,不仅有助于提升评论的真实性和可信度,还能帮助消费者做出更准确的购买决策。 关键词涵盖了虚假评论、情感极性、用户行为、逻辑回归和随机森林,显示了研究的多个核心方面。逻辑回归可能被用作另一种分类模型进行比较,而随机森林则作为最终优化的分类器。整体而言,这项工作为虚假评论识别提供了新的思路,对数据挖掘和自然语言处理领域有积极的贡献。 文章发表于2018年,由缪裕青、欧威健、刘同来、刘水清和文益民等人共同完成,得到了广西自然科学基金和桂林电子科技大学等相关项目的资助。研究团队成员来自不同的研究背景,包括数据挖掘、云计算、并行计算和社会计算等领域,他们的合作体现了跨学科研究的优势。