利用情感极性与SMOTE过采样提升虚假评论检测
需积分: 23 6 浏览量
更新于2024-09-08
1
收藏 1.01MB PDF 举报
本文提出了一种基于情感极性与SMOTE过采样的虚假评论识别方法,旨在解决在线商品虚假评论的识别问题。该方法通过构建多维特征模型,结合情感极性的统计指标(如均值和标准差),以及处理不平衡数据集的SMOTE算法,优化随机森林分类器,提升识别准确性。
文章详细介绍了研究背景和方法。在电子商务平台上,虚假评论严重影响消费者的购物决策,因此,有效地检测虚假评论是保护消费者权益的关键。研究者首先分析了虚假评论的特性,并构建了一个包含多种特征(可能包括文本内容、用户行为模式等)的模型。接着,他们改进了情感极性算法,添加了情感极性的平均值和标准差,以更全面地评估评论的真实性。这些统计指标有助于捕捉到虚假评论中可能存在的情感异常。
面对数据集中正负样本不平衡的问题,研究者采用了SMOTE(Synthetic Minority Over-sampling Technique)过采样技术。SMOTE是一种常用的处理类别不平衡问题的方法,它通过生成新的少数类样本来平衡两类样本的数量,从而避免分类器偏向多数类。将SMOTE应用到随机森林分类器上,可以显著改善模型对少数类(如虚假评论)的识别能力。
为了验证这种方法的有效性,研究团队使用了大众点评网的真实评论数据进行实验。实验结果显示,该方法在处理不平衡数据集时,能实现更高的准确率、召回率和F值,证明了其在过滤虚假评论方面的优越性能。这一方法对于电商平台来说,不仅有助于提升评论的真实性和可信度,还能帮助消费者做出更准确的购买决策。
关键词涵盖了虚假评论、情感极性、用户行为、逻辑回归和随机森林,显示了研究的多个核心方面。逻辑回归可能被用作另一种分类模型进行比较,而随机森林则作为最终优化的分类器。整体而言,这项工作为虚假评论识别提供了新的思路,对数据挖掘和自然语言处理领域有积极的贡献。
文章发表于2018年,由缪裕青、欧威健、刘同来、刘水清和文益民等人共同完成,得到了广西自然科学基金和桂林电子科技大学等相关项目的资助。研究团队成员来自不同的研究背景,包括数据挖掘、云计算、并行计算和社会计算等领域,他们的合作体现了跨学科研究的优势。
2022-12-16 上传
2019-07-22 上传
2019-07-22 上传
2021-09-19 上传
2022-12-15 上传
2019-07-22 上传
2019-07-22 上传
2021-06-19 上传
weixin_39840387
- 粉丝: 790
- 资源: 3万+
最新资源
- SSM动力电池数据管理系统源码及数据库详解
- R语言桑基图绘制与SCI图输入文件代码分析
- Linux下Sakagari Hurricane翻译工作:cpktools的使用教程
- prettybench: 让 Go 基准测试结果更易读
- Python官方文档查询库,提升开发效率与时间节约
- 基于Django的Python就业系统毕设源码
- 高并发下的SpringBoot与Nginx+Redis会话共享解决方案
- 构建问答游戏:Node.js与Express.js实战教程
- MATLAB在旅行商问题中的应用与优化方法研究
- OMAPL138 DSP平台UPP接口编程实践
- 杰克逊维尔非营利地基工程的VMS项目介绍
- 宠物猫企业网站模板PHP源码下载
- 52简易计算器源码解析与下载指南
- 探索Node.js v6.2.1 - 事件驱动的高性能Web服务器环境
- 找回WinSCP密码的神器:winscppasswd工具介绍
- xctools:解析Xcode命令行工具输出的Ruby库