基于用户评论的电影评分预测模型研究

需积分: 50 5 下载量 89 浏览量 更新于2024-08-07 收藏 1.08MB PDF 举报
本文主要探讨了利用网络用户评论进行评分预测的方法,特别是在电影评分领域的应用。通过对电影上映后30天内的评论数据进行分析,研究人员选取了稳定的情感数据源,以减少预测结果的偏差。他们使用了豆瓣电影的评论数据,并抓取了评分人数、评论人数、标记看过人数和想看人数等指标,以及基于情感词典的情感特征指标来进行预测模型的构建。 在获取预测变量的过程中,文章提到了几个关键指标:评分人数(criticNum)代表参与评分的用户数量;评论人数(commentNum)是撰写文字评论的用户数;标记看过人数(watchedNum)和想看人数(desireNum)分别反映了实际观看和潜在观众的数量。这些数据被转化为参与评论的比例(commentRatio)和想看人数比例(desireRatio),以更好地反映用户行为。为了处理大数据量,数据进行了对数缩放处理,防止模型失真。 在情感特征指标方面,文章采用了大连理工大学的情感词汇本体库,这是一个包含不同情感强度级别的词典,用来量化评论的情感倾向。正向情感赋予正数,负向情感赋予负数,中性词为零。情感分数的计算考虑了词汇的情感强度,用于评估评论的整体情感趋势。 预测模型的构建采用了逐步回归方法,最终确定了四个关键变量:参与评分人数、参与评论人数、想看人数和电影正向评论情感均值。模型在27部电影上训练,用3部电影进行验证,预测评分与IMDb评分的差距在0.0227到0.0644之间,显示出较好的预测效果。 尽管模型表现良好,但文章也指出存在一些限制,如数据样本量、情感特征提取精度以及模型的普适性验证需要进一步改进。该模型不仅有助于评分预测,还可以用于检测网络水军行为,保障评分系统的公正性。 总结起来,这篇文章提出了一个基于网络用户评论的评分预测模型,通过分析评论数据和情感特征,有效地预测了电影的评分,为评分网站的可信度和消费者的决策提供了支持。同时,它也为未来研究如何处理网络评分的混杂性和滞后性问题提供了参考。