一、绪论
(一)研究背景
近年来,随着生活水平的提高,人民在解决温饱问题后,对生活中的娱乐项目越来越
重视,这意味着恩格尔系数降低而娱乐消费增加。电影在娱乐消费中的占比是非常高的,
一部好的电影在世界各地广为流传,电影通过短短的几个小时向人民传递了太多信息,这
些信息不仅是时事热点还有更多精神方面的启示。制作一部电影通常需要花费很多物力和
财力,大家现在默认的把票房作为一部电影是否成功的标准,因为票房是投资者决定是否
投资该电影的重要指标。那么怎么对票房进行一个精准的预测呢?精准的预测能够更好地
说服投资者进行投资。我国文化娱乐产业的发展必然是随着经济实力的提升而升温的,在
对国家新闻出版广电总局电影局的票房数据进行分析后得到以下信息:
1.2007 年全国总票房为 21 亿,十年之后 2017 年票房翻了 20 倍以上为 457.12 亿。
2.2016 年全国总票房为 440.8 亿,一年之后 2017 年票房仅增加 3.7%。
3.2018 年全国总票房为 559 亿,比 2017 年票房增加 13.45%。
以上数据都说明了票房的增加的前提是迎合观众对电影类型的偏好,2017 年前后我们能发
现票房数据有了质的飞跃,这得益于在 2015 年电影票房预测的流行。这篇文章将结合传
统的电影票房预测方法和使用 python 等大数据分析,从而提高电影票房预测的精准度。
(二)国内外研究现状
经过研究大量的与电影票房有关的各种文献,我们很容易发现西方在该方面的理论体
系更为完整,因为西方在工业革命后经济飞速发展,而我国还处于闭关锁国的状态,但是
因为改革开放后我国经济有了极大的提升,所以我国也开对电影票房的研究投入了更多的
精力。
电影票房预测从美国开始,最初的研究是通过对观众发放调查问卷,大家把这种研究
称为“观众研究”,目的是通过对观众的电影类型票好进行简单的收集以此促进电影票房
的增加。里奥德尔是电影研究局的工作人员,他和观众调查局的乔治盖洛普是“观众研究”
的著名研究人员,但是他们用来采集和分析观众偏好的方法并不相同,但目的都是为了对
票房产生影响和预估。他们为什么在众多研究者中脱颖日出呢?这是因为他们发现了影响
票房的因素是非常多的,例如对电影的宣传程度、演员的知名度、观众的口碑以及电影所
讲述的故事等,这些因素在后来的研究中被分析的更加透彻。不久之后,巴瑞李特曼第一
次提出运用线性回归建立一个电影收入预测模型,该模型的自变量和因变量分别是对票房
产生影响的因素和电影票房收入。从二十一世纪初开始,互联网将全球连接起来,人与人
之间的交流范围更加广阔的同时也意味着原来的电影票房的预测已经不在适用于当下。于
是研究人员不在使用之前的研究方案,改变为在网络上对关于电影的评论进行一个汇总,
构建一个更加精准的票房预测模型,于是微博、谷歌、推特等预测模型随之而来。
二、相关技术
本章主要介绍基于 python 的电影票房预测系统在从思路变为实际成果的有关方法和