没有合适的资源?快使用搜索试试~ 我知道了~
首页豆瓣电影TOP250分析报告文本挖掘.docx
资源详情
资源推荐
豆瓣电影 TOP250 分析报告
摘 要:本文爬取豆瓣电影 TOP250 的榜单电影信息和热评,运用数据可视
化和文本挖掘的相关方法和理论对电影进行 Knn 分类和 KMeans 聚类以及相
关的电影信息分析,并预测了新上映电影的所属类型,画出了相应的混淆矩阵。
关键词:豆瓣电影;文本挖掘;数据爬虫;KMeans
目 录
1 引 言............................................................................................................................................ 1
2 数据来源..................................................................................................................................... 3
3 豆瓣电影数据............................................................................................................................. 3
3.1 上映年代分析.................................................................................................................. 3
3.2 制片国家/地区分布分析................................................................................................. 5
3.3 导演/主演分析................................................................................................................. 6
3.4 影片类型分布分析........................................................................................................... 9
3.5 评分/评分人数分析....................................................................................................... 10
4 豆瓣文本数据........................................................................................................................... 14
4.1 对热门影评的探索分析................................................................................................. 17
4.2 常用标签分析................................................................................................................. 19
4.3 分类模型与预测电影类别............................................................................................. 21
5 结 论.......................................................................................................................................... 24
6 附 录.......................................................................................................................................... 25
##movie................................................................................................................................ 25
##评论.................................................................................................................................. 28
##评论词云.......................................................................................................................... 29
##数据处理.......................................................................................................................... 30
##标签.................................................................................................................................. 30
##标签聚类.......................................................................................................................... 31
##简介词袋模型.................................................................................................................. 35
##简介 Tdf.......................................................................................................................... 36
1
1 引 言
中国电影产业发展迅速,网络大数据对电影的影响也不断加大。豆瓣平台
更加方便快捷的传播方式,更趋近于现代生活的节奏,逐渐成为影评文化的主
流。豆瓣电影提供最新的电影介绍及评论包括上映影片的影讯查询及购票服
务。你可以记录想看、在看和看过的电影电视剧,顺便打分、写影评,极大地
方便了人们的生活。豆瓣电影是这样介绍自己的:“国内最权威电影评分和精彩
影评,千万影迷的真实观影感受,为你的观影做决策。”而它也确实做到了这一
点。然而,前些日子,朋友圈又因一事沸腾了。《中国电影报》12 月 27 日发
布题为“豆瓣电影评分,面临信用危机”的文章,随后人民日报客户端转发了该
文,并将标题改为“豆瓣、猫眼电影评分面临信用危机,恶评伤害电影产业”。
在这个互联网将渗透到整个电影产业链中的时代,网络数据对电影的影响不断
加大。2010 年国内电影票房首次超过百亿,中国电影跨入百亿时代。2015 年
中国电影票房突破了 440 亿元,电影市场的大步跨进使世界为之注目。国产电
2
影中高评价高票房电影比比皆是,但面对偌大的市场,中国电影的发展方向仍
不明确,部分影片好评率与票房关系不成正比。在这种情况下,对国产电影进
行数据分析指出其发展方向就显得尤为重要。
3
2 数据来源
数据来源于豆瓣电影 TOP250,我们通过 python 爬取网站数据,共爬取
到豆瓣电影共 250 条电影信息,包括评分、评分人数、导演、编剧、主演、类
型、制片国家/地区、语言、上映日期、片长、剧情简介、热门影评、豆瓣成员
常用标签,同时爬取前 3 个电影的热评进行文本分析。
3 豆瓣电影数据
主要分析一豆瓣电影 TOP250(https://movie.douban.com/top250)
的相关电影,使用 Python 获取,技术分析流程分为以下三个步骤:网络数据
获取、数据读入和数据清洗、数据可视化分析。经过网站爬虫,我们整理出来
了 7 个字段,字段含义为评分、评分人数、导演、编剧、主演、类型、制片国
家/地区、语言、上映日期、片长、剧情简介、热门影评、豆瓣成员常用标签。
3.1 上映年代分析
剩余38页未读,继续阅读
qq_41514217
- 粉丝: 0
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- VMP技术解析:Handle块优化与壳模板初始化
- C++ Primer 第四版更新:现代编程风格与标准库
- 计算机系统基础实验:缓冲区溢出攻击(Lab3)
- 中国结算网上业务平台:证券登记操作详解与常见问题
- FPGA驱动的五子棋博弈系统:加速与创新娱乐体验
- 多旋翼飞行器定点位置控制器设计实验
- 基于流量预测与潮汐效应的动态载频优化策略
- SQL练习:查询分析与高级操作
- 海底数据中心散热优化:从MATLAB到动态模拟
- 移动应用作业:MyDiaryBook - Google Material Design 日记APP
- Linux提权技术详解:从内核漏洞到Sudo配置错误
- 93分钟快速入门 LaTeX:从入门到实践
- 5G测试新挑战与罗德与施瓦茨解决方案
- EAS系统性能优化与故障诊断指南
- Java并发编程:JUC核心概念解析与应用
- 数据结构实验报告:基于不同存储结构的线性表和树实现
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功