一、项目概述
近年来, 电影、DVD、歌剧等影像作品成为了人们生活中不可或缺的休闲消遣之物, 自电影于20世纪
初成规模时起, 在荧幕上出现过的影视作品数不胜数, 让想要从浩如烟海的影视作品中筛选出自己需
要的内容人们也变得举步维艰, 因此我们设想设计一个能够支持复杂条件查询, 大数据的电影信息系
统
在本次练习中, 我们使用Scrapy框架爬取了25万亚马逊商品页面, 使用Python脚本进行数据清洗和
处理, 筛选出约20万电影数据, 提取出电影信息和电影之间的关联, 使用neo4j图数据库存储电影节点
和电影之间的同类关系, 调用neo4j内置的图算法求解弱连通分量个数, 最终得到不同电影的总数约
为12万
在爬虫设计中, 我们使用 ProxyBroker 工具作为ip代理池, 使用 fake-useragent 随机切换浏览器
UA, 并在此基础上通过设置请求速度等方式来突破Amazon的反爬虫机制。使用xpath和正则表达
式来解析爬取到的html、提取商品信息, 使用 jsonlines 格式存储网页解析后的数据
在数据清洗流程中, 我们通过解析商品信息的几个特定属性进行判断, 尽可能地将非电影的商品信息
去除而将电影的商品信息保留
最终, 我们将剩余信息按照节点和关系分别导出为CSV文件, 使用neo4j图数据库来处理信息
二、数据获取
A. 亚马逊电影评论数据集(开源)
亚马逊电影评论数据来自SNAP发布的 Web data: Amazon movie reviews 数据集. 该数据集包含了
跨度超过10年, 总数超过8百万条的亚马逊电影评论. 每条评论包括商品信息、用户信息、评分和纯
文本格式的评论内容.
该数据集采用纯文本格式保存, 数据格式如下:
数据集统计信息
product/productId: B00006HAXW
review/userId: A1RSDE90N6RSZF
review/profileName: Joseph M. Kotow
review/helpfulness: 9/9
review/score: 5.0
review/time: 1042502400
review/summary: Pittsburgh - Home of the OLDIES
review/text: I have all of the doo wop DVD's and this one is as good or
better than the
1st ones. Remember once these performers are gone, we'll never get to see
them again.
Rhino did an excellent job and if you like or love doo wop and Rock n Roll
you'll LOVE
this DVD !!
1
2
3
4
5
6
7
8
9
10
11