没有合适的资源?快使用搜索试试~ 我知道了~
首页豆瓣电影数据分析可视化.docx
资源详情
资源评论
资源推荐
课题名称:豆瓣电影分析系统
2018 年 6 月
Python 爬取数据
# coding=utf-8
import requests
import json
import time
def parse_url(url): #
发送请求,获取响应
print(url)
headers = {
"User-Agent": "Mozilla/5.0 (iPhone; CPU iPhone OS 9_1 like Mac OS X)
AppleWebKit/601.1.46 (KHTML, like Gecko) Version/9.0 Mobile/13B143
Safari/601.1"}
response = requests.get(url,headers=headers)
return response.content.decode() #
返回响应的
htm
字符串
def get_content_list(html_str): #
提取数据
dict_content = json.loads(html_str)
content_list = dict_content["subjects"]
return content_list
def save_content_list(content_list):#
保存数据
f = open("douban3.csv","a",encoding="gbk")
for content in content_list:
f.write(content["title"]+",")
f.write(content["id"] + ",")
f.write(str(content["rate"])+",")
f.write(content["url"].replace(","," ")+"\n")
f.close()
def run():#
实现主要逻辑
#
往
csv
中写入每一列表示的内容
f = open("douban3.csv", "a", encoding="gbk")
f.close()
#1.url
地址
for a in range(25):
start_url_list = 'https://movie.douban.com/j/search_subjects?
type=movie&tag=%E8%B1%86%E7%93%A3%E9%AB
%98%E5%88%86&sort=recommend&page_limit=20&page_start={}'.format(
a * 20)
time.sleep(2)
num = 0
url = start_url_list.format(num)
# 2.
发送请求,获取响应
html_str = parse_url(url)
# 3.
提取数据
content_list = get_content_list(html_str)
# 4.
保存
save_content_list(content_list)
if __name__ == '__main__':
run()
数据清洗与数据的导入:
用 hive 对数据进行处理:
一:在 hive 中创建表 movies1
create table IF NOT EXISTS default.movies1(
movie_name string,
evalue_usersr string,
score string,
director string,
actor string,
other string,
movie_url string)
ROW FORMAT DELIMITED FIELDS TERMINATED BY ','
把数据加载进表中
load data local inpath '/home/hadoop/douban.csv' into table default.movies1;
查询表中的相关数据:
select * from default.movies1;
通过 hive 进行清洗 拿到自己想要的数据
截取表中的 16-433 行的数据 进行可视化
insert overwrite local directory '/home/hadoop/movies'
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' COLLECTION ITEMS
剩余10页未读,继续阅读
weixin_44497088
- 粉丝: 38
- 资源: 107
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
- MW全能培训汽轮机调节保安系统PPT教学课件.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0