Python大数据处理:数据清洗与可视化实战
需积分: 9 10 浏览量
更新于2024-09-14
收藏 98KB DOCX 举报
"该资料主要涉及2017年的大数据相关题目,涵盖了数据抓取、数据清洗与分析、数据可视化等多个方面。主要使用的工具有Python的pandas和matplotlib库。"
在这些大数据题目中,我们可以看到三个具体任务:
1. 数据抓取(30分):
这一任务要求参赛者从一个约2GB的`spider.log`文件中筛选出有效数据,这些数据来源于网站"http://www.movie.com/bor/",可能包含电影名称、上映日期、上映场次、院线城市、导演、演员、影片类型和票房收入等信息。参赛者需要用Python编写程序,从中提取出有效数据,并按照指定格式保存到`ans0201.csv`文件中。
2. 数据统计(评分信息)(未给出具体分数):
在这个任务中,参赛者需要从网页"http://movie.shtimes.com/FilmId/"抓取电影的评分信息,计算评分的统计信息,如极值或平均值。提供的网页样本保存在`task0202`目录下。结果需要保存在`ans0302.txt`文件中,且仅包含一个保留4位小数的浮点数。
3. 数据清洗、分析与计算(20分):
这部分任务要求处理`film_log3.csv`文件,该文件包含了不同城市的电影票房信息。参赛者需要编程进行数据清洗和整理,并完成对电影A(具体名称在`arg0300.txt`中)的上映天数和日平均票房的统计。程序源代码需保存为`ans0301.py`,结果保存在`ans0301.dat`文件中,要求结果为一个long型数字。
这些题目旨在测试参赛者的数据分析能力,包括数据抓取、数据清洗、统计分析以及使用Python的pandas和matplotlib库进行数据操作和可视化。在实际操作中,参赛者可能需要用到如`pandas.read_csv()`来读取数据,使用字符串处理和正则表达式来筛选有效信息,`groupby()`和`agg()`函数进行数据聚合和计算,以及`matplotlib`库进行数据可视化。同时,他们还需要理解如何处理大型文本文件,以及如何有效地从网页中提取结构化信息。
2023-07-06 上传
2023-11-04 上传
2023-08-25 上传
2023-11-26 上传
2023-10-23 上传
2023-09-17 上传
柠檬当药
- 粉丝: 0
- 资源: 1
最新资源
- 前端协作项目:发布猜图游戏功能与待修复事项
- Spring框架REST服务开发实践指南
- ALU课设实现基础与高级运算功能
- 深入了解STK:C++音频信号处理综合工具套件
- 华中科技大学电信学院软件无线电实验资料汇总
- CGSN数据解析与集成验证工具集:Python和Shell脚本
- Java实现的远程视频会议系统开发教程
- Change-OEM: 用Java修改Windows OEM信息与Logo
- cmnd:文本到远程API的桥接平台开发
- 解决BIOS刷写错误28:PRR.exe的应用与效果
- 深度学习对抗攻击库:adversarial_robustness_toolbox 1.10.0
- Win7系统CP2102驱动下载与安装指南
- 深入理解Java中的函数式编程技巧
- GY-906 MLX90614ESF传感器模块温度采集应用资料
- Adversarial Robustness Toolbox 1.15.1 工具包安装教程
- GNU Radio的供应商中立SDR开发包:gr-sdr介绍