Python大数据处理:数据清洗与可视化实战

需积分: 9 12 下载量 10 浏览量 更新于2024-09-14 收藏 98KB DOCX 举报
"该资料主要涉及2017年的大数据相关题目,涵盖了数据抓取、数据清洗与分析、数据可视化等多个方面。主要使用的工具有Python的pandas和matplotlib库。" 在这些大数据题目中,我们可以看到三个具体任务: 1. 数据抓取(30分): 这一任务要求参赛者从一个约2GB的`spider.log`文件中筛选出有效数据,这些数据来源于网站"http://www.movie.com/bor/",可能包含电影名称、上映日期、上映场次、院线城市、导演、演员、影片类型和票房收入等信息。参赛者需要用Python编写程序,从中提取出有效数据,并按照指定格式保存到`ans0201.csv`文件中。 2. 数据统计(评分信息)(未给出具体分数): 在这个任务中,参赛者需要从网页"http://movie.shtimes.com/FilmId/"抓取电影的评分信息,计算评分的统计信息,如极值或平均值。提供的网页样本保存在`task0202`目录下。结果需要保存在`ans0302.txt`文件中,且仅包含一个保留4位小数的浮点数。 3. 数据清洗、分析与计算(20分): 这部分任务要求处理`film_log3.csv`文件,该文件包含了不同城市的电影票房信息。参赛者需要编程进行数据清洗和整理,并完成对电影A(具体名称在`arg0300.txt`中)的上映天数和日平均票房的统计。程序源代码需保存为`ans0301.py`,结果保存在`ans0301.dat`文件中,要求结果为一个long型数字。 这些题目旨在测试参赛者的数据分析能力,包括数据抓取、数据清洗、统计分析以及使用Python的pandas和matplotlib库进行数据操作和可视化。在实际操作中,参赛者可能需要用到如`pandas.read_csv()`来读取数据,使用字符串处理和正则表达式来筛选有效信息,`groupby()`和`agg()`函数进行数据聚合和计算,以及`matplotlib`库进行数据可视化。同时,他们还需要理解如何处理大型文本文件,以及如何有效地从网页中提取结构化信息。