Python大数据处理：数据清洗与可视化实战

需积分: 9 10 浏览量更新于2024-09-14 收藏 98KB DOCX 举报

"该资料主要涉及2017年的大数据相关题目，涵盖了数据抓取、数据清洗与分析、数据可视化等多个方面。主要使用的工具有Python的pandas和matplotlib库。" 在这些大数据题目中，我们可以看到三个具体任务： 1. 数据抓取（30分）：这一任务要求参赛者从一个约2GB的`spider.log`文件中筛选出有效数据，这些数据来源于网站"http://www.movie.com/bor/"，可能包含电影名称、上映日期、上映场次、院线城市、导演、演员、影片类型和票房收入等信息。参赛者需要用Python编写程序，从中提取出有效数据，并按照指定格式保存到`ans0201.csv`文件中。 2. 数据统计（评分信息）（未给出具体分数）：在这个任务中，参赛者需要从网页"http://movie.shtimes.com/FilmId/"抓取电影的评分信息，计算评分的统计信息，如极值或平均值。提供的网页样本保存在`task0202`目录下。结果需要保存在`ans0302.txt`文件中，且仅包含一个保留4位小数的浮点数。 3. 数据清洗、分析与计算（20分）：这部分任务要求处理`film_log3.csv`文件，该文件包含了不同城市的电影票房信息。参赛者需要编程进行数据清洗和整理，并完成对电影A（具体名称在`arg0300.txt`中）的上映天数和日平均票房的统计。程序源代码需保存为`ans0301.py`，结果保存在`ans0301.dat`文件中，要求结果为一个long型数字。这些题目旨在测试参赛者的数据分析能力，包括数据抓取、数据清洗、统计分析以及使用Python的pandas和matplotlib库进行数据操作和可视化。在实际操作中，参赛者可能需要用到如`pandas.read_csv()`来读取数据，使用字符串处理和正则表达式来筛选有效信息，`groupby()`和`agg()`函数进行数据聚合和计算，以及`matplotlib`库进行数据可视化。同时，他们还需要理解如何处理大型文本文件，以及如何有效地从网页中提取结构化信息。

任务二、数据抓取（30 分）

1、现在，网络爬虫抓取到约 2G 的数据，保存于 arg 目录的 spider.log 中，但其中既有电影

市场放映信息数据也有其他数据，通过分析数据样本，发现从网站“http://

www.movie.com/ bor/”下抓取的数据包含有效的电影市场数据，数据中有效数据项可能

包括：电影名称、上映日期、上映场次数、院线城市、导演、演员、影片类型、票房收

入，请从 spider.log 中筛选出一部分有效数据项，并以规定格式保存于 ans0201.csv 文

件中。本题的赛前抽取参数是：数据文件 spider.log、需要保存于 ans0201.csv 文件的有

效数据项以及有效数据项的保存格式。

python /home/xipu/answer/ans0201.py

cat /home/xipu/answer/ans0201.csv

2、网页 “http://movie.shtimes.com/FilmId/ ”中包含观众对电影的评分信息，请编写程序

抓取网页（网页样本保存于 task0202 目录中）上电影的评分信息并计算其统计信息

（统计方法指对某部电影的评分求极值或求平均值），本题的赛前抽取参数是统计方法

以及网页样本，请参赛学生将本题的答案保存于 ans0202.txt 文件中，注意 ans0202.txt

文件中只能包含一个浮点型数字，保留 4 位小数，文件样例如下：

1.2345

任务三、本阶段的任务是：film_log3.csv 中包含了来自不同城市中多个影院的电影票房信息，

你的小组通过编程完成对文件 film_log3.csv 中电影信息数据的清洗和整理，并完成数据计算、

分析和表达任务。（20 分）

本竞赛任务的赛前抽取参数是：电影名称 A、B、C 和地名 M 市、N 市以及数据文件

film_log3.csv，选手可在竞赛环境的 arg0300.txt 文件中获得 A、B、C、M、N 的值。本阶段

任务，需要参赛学生提交每个小题涉及到的所有 ansXXXX.jpg、ansXXXX.py、ansXXXX.dat 文

件（XXXX 相关指数字，xx 任务编码：03.第 3、4 位编码 XX 为賽题的编码 01、02、03、04

等）。

1、编程统计并输出影片 A 的上映天数和日平均票房（日平均票房指文件中的所有涉及城市

总平均票房），程序源代码保存成 ans0301.py，并将结果保存于 ans0301.dat，要求

ans0301.dat 只包含 1 个 long 型数据和一个 1 个浮点型数据，浮点数据以万元为单位，

保留 6 位小数，2 个数以英文逗号分隔，不换行，文件样例如下：

123, 23.123456

下载后可阅读完整内容，剩余4页未读，立即下载

柠檬当药

粉丝: 0
资源: 1

Python大数据处理：数据清洗与可视化实战

全国职业院校技能大赛高职组”大数据“项目比赛资料

大数据试题及答案.doc

2017高职大数据赛真题及参考答案

阿里大数据acp 题库

大数据面试题2023

大数据面试题v3.0 pdf

hadoop 大数据选择题库

华为ict大赛大数据初赛试题

史上最全大数据面试题v3.1

大数据spark试题

最新资源