Linux作业：处理北京PM2.5数据

需积分: 0 83 浏览量更新于2024-08-05 收藏 478KB PDF 举报

该资源是关于Linux环境下的一个作业，主要任务是处理和解析与北京PM2.5相关的网页数据。学生需要从指定网站抓取并解析数据，包括监测地点、PM2.5指数以及相关时间信息。在这个过程中，他们需要掌握和运用`sed`和`awk`等命令行工具来完成数据的筛选、替换和格式化。在实验准备阶段，学生首先找到一个提供北京PM2.5数据的网站，并通过浏览器的开发者工具分析HTML结构，确定所需数据的位置。他们使用`wget`命令下载网页内容，并用`cat`命令查看下载的HTML文件。实验步骤分为四个部分： 1. 替换标签：利用`sed`命令删除HTML中的所有标签，将HTML内容转换成纯文本，方便后续处理。命令示例：`sed -e 's/<[^<>]*>//g'` 2. 处理日期：通过`sed`命令将"年"和"月"替换为"-"，形成符合日期格式的字符串。命令示例：`sed -e 's/<[^<>]*>//g' -e 's/[年月]/-/g'` 3. 处理PM2.5数据并打印：编写一个名为`flow.awk`的`awk`脚本，用于提取含有“更新：”和“m³”的行中的关键数据，如日期、时间以及PM2.5指数，并打印出来。 4. 整理最终数据：使用更多的`sed`命令对数据进行进一步处理，如删除“更新：”、“日”、“时”字样，以及替换“ug/m³”为空，同时将“时”替换为“:00:00”，确保数据格式正确。命令示例：`sed -e 's/μg.m?//g' -e 's/[更新：日]//g' -e 's/时/:00:00/g'` 最终，通过组合这些命令，可以得到一个完整的命令链，用于从原始HTML文件中提取出所需的信息并格式化输出。这个作业旨在锻炼学生的Linux命令行操作技能，特别是对`sed`和`awk`这两个强大的文本处理工具的运用，同时也强调了数据分析和网页抓取的基本方法。通过这个作业，学生可以提升自己的数据处理能力，为今后处理类似问题打下坚实基础。

Linux作业一

学号：2018211582

班级：2018211314

姓名：李志毅

一、实验准备

搜索含有北京PM2.5的网站，找到网址为http://www.86pm25.com/city/beijing.html，网址含有的

元素如下：

使用F12观察网址HTML5结构，发现我们需要的数据存放在tr和td标签中，含有监测地点，PM2.5

指数，在网站上部分标签中含有需要的时间数据

下载后可阅读完整内容，剩余4页未读，立即下载

MsingD

粉丝: 42
资源: 296

Linux作业：处理北京PM2.5数据

Linux作业控制与进程管理

Linux作业控制详解：从后台到前台的切换

Linux作业指南：配置密码、文件操作及用户管理

Linux作业1.docx

linux作业11

linux作业21

Linux作业.zip

Linux作业内核编译

Linux作业.pdf

Linux作业一：熟练使用文件目录类命令.docx

最新资源