本次实验利用某爬虫软件爬取某房产网站中苏州地区的房产数据,数据文件为house.xlsx,部分数据显示如下。 house.png (1)爬取数据时,数据缺失是常见的现象,通过某爬虫软件从网站爬取的数据时,如果没有爬取到的数据会返回“暂无数据”,这会影响后期的空值处理。将这些“暂无数据”转换为空值,并统计各列的空值频数,查看缺失数据情况。¶
时间: 2024-02-01 13:16:36 浏览: 151
Python实现爬取亚马逊数据并打印出Excel文件操作示例
5星 · 资源好评率100%
首先,我们需要读取数据文件并将所有的“暂无数据”转换为空值。可以使用 pandas 库来完成这个任务。代码如下:
```python
import pandas as pd
# 读取数据文件
df = pd.read_excel('house.xlsx')
# 将“暂无数据”转换为空值
df.replace('暂无数据', '', inplace=True)
# 统计各列的空值频数
print(df.isnull().sum())
```
上述代码中,`read_excel()` 函数用来读取数据文件,`replace()` 函数将所有的“暂无数据”替换为空值,`isnull()` 函数用来判断每个单元格是否为空值,`sum()` 函数用来统计空值的数量。
运行上述代码后,会输出每列空值的数量。根据输出结果,我们可以看到每个字段的缺失情况。
阅读全文