2、打开记事本,根据课件关于城市温度的距离,自己创建数据集文件,存为csv文件,要求: 有坏行,有缺失值。 读取文件,处理坏行,缺失值分别用平均值、中位值替换,需要有运行结果输出。
时间: 2024-09-13 14:15:52 浏览: 38
首先,打开记事本创建数据集文件,你可以按照以下格式构建一个简单的CSV文件。这里的数据代表城市的温度记录,包括城市名和温度,数据之间使用逗号分隔。
```
城市,温度
北京,20
上海,21
广州,23
深圳,25
南京,22
武汉,21
重庆,24
西安,20.5
成都,21
济南,,
福州,21
长沙,20
杭州,22
```
在这个例子中,"济南"后面没有温度值,这就是一个缺失值。而整个文件的最后一行也可以被视为一个“坏行”,因为它缺少城市名称。
接下来,使用Python读取这个CSV文件并处理坏行和缺失值。以下是用Python的pandas库来完成这个任务的一个示例代码:
```python
import pandas as pd
# 创建数据框
df = pd.read_csv('city_temperature.csv')
# 打印原始数据
print("原始数据:")
print(df)
# 处理缺失值,这里以温度列为例,用平均值替换
df['温度'].fillna(df['温度'].mean(), inplace=True)
# 处理坏行,由于坏行在这里是缺少城市名称的行,所以用中位值替换
# 假设温度列的中位值是df['温度'].median()
df.fillna(df.median(), inplace=True)
# 打印处理后的数据
print("处理后的数据:")
print(df)
```
在运行上述代码后,你将看到原始数据集和处理后的数据集,缺失的温度值将被替换为该列的平均值,而坏行中的缺失值将被该行其他列的中位值替换。
阅读全文