2.请读取租房数据原始文件zfsj_group.csv, 请对面积(㎡)列数据进行预处理,去掉“平米”单位,并设置该列数据为np.float64数据类型。输出处理后的数据为zfsj1_after.csv文件。 (2) 请对“户型”列数据进行预处理,将所有的“房间”字符修改为“室”字符。例如3房间1卫修改为3室1厅。输出处理后的数据为zfsj2_after.csv文件。 (3)对"户型"列数据统计,筛选出数量大于50的户型,按数量降序,输出户型数量排名的结果为zfsj3_after.csv文件 import numpy as np
时间: 2024-02-17 13:00:27 浏览: 157
yolov5s nnie.zip
以下是Python代码实现:
```python
import pandas as pd
import numpy as np
# 读取原始数据文件
data = pd.read_csv('zfsj_group.csv')
# 对面积列数据进行预处理
data['面积(㎡)'] = data['面积(㎡)'].str.replace('平米', '').astype(np.float64)
# 输出处理后的数据为zfsj1_after.csv文件
data.to_csv('zfsj1_after.csv', index=False)
# 对户型列数据进行预处理
data['户型'] = data['户型'].str.replace('房间', '室')
# 输出处理后的数据为zfsj2_after.csv文件
data.to_csv('zfsj2_after.csv', index=False)
# 对户型列数据统计,筛选出数量大于50的户型,按数量降序
result = data['户型'].value_counts()
result = result[result > 50]
result.sort_values(ascending=False, inplace=True)
# 输出户型数量排名的结果为zfsj3_after.csv文件
result.to_csv('zfsj3_after.csv', index=True, header=['户型数量'])
```
解释一下代码:
首先,我们使用 Pandas 库的 read_csv() 方法读取原始数据文件 zfsj_group.csv,并将其存储在名为 data 的 DataFrame 中。
然后,我们对面积列数据进行预处理,使用 str.replace() 方法去掉“平米”单位,并使用 astype() 方法将该列数据转换为 np.float64 数据类型。
接着,我们将处理后的数据输出为 zfsj1_after.csv 文件,使用 to_csv() 方法,并设置 index=False,表示不输出行索引。
接下来,我们对户型列数据进行预处理,使用 str.replace() 方法将所有的“房间”字符修改为“室”字符。
然后,我们将处理后的数据输出为 zfsj2_after.csv 文件,使用 to_csv() 方法,并设置 index=False,表示不输出行索引。
最后,我们对户型列数据进行统计,使用 value_counts() 方法获取各个户型的数量。然后,我们筛选出数量大于50的户型,使用 sort_values() 方法按数量降序排列,并将结果输出为 zfsj3_after.csv 文件,使用 to_csv() 方法。注意:这里我们设置了 index=True,表示输出行索引。同时,我们也设置了 header=['户型数量'],表示输出的列名为“户型数量”。
阅读全文