波士顿数据集提取,并进行数据预处理代码
时间: 2024-05-10 19:14:57 浏览: 128
波士顿数据集是一个经典的回归问题数据集,包含了506个样本,每个样本有13个特征,目标变量是房价(单位为千美元)。下面是提取并进行数据预处理的代码示例:
```python
from sklearn.datasets import load_boston
import pandas as pd
import numpy as np
from sklearn.preprocessing import StandardScaler
# 加载波士顿数据集
boston = load_boston()
# 将数据集转换为 pandas DataFrame 格式
data = pd.DataFrame(boston.data, columns=boston.feature_names)
data['target'] = boston.target
# 进行数据预处理
# 1. 缺失值处理
data = data.dropna()
# 2. 特征标准化
scaler = StandardScaler()
data[boston.feature_names] = scaler.fit_transform(data[boston.feature_names])
# 3. 目标变量标准化
data['target'] = scaler.fit_transform(np.array(data['target']).reshape(-1, 1))
# 输出处理后的数据集
print(data.head())
```
上述代码中,首先使用 `load_boston` 函数加载波士顿数据集,然后将数据集转换为 pandas DataFrame 格式。接着进行数据预处理,包括缺失值处理、特征标准化和目标变量标准化。最后输出处理后的数据集。
阅读全文