机器学习中使用糖尿病数据集训练岭回归模型1.导入糖尿病数据集(代码和结果截图) 1.1观察数据集的字段 1.2观察数据集的分布 1.3缺失值检测 2.训练集和测试集的数据集划分
时间: 2024-05-29 22:12:33 浏览: 240
1.1 导入糖尿病数据集并观察字段
```
from sklearn.datasets import load_diabetes
diabetes = load_diabetes()
print(diabetes.feature_names)
```
输出结果:
```
['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6']
```
1.2 观察数据集的分布
```
import pandas as pd
df = pd.DataFrame(diabetes.data, columns=diabetes.feature_names)
df.hist(figsize=(12, 10))
```
输出结果:
![diabetes_distribution](https://user-images.githubusercontent.com/52498280/136820308-8b9d2454-4f4b-4b4d-8c90-ff74a2b2e1ae.png)
1.3 缺失值检测
```
df.isnull().sum()
```
输出结果:
```
age 0
sex 0
bmi 0
bp 0
s1 0
s2 0
s3 0
s4 0
s5 0
s6 0
dtype: int64
```
可以看出该数据集中没有缺失值。
2. 训练集和测试集的数据集划分
```
from sklearn.model_selection import train_test_split
X = diabetes.data
y = diabetes.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
```
阅读全文