首页机器学习中使用糖尿病数据集训练岭回归模型1.导入糖尿病数据集(代码和结果截图) 1.1观察数据集的字段 1.2观察数据集的分布 1.3缺失值检测 2.训练集和测试集的数据集划分

机器学习中使用糖尿病数据集训练岭回归模型1.导入糖尿病数据集(代码和结果截图) 1.1观察数据集的字段 1.2观察数据集的分布 1.3缺失值检测 2.训练集和测试集的数据集划分

时间: 2024-05-29 22:12:33 浏览: 240

1.1 导入糖尿病数据集并观察字段 ``` from sklearn.datasets import load_diabetes diabetes = load_diabetes() print(diabetes.feature_names) ``` 输出结果： ``` ['age', 'sex', 'bmi', 'bp', 's1', 's2', 's3', 's4', 's5', 's6'] ``` 1.2 观察数据集的分布 ``` import pandas as pd df = pd.DataFrame(diabetes.data, columns=diabetes.feature_names) df.hist(figsize=(12, 10)) ``` 输出结果： ![diabetes_distribution](https://user-images.githubusercontent.com/52498280/136820308-8b9d2454-4f4b-4b4d-8c90-ff74a2b2e1ae.png) 1.3 缺失值检测 ``` df.isnull().sum() ``` 输出结果： ``` age 0 sex 0 bmi 0 bp 0 s1 0 s2 0 s3 0 s4 0 s5 0 s6 0 dtype: int64 ``` 可以看出该数据集中没有缺失值。 2. 训练集和测试集的数据集划分 ``` from sklearn.model_selection import train_test_split X = diabetes.data y = diabetes.target X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42) ```

阅读全文