机器学习项目实战——04逻辑回归算法之糖尿病预测项目代码及解释
时间: 2024-10-21 08:15:58 浏览: 1
在机器学习项目实战中,利用逻辑回归算法进行糖尿病预测是一个常见的入门案例。逻辑回归通常用于二分类问题,如疾病诊断或用户行为预测。这里我们假设有一个数据集包含患者的各项指标,目标是预测某人是否患有糖尿病。
以下是简单的Python代码示例,使用scikit-learn库中的LogisticRegression类:
```python
# 导入所需库
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score, confusion_matrix
# 加载数据
data = pd.read_csv('diabetes.csv') # 假设数据文件名
# 数据预处理
X = data.drop('Outcome', axis=1) # X是特征,'Outcome'是目标变量
y = data['Outcome']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 特征缩放
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)
# 创建并训练模型
model = LogisticRegression()
model.fit(X_train, y_train)
# 预测
y_pred = model.predict(X_test)
# 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
cm = confusion_matrix(y_test, y_pred)
print(f"Accuracy: {accuracy}")
print("Confusion Matrix:\n", cm)
```
这个过程包括数据加载、划分训练集和测试集、特征缩放(对数值型特征进行标准化)、模型训练、预测以及最后评估模型的准确性和混淆矩阵。
阅读全文