用python语言在乳腺癌数据集上应用Logistic回归进行预测并分析
时间: 2024-02-03 14:13:52 浏览: 27
好的,下面是一个简单的乳腺癌数据集预测与分析的Python代码。我们将使用sklearn库中的逻辑回归模型来预测。
首先,我们需要加载数据集并对它进行一些预处理。我们将使用`load_breast_cancer()`函数来加载数据集,然后将数据集分成训练和测试集。
```python
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
# 加载乳腺癌数据集
data = load_breast_cancer()
# 将数据集分成训练和测试集
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42)
```
接下来,我们将使用逻辑回归模型来训练数据并进行预测。我们将使用`LogisticRegression()`函数来创建一个逻辑回归模型,并使用`fit()`函数来训练模型。然后我们将使用`predict()`函数来对测试集进行预测。
```python
from sklearn.linear_model import LogisticRegression
# 创建逻辑回归模型
model = LogisticRegression()
# 训练模型
model.fit(X_train, y_train)
# 对测试集进行预测
y_pred = model.predict(X_test)
```
最后,我们将使用一些指标来评估模型的性能。我们将使用`accuracy_score()`函数来计算模型的准确度,并使用`confusion_matrix()`函数来计算混淆矩阵。
```python
from sklearn.metrics import accuracy_score, confusion_matrix
# 计算模型的准确度
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
# 计算混淆矩阵
cm = confusion_matrix(y_test, y_pred)
print("Confusion matrix:\n", cm)
```
完整代码如下:
```python
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix
# 加载乳腺癌数据集
data = load_breast_cancer()
# 将数据集分成训练和测试集
X_train, X_test, y_train, y_test = train_test_split(data.data, data.target, test_size=0.2, random_state=42)
# 创建逻辑回归模型
model = LogisticRegression()
# 训练模型
model.fit(X_train, y_train)
# 对测试集进行预测
y_pred = model.predict(X_test)
# 计算模型的准确度
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
# 计算混淆矩阵
cm = confusion_matrix(y_test, y_pred)
print("Confusion matrix:\n", cm)
```
输出结果为:
```
Accuracy: 0.956140350877193
Confusion matrix:
[[39 4]
[ 1 70]]
```
可以看出,在测试集上,我们的模型达到了95.6%的准确度。混淆矩阵也显示出模型的预测效果良好。