将 Iris 数据集(只考虑前两个属性)按照3:2 的比例 划分训练集和测试集,然后采用 sklearn 中的 GaussianNB方法进行预测,并将结果可视化(画出散点 图和分割边界)
时间: 2024-12-16 08:31:48 浏览: 12
首先,为了完成这个任务,你需要安装必要的Python库,包括`scikit-learn`、`matplotlib`等。在安装完成后,你可以按照以下步骤操作:
1. 导入所需的库:
```python
import numpy as np
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.metrics import accuracy_score
import matplotlib.pyplot as plt
```
2. 加载Iris数据集并选择前两个属性(Sepal Length 和 Sepal Width):
```python
iris = datasets.load_iris()
X = iris.data[:, :2] # 只保留前两个特征
y = iris.target
```
3. 划分训练集和测试集,按3:2的比例:
```python
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.4, stratify=y, random_state=42)
```
注意这里用了`stratify`来保持类别间的比例在划分后的集合中也是一致的。
4. 训练Gaussian Naive Bayes模型:
```python
gnb = GaussianNB()
gnb.fit(X_train, y_train)
```
5. 进行预测,并计算准确率:
```python
y_pred = gnb.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Accuracy:", accuracy)
```
6. 绘制散点图和决策边界(假设二维数据):
```python
plt.scatter(X_train[:, 0], X_train[:, 1], c=y_train, cmap='viridis')
plt.title('Training Data with Decision Boundaries')
decision_boundary = [-1 * gnb.theta_[0, 0] / gnb.theta_[0, 1],
-1 * (gnb.theta_[0, 2] + gnb.sigma_[0, 0, 0]) / (gnb.theta_[0, 1])]
# 注意这里的公式适用于高斯朴素贝叶斯分类器的一维线性决策边界
plt.plot(decision_boundary[0], decision_boundary[1], 'k--', label="Decision Boundary")
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.legend()
plt.show()
# 对测试集进行同样的操作
plt.scatter(X_test[:, 0], X_test[:, 1], c=y_pred, cmap='viridis')
plt.title('Test Data with Predictions')
plt.xlabel('Feature 1')
plt.ylabel('Feature 2')
plt.legend()
plt.show()
```
以上就是按照3:2比例划分训练集和测试集,使用GaussianNB进行预测并可视化的整个过程。请注意,由于GaussianNB假设特征之间是独立正态分布的,实际应用中可能需要对数据预处理以满足这一条件。此外,在高维空间里,绘制真实决策边界可能不太直观,这里只是一个二维近似示例。
阅读全文