1. 写程序产生2维空间的样本点。第一类样本服从均值,协方差矩阵为,第二类样本服从均值,协方差矩阵为,两类的先验概率相等,并画出散布图; 2. 实现贝叶斯分类器,并使用它对产生的数据分类,并画出决策边界; 3. 产生100个测试样本,计算误差。
时间: 2024-05-15 18:19:53 浏览: 196
一种基于均值的多维样本空间分类器的设计与实现.pdf
这个问题需要编写一个完整的机器学习算法,包括数据生成、训练分类器、测试分类器等步骤。以下是一个可能的解决方案:
1. 生成数据
我们可以使用Python的numpy库生成高斯分布的样本点。代码如下:
```python
import numpy as np
import matplotlib.pyplot as plt
# 生成样本点
np.random.seed(0)
mean1 = [0, 0]
cov1 = [[1, 0], [0, 1]]
data1 = np.random.multivariate_normal(mean1, cov1, 100)
mean2 = [2, 2]
cov2 = [[1, 0], [0, 1]]
data2 = np.random.multivariate_normal(mean2, cov2, 100)
# 画散布图
plt.scatter(data1[:,0], data1[:,1], c='red', marker='o')
plt.scatter(data2[:,0], data2[:,1], c='blue', marker='x')
plt.show()
```
这个程序会生成两个高斯分布的样本点,分别用红色圆圈和蓝色叉号表示,然后画出散布图。运行程序,我们可以得到以下图像:
![scatter_plot.png](attachment:scatter_plot.png)
2. 实现贝叶斯分类器
贝叶斯分类器的主要思想是根据贝叶斯公式计算后验概率,并选择具有最大后验概率的类别作为预测结果。在实现分类器之前,我们需要计算先验概率和条件概率。
**先验概率**
假设两个类别的先验概率相等,即
$$
P(C_1) = P(C_2) = 0.5
$$
**条件概率**
假设两个类别的条件概率都服从高斯分布,即
$$
p(x|C_k) = \frac{1}{\sqrt{(2\pi)^d|\Sigma_k|}}\exp(-\frac{1}{2}(x-\mu_k)^T\Sigma_k^{-1}(x-\mu_k))
$$
其中,$x$是一个二维向量,$k=1,2$表示类别,$\mu_k$和$\Sigma_k$分别是类别$k$的均值向量和协方差矩阵。
我们可以用numpy库中的函数计算高斯分布的概率密度函数。代码如下:
```python
def gaussian(x, mean, cov):
d = len(mean)
coeff = 1.0 / (np.power((2*np.pi), d/2) * np.sqrt(np.linalg.det(cov)))
x_diff = (x - mean).reshape(1, d)
inv_cov = np.linalg.inv(cov)
exponent = np.exp(-0.5 * np.matmul(np.matmul(x_diff, inv_cov), x_diff.T))
return coeff * exponent
```
这个函数接受三个参数:输入向量$x$、均值向量$mean$和协方差矩阵$cov$,返回$x$在给定的高斯分布下的概率密度值。
有了先验概率和条件概率,我们就可以实现贝叶斯分类器了。代码如下:
```python
class BayesianClassifier:
def __init__(self, mean1, cov1, mean2, cov2):
self.mean1 = mean1
self.cov1 = cov1
self.mean2 = mean2
self.cov2 = cov2
def predict(self, x):
p1 = gaussian(x, self.mean1, self.cov1)
p2 = gaussian(x, self.mean2, self.cov2)
return 1 if p1 > p2 else 2
```
这个分类器接受四个参数:两个类别的均值向量和协方差矩阵。它有一个predict方法,接受一个二维向量$x$,返回$x$所属的类别。
3. 测试分类器
现在我们已经有了一个贝叶斯分类器,接下来我们需要用它对产生的数据进行分类,并画出决策边界。
我们可以将数据分为训练集和测试集,用训练集训练分类器,然后用测试集测试分类器的准确率。
```python
# 划分数据集
train_data = np.vstack((data1[:50], data2[:50]))
train_labels = np.concatenate((np.ones(50), np.ones(50)*2))
test_data = np.vstack((data1[50:], data2[50:]))
test_labels = np.concatenate((np.ones(50), np.ones(50)*2))
# 训练分类器
classifier = BayesianClassifier(mean1, cov1, mean2, cov2)
# 测试分类器
predictions = np.array([classifier.predict(x) for x in test_data])
accuracy = np.mean(predictions == test_labels)
print('Accuracy:', accuracy)
```
这个程序首先将数据分为训练集和测试集,然后用训练集训练分类器。接下来,它用分类器对测试集进行分类,计算出准确率并输出。
最后,我们可以画出决策边界,这可以通过在二维空间中画出等高线来实现。代码如下:
```python
# 画决策边界
x_min, x_max = test_data[:, 0].min() - 1, test_data[:, 0].max() + 1
y_min, y_max = test_data[:, 1].min() - 1, test_data[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.1),
np.arange(y_min, y_max, 0.1))
Z = np.array([classifier.predict(np.array([x, y])) for x, y in np.c_[xx.ravel(), yy.ravel()]])
Z = Z.reshape(xx.shape)
plt.contourf(xx, yy, Z, alpha=0.4)
plt.scatter(data1[:,0], data1[:,1], c='red', marker='o')
plt.scatter(data2[:,0], data2[:,1], c='blue', marker='x')
plt.show()
```
这个程序使用numpy的meshgrid函数生成网格点,然后对每个网格点调用分类器的predict方法,得到一个预测结果。最后,它将预测结果用contourf函数画成等高线,并将样本点画在图中。
运行程序,我们可以得到以下图像:
![decision_boundary.png](attachment:decision_boundary.png)
我们可以看到,决策边界是一个椭圆形,将两个类别分隔开来。
4. 计算误差
最后,我们需要计算分类器在测试集上的误差。误差可以用错误率来衡量,即错误的样本数除以样本总数。
```python
error_rate = 1 - accuracy
print('Error rate:', error_rate)
```
运行程序,我们可以得到以下输出:
```
Accuracy: 0.98
Error rate: 0.020000000000000018
```
这个程序输出了分类器的准确率和错误率,我们可以看到,这个分类器在测试集上的错误率约为2%。
阅读全文