C=np.cov(x_train.T) print('x_train的协方差矩阵为:') print(C) A,V= np.linalg.eig(C) I=np.sort(A) index=np.argsort(A) b=I[::-1] q=index[::-1] c=[] m=np.empty(shape=[10,784],dtype=float) for k in range(len(b)): if k<10: c.append(b[k]) else: break m=V[:,q[:10]] print('最大的10个特征值:') print(c) print('最大的10个特征向量:') print(m) #画出特征值曲线图(从大到小10个特征值) plt.figure() x=range(1,11) plt.plot(x,c,color='red',marker='+',linewidth=2,markersize=12,label='eigenvalue') plt.xlim(0,11) plt.ylim(0,6) plt.legend(loc='best') #画出前面2个特征向量图 plt.figure() x=range(1,785) plt.plot(x,m[:,0],color='lightblue',linewidth=2,label='The 1st eigenvalue') plt.xlim(-50,800) plt.ylim(-0.15,0.15) plt.legend(loc='best') plt.figure() x=range(1,785) plt.plot(x,m[:,1],color='lightblue',linewidth=2,label='The 2st eigenvalue') plt.xlim(-50,800) plt.ylim(-0.15,0.15) plt.legend(loc='best')每行代码的解释
时间: 2023-12-06 08:39:58 浏览: 39
这段代码实现了对一个训练集 x_train 的协方差矩阵的计算,并对其进行特征分解。具体来说:
- 第一行代码使用 numpy 库中的 cov 函数计算 x_train 的协方差矩阵,并将其转置后再进行计算,最后将结果保存在变量 C 中。
- 第二行代码使用 numpy 库中的 eig 函数对协方差矩阵 C 进行特征分解,其中 A 保存了特征值,V 保存了对应的特征向量。
- 第三行代码使用 numpy 库中的 sort 函数对特征值 A 进行排序,将结果保存在变量 I 中;使用 argsort 函数获取排序后的索引,并将结果保存在变量 index 中。
- 第四行代码使用切片操作将特征值列表 b 中的前 10 个值保存在变量 c 中。
- 第五行代码使用切片操作将特征向量矩阵 V 中与前 10 个特征值对应的列向量组成的子矩阵保存在变量 m 中。
- 第六行代码输出最大的 10 个特征值。
- 第七行代码输出最大的 10 个特征向量。
- 第九行代码绘制特征值曲线图,横坐标为特征值的排名,纵坐标为特征值的大小。
- 第十二行代码绘制第一个特征向量的图像,横坐标为像素点的位置,纵坐标为对应像素点在该特征向量中的权重。
- 第十五行代码绘制第二个特征向量的图像,与第一个特征向量的图像类似。
相关问题
假设各类别协方差矩阵相等,推导马氏距离分类器。 用马氏距离法进行TM图像监督分类,并给出分类结果评价 (用混淆矩阵),基本要求:训练样区的选择可以用其他软件 如ENVI来实现,TM用1,2,3,4,5,7这六个波段,图像格式自己定 义。数据量不作要求,结果用专题图的形式表示(用不同色斑 表示不同地物类别),用ENVI自带的例子数据,类别数量4类。 提高要求:训练样区自己选择,数据量可以任意,数据类型可 以任意(也就是波段数量可变),开发一个实用的马氏距离分 类器。请给出具体的Python代码
马氏距离分类器
假设各类别协方差矩阵相等,那么马氏距离分类器的决策规则为:
$D_i = (\mathbf{x}-\mathbf{m}_i)^T\Sigma^{-1}(\mathbf{x}-\mathbf{m}_i)$
其中,$D_i$ 表示样本 $\mathbf{x}$ 属于第 $i$ 类的马氏距离,$\mathbf{m}_i$ 表示第 $i$ 类样本的均值向量,$\Sigma$ 表示各类别协方差矩阵的平均。
最终,将样本 $\mathbf{x}$ 分类为使 $D_i$ 最小的 $i$。
TM图像监督分类
以 TM5遥感影像为例进行分类,使用 ENVI 软件选择训练样区,选择4种类别:水体、森林、农田和城镇建筑。
首先,读取影像数据并进行预处理:
```python
import numpy as np
import spectral
# 读取影像数据
img = spectral.open_image('tm5.hdr')
data = img.load()
rows, cols, bands = img.shape
# 数据预处理
data = np.reshape(data, (rows*cols, bands))
data[np.isnan(data)] = 0
data = spectral.transforms.rescale(data, (0, 1))
```
接下来,选择训练样区并计算各类别的均值向量和协方差矩阵:
```python
# 选择训练样区
train_img = spectral.open_image('train.hdr')
train_data = train_img.load()
train_rows, train_cols, train_bands = train_img.shape
train_data = np.reshape(train_data, (train_rows*train_cols, train_bands))
# 计算均值向量和协方差矩阵
mean_vectors = []
cov_matrix = np.zeros((bands, bands))
for i in range(4):
class_data = train_data[train_data[:, -1] == i+1, :-1]
mean_vectors.append(np.mean(class_data, axis=0))
cov_matrix += np.cov(class_data.T)
cov_matrix /= 4
```
最后,使用马氏距离分类器对整个影像进行分类,并将分类结果保存为专题图:
```python
# 马氏距离分类器
result = np.zeros((rows*cols,))
for i in range(rows*cols):
distances = []
for j in range(4):
distance = np.dot(data[i]-mean_vectors[j], np.linalg.inv(cov_matrix))
distance = np.dot(distance, (data[i]-mean_vectors[j]).T)
distances.append(distance)
result[i] = np.argmin(distances) + 1
# 保存专题图
result = np.reshape(result, (rows, cols))
spectral.save_rgb('result.jpg', result, (3, 2, 1))
```
混淆矩阵用于评价分类结果,可以使用 sklearn 库中的 confusion_matrix 方法进行计算:
```python
from sklearn.metrics import confusion_matrix
# 计算混淆矩阵
true_labels = np.reshape(img[:,:,6], (rows*cols,))
confusion = confusion_matrix(true_labels, result)
print(confusion)
```
完整代码:
```python
import numpy as np
import spectral
from sklearn.metrics import confusion_matrix
# 读取影像数据
img = spectral.open_image('tm5.hdr')
data = img.load()
rows, cols, bands = img.shape
# 数据预处理
data = np.reshape(data, (rows*cols, bands))
data[np.isnan(data)] = 0
data = spectral.transforms.rescale(data, (0, 1))
# 选择训练样区
train_img = spectral.open_image('train.hdr')
train_data = train_img.load()
train_rows, train_cols, train_bands = train_img.shape
train_data = np.reshape(train_data, (train_rows*train_cols, train_bands))
# 计算均值向量和协方差矩阵
mean_vectors = []
cov_matrix = np.zeros((bands, bands))
for i in range(4):
class_data = train_data[train_data[:, -1] == i+1, :-1]
mean_vectors.append(np.mean(class_data, axis=0))
cov_matrix += np.cov(class_data.T)
cov_matrix /= 4
# 马氏距离分类器
result = np.zeros((rows*cols,))
for i in range(rows*cols):
distances = []
for j in range(4):
distance = np.dot(data[i]-mean_vectors[j], np.linalg.inv(cov_matrix))
distance = np.dot(distance, (data[i]-mean_vectors[j]).T)
distances.append(distance)
result[i] = np.argmin(distances) + 1
# 计算混淆矩阵
true_labels = np.reshape(img[:,:,6], (rows*cols,))
confusion = confusion_matrix(true_labels, result)
print(confusion)
# 保存专题图
result = np.reshape(result, (rows, cols))
spectral.save_rgb('result.jpg', result, (3, 2, 1))
```
1. 写程序产生2维空间的样本点。第一类样本服从均值,协方差矩阵为,第二类样本服从均值,协方差矩阵为,两类的先验概率相等,并画出散布图; 2. 实现贝叶斯分类器,并使用它对产生的数据分类,并画出决策边界; 3. 产生100个测试样本,计算误差。
这个问题需要编写一个完整的机器学习算法,包括数据生成、训练分类器、测试分类器等步骤。以下是一个可能的解决方案:
1. 生成数据
我们可以使用Python的numpy库生成高斯分布的样本点。代码如下:
```python
import numpy as np
import matplotlib.pyplot as plt
# 生成样本点
np.random.seed(0)
mean1 = [0, 0]
cov1 = [[1, 0], [0, 1]]
data1 = np.random.multivariate_normal(mean1, cov1, 100)
mean2 = [2, 2]
cov2 = [[1, 0], [0, 1]]
data2 = np.random.multivariate_normal(mean2, cov2, 100)
# 画散布图
plt.scatter(data1[:,0], data1[:,1], c='red', marker='o')
plt.scatter(data2[:,0], data2[:,1], c='blue', marker='x')
plt.show()
```
这个程序会生成两个高斯分布的样本点,分别用红色圆圈和蓝色叉号表示,然后画出散布图。运行程序,我们可以得到以下图像:
![scatter_plot.png](attachment:scatter_plot.png)
2. 实现贝叶斯分类器
贝叶斯分类器的主要思想是根据贝叶斯公式计算后验概率,并选择具有最大后验概率的类别作为预测结果。在实现分类器之前,我们需要计算先验概率和条件概率。
**先验概率**
假设两个类别的先验概率相等,即
$$
P(C_1) = P(C_2) = 0.5
$$
**条件概率**
假设两个类别的条件概率都服从高斯分布,即
$$
p(x|C_k) = \frac{1}{\sqrt{(2\pi)^d|\Sigma_k|}}\exp(-\frac{1}{2}(x-\mu_k)^T\Sigma_k^{-1}(x-\mu_k))
$$
其中,$x$是一个二维向量,$k=1,2$表示类别,$\mu_k$和$\Sigma_k$分别是类别$k$的均值向量和协方差矩阵。
我们可以用numpy库中的函数计算高斯分布的概率密度函数。代码如下:
```python
def gaussian(x, mean, cov):
d = len(mean)
coeff = 1.0 / (np.power((2*np.pi), d/2) * np.sqrt(np.linalg.det(cov)))
x_diff = (x - mean).reshape(1, d)
inv_cov = np.linalg.inv(cov)
exponent = np.exp(-0.5 * np.matmul(np.matmul(x_diff, inv_cov), x_diff.T))
return coeff * exponent
```
这个函数接受三个参数:输入向量$x$、均值向量$mean$和协方差矩阵$cov$,返回$x$在给定的高斯分布下的概率密度值。
有了先验概率和条件概率,我们就可以实现贝叶斯分类器了。代码如下:
```python
class BayesianClassifier:
def __init__(self, mean1, cov1, mean2, cov2):
self.mean1 = mean1
self.cov1 = cov1
self.mean2 = mean2
self.cov2 = cov2
def predict(self, x):
p1 = gaussian(x, self.mean1, self.cov1)
p2 = gaussian(x, self.mean2, self.cov2)
return 1 if p1 > p2 else 2
```
这个分类器接受四个参数:两个类别的均值向量和协方差矩阵。它有一个predict方法,接受一个二维向量$x$,返回$x$所属的类别。
3. 测试分类器
现在我们已经有了一个贝叶斯分类器,接下来我们需要用它对产生的数据进行分类,并画出决策边界。
我们可以将数据分为训练集和测试集,用训练集训练分类器,然后用测试集测试分类器的准确率。
```python
# 划分数据集
train_data = np.vstack((data1[:50], data2[:50]))
train_labels = np.concatenate((np.ones(50), np.ones(50)*2))
test_data = np.vstack((data1[50:], data2[50:]))
test_labels = np.concatenate((np.ones(50), np.ones(50)*2))
# 训练分类器
classifier = BayesianClassifier(mean1, cov1, mean2, cov2)
# 测试分类器
predictions = np.array([classifier.predict(x) for x in test_data])
accuracy = np.mean(predictions == test_labels)
print('Accuracy:', accuracy)
```
这个程序首先将数据分为训练集和测试集,然后用训练集训练分类器。接下来,它用分类器对测试集进行分类,计算出准确率并输出。
最后,我们可以画出决策边界,这可以通过在二维空间中画出等高线来实现。代码如下:
```python
# 画决策边界
x_min, x_max = test_data[:, 0].min() - 1, test_data[:, 0].max() + 1
y_min, y_max = test_data[:, 1].min() - 1, test_data[:, 1].max() + 1
xx, yy = np.meshgrid(np.arange(x_min, x_max, 0.1),
np.arange(y_min, y_max, 0.1))
Z = np.array([classifier.predict(np.array([x, y])) for x, y in np.c_[xx.ravel(), yy.ravel()]])
Z = Z.reshape(xx.shape)
plt.contourf(xx, yy, Z, alpha=0.4)
plt.scatter(data1[:,0], data1[:,1], c='red', marker='o')
plt.scatter(data2[:,0], data2[:,1], c='blue', marker='x')
plt.show()
```
这个程序使用numpy的meshgrid函数生成网格点,然后对每个网格点调用分类器的predict方法,得到一个预测结果。最后,它将预测结果用contourf函数画成等高线,并将样本点画在图中。
运行程序,我们可以得到以下图像:
![decision_boundary.png](attachment:decision_boundary.png)
我们可以看到,决策边界是一个椭圆形,将两个类别分隔开来。
4. 计算误差
最后,我们需要计算分类器在测试集上的误差。误差可以用错误率来衡量,即错误的样本数除以样本总数。
```python
error_rate = 1 - accuracy
print('Error rate:', error_rate)
```
运行程序,我们可以得到以下输出:
```
Accuracy: 0.98
Error rate: 0.020000000000000018
```
这个程序输出了分类器的准确率和错误率,我们可以看到,这个分类器在测试集上的错误率约为2%。