给出线性判别分析算法中的投影向量推导过程
时间: 2023-11-10 17:32:07 浏览: 124
线性判别分析(Linear Discriminant Analysis,LDA)的目标是将数据投影到一个低维子空间中,以便于分类。投影向量的求解过程如下:
1. 计算类内散度矩阵Sw和类间散度矩阵Sb:
类内散度矩阵Sw表示同一类别内部数据点的变化程度,可以通过下式计算:
Sw = Σi=1k Σx∈Ci (x - mi) (x - mi)T
其中,k表示类别数,Ci表示第i个类别的数据点集合,mi表示第i个类别的均值向量。
类间散度矩阵Sb表示不同类别之间的差异程度,可以通过下式计算:
Sb = Σi=1k Ni (mi - m) (mi - m)T
其中,Ni表示第i个类别的数据点个数,m表示所有数据点的均值向量。
2. 计算Sw的逆矩阵Sw-1:
由于Sw可能是奇异矩阵,因此需要进行逆矩阵的计算。可以使用Moore-Penrose伪逆或者SVD等方法求解。
3. 计算Sw-1Sb的特征向量:
将Sw-1Sb矩阵分解为特征值和特征向量,选择前k个特征向量作为投影向量,其中k表示降维后的维度。
4. 将数据投影到投影向量上:
将原始数据点x投影到选取的k个特征向量上,得到降维后的数据点y:
y = WTx
其中,W为选取的k个特征向量组成的矩阵,x为原始数据点。
相关问题
给出线性判别分析算法中的投影向量推导过程,并给出一种投影后数据的分界面表达式
线性判别分析算法的投影向量推导过程如下:
1. 计算各类别样本的均值向量 $m_i$,总体均值向量 $m$,以及类内散布矩阵 $S_w$ 和类间散布矩阵 $S_b$。
2. 计算广义特征值问题 $S_w^{-1}S_b \mathbf{w} = \lambda \mathbf{w}$ 的特征向量 $\mathbf{w}$ 和对应的特征值 $\lambda$。
3. 对特征向量进行归一化处理,得到投影向量。
投影后数据的分界面表达式为:
$y(\mathbf{x}) = \mathbf{w}^T\mathbf{x}$
其中,$\mathbf{w}$ 为投影向量,$\mathbf{x}$ 为待分类样本向量,$y(\mathbf{x})$ 为分类决策函数,当 $y(\mathbf{x}) > \theta$ 时,将 $\mathbf{x}$ 分类为正类,否则分类为负类。其中,$\theta$ 为决策阈值,可以通过训练数据确定。
给出线性判别分析算法中的投影向量推导过程,并给出一种投影后数据的分界面表达式?
线性判别分析算法中的投影向量推导过程如下:
1. 计算每个类别的均值向量(mean vector)。
2. 计算总体内散度矩阵(within-class scatter matrix):
$S_W = \sum_{i=1}^{c} \sum_{x\in X_i} (x - \mu_i) (x - \mu_i)^T$
其中,$c$ 表示类别数,$X_i$ 表示第 $i$ 个类别的样本集合,$\mu_i$ 表示第 $i$ 个类别的均值向量。
3. 计算总体间散度矩阵(between-class scatter matrix):
$S_B = \sum_{i=1}^{c} N_i (\mu_i - \mu) (\mu_i - \mu)^T$
其中,$N_i$ 表示第 $i$ 个类别的样本数量,$\mu$ 表示总体的均值向量,$\mu = \frac{1}{n} \sum_{i=1}^{n} x_i$,$n$ 表示总体样本数量。
4. 计算投影向量 $w$:
$w = S_W^{-1} (\mu_1 - \mu_2)$
其中,$S_W^{-1}$ 表示总体内散度矩阵的逆矩阵,$\mu_1$ 和 $\mu_2$ 分别表示两个类别的均值向量。
5. 投影后的数据点 $y$ 的坐标为:
$y = w^T x$
其中,$x$ 表示原始数据点的坐标。
6. 分界面表达式为:
$y = w^T x = w^T (\mu_1+\mu_2)/2$
即,投影后的数据点在投影向量上的坐标等于两个类别均值向量的平均值在投影向量上的坐标。对于二分类问题,可以将该分界面作为分类器的决策边界,将投影后的数据点根据它们在分界面上的位置分为两类。