特征选择与可分性判据：基于类的概率密度

下载需积分: 10 | PPT格式 | 1.95MB | 更新于2024-08-19 | 151 浏览量 | 举报

"本章节主要探讨了特征提取和选择在模式识别中的重要性，特别是基于类的概率密度函数的可分性判据，如J-Bhattacharyya判据和离散K-L变换的应用。特征选择的目标是找到对分类识别最有效的低维特征子集，以最大化类间距离和最小化类内距离。文中提到了两种基本方法：直接选择法和变换法。直接选择法是在固定的特征数目下，从原始特征中挑选最佳特征子集；而变换法则通过坐标变换来寻找最优子空间。类别可分性判据是评估特征对分类贡献的关键，它应与误判概率有单调关系，并在特征独立时具有可加性。" 在模式识别领域，特征提取与选择是至关重要的步骤，它直接影响到分类识别的准确性和效率。特征选择的目的是从原始特征中找出最具区分性的子集，以减少冗余信息，降低计算复杂性，同时保持或提高分类性能。在描述中提到的7.2.2基于类的概率密度函数的可分性判据，例如J-Bhattacharyya判据，是一种衡量不同类别概率分布重叠程度的指标，它在最小误判概率准则下被用来评估特征的可分性。 J-Bhattacharyya判据（Bhattacharyya coefficient）是通过计算两个概率密度函数的积分乘积来度量它们的相似度。在分类问题中，如果这个值越小，说明两类之间的概率密度函数越不重叠，即特征的可分性越好。其计算公式是通过将两个概率密度函数相乘然后积分，再取指数和负号，从而得到一个介于0和1之间的值，0表示完全分离，1表示完全重合。另外，离散K-L变换（Discrete Karhunen-Loève Transform, DKLT）在特征提取和选择中也有广泛应用，它是一种正交变换，能够将高维数据转换成一组线性无关的特征向量，这些特征向量可以捕获数据的主要变异性。DKLT在压缩感知和图像处理等领域中非常有用，因为它能有效地减少数据维度，同时保留大部分信息。特征选择的方法多样，包括直接选择法和变换法。直接选择法是直接从原始特征中选择d个特征，使得某种可分性判据（如J-Bhattacharyya判据）达到最大。而变换法则通过非线性变换，如主成分分析（PCA）或奇异值分解（SVD），将原始特征映射到新的子空间，以优化判据值。在特征提取与选择的过程中，我们需要考虑以下几点： 1. **类别可分性**：选择能最大化类间距离和最小化类内距离的特征。 2. **计算复杂性**：所选特征应能降低计算成本，提高算法效率。 3. **特征相关性**：独立的特征通常能提供更好的分类效果，因此判据需要反映这一特性。 4. **数据冗余**：避免选择高度相关的特征，以减少信息冗余。特征提取与选择是模式识别的关键环节，通过有效的特征选择策略，可以显著提升分类器的性能，同时降低计算资源的需求。

展开