线性不可分样本分类:聚类分析与近似解探索

需积分: 32 9 下载量 93 浏览量 更新于2024-08-20 收藏 4.45MB PPT 举报
该资源主要探讨了在面对线性不可分样本集时如何进行分类,特别是在线性感知器无法给出精确解的情况下,如何通过取平均权向量来获得近似解。同时,还提到了聚类分析,尤其是系统聚类和分解聚类法的基本思想。此外,还涉及到分类决策的风险和期望风险的概念,以及样本向量的概率密度函数和多维正态分布的应用。 在实际的分类问题中,线性可分的情况相对较少,更多的情况是样本集线性不可分。对于这类问题,传统的感知器算法可能无法收敛找到完美的分类边界。然而,通过取训练过程中循环得到的权向量的平均值,或者选取其中一个权向量,可以得到一个相对满意的近似分类结果。 分类决策时,我们关注的是条件风险R(aj|x),它反映了对样本x采取决策αj所带来的风险。期望风险R是这些条件风险在整个特征空间上的平均值,体现了平均情况下的决策风险。样本向量的概率密度函数P(x)在概率论和统计学中扮演重要角色,特别是在估计类条件概率密度时,常假设样本数据符合多维正态分布。 聚类分析是无监督学习的一种方法,用于将数据集划分成不同的组,使组内的数据相似度高,而组间的相似度低。系统聚类是从所有数据属于同一类开始,逐步分裂为更小的类,直至每个样本独立为一类。另一方面,分解聚类则是从每个样本独立为一类开始,逐渐合并成更大的类,直至达到满意的分类结构。 资源中还提及了一分为二的聚类策略,即每次将一个聚类分成两个子聚类,直至达到预定的聚类目标。cophenet系数是衡量聚类结果好坏的一个指标,代表了聚类树(cophenetic tree)中两样本之间的距离与其原始数据集中对应样本间距离的关联程度。此外,资源还讨论了物理特征和数学特征在机器学习中的应用,以及在一维空间中两类概率密度函数完全分开和重叠的两种极端情况。 最后,资源提及了神经元结构的相关术语,如细胞体(soma/cell body)、树突(dendrite)和轴突(axon),这些都是神经网络模型的基础元素,它们在神经信息处理中分别负责信号的产生、接收和传递。