特征形成与聚类分析:从原始特征到决策风险

需积分: 32 9 下载量 115 浏览量 更新于2024-08-20 收藏 4.45MB PPT 举报
该资源是一份关于特征形成和聚类分析的PPT,结合编程实践,探讨了在模式识别系统中如何从样本中提取特征以及聚类方法的应用。内容涉及特征形成的概念、条件风险的计算、聚类算法的类型以及不同类型的特征。 在特征形成的过程中,首先会接触到一些训练样本,领域专家和系统工程师共同分析这些样本,以确定能够描述模式类别的特征信息。这一阶段的目标是获取尽可能多的特征,即使其中一些可能不满足分类需求。通过对样例的分析,得到一组原始特征,它们是用于描述观察对象的特征值,但并不保证所有特征都具备区分性。 在分类任务中,条件风险(R(aj|x))反映了针对样本x采取决策αj的风险,而期望风险(R)则是考虑所有样本x的平均风险。在特征空间中,样本向量的概率密度函数(P(x))是独立于类别号的,而决策或行动(a(x))是一个随机变量,对应于特征空间的不同决策区域。聚类方法,如系统聚类和分解聚类,旨在通过样本之间的相似性来组织数据,系统聚类是从多个类别逐渐减少,而分解聚类则相反,从单一类别逐步分裂。 聚类分析中的一种常见算法是一分为二的方法,它将一个聚类分解为两个子聚类,递归地进行下去,直到达到满意的分类结果。cophenet系数是用来衡量聚类结果的相似度的指标。此外,特征可以分为物理和结构特征(直观但难以量化)和数学特征(适合机器处理)。图5.1展示了两类概率密度函数完全分离和完全重叠的情况,这对于理解分类决策的难度非常有帮助。 资源还提到了神经元的组成部分,如细胞体(soma)、树突(dendrite)和轴突(axon),这在神经网络和生物信息学领域中是重要的概念,虽然它们不是直接的特征形成或聚类分析的组成部分,但它们对于理解复杂系统的表示和处理方式是有价值的。 这份PPT深入浅出地介绍了特征形成的关键步骤和聚类分析的多种方法,是学习模式识别和数据挖掘领域的宝贵资料。通过编程实践,学习者可以更好地理解和应用这些理论知识。