Fisher判别法与SPSS聚类分析实战

需积分: 4 15 下载量 110 浏览量 更新于2024-08-23 收藏 1.67MB PPT 举报
本文主要介绍了Fisher判别法和SPSS软件在聚类分析与判别分析中的应用。 Fisher判别法是一种先投影的方法,主要用于处理两类样本的判别分析问题。当数据集中存在两个预测变量时,该方法通过寻找最佳投影方向,使两类样本在新坐标轴上能最大程度地分离。在示例中,数据点被表示为两类,一类由38个点(标记为“o”)组成,另一类由44个点(标记为“*”)组成。由于原始变量下的数据分布难以区分两类,Fisher判别法寻找一条虚拟直线(即最佳投影方向),使得两类点在该方向上的投影能够最好地区分开。这种方法的优势在于,它可以通过投影后的距离来构建判别准则,从而有效地将两类样本区分开。 SPSS软件提供了聚类分析和判别分析的功能。聚类分析是一种根据个体间相似性进行分类的方法,分为样品聚类和变量聚类。样品聚类是基于观测量(案例)的相似性来分组,例如选拔运动员或组织课外活动小组;而变量聚类则旨在找出一组独立且具有代表性的自变量,以减少信息丢失,如在批量生产中确定衣服或鞋子的尺寸标准。判别分析则是在已知个体特征变量值和类别的情况下,通过建立判别函数来预测未知类别的个体归属,如动物学家对动物分类的研究。 在SPSS中,聚类分析和判别分析可以通过Analyze菜单下的Classify子菜单实现。具体操作包括: 1. K-Means Cluster用于观测量的快速聚类分析。 2. Hierarchical Cluster执行分层聚类,支持观测量聚类和变量聚类。 3. Discriminant则是进行判别分析的过程。 快速样本聚类过程QuickCluster采用k均值算法,用户可以设置聚类的数量、初始类中心以及是否保存中间结果。例如,分析运动员的数据并将其分为4类,可以使用Analyze -> Classify -> K-Means Cluster,然后选择变量x1, x2, x3,不指定Label Case By,设置Number of Clusters为4,最终查看Final Cluster Centers(最终聚类中心)和Numb(每类的观测量数目)等关键结果。 Fisher判别法和SPSS的聚类分析工具在理解和处理分类问题时提供强大支持,广泛应用于各种领域的数据分析。