没有合适的资源?快使用搜索试试~ 我知道了~
首页SPSS教程-聚类分析-附实例操作
SPSS教程-聚类分析-附实例操作
需积分: 26 133 下载量 99 浏览量
更新于2023-03-16
评论 9
收藏 1.78MB PDF 举报
SPSS教程-聚类分析-附实例操作 SPSS教程-聚类分析-附实例操作 SPSS教程-聚类分析-附实例操作 SPSS教程-聚类分析-附实例操作
资源详情
资源评论
资源推荐
各地区各行业工资水平的分析 (2009 年数据 )
小组成员:张艺伟、赵月、陈媛、邹莉、朱海龙、曾磊、胡瑛、候银萍
1. 研究背景及意义
1.1 研究背景
工资水平是指一定区域和一定时间内劳动者平均收入的高低程度。生产决定分配,只有经济发
展才能提供更多的可分配的社会产品,因此一个地区的工资水平在一定程度上反映了其经济发展的
水平。
1.2 研究意义
1. 通过多元统计分析方法,探究一个地区的工资水平与其经济发展水平之间的内在联系。
2. 将平均工资水平划分为 3 类,分析哪些地区、哪些行业的工资水平较高,可以为大学生就业提供
宏观上的方向指引。
2. 数据来源与描述
2.1 数据来源——《中国劳动统计年鉴─ 2010》
(URL:http://tongji.cnki.net/Navi/YearBook.aspx?id=N2011010069&floor=1### )
主编单位:国家统计局人口和就业统计司,人力资源和社会保障部规划财务司
出版社:中国统计出版社
简介:《中国劳动统计年鉴 ─2010》是一部全面反映中华人民共和国劳动经济情况的资料性年刊。
本刊收集了 2009年全国和各省、自治区、直辖市、香港特别行政区、澳门特别行政区的有关劳动统
计数据。本书资料的取得形式主要有国家和部门的报表统计、行政记录和抽样调查。
2.2 数据描述
本数据集记录了全国 31 个省市(港、澳、台除外)的工资状况,各省市分别记录了其 23个主要
行业的平均工资水平,这 23个主要行业包括:企业、事业、机关、金融业、制造业、建筑业、房地
产业、农林牧渔业等等,具体数据格式参见图 -0。
图-0
3. 分析方法及原理
3.1 通过描述统计分析方法,判断哪些行业平均工资水平较高
描述统计分析方法主要是从基本统计量 (诸如均值、 方差、 标准差、 极大 / 小值、 偏度、峰度等)
的计算和描述开始的, 并辅助于 SPSS提供的图形功能, 能够把握数据的基本特征和整体的分布特征。
在本案例中,通过比较不同行业(诸如企业、事业、 机关、建筑业、制造业 ,, )工资的均值、
极大 /小值,可以从总体上判断哪些行业的平均工资水平较高,哪些行业的较低。
3.2 通过聚类分析方法,判断哪些地区平均工资水平较高
聚类分析是依据研究对象的个体特征,对其进行分类的方法,分类在经济、管理、社会学、医
学等领域,都有广泛的应用。聚类分析能够将一批样本(或变量)数据根据其诸多特征,按照在性
质上的亲疏程度在没有先验知识的情况下进行自动分类,产生多个分类结果。类内部个体特征之间
具有相似性,不同类间个体特征的差异性较大。
在本案例中,我们将采用两种方法进行聚类分析:一种是系统聚类法,另一种是 K-均值法(快
速聚类法)。
3.2.1 系统聚类法
系统聚类法的基本原理: 首先将一定数量的样本或指标各自看成一类, 然后根据样本 (或指标)
的亲疏程度,将亲疏程度最高的两类进行合并,然后考虑合并后的类与其他类之间的亲疏程度,再
进行合并。重复这一过程,直到将所有的样本(或指标)合并为一类。
系统聚类分为 Q 型聚类和 R 型聚类两种: Q 型聚类是对样本进行聚类,它使具有相似特征的样
本聚集在一起,使差异性大的样本分离开来; R 型聚类是对变量进行聚类,它使差异性大的变量分
离开来,相似的变量聚集在一起,这样就可以在相似变量中选择少数具有代表性的变量参与其他分
析,实现减少变量个数、降低变量维度的目的。
在本例中进行的是 Q 型聚类。
类与类之间距离的计算方法主要有以下几种:
(1) 最短距离法( Nearest Neighbor ),是指两类之间每个个体距离的最小值;
(2) 最长距离法( Farthest Neighbor ),是指两类之间每个个体距离的最大值;
(3) 组间联接法( Between-groups Linkage ),是指两类之间个体之间距离的平均值;
(4) 组内联接( Within-groups Linkage ),是指把两类所有个体之间的距离都考虑在内;
(5) 重心距离法( Centroid clustering ),是指两个类中心点之间的距离;
(6) 离差平方和法 (Ward 法),同类样品的离差平方和应当较小, 类与类之间的离差平方和应当
较大。
3.2.2 K-均值法(快速聚类法)
K-均值法(又称快速聚类法) ,是由 MacQueen 于 1967 年提出的,它将数据看成 K 维空间上的
点,以距离作为测度个体 “亲疏程度” 的指标, 并通过牺牲多个解为代价换得高的执行效率。 但是,
K-均值法只能产生指定类数的聚类结果,而类数的确定离不开实践经验的积累。
快速聚类分析的基本思想是:首先按照一定方法选取一批凝聚点(聚心) ,再让样本向最近的
凝聚点凝聚,形成初始分类,然后再按最近距离原则修改不合理的分类,直到合理为止。因此,在
快速聚类中,应首先要求用户自行给出需要聚成多少类,最终也只能输出关于它的唯一解。快速聚
类是一个反复迭代的分类过程, 在聚类过程中, 样本所属的类会不断调整, 直到最终达到稳定为止。
4. 实验操作与结果分析
4.1 描述统计分析方法
在数据编辑窗口的主菜单中选择“分析 (A) ”→“描述统计”→“描述性分析 (D) ”(如图 -1),
图-1
打开如下对话框,将左侧框中的所有变量选入右侧框中,如图 -2所示,单击“选项 (O) ”按钮,
图-2
在“选项”对话框中选择所需要分析的统计量,包括均值、标准差、极大值、极小值,如图 -3
所示。
图-3
点击“确定”按钮之后,分析结果如下表 -1所示:
表-1 描述统计量
N 极小值 极大值 均值 标准差
企业 31 22000 62046 30869.10 8680.069
非农企业 31 24788 62098 31787.84 8385.740
事业 31 25021 68371 35282.77 11732.956
机关 31 26668 74734 39085.10 13350.591
农_林_牧_渔业 31 8841 45925 19413.84 7964.071
采矿业 31 22846 66138 38030.74 11461.961
制造业 31 21242 48207 26453.74 5509.114
电力 _燃气及水的生产和供应业 31 29605 86262 44113.10 14812.450
建筑业 31 16583 69131 25769.23 10063.993
交通运输 _仓储和邮政业 31 25797 56955 35202.77 7353.178
信息传输 _计算机服务和软件业 31 22347 105413 47303.87 18924.379
批发和零售业 31 16263 60260 26534.19 9705.925
住宿和餐饮业 31 13577 38040 19263.71 5071.244
金融业 31 31466 180816 62972.65 32341.917
房地产业 31 15993 57052 28447.45 8900.469
租赁和商务服务业 31 17671 57585 26310.61 9099.037
科学研究 _技术服务和地质勘查业 31 26465 81358 43211.35 14388.981
水利 _环境和公共设施管理业 31 15977 49251 24446.45 7464.077
居民服务和其他服务业 31 16257 53696 25369.58 7297.780
教育 31 26578 66960 36765.42 10879.537
卫生 _社会保障和社会福利业 31 22556 73544 36058.87 12136.386
文化体育和娱乐业 31 22649 71034 35008.90 12451.214
公共管理和社会组织 31 25577 69425 38001.94 12356.391
有效的 N (列表状态) 31
输出结果分析:
分析描述统计量的输出结果可知, 平均工资水平较高的三个行业分别是金融业 (62972.65 元),
信息传输 _计算机服务和软件业( 47303.87 元),电力 _燃气及水的生产和供应业( 44113.10 元);平
均工资水平较低的三个行业分别是住宿和餐饮业( 19263.71 元),农 _林_牧_渔业( 19413.84 元),
水利 _环境和公共设施管理业( 24446.45 元)。从极大值和极小值方面分析,在所有行业中,极大值
最大的行业是金融业( 180816 元),极小值最小的行业是农 _林_牧_渔业( 8841 元)。
4.2 聚类分析——系统聚类法
在数据编辑窗口的主菜单中选择“分析 (A) ”→“分类 (F)”→“系统聚类 (H) ”(如图 -4所示) ,
图-4
弹出“系统聚类分析”对话框,将“地区”变量选入“标注个案 (C)”中,将其他变量选入“变
量框”中,如图 -5 所示。在“分群”单选框中选中“个案” ,表示进行的是 Q 型聚类。在“输出”
复选框中选中“统计量”和“图” ,表示要输出的结果包含以上两项。
图-5
剩余22页未读,继续阅读
普通网友
- 粉丝: 0
- 资源: 3
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- 数据结构1800题含完整答案详解.doc
- 医疗企业薪酬系统设计与管理方案.pptx
- 界面与表面技术界面理论与表面技术要点PPT学习教案.pptx
- Java集合排序及java集合类详解(Collection、List、Map、Set)讲解.pdf
- 网页浏览器的开发 (2).pdf
- 路由器原理与设计讲稿6-交换网络.pptx
- 火电厂锅炉过热汽温控制系统设计.doc
- 企业识别CIS系统手册[收集].pdf
- 物业管理基础知识.pptx
- 第4章财务预测.pptx
- 《集成电路工艺设计及器件特性分析》——实验教学计算机仿真系.pptx
- 局域网内共享文件提示没有访问权限的问题借鉴.pdf
- 第5章网络营销策略.pptx
- 固井质量测井原理PPT教案.pptx
- 毕业实习总结6篇.doc
- UGNX建模基础篇草图模块PPT学习教案.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论0