没有合适的资源?快使用搜索试试~ 我知道了~
首页spss因子分析的基本步骤和概念分析
spss因子分析的基本步骤和概念分析
5星 · 超过95%的资源 需积分: 50 91 下载量 54 浏览量
更新于2023-03-03
评论 5
收藏 589KB DOC 举报
材料主要是关于spss数据分析的相关内容,其中较为重点地介绍了因子分析这一章,即spss因子分析的基本步骤和概念分析。
资源详情
资源评论
资源推荐
因子分析的基本概念和步骤
一、因子分析的意义
在研究实际问题时往往希望尽可能多地收集相关变量,以期望能对问题有比较全面 、
完整的把握和认识。例如,对高等学校科研状况的评价研究,可能会搜集诸如投入科研
活动的人数、立项课题数、项目经费、经费支出、结项课题数、发表论文数、发表专著
数、获得奖励数等多项指标;再例如,学生综合评价研究中,可能会搜集诸如基础课成
绩、专业基础课成绩、专业课成绩、体育等各类课程的成绩以及累计获得各项奖学金的
次数等。虽然收集这些数据需要投入许多精力,虽然它们能够较为全面精确地描述事物 ,
但在实际数据建模时,这些变量未必能真正发挥预期的作用,“投入”和“产出”并非呈合
理的正比,反而会给统计分析带来很多问题,可以表现在:
计算量的问题
由于收集的变量较多,如果这些变量都参与数据建模,无疑会增加分析过程中的计
算工作量。虽然,现在的计算技术已得到了迅猛发展,但高维变量和海量数据仍是不容
忽视的。
变量间的相关性问题
收集到的诸多变量之间通常都会存在或多或少的相关性。例如,高校科研状况评价
中的立项课题数与项目经费、经费支出等之间会存在较高的相关性;学生综合评价研究
中的专业基础课成绩与专业课成绩、获奖学金次数等之间也会存在较高的相关性。而变
量之间信息的高度重叠和高度相关会给统计方法的应用带来许多障碍。例如,多元线性
回归分析中,如果众多解释变量之间存在较强的相关性,即存在高度的多重共线性,那
么会给回归方程的参数估计带来许多麻烦,致使回归方程参数不准确甚至模型不可用等 。
类似的问题还有很多。
为了解决这些问题,最简单和最直接的解决方案是削减变量的个数,但这必然又会
导致信息丢失和信息不完整等问题的产生。为此,人们希望探索一种更为有效的解决方
法,它既能大大减少参与数据建模的变量个数,同时也不会造成信息的大量丢失。因子
分析正式这样一种能够有效降低变量维数,并已得到广泛应用的分析方法。
因子分析的概念起源于 20 世纪初 Karl Pearson 和 Charles Spearmen 等人关于智力测
验的统计分析。目前,因子分析已成功应用于心理学、医学、气象、地址、经济学等领
域,并因此促进了理论的不断丰富和完善。
因子分析以最少的信息丢失为前提,将众多的原有变量综合成较少几个综合指标,
名为因子。通常,因子有以下几个特点:
因子个数远远少于原有变量的个数
原有变量综合成少数几个因子之后,因子将可以替代原有变量参与数据建模,这将
大大减少分析过程中的计算工作量。
因子能够反映原有变量的绝大部分信息
因子并不是原有变量的简单取舍,而是原有变量重组后的结果,因此不会造成原有
变量信息的大量丢失,并能够代表原有变量的绝大部分信息。
因子之间的线性关系并不显著
由原有变量重组出来的因子之间的线性关系较弱,因子参与数据建模能够有效地解
决变量多重共线性等给分析应用带来的诸多问题。
因子具有命名解释性
通常,因子分析产生的因子能够通过各种方式最终获得命名解释性。因子的命名解
释性有助于对因子分析结果的解释评价,对因子的进一步应用有重要意义。例如,对高
校科研情况的因子分析中,如果能够得到两个因子,其中一个因子是对科研人力投入、
经费投入、立项项目数等变量的综合,而另一个是对结项项目数、发表论文数、获奖成
果数等变量的综合,那么,该因子分析就是较为理想的。因为这两个因子均有命名可解
释性,其中一个反映了科研投入方面的情况,可命名为科研投入因子,另一个反映了科
研产出方面的情况,可命名为科研产出因子。
总之,因子分析是研究如何以最少的信息丢失将众多原有变量浓缩成少数几个因子 ,
如何使因子具有一定的命名解释性的多元统计分析方法。
二、因子分析的基本概念
1、因子分析模型
因子分析模型中,假定每个原始变量由两部分组成:共同因子(common factors)
和唯一因子(unique factors)。共同因子是各个原始变量所共有的因子,解释变量之间
的相关关系。唯一因子顾名思义是每个原始变量所特有的因子,表示该变量不能被共同
因子解释的部分。原始变量与因子分析时抽出的共同因子的相关关系用因子负荷
(factor loadings)表示。
因子分析最常用的理论模式如下:
(j=1,2,3…,n,n 为原始变量总数)
可以用矩阵的形式表示为 。其中 F 称为因子,由于它们出现在每个原始
变量的线性表达式中(原始变量可以用 表示,这里模型中实际上是以 F 线性表示各
个原始变量的标准化分数 ),因此又称为公共因子。因子可理解为高维空间中互相
垂直的 m 个坐标轴,A 称为因子载荷矩阵, 称为因子载荷,
是第 j 个原始变量在第 i 个因子上的负荷。如果把变量 看成 m 维因子空间中的一个向
量,则 表示 在坐标轴 上的投影,相当于多元线性回归模型中的标准化回归系
数;U 称为特殊因子,表示了原有变量不能被因子解释的部分,其均值为 0,相当于多
元线性回归模型中的残差。
其中,
(1) 为第 j 个变量的标准化分数;
(2) (i=1,2,…,m)为共同因素;
(3)m 为所有变量共同因素的数目;
(4) 为变量 的唯一因素;
(5) 为因素负荷量。
2、因子分析数学模型中的几个相关概念
因子载荷(因素负荷量 factor loadings)
所谓的因子载荷就是因素结构中,原始变量与因素分析时抽取出共同因素的相关。
可以证明,在因子不相关的前提下,因子载荷 是变量 和因子 的相关系数,反
映了变量 与因子 的相关程度。因子载荷 值小于等于 1,绝对值越接近 1,表明
因子 与变量 的相关性越强。同时,因子载荷 也反映了因子 对解释变量
的重要作用和程度。因子载荷作为因子分析模型中的重要统计量,表明了原始变量和共
同因子之间的相关关系。因素分析的理想情况,在于个别因素负荷量 不是很大就是
很小,这样每个变量才能与较少的共同因素产生密切关联,如果想要以最少的共同因素
数来解释变量间的关系程度,则 彼此间或与共同因素间就不能有关联存在。一般说
来,负荷量为 0.3 或更大被认为有意义。所以,当要判断一个因子的意义时,需要查看
哪些变量的负荷达到了 0.3 或 0.3 以上。
变量共同度(共同性,Communality)
变量共同度也就是变量方差,就是指每个原始变量在每个共同因子的负荷量的平方
和,也就是指原始变量方差中由共同因子所决定的比率。变量的方差由共同因子和唯一
因子组成。共同性表明了原始变量方差中能被共同因子解释的部分,共同性越大,变量
能被因子说明的程度越高,即因子可解释该变量的方差越多。共同性的意义在于说明如
果用共同因子替代原始变量后,原始变量的信息被保留的程度。因子分析通过简化相关
矩阵,提取可解释相关的少数因子。一个因子解释的是相关矩阵中的方差,而解释方差
的大小称为因子的特征值。一个因子的特征值等于所有变量在该因子上的负荷值的平方
总和。变量 的共同度 的数学定义为: ,该式表明变量 的共同度是
因子载荷矩阵 A 中第 j 行元素的平方和。由于变量 的方差可以表示成 ,因
此变量 的方差可由两个部分解释:第一部分为共同度 ,是全部因子对变量 方
差解释说明的比例,体现了因子全体对变量 的解释贡献程度。变量共同度 越接近
1,说明因子全体解释说明了变量 的较大部分方差,如果用因子全体刻画变量 ,
则变量 的信息丢失较少;第二部分为特殊因子 U 的平方,反应了变量 方差中不能
由因子全体解释说明的比例, 越小则说明变量 的信息丢失越少。
总之,变量 d 共同度刻画了因子全体对变量 信息解释的程度,是评价变量 信
息丢失程度的重要指标。如果大多数原有变量的变量共同度均较高(如高于 0.8),则
说明提取的因子能够反映原有变量的大部分信息(80%以上)信息,仅有较少的信息丢
失,因子分析的效果较好。因子,变量共同度是衡量因子分析效果的重要依据。
因子的方差贡献(特征值 eigenvalue)
因子的方差贡献(特征值)的数学定义为: ,该式表明,因子 的方
差贡献是因子载荷矩阵 A 中第 i 列元素的平方和。因子 的方差贡献反映了因子 对
原有变量总方差的解释能力。该值越高,说明相应因子的重要性越高。因此,因子的方
差贡献和方差贡献率是衡量因子重要性的关键指标。
为了便于说明,以三个变量抽取两个共同因素为例,三个变量的线性组合分别为:
转换成因素矩阵如下:
变量
(共同因素一) (共同因素二)
共同性
( )
唯一因素
( )
特征值
解释量
所谓共同性,就是每个变量在每个共同因素之负荷量的平方总和(一横列中所有因
素负荷量的平方和),也就是个别变量可以被共同因素解释的变异量百分比,这个值是
个别变量与共同因素间多元相关的平方。从共同性的大小可以判断这个原始变量与共同
因素之间关系程度。而各变量的唯一因素大小就是 1 减掉该变量共同性的值。(在主成
分分析中,有多少个原始变量便有多少个“component”成分,所以共同性会等于 1,没有
唯一因素)。
至于特征值是每个变量在某一共同因素之因素负荷量的平方总和(一直行所有因素
负荷量的平方和)。在因素分析之共同因素抽取中,特征值大的共同因素会最先被抽取,
其次是次大者,最后抽取的共同因素之特征值最小,通常会接近 0(在主成分分析中,
有几个题项,便有几个成分,因而特征值的总和刚好等于变量的总数)。将每个共同因
素的特征值除以总题数,为此共同因素可以解释的变异量,因素分析的目的,即在因素
结构的简单化,希望以最少的共同因素,能对总变异量作最大的解释,因而抽取的因素
越少越好,但抽取因素之累积解释的变异量则越大越好。
3、社会科学中因素分析通常应用在三个层面:
(1)显示变量间因素分析的组型(pattern)
(2)侦测变量间之群组(clusters),每个群组所包括的变量彼此相关很高,同构
型较大,亦即将关系密切的个别变量合并为一个子群。
(3)减少大量变量数目,使之称为一组涵括变量较少的统计自变量(称为因素),
每个因素与原始变量间有某种线性关系存在,而以少数因素层面来代表多数、个别、独
立的变量。
因素分析具有简化数据变量的功能,以较少层面来表示原来的数据结构,它根据变
量间彼此的相关,找出变量间潜在的关系结构,变量间简单的结构关系称为“成份”
(components)或“因素”(factors).
三、因素分析的主要方式
围绕浓缩原有变量提取因子的核心目标,因子分析主要涉及以下五大基本步骤:
1、因子分析的前提条件
由于因子分析的主要任务之一是对原有变量进行浓缩,即将原有变量中的信息重叠
部分提取和综合成因子,进而最终实现减少变量个数的目的。因此它要求原有变量之间
应存在较强的相关关系。否则,如果原有变量相互独立,相关程度很低,不存在信息重
叠,它们不可能有共同因子,那么也就无法将其综合和浓缩,也就无需进行因子分析。
本步骤正是希望通过各种方法分析原有变量是否存在相关关系,是否适合进行因子分析。
SPSS 提供了四个统计量可帮助判断观测数据是否适合作因子分析:
(1)计算相关系数矩阵 Correlation Matrix
在进行提取因子等分析步骤之前,应对相关矩阵进行检验,如果相关矩阵中的大部
分相关系数小于 0.3,则不适合作因子分析;当原始变量个数较多时,所输出的相关系
数矩阵特别大,观察起来不是很方便,所以一般不会采用此方法或即使采用了此方法,
也不方便在结果汇报中给出原始分析报表。
(2)计算反映象相关矩阵 Anti-image correlation matrix
反映象矩阵重要包括负的协方差和负的偏相关系数。偏相关系数是在控制了其他变
量对两变量影响的条件下计算出来的净相关系数。如果原有变量之间确实存在较强的相
互重叠以及传递影响,也就是说,如果原有变量中确实能够提取出公共因子,那么在控
制了这些影响后的偏相关系数必然很小。
反 映 象 相 关 矩 阵 的 对 角 线 上 的 元 素 为 某 变 量 的 MSA ( Measure of Sample
Adequacy)统计量,其数学定义为:
,其中, 是变量 和其他变量 ( )间的简单相关
系数, 是变量 ( )在控制了剩余变量下的偏相关系数。由公式可知,某变量
的 统计量的取值在 0 和 1 之间。当它与其他所有变量间的简单相关系数平方和
远大于偏相关系数的平方和时, 值接近 1。 值越接近 1,意味变量 与其
他变量间的相关性越强;当它与其他所有变量间的简单相关系数平方和接近 0 时,
值接近 0。 值越接近 0,意味变量 与其他变量间的相关性越弱。
剩余20页未读,继续阅读
ding0803374
- 粉丝: 2
- 资源: 1
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
- SPC统计方法基础知识.pptx
- MW全能培训汽轮机调节保安系统PPT教学课件.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论3