没有合适的资源?快使用搜索试试~ 我知道了~
首页多元分析模型matlab
资源详情
资源评论
资源推荐
-582-
第二十六章 多元分析
多元分析(multivariate analysis)是多变量的统计分析方法,是数理统计中应用广
泛的一个重要分支,其内容庞杂,视角独特,方法多样,深受工程技术人员的青睐和广
泛使用,并在使用中不断完善和创新。
§1 聚类分析
将认识对象进行分类是人类认识世界的一种重要方法,比如有关世界的时间进程
的研究,就形成了历史学,有关世界空间地域的研究,则形成了地理学。又如在生物学
中,为了研究生物的演变,需要对生物进行分类,生物学家根据各种生物的特征,将它
们归属于不同的界、门、纲、目、科、属、种之中。事实上,分门别类地对事物进行研
究,要远比在一个混杂多变的集合中更清晰、明了和细致,这是因为同一类事物会具有
更多的近似特性。在企业的经营管理中,为了确定其目标市场,首先要进行市场细分。
因为无论一个企业多么庞大和成功,它也无法满足整个市场的各种需求。而市场细分,
可以帮助企业找到适合自己特色,并使企业具有竞争力的分市场,将其作为自己的重点
开发目标。
通常,人们可以凭经验和专业知识来实现分类。而聚类分析(cluster analysis)作
为一种定量方法,将从数据分析的角度,给出一个更准确、细致的分类工具。
1.1 相似性度量
1.1.1 样本的相似性度量
要用数量化的方法对事物进行分类,就必须用数量化的方法描述事物之间的相似
程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用
p
个
变量描述,则每个样本点可以看成是
p
R
空间中的一个点。因此,很自然地想到可以用
距离来度量样本点间的相似程度。
记
Ω
是样本点集,距离
),( ⋅⋅d
是
+
→Ω×Ω R 的一个函数,满足条件:
1)
0),( ≥yxd , Ω∈yx, ;
2) 0),( =yxd 当且仅当
y
x
= ;
3)
),(),( xydyxd =
,
Ω
∈yx,
;
4)
),(),(),( yzdzxdyxd +≤ ,
Ω
∈
zyx ,, 。
这一距离的定义是我们所熟知的,它满足正定性,对称性和三角不等式。在聚类
分析中,对于定量变量,最常用的是 Minkowski 距离
q
p
k
q
kkq
yxyxd
1
1
),(
⎥
⎦
⎤
⎢
⎣
⎡
−=
∑
=
,
0>q
当
2,1=q 或
+
∞→q
时,则分别得到
1)绝对值距离
∑
=
−=
p
k
kk
yxyxd
1
1
),( , (1)
2)欧氏距离
2
1
1
2
2
),(
⎥
⎦
⎤
⎢
⎣
⎡
−=
∑
=
p
k
kk
yxyxd , (2)
-583-
3)Chebyshev 距离
kk
pk
yxyxd −=
≤≤
∞
1
max),( 。 (3)
在 Minkowski 距离中,最常用的是欧氏距离,它的主要优点是当坐标轴进行正交
旋转时,欧氏距离是保持不变的。因此,如果对原坐标系进行平移和旋转变换,则变换
后样本点间的距离和变换前完全相同。
值得注意的是在采用 Minkowski 距离时,一定要采用相同量纲的变量。如果变量
的量纲不同,测量值变异范围相差悬殊时,建议首先进行数据的标准化处理,然后再计
算距离。在采用 Minkowski 距离时,还应尽可能地避免变量的多重相关性
(multicollinearity)。多重相关性所造成的信息重叠,会片面强调某些变量的重要性。
由于 Minkowski 距离的这些缺点,一种改进的距离就是马氏距离,定义如下
4)马氏(Mahalanobis)距离
)()(),(
1
yxyxyxd
T
−Σ−=
−
(4)
其中
y
x
, 为来自
p
维总体
Z
的样本观测值,
Σ
为
Z
的协方差矩阵,实际中 Σ 往往是不
知道的,常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的,故不受量
纲的影响。
此外,还可采用样本相关系数、夹角余弦和其它关联性度量作为相似性度量。近年
来随着数据挖掘研究的深入,这方面的新方法层出不穷。
1.1.2 类与类间的相似性度量
如果有两个样本类
1
G 和
2
G ,我们可以用下面的一系列方法度量它们间的距离:
1)最短距离法(nearest neighbor or single linkage method)
)},({min),(
2
1
21 ji
Gy
Gx
yxdGGD
j
i
∈
∈
= , (5)
它的直观意义为两个类中最近两点间的距离。
2)最长距离法(farthest neighbor or complete linkage method)
)},({max),(
2
1
21 ji
Gy
Gx
yxdGGD
j
i
∈
∈
= , (6)
它的直观意义为两个类中最远两点间的距离。
3)重心法(centroid method)
),(),(
21
yxdGGD = , (7)
其中
y
x
, 分别为
21
,GG
的重心。
4)类平均法(group average method)
∑∑
∈∈
=
12
),(
1
),(
21
21
GxGx
ji
ij
xxd
nn
GGD , (8)
它等于
21
,GG
中两两样本点距离的平均,式中
21
,nn
分别为
21
,GG
中的样本点个数。
5)离差平方和法(sum of squares method)
若记
∑
∈
−−=
1
)()(
111
Gx
i
T
i
i
xxxxD
,
∑
∈
−−=
2
)()(
222
Gx
j
T
j
j
xxxxD ,
∑
∈
−−=
21
)()(
12
GGx
k
T
k
k
xxxxD
U
,
-584-
其中
∑
∈
=
1
1
1
1
Gx
i
i
x
n
x
,
∑
∈
=
2
2
2
1
Gx
j
j
x
n
x ,
∑
∈
+
=
21
21
1
GGx
k
k
x
nn
x
U
则定义
211221
),( DDDGGD −−=
(9)
事实上,若
21
,GG 内部点与点距离很小,则它们能很好地各自聚为一类,并且这两类
又能够充分分离(即
12
D 很大),这时必然有
2112
DDDD
−
−
=
很大。因此,按定义可
以认为,两类
21
,GG
之间的距离很大。离差平方和法最初是由 Ward 在 1936 年提出,
后经 Orloci 等人 1976 年发展起来的,故又称为 Ward 方法。
1.2 系统聚类法
1.2.1 系统聚类法的功能与特点
系统聚类法是聚类分析方法中最常用的一种方法。它的优点在于可以指出由粗到细
的多种分类情况,典型的系统聚类结果可由一个聚类图展示出来。
例如,在平面上有 7 个点
721
,,, www L (如图 1(a)),可以用聚类图(如图 1(b))
来表示聚类结果。
图 1 聚类方法示意图
记 },,,{
721
www L=Ω ,聚类结果如下:当距离值为
5
f 时,分为一类
},,,,,,{
76543211
wwwwwwwG = ;
距离值为
4
f 分为两类:
},,{
3211
wwwG = , },,,{
76542
wwwwG
=
;
距离值为
3
f 分为三类:
},,{
3211
wwwG = , },,{
6542
wwwG
=
, }{
73
wG
=
;
距离值为
2
f 分为四类:
},,{
3211
wwwG = , },{
542
wwG
=
, }{
63
wG
=
, }{
74
wG
=
距离值为
1
f 分为六类:
},{
541
wwG = , }{
12
wG = , }{
23
wG
=
, }{
34
wG
=
, }{
65
wG
=
, }{
76
wG =
距离小于
1
f 分为七类,每一个点自成一类。
怎样才能生成这样的聚类图呢?步骤如下:设
},,,{
721
www L
=
Ω
,
1)计算
n 个样本点两两之间的距离 }{
ij
d ,记为矩阵
nnij
dD
×
=
)( ;
2)首先构造
n 个类,每一个类中只包含一个样本点,每一类的平台高度均为零;
-585-
3)合并距离最近的两类为新类,并且以这两类间的距离值作为聚类图中的平台高
度;
4)计算新类与当前各类的距离,若类的个数已经等于 1,转入步骤 5),否则,回
到步骤 3);
5)画聚类图;
6)决定类的个数和类。
显而易见,这种系统归类过程与计算类和类之间的距离有关,采用不同的距离定
义,有可能得出不同的聚类结果。
1.2.2 最短距离法与最长距离法
如果使用最短距离法来测量类与类之间的距离,即称其为系统聚类法中的最短距离
法(又称最近邻法),最先由 Florek 等人 1951 年和 Sneath1957 年引入。下面举例说明
最短距离法的计算步骤。
例 1 设有 5 个销售员
54321
,,,, wwwww ,他们的销售业绩由二维变量 ),(
21
vv 描述,
见表 1。
表 1 销售员业绩表
销售员
1
v (销售量)百件
2
v (回收款项)万元
1
w
1 0
2
w
1 1
3
w
3 2
4
w
4 3
5
w
2 5
记销售员
)5,4,3,2,1( =iw
i
的销售业绩为 ),(
21 ii
vv 。如果使用绝对值距离来测量点
与点之间的距离,使用最短距离法来测量类与类之间的距离,即
∑
=
−=
2
1
),(
k
jkikji
vvwwd , )},({min),(
ji
Gw
Gw
qp
wwdGGD
qj
pi
∈
∈
=
由距离公式
),( ⋅⋅d ,可以算出距离矩阵。
⎥
⎥
⎥
⎥
⎥
⎥
⎦
⎤
⎢
⎢
⎢
⎢
⎢
⎢
⎣
⎡
0
40
420
5530
66410
5
4
3
2
1
54321
w
w
w
w
w
wwwww
第一步,所有的元素自成一类
},,,,{
543211
wwwwwH
=
。每一个类的平台高度为
零,即
)5,4,3,2,1(0)( == iwf
i
。显然,这时 ),(),(
qpqp
wwdGGD
=
。
第二步,取新类的平台高度为 1,把
21
,ww 合成一个新类
6
h ,此时的分类情况是
},,,{
54362
wwwhH =
第三步,取新类的平台高度为 2,把
43
,ww 合成一个新类
7
h ,此时的分类情况是
-586-
},,{
5763
whhH
=
第四步,取新类的平台高度为 3,把
76
,hh 合成一个新类
8
h ,此时的分类情况是
},{
584
whH
=
第五步,取新类的平台高度为 4,把
8
h 和
5
w 合成一个新类
9
h ,此时的分类情况是
}{
95
hH
=
图 2 最短距离法
这样,
9
h 已把所有的样本点聚为一类,因此,可以转到画聚类图步骤。画出聚类
图(如图 2(a))。这是一颗二叉树,如图 2(b)。
有了聚类图,就可以按要求进行分类。可以看出,在这五个推销员中
5
w 的工作成
绩最佳,
43
,ww 的工作成绩较好,而
21
,ww 的工作成绩较差。
完全类似于以上步骤,但以最长距离法来计算类间距离,就称为系统聚类法中的
最长距离法。
计算的 MATLAB 程序如下:
clc,clear
a=[1,0;1,1;3,2;4,3;2,5];
[m,n]=size(a);
d=zeros(m);
for i=1:m
for j=i+1:m
d(i,j)=mandist(a(i,:),a(j,:)');
%求第一个矩阵的行向量与第二个矩阵的列向量之间对应的绝对值距离
end
end
d
nd=nonzeros(d); %去掉d中的零元素,非零元素按列排列
nd=union(nd,nd) %去掉重复的非零元素
for i=1:m-1
nd_min=min(nd);
[row,col]=find(d==nd_min);tm=union(row,col); %row和col归为一类
tm=reshape(tm,1,length(tm)); %把数组tm变成行向量
fprintf('第%d次合成,平台高度为%d时的分类结果为:%s\n',...
i,nd_min,int2str(tm));
nd(find(nd==nd_min))=[]; %删除已经归类的元素
if length(nd)==0
break
end
end
或者使用MATLAB统计工具箱的相关命令,编写如下程序:
剩余91页未读,继续阅读
扬州小子
- 粉丝: 2
- 资源: 32
上传资源 快速赚钱
- 我的内容管理 收起
- 我的资源 快来上传第一个资源
- 我的收益 登录查看自己的收益
- 我的积分 登录查看自己的积分
- 我的C币 登录后查看C币余额
- 我的收藏
- 我的下载
- 下载帮助
会员权益专享
最新资源
- zigbee-cluster-library-specification
- JSBSim Reference Manual
- c++校园超市商品信息管理系统课程设计说明书(含源代码) (2).pdf
- 建筑供配电系统相关课件.pptx
- 企业管理规章制度及管理模式.doc
- vb打开摄像头.doc
- 云计算-可信计算中认证协议改进方案.pdf
- [详细完整版]单片机编程4.ppt
- c语言常用算法.pdf
- c++经典程序代码大全.pdf
- 单片机数字时钟资料.doc
- 11项目管理前沿1.0.pptx
- 基于ssm的“魅力”繁峙宣传网站的设计与实现论文.doc
- 智慧交通综合解决方案.pptx
- 建筑防潮设计-PowerPointPresentati.pptx
- SPC统计过程控制程序.pptx
资源上传下载、课程学习等过程中有任何疑问或建议,欢迎提出宝贵意见哦~我们会及时处理!
点击此处反馈
安全验证
文档复制为VIP权益,开通VIP直接复制
信息提交成功
评论1