多元分析模型matlab

多元分析

matlab

3星 · 超过75%的资源需积分: 43 40 浏览量更新于2023-06-20 评论 1 收藏 693KB PDF 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

资源详情

资源评论

资源推荐

-582-

第二十六章多元分析

多元分析（multivariate analysis）是多变量的统计分析方法，是数理统计中应用广

泛的一个重要分支，其内容庞杂，视角独特，方法多样，深受工程技术人员的青睐和广

泛使用，并在使用中不断完善和创新。

§1 聚类分析

将认识对象进行分类是人类认识世界的一种重要方法，比如有关世界的时间进程

的研究，就形成了历史学，有关世界空间地域的研究，则形成了地理学。又如在生物学

中，为了研究生物的演变，需要对生物进行分类，生物学家根据各种生物的特征，将它

们归属于不同的界、门、纲、目、科、属、种之中。事实上，分门别类地对事物进行研

究，要远比在一个混杂多变的集合中更清晰、明了和细致，这是因为同一类事物会具有

更多的近似特性。在企业的经营管理中，为了确定其目标市场，首先要进行市场细分。

因为无论一个企业多么庞大和成功，它也无法满足整个市场的各种需求。而市场细分，

可以帮助企业找到适合自己特色，并使企业具有竞争力的分市场，将其作为自己的重点

开发目标。

通常，人们可以凭经验和专业知识来实现分类。而聚类分析（cluster analysis）作

为一种定量方法，将从数据分析的角度，给出一个更准确、细致的分类工具。

1.1 相似性度量

1.1.1 样本的相似性度量

要用数量化的方法对事物进行分类，就必须用数量化的方法描述事物之间的相似

程度。一个事物常常需要用多个变量来刻画。如果对于一群有待分类的样本点需用

个

变量描述，则每个样本点可以看成是

空间中的一个点。因此，很自然地想到可以用

距离来度量样本点间的相似程度。

记

是样本点集，距离

),( ⋅⋅d

是

→Ω×Ω R 的一个函数，满足条件：

1）

0),( ≥yxd ， Ω∈yx, ；

2） 0),( =yxd 当且仅当

= ；

3）

),(),( xydyxd =

，

∈yx,

；

4）

),(),(),( yzdzxdyxd +≤ ，

∈

zyx ,, 。

这一距离的定义是我们所熟知的，它满足正定性，对称性和三角不等式。在聚类

分析中，对于定量变量，最常用的是 Minkowski 距离

kkq

yxyxd

),(

⎥

⎦

⎤

⎢

⎣

⎡

−=

∑

，

0>q

当

2,1=q 或

∞→q

时，则分别得到

1）绝对值距离

∑

−=

yxyxd

),( ，（1）

2）欧氏距离

),(

⎥

⎦

⎤

⎢

⎣

⎡

−=

∑

yxyxd ，（2）

-583-

3）Chebyshev 距离

yxyxd −=

≤≤

∞

max),( 。（3）

在 Minkowski 距离中，最常用的是欧氏距离，它的主要优点是当坐标轴进行正交

旋转时，欧氏距离是保持不变的。因此，如果对原坐标系进行平移和旋转变换，则变换

后样本点间的距离和变换前完全相同。

值得注意的是在采用 Minkowski 距离时，一定要采用相同量纲的变量。如果变量

的量纲不同，测量值变异范围相差悬殊时，建议首先进行数据的标准化处理，然后再计

算距离。在采用 Minkowski 距离时，还应尽可能地避免变量的多重相关性

（multicollinearity）。多重相关性所造成的信息重叠，会片面强调某些变量的重要性。

由于 Minkowski 距离的这些缺点，一种改进的距离就是马氏距离，定义如下

4）马氏（Mahalanobis）距离

)()(),(

yxyxyxd

−Σ−=

−

（4）

其中

, 为来自

维总体

的样本观测值，

为

的协方差矩阵，实际中 Σ 往往是不

知道的，常常需要用样本协方差来估计。马氏距离对一切线性变换是不变的，故不受量

纲的影响。

此外，还可采用样本相关系数、夹角余弦和其它关联性度量作为相似性度量。近年

来随着数据挖掘研究的深入，这方面的新方法层出不穷。

1.1.2 类与类间的相似性度量

如果有两个样本类

G 和

G ，我们可以用下面的一系列方法度量它们间的距离：

1）最短距离法（nearest neighbor or single linkage method）

)},({min),(

21 ji

yxdGGD

∈

= ，（5）

它的直观意义为两个类中最近两点间的距离。

2）最长距离法（farthest neighbor or complete linkage method）

)},({max),(

21 ji

yxdGGD

∈

= ，（6）

它的直观意义为两个类中最远两点间的距离。

3）重心法（centroid method）

),(),(

yxdGGD = ，（7）

其中

, 分别为

,GG

的重心。

4）类平均法（group average method）

∑∑

∈∈

),(

GxGx

xxd

GGD ，（8）

它等于

,GG

中两两样本点距离的平均，式中

,nn

分别为

,GG

中的样本点个数。

5）离差平方和法（sum of squares method）

若记

∑

∈

−−=

)()(

111

xxxxD

，

∑

∈

−−=

)()(

222

xxxxD ，

∑

∈

−−=

)()(

GGx

xxxxD

，

剩余91页未读，继续阅读

u010485289

2013-05-18

不错，挺好的！

扬州小子

粉丝: 2
资源: 32

会员权益专享

多元分析模型matlab

评论1

会员权益专享

最新资源

多元分析模型matlab

评论1

matlabeof代码-eof:估计多变量时间序列的经验正交函数

适用于MATLAB的几个多变量时序数据集

matlab编写的时间序列AR模型

SPSS的多元数据分析与MATLAB的应用

使用MATLAB进行统计分析与概率模型

MATLAB在多元数据分析与统计中的应用

使用MATLAB进行多元函数优化

线性回归分析及MATLAB实现

多元回归模型 matlab

matlab多元回归分析模型

多元规划模型matlab代码

多元回归分析法MATLAB

多元线性回归模型matlab代码

多元线性回归模型MATLAB

多元回归分析 matlab

多元线性回归模型matlab

多元线性偏回归模型matlab

多元回归分析MATLAB代码

多元逻辑回归分析预测模型matlab及代码

多元回归预测模型matlab

会员权益专享

最新资源