第 27 卷 第 11 期
Vol. 27 No. 11
控 制 与 决 策
Control and Decision
2012 年 11 月
Nov. 2012
基于 Moore-Penrose 逆的加权距离函数研究
文章编号: 1001-0920 (2012) 11-1706-05
黄德才, 陈 欢
(浙江工业大学 计算机科学与技术学院,杭州 310023)
摘 要: “距离”是科学研究与工程技术领域中使用非常广泛的一种度量. 在分析各种距离优、缺点的基础上, 根据马
氏距离不受量纲影响, 能描述和处理相关性数据的性能优势, 利用加权 Moore-Penrose (WMP) 广义逆定义了 WMP 马
氏距离, 并通过奇异值分解及矩阵的谱分解理论构造其数学形式和计算方法. 理论分析和仿真实验表明, 所提出的方
法不仅保持了马氏距离和 MP 马氏距离的优点, 而且克服了它们的缺点, 同时又具有更好的独特性能.
关键词: 相关性数据;马氏距离;Moore-Penrose 广义逆;奇异值分解;谱分解
中图分类号: TP18 文献标志码: A
Research of weighted distances based on weighted Moore-Penrose
pseudoinverse
HUANG De-cai, CHEN Huan
(College of Computer Science & Technology,Zhejiang University of Technology,Hangzhou 310023,China.
Correspondent:CHEN Huan,E-mail:godchenhuan@163.com)
Abstract: Distance is a widely used measure in engineering and researching field. The advantages and disadvantages of some
distances are analyzed in Euclidean space. Because the Mahalanobis distance is influenced by the dimension and it has great
performance of dealing with related data, the weighted Moore-Penrose(WMP) Mahalanobis distance is defined according to
WMP pseudoinverse, whose formula is given by singular value decomposition(SVD) and spectral decomposition of matrices.
The academic analysis and simulation show that it not only overcomes the disadvantages of non-existence in Mahalanobis
distance, but has its own special performances.
Key words: related data;Mahalanobis distance;Moore-Penrose pseudoinverse;SVD;spectral decomposition
1 引引引 言言言
随着企业或行业的业务数据不断积累, 形成了海
量数据集. 如果单靠人工去整理或理解如此庞大的数
据源, 则存在效率和准确性等问题, 因此, 越来越多的
企业正通过数据挖掘技术来解决海量数据的整理和
知识发现问题, 并为企业决策提供支持. 距离计算方
法在数据挖掘中具有极其重要的地位, 因为数据挖掘
的本质是从大量数据中发现数据规律以供企业决策
所需. 但如何从原始的大量数据中发现规律, 这些规
律又如何与决策需求相联系, 这需要用距离 (相似性
度量) 来衡量, 例如在聚类分析与分类分析中, 距离常
被用作数据实体间相似性的判断准则
[1]
. 此外, 在神
经网络
[2]
、图像处理
[3]
、信号处理
[4]
、生物学
[5]
等领域
中, 距离计算方法也有着广泛的应用.
在各种应用中, 距离的出现形式各不相同, 较常
见的距离形式有以下几种.
首先设 𝑋
1
, 𝑋
2
, ⋅⋅⋅ , 𝑋
𝑚
为 𝑚 个数据个体. 其中:
𝑋
𝑖
= (𝑥
𝑖1
, 𝑥
𝑖2
, ⋅⋅⋅ , 𝑥
𝑖𝑛
), 𝑖 = 1, 2, ⋅⋅⋅ , 𝑚, 𝑛 为数据个
体 𝑋
𝑖
的属性个数, 则数据总体可表示为 𝑋 = (𝑋
1
,
𝑋
2
, ⋅⋅⋅ , 𝑋
𝑚
)
T
, 即
𝑋 =
𝑥
11
𝑥
12
⋅⋅⋅ 𝑥
1𝑛
𝑥
21
𝑥
22
⋅⋅⋅ 𝑥
2𝑛
.
.
.
.
.
.
.
.
.
.
.
.
𝑥
𝑚1
𝑥
𝑚2
⋅⋅⋅ 𝑥
𝑚𝑛
.
对于任意两个数据个体 𝑋
𝑖
= (𝑥
𝑖1
, 𝑥
𝑖2
, ⋅⋅⋅ , 𝑥
𝑖𝑛
),
𝑋
𝑗
= ( 𝑥
𝑗1
, 𝑥
𝑗2
, ⋅⋅⋅ , 𝑥
𝑗𝑛
), 有如下几种距离:
1) 欧氏 (Euclidean) 距离
收稿日期: 2011-05-05;修回日期: 2011-07-20.
基金项目: 浙江省重大科技计划项目(2009C11024).
作者简介: 黄德才(1958−), 男, 教授, 博士生导师, 从事数据挖掘、网格调度、供应链管理等研究;陈欢(1987−), 男, 硕
士生, 从事数据挖掘、云计算的研究.