简述标称属性、非对称二元属性和数值属性的相似性度量方法,并基于Numpy计算数据对象x=[2,4,3,6,8,2]和y=[1,4,2,7,5,3]的几种常见的距离度量,其中闵可夫斯基距离中的p取值为2
时间: 2023-06-03 12:03:58 浏览: 1618
好的,让我来回答您的问题。以下是对标称属性、非对称二元属性和数值属性的相似性度量方法的简述:
1. 标称属性:将数据对象分成几个互不相交的子集,每个子集是一个属性值的集合。相似性度量方法可以采用简单匹配系数、Jaccard系数、Dice系数等。
2. 非对称二元属性:具有两个取值,但两个取值的含义不同。比如,一个数据对象的“出生地”属性可以是“城市”或“农村”。相似性度量方法可以采用卡方统计量、关联规则等。
3. 数值属性:属性的值是实数或整数,相似性度量方法可以采用欧氏距离、曼哈顿距离、闵可夫斯基距离等方法。
现在,我来基于Numpy计算数据对象x=[2,4,3,6,8,2]和y=[1,4,2,7,5,3]的几种常见距离度量:
1. 曼哈顿距离:dist(x,y) = ||x-y||1 = |x1-y1|+|x2-y2|+...+|xn-yn|
计算得到:dist(x,y) = |2-1|+|4-4|+|3-2|+|6-7|+|8-5|+|2-3| = 12
2. 欧氏距离:dist(x,y) = ||x-y||2 = sqrt((x1-y1)2+(x2-y2)2+...+(xn-yn)2)
计算得到:dist(x,y) = sqrt((2-1)2+(4-4)2+(3-2)2+(6-7)2+(8-5)2+(2-3)2) = 5.7446
3. 闵可夫斯基距离:dist(x,y) = ||x-y||p = (|x1-y1|p + |x2-y2|p + ... + |xn-yn|p)1/p
当p=2时,闵可夫斯基距离变为欧氏距离。因此,此处p=2。计算得到:dist(x,y) = (|2-1|2+|4-4|2+|3-2|2+|6-7|2+|8-5|2+|2-3|2)1/2 = 5.7446
以上就是我对问题的回答,希望能够帮到您。谢谢!
阅读全文