已知两个二元向量: x=(1,0,0,0,0,0,0,0,0,0),y=(0,0,0,0,0,0,1,0,0,1),求出它们的简单匹配系数SMC以及Jaccard系数。
时间: 2024-06-23 08:01:31 浏览: 6
首先,简单匹配系数(Simple Matching Coefficient, SMC)通常用于衡量两个分类变量之间的相似性或关联程度。在这个例子中,x 和 y 都是二元向量,每个元素要么是 0 要么是 1,可以视为两个分类变量的列联表。SMC 又称为皮尔逊积差相关系数(Pearson's phi coefficient),它的计算公式基于两个向量的相同和不同位置上值为 1 的元素个数。
对于 x 和 y:
- 同样的位置(x 和 y 都为 1):0个(因为它们的对应位置都是 0)
- 不同的位置(x 为 1,y 为 0 或者相反):2个(第一个和最后一个位置)
SMC 计算公式为:
\[ \phi = \frac{|X_1 \cap Y_1| - |X_0 \cap Y_0|}{\sqrt{(|X_1| - |X_1 \cap Y_1|)(|Y_1| - |X_1 \cap Y_1|)}} \]
由于所有位置都不相同,所以:
\[ |X_1 \cap Y_1| = 0 \]
\[ |X_0 \cap Y_0| = 2 \]
\[ |X_1| = |Y_1| = 1 \]
因此,SMC = 0 / 0,这通常表示没有信息可以用来计算,因为交集为空。在实际应用中,当交集为零时,SMC 会返回未定义或特定的值(如 0 或 NaN),取决于具体库的处理。
至于 Jaccard 相似度(Jaccard Index),它是另一个衡量集合相似性的指标,计算的是两个集合的交集大小除以并集大小。对于二元向量,我们可以看作是集合的子集,每个 1 对应一个元素。Jaccard系数公式如下:
\[ J(A, B) = \frac{|A \cap B|}{|A \cup B|} \]
对于 x 和 y:
- 交集(A \cap B): (0, 0)
- 并集(A \cup B): (1, 1)
Jaccard系数计算为:
\[ J(x, y) = \frac{0}{1 + 1} = 0 \]
由于两个向量没有任何相同的元素,所以 Jaccard 相似度也是 0。