什么是余弦相似度和皮尔逊相关系数
时间: 2024-05-11 17:10:50 浏览: 238
相似度一些总结
余弦相似度和皮尔逊相关系数都是用于衡量两个向量之间的相似性的方法。
1. 余弦相似度(Cosine Similarity)是通过计算两个向量之间的夹角来衡量它们的相似性。具体计算公式如下:
![cosine_similarity](https://latex.codecogs.com/svg.latex?\text{cosine\_similarity}(A,B)=\frac{A\cdot{B}}{\|A\|\|B\|})
其中,A和B分别表示两个向量,A·B表示它们的点积,||A||和||B||表示它们的范数(即向量的长度)。余弦相似度的取值范围在-1到1之间,值越接近1表示两个向量越相似,值越接近-1表示两个向量越不相似,值为0表示两个向量正交(无关)。
2. 皮尔逊相关系数(Pearson Correlation Coefficient)是通过计算两个变量之间的线性相关程度来衡量它们的相似性。具体计算公式如下:
![pearson_correlation](https://latex.codecogs.com/svg.latex?\text{pearson\_correlation}(X,Y)=\frac{\sum_{i=1}^{n}(X_i-\bar{X})(Y_i-\bar{Y})}{\sqrt{\sum_{i=1}^{n}(X_i-\bar{X})^2}\sqrt{\sum_{i=1}^{n}(Y_i-\bar{Y})^2}})
其中,X和Y分别表示两个变量的取值,Xi和Yi表示它们的第i个观测值,n表示样本数量,X̄和Ȳ表示它们的均值。皮尔逊相关系数的取值范围在-1到1之间,值越接近1表示两个变量呈正相关,值越接近-1表示两个变量呈负相关,值为0表示两个变量无线性相关。
阅读全文