余弦相似度,修正余弦相似度,皮尔逊系数的区别
时间: 2024-03-03 11:30:34 浏览: 339
余弦相似度
余弦相似度、修正余弦相似度和皮尔逊系数都是用于衡量两个向量之间的相似度或相关性的指标,但它们的计算方式和适用场景有所不同。
1. 余弦相似度
余弦相似度是用来计算两个向量之间的夹角余弦值,其计算公式为:
$$\cos\theta=\frac{\mathbf{A}\cdot\mathbf{B}}{\|\mathbf{A}\|\|\mathbf{B}\|}$$
其中,$\mathbf{A}$和$\mathbf{B}$分别表示两个向量,$\cdot$表示点积操作,$\|\cdot\|$表示向量的模长。
余弦相似度的取值范围在[-1, 1]之间,值越大表示两个向量的方向越相似,值为1表示两个向量指向完全相同的方向,值为-1表示两个向量指向完全相反的方向,值为0表示两个向量夹角为90度。
2. 修正余弦相似度
修正余弦相似度是在余弦相似度的基础上加入了一个修正项,用于惩罚那些在两个向量中都非常常见的特征。其计算公式为:
$$\text{sim}_{r}(\mathbf{A},\mathbf{B})=\frac{\sum_{i=1}^{n}A_{i}B_{i}}{\sqrt{\sum_{i=1}^{n}A_{i}^{2}}\sqrt{\sum_{i=1}^{n}B_{i}^{2}}+\alpha}$$
其中,$\alpha$是一个正则化参数,用于防止分母为0。
修正余弦相似度的计算方式与余弦相似度类似,但是它可以处理那些在两个向量中都非常常见的特征,比如停用词等。修正余弦相似度的取值范围同样在[-1, 1]之间。
3. 皮尔逊系数
皮尔逊系数是用来衡量两个变量之间的相关性,其计算公式为:
$$r_{xy}=\frac{\sum_{i=1}^{n}(x_{i}-\bar{x})(y_{i}-\bar{y})}{\sqrt{\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}}\sqrt{\sum_{i=1}^{n}(y_{i}-\bar{y})^{2}}}$$
其中,$x_{i}$和$y_{i}$分别表示两个变量在第$i$个观测值上的取值,$\bar{x}$和$\bar{y}$分别表示两个变量的均值。
皮尔逊系数的取值范围在[-1, 1]之间,值越接近1表示两个变量呈正相关,值越接近-1表示两个变量呈负相关,值为0表示两个变量之间没有线性相关性。
总的来说,这三个指标都有各自的优点和适用场景。余弦相似度适用于处理稀疏向量,修正余弦相似度适用于处理常见特征,而皮尔逊系数适用于衡量两个变量之间的线性相关性。
阅读全文