理解统计学：相关性分析与协方差实战

版权申诉

5星 · 超过95%的资源 185 浏览量更新于2024-08-08 收藏 19KB DOCX 举报

"统计学中的相关性分析" 在统计学中，相关性分析是一个重要的概念，用于探究两个或多个变量间的关系强度和方向。相关性分析可以帮助我们理解数据集中的变量是如何相互影响的，这对于数据建模、预测分析以及业务决策具有重要意义。本篇将深入探讨相关性分析的核心要素，并通过一个具体的案例来阐述如何进行相关性计算。首先，我们要明确相关性的度量。相关性通常用相关系数来表示，范围从-1到1。当相关系数为1时，表示两个变量之间存在完美的正相关关系，即一个变量增加时，另一个变量也按一定的比例增加；当相关系数为-1时，意味着两个变量之间存在完美的负相关关系，一个变量增加时，另一个变量相应减少。如果相关系数接近0，则意味着两个变量之间不存在明显的直线关系，即它们的变化不相互关联。线性相关性是指两个变量之间存在直线关系，可以通过绘制散点图直观地观察这种关系。在数据科学领域，我们经常使用皮尔逊相关系数（Pearson Correlation Coefficient）来衡量这种线性相关性，它是协方差和两个变量的标准差的比值。皮尔逊相关系数的计算公式为： \[ r = \frac{\text{Cov}(x, y)}{\sigma_x \sigma_y} \] 其中，\( \text{Cov}(x, y) \) 是x和y的协方差，\( \sigma_x \) 和 \( \sigma_y \) 分别是x和y的标准差。协方差的计算如上文所述，它反映了两个变量共同变化的程度。当协方差为正值时，两个变量同向变化；为负值时，反向变化。在《Data Science from Scratch》一书中的案例，作者分析了一个社交网站用户的活动数据，研究用户的朋友数（num_friends）与其在网站上花费的时间（daily_minutes）之间的关系。为了计算这两个变量的相关性，我们需要先计算它们的协方差，然后除以各自的标准差得到皮尔逊相关系数。在Python中，可以使用以下代码来实现相关性分析： ```python import numpy as np def mean(numbers): return sum(numbers) / len(numbers) def covariance(x, y): n = len(x) return np.dot(np.subtract(x, mean(x)), np.subtract(y, mean(y))) / (n - 1) def standard_deviation(numbers): return np.sqrt(covariance(numbers, numbers)) # 假设我们已经有了daily_minutes和num_friends的数据 daily_minutes_data, num_friends_data = load_data() # 计算协方差和标准差 daily_minutes_cov = covariance(daily_minutes_data, num_friends_data) daily_minutes_std = standard_deviation(daily_minutes_data) num_friends_std = standard_deviation(num_friends_data) # 计算皮尔逊相关系数 pearson_correlation = daily_minutes_cov / (daily_minutes_std * num_friends_std) ``` 通过对这些数值的分析，我们可以得出结论：如果皮尔逊相关系数接近1，说明用户的朋友数和他们在网站上的时间有强烈的正相关性；如果接近-1，说明这两者是负相关；接近0则表示无明显相关性。在实际应用中，相关性分析不仅限于两个变量，还可以扩展到多变量分析，例如主成分分析（PCA）、多元线性回归等。此外，还需要注意相关性并不意味着因果关系，因此在解释分析结果时要谨慎，不能简单地认为因为两个变量相关就存在因果联系。相关性分析是统计学中的一种基础工具，它帮助我们识别数据集中的潜在关系，为后续的数据建模和决策提供依据。通过理解并熟练运用相关性分析，我们可以更好地理解和探索复杂的数据世界。

掌握一点儿统计学介绍了统计学中常用到的函数，特别重点介绍了 Standard

Deviation（标准差）。接下来结合一个案例来谈谈相关性（Correlation）分

析的问题。按照维基百科的讲解，所谓“相关性”指的是两个变量之间关系（或

依赖）的度量。相关性的度量值其取值范围从-1（perfect negative

relationship，完美负相关）到 1（perfect positive relationship，完美正

相关）之间，若值为 0，则表明两个变量之间不存在 straight-line

relationship（直线关系）。而所谓“Linear Correlation（线性相关）”指的就

是两个变量之间存在一种直线关系。

在 Data Science from Scratch 一书中给出一个案例分析：某社交网站某人

的朋友数与他（她）在该网站上花费的时间之间的关系。通过对网站日志数据

的挖掘，可以获得用户每天的分钟数（记为 daily_minutes）和朋友数（记为

num_friends）。根据前面获得的知识，这个问题就转换为求 daily_minutes

与 num_friends 两个变量之间的 Correlation。

Covariance

要计算相关性，可以先看看 covariance（协方差）的概念，它与 variance

（方差）是一个成对的概念。variance 度量的是单个变量与变量平均值的偏差，

而 covariance 度量的是两个变量的总体误差。在 Python 中，可以实现为：

def covariance(x, y):

n = len(x)

return dot(de_mean(x), de_mean(y)) / (n - 1)def de_mean(x):

下载后可阅读完整内容，剩余5页未读，立即下载

码农.one

粉丝: 7
资源: 345

理解统计学：相关性分析与协方差实战

统计学完全教程-中文版

Python数据相关性分析.pdf

SPSS统计学软件教程中文完整版

统计学词汇中英文对照完整版.pdf

统计学原理小抄21完整版电大小抄2011中央电大专科考试小抄.doc

统计学课件完整版下载

(完整版)统计学教学中如何利用Excel软件及其利弊分析-精选教育文档.doc

好莱坞工作室票房与奥斯卡奖相关性分析

hapConstructor：多位置SNP集搜索与病例状态相关性分析工具

MATLAB数据相关性分析秘籍

最新资源