箱线图与散点图的结合:揭示数据分布与相关性的奥秘,数据分析的双剑合璧
发布时间: 2024-07-12 17:51:17 阅读量: 89 订阅数: 56
Excel数据整理与分析散点图的基本制作及进阶操作重点步骤
![箱线图与散点图的结合:揭示数据分布与相关性的奥秘,数据分析的双剑合璧](https://img-blog.csdnimg.cn/img_convert/8b430e1326e7ca4c948615ea2421ba3a.png)
# 1. 箱线图和散点图的简介**
箱线图和散点图是两种常用的数据可视化工具,用于展示和分析数据集的分布和关系。箱线图通过绘制数据分布的统计摘要来揭示数据的中位数、四分位数和极值,而散点图通过绘制数据点在笛卡尔坐标系中的位置来展示数据点之间的关系。
这两种可视化工具在数据分析中具有互补作用。箱线图提供数据分布的整体视图,而散点图则允许探索数据点之间的具体关系。通过结合使用箱线图和散点图,可以全面了解数据集的分布和相关性,从而做出更明智的决策。
# 2. 箱线图与散点图的理论基础
### 2.1 箱线图的统计原理
#### 2.1.1 四分位数和极值
箱线图是一种用于展示数据分布的图形,其基础统计概念是四分位数和极值。
- **四分位数**:将数据从小到大排序后,将数据点分成四等分,得到的三个分割点称为四分位数。
- **Q1 (第一四分位数)**:将数据点中较小的 25% 分割开。
- **Q2 (中位数)**:将数据点中较小的 50% 分割开。
- **Q3 (第三四分位数)**:将数据点中较小的 75% 分割开。
- **极值**:数据集中最大和最小的值。
#### 2.1.2 箱线图的绘制规则
箱线图的绘制规则如下:
1. 绘制一条水平线,表示中位数 (Q2)。
2. 在中位数两侧绘制两条垂直线,分别表示 Q1 和 Q3。
3. 在 Q1 和 Q3 之间绘制一个矩形,表示数据分布的中心 50%。
4. 从 Q1 和 Q3 向外延伸两条线,称为须线,表示数据分布的范围。
5. 在须线之外的点表示异常值。
### 2.2 散点图的数学原理
#### 2.2.1 坐标系和数据点
散点图是一种用于展示数据点之间关系的图形,其基础数学概念是坐标系和数据点。
- **坐标系**:由两条垂直相交的直线组成,分别称为 x 轴和 y 轴。
- **数据点**:一个有序对 (x, y),其中 x 和 y 是数据集中两个变量的值。
#### 2.2.2 散点图的绘制规则
散点图的绘制规则如下:
1. 在坐标系中绘制每个数据点。
2. 连接相邻的数据点,形成一条线或曲线。
3. 根据数据点的分布,判断数据点之间的关系。
**代码块:**
```python
import matplotlib.pyplot as plt
# 数据点
data = [(1, 2), (3, 4), (5, 6), (7, 8), (9, 10)]
# 绘制散点图
plt.scatter([x for x, y in data], [y for x, y in data])
plt.xlabel('x')
plt.ylabel('y')
plt.show()
```
**逻辑分析:**
这段代码使用 Matplotlib 库绘制一个散点图。它将数据点列表中的 x 坐标和 y 坐标分别提取到两个列表中,然后使用 `plt.scatter()` 函数绘制散点图。`plt.xlabel()` 和 `plt.ylabel()` 函数设置 x 轴和 y 轴的标签,`plt.show()` 函数显示图形。
**参数说明:**
- `plt.scatter()` 函数的参数:
- `x`:x 坐标列表。
- `y`:y 坐标列表。
- `plt.xlabel()` 函数的参数:x 轴标签。
- `plt.ylabel()` 函数的参数:y 轴标签。
- `plt.show()` 函数的参数:无。
# 3. 箱线图与散点图的实践应用
### 3.1 箱线图在数据分布分析中的应用
箱线图在数据分布分析中有着广泛的应用,它可以直观地展示数据的中心趋势、离散程度和异常值。
#### 3.1.1 数据中心趋势和离散程度的展示
箱线图的中间线代表数据的**中位数**,它将数据分为两半。箱子的上下边缘分别代表数据的**上四分位数**和**下四分位数**,它们将数据分为四分之一。箱子的长度称为**四分位间距**,它反映了数据的离散程度。
```python
import pandas as pd
import matplotlib.pyplot as plt
# 加载数据
data = pd.read_csv('data.csv')
# 绘制箱线图
plt.boxplot(data['age'])
plt.xlabel('Age')
plt.ylabel('Value')
plt.title('Box Plot of Age Distribution')
plt.show()
```
**代码逻辑分析:**
1. 使用 `pand
0
0