【基础】基础统计学:描述性统计
发布时间: 2024-06-26 12:17:29 阅读量: 82 订阅数: 115
![python机器学习合集](https://img-blog.csdnimg.cn/img_convert/b821544322b8b4c64bb63b200aa63953.png)
# 3.1 集中趋势指标
集中趋势指标描述了一组数据的中心位置,反映了数据的典型值或平均水平。常用的集中趋势指标包括:
- **平均数(Mean)**:所有数据值的总和除以数据个数,代表数据的算术平均值。
- **中位数(Median)**:将数据按从小到大排序,居于中间位置的数据值,代表数据的中间值。
- **众数(Mode)**:出现频率最高的数据值,代表数据中最常见的值。
# 2. 数据收集和整理
### 2.1 数据收集方法和原则
**数据收集方法**
* **调查法:**通过问卷、访谈等方式收集数据。
* **观察法:**通过直接观察或录像记录行为和事件。
* **实验法:**通过控制变量来研究因果关系。
* **文献研究:**从书籍、期刊和数据库中收集数据。
* **数据挖掘:**从大量数据中提取有价值的信息。
**数据收集原则**
* **明确目的:**明确收集数据的目的和目标。
* **相关性:**收集与研究问题相关的数据。
* **准确性:**确保收集的数据准确可靠。
* **完整性:**收集足够的数据以全面了解研究问题。
* **及时性:**收集最新的数据以反映当前情况。
* **可信度:**选择可靠的数据来源和收集方法。
* **伦理性:**遵守伦理准则,尊重受访者的隐私和权利。
### 2.2 数据整理和分类
**数据整理**
* **数据清理:**删除或更正错误或缺失的数据。
* **数据转换:**将数据转换为适合分析的格式。
* **数据标准化:**将不同单位或范围的数据标准化以进行比较。
* **数据归一化:**将数据缩放到0到1之间的范围内。
**数据分类**
* **定量数据:**可以测量和用数字表示的数据。
* **定性数据:**不能用数字表示的数据,通常是类别或描述。
* **离散数据:**只能取有限或可数的值。
* **连续数据:**可以取任何值。
**代码块:**
```python
import pandas as pd
# 读取数据
df = pd.read_csv('data.csv')
# 数据清理
df.dropna(inplace=True)
df['age'] = df['age'].astype(int)
# 数据转换
df['gender'] = df['gender'].map({'male': 1, 'female': 2})
# 数据标准化
df['height'] = (df['height'] - df['height'].min()) / (df['height'].max() - df['height'].min())
# 数据归一化
df['weight'] = df['weight'] / df['weight'].max()
```
**逻辑分析:**
* 使用Pandas读取CSV文件。
* 使用`dropna()`删除缺失值。
* 使用`astype()`将`age`列转换为整数。
* 使用`map()`将`gender`列中的类别转换为数字。
* 使用`min()`和`max()`计算`height`和`weight`列的最小值和最大值。
* 使用`-`和`/`运算符标准化`height`列并归一化`weight`列。
# 3. 数据描述
### 3.1 集中趋势指标
集中趋势指标用于描述数据集中值的中心位置,反映数据分布的一般趋势。
#### 3.1.1 平均数、中位数、众数
**平均数(Mean)**:所有数据的算术平均值,是数据集中所有值的总和除以值的个数。平均数对异常值敏感,容易受到极端值的影响。
**中位数(Median)**:数据集中按从小到大排列后处于中间位置的值。中位数不受异常值的影响,更能代表数据分布的中心。
**众数(Mode)**:数据集中出现频率最
0
0