【基础】Pandas:数据清洗与预处理方法
发布时间: 2024-06-26 12:06:53 阅读量: 70 订阅数: 115
![【基础】Pandas:数据清洗与预处理方法](https://img-blog.csdnimg.cn/direct/00265161381a48acb234c0446f42f049.png)
# 2.1 数据类型检查和转换
### 2.1.1 数据类型的识别和转换
在数据清洗过程中,识别和转换数据类型至关重要。Pandas提供了`dtypes`属性来获取每个列的数据类型,并提供了`astype()`方法来转换数据类型。
```python
import pandas as pd
# 创建一个DataFrame
df = pd.DataFrame({
"name": ["John", "Mary", "Bob"],
"age": [20, 25, 30],
"salary": [1000, 2000, 3000]
})
# 获取数据类型
print(df.dtypes)
# 转换数据类型
df["age"] = df["age"].astype(int)
df["salary"] = df["salary"].astype(float)
```
通过识别和转换数据类型,我们可以确保数据的一致性和准确性,为后续的数据处理奠定基础。
# 2. Pandas数据清洗技巧
### 2.1 数据类型检查和转换
#### 2.1.1 数据类型的识别和转换
在数据清洗过程中,识别和转换数据类型至关重要,因为它影响着数据的处理和分析。Pandas提供了多种方法来检查和转换数据类型:
- **检查数据类型:**
```python
df.dtypes
```
- **转换数据类型:**
```python
df['column_name'] = df['column_name'].astype('dtype')
```
其中,`dtype`可以是以下类型之一:
| 数据类型 | 描述 |
|---|---|
| int | 整数 |
| float | 浮点数 |
| object | 字符串或其他对象 |
| datetime | 日期和时间 |
| category | 分类数据 |
#### 2.1.2 缺失值处理
缺失值是数据清洗中常见的问题。Pandas提供了多种处理缺失值的方法:
- **识别缺失值:**
```python
df.isnull()
```
- **删除缺失值:**
```python
df.dropna()
```
- **填充缺失值:**
```python
df['column_name'].fillna(value)
```
其中,`value`可以是以下值之一:
| 填充值 | 描述 |
|---|---|
| NaN | 空值 |
| 0 | 零 |
| 均值 | 列的均值 |
| 中位数 | 列的中位数 |
### 2.2 数据清洗操作
#### 2.2.1 异常值检测和处理
异常值是与数据集中其他值明显不同的数据点。它们可能由错误、异常或噪声引起。Pandas提供了多种检测和处理异常值的方法:
- **检测异常值:**
```python
df[abs(df['column_name'] - df['column_name'].mean()) > 3 * df['column_name'].std()]
```
- **处理异常值:**
```python
df['column_
```
0
0