pd.get_dummy
时间: 2024-09-11 21:03:34 浏览: 56
Pandas_Dummy_Variable
`pd.get_dummies` 是 pandas 库中的一个函数,它用于数据预处理,将类别变量(categorical variables)转换为虚拟变量(dummy variables 或 one-hot encoding)。这个函数主要用于编码分类特征,将每个非数值的类别转换成一个二进制列,其中一列代表该观测值属于特定类别的标识,其余为0。这对于许多统计分析模型(如线性回归、逻辑回归等)来说非常有用,因为它们通常需要数值输入。
例如,如果你有一个包含地区信息的数据框,可以使用 `get_dummies` 来创建新的列,比如 'Region_East', 'Region_West', 等,每列表示对应区域是否存在。
```python
import pandas as pd
data = {'City': ['A', 'B', 'C', 'A', 'B'],
'Region': ['East', 'West', 'East', 'East', 'West']}
df = pd.DataFrame(data)
dummies_df = pd.get_dummies(df['Region'])
df = pd.concat([df, dummies_df], axis=1)
```
阅读全文