pd.get_dummies()用法是什么?请举例说明?
时间: 2023-09-28 15:13:38 浏览: 125
pd.get_dummies() 是 pandas 库中的一个函数,用于将分类变量(categorical variable)转换为哑变量(dummy variables)。
当我们有一个包含分类变量的数据集时,通常需要将这些分类变量转换为数字形式,以便进行分析或建模。pd.get_dummies() 函数可以帮助我们实现这个转换。
下面是一个例子:
```python
import pandas as pd
# 创建一个包含分类变量的 DataFrame
data = {'color': ['red', 'blue', 'green', 'red', 'red', 'green']}
df = pd.DataFrame(data)
# 使用 pd.get_dummies() 函数进行转换
dummy_df = pd.get_dummies(df['color'])
# 将转换后的哑变量与原始 DataFrame 合并
df = pd.concat([df, dummy_df], axis=1)
print(df)
```
在这个例子中,我们首先创建了一个包含分类变量的 DataFrame,其中的 'color' 列包含了几种不同的颜色。然后,我们使用 pd.get_dummies() 函数对 'color' 列进行转换,将其转换为哑变量形式。最后,我们使用 pd.concat() 函数将转换后的哑变量与原始 DataFrame 合并在一起,得到最终的结果。
运行上述代码后,会得到以下输出:
```
color blue green red
0 red 0 0 1
1 blue 1 0 0
2 green 0 1 0
3 red 0 0 1
4 red 0 0 1
5 green 0 1 0
```
可以看到,'color' 列被转换成了三个新的列,分别表示 'blue'、'green' 和 'red' 这三种颜色的存在与否。如果原始 'color' 列的值为某种颜色,则对应的新列值为 1,否则为 0。这样,我们可以方便地在分析或建模过程中使用这些哑变量。
阅读全文