pd.get_dummies(
时间: 2024-06-08 12:04:53 浏览: 83
这是一个用于生成哑变量的 pandas 函数。它将给定的数据列进行编码,将其转换为多个二进制列来表示不同的类别值。你可以在函数中传入要编码的数据列作为参数。
例如,假设有一个包含性别信息的数据列,其中包含 "男" 和 "女" 两种类别的值。使用 `pd.get_dummies()` 函数可以将这个列转换为两个二进制列,分别表示男性和女性。
```python
import pandas as pd
data = {'ID': [1, 2, 3, 4, 5],
'Gender': ['男', '女', '男', '女', '男']}
df = pd.DataFrame(data)
dummies = pd.get_dummies(df['Gender'])
df = pd.concat([df, dummies], axis=1)
```
这样就会得到如下结果:
```
ID Gender 女 男
0 1 男 0 1
1 2 女 1 0
2 3 男 0 1
3 4 女 1 0
4 5 男 0 1
```
以上代码中,`pd.get_dummies(df['Gender'])` 将 'Gender' 列转换为哑变量,并返回一个包含两个新列的 DataFrame。然后,使用 `pd.concat()` 函数将返回的 DataFrame 和原始 DataFrame 进行连接,得到最终结果。
相关问题
pd.get_dummies
`pd.get_dummies`是Pandas库中的一个函数,它将分类变量转换为哑变量/虚拟变量。具体来说,它将一个包含分类变量的DataFrame或者Series作为输入,然后对每个分类变量创建一个新的列,该列包含0和1,表示该变量是否存在。这样可以将分类变量转换为数值型变量,以便于在机器学习算法中使用。
例如,假设我们有一个包含“性别”列的DataFrame,其中包含“男”和“女”两个分类变量。我们可以使用`pd.get_dummies`函数将其转换为两列,每列包含0或1,表示该行中的性别是否为男或女。
示例代码如下:
```
import pandas as pd
df = pd.DataFrame({'Gender': ['Male', 'Female', 'Male', 'Male', 'Female']})
dummies = pd.get_dummies(df['Gender'])
df = pd.concat([df, dummies], axis=1)
print(df)
```
输出结果:
```
Gender Female Male
0 Male 0 1
1 Female 1 0
2 Male 0 1
3 Male 0 1
4 Female 1 0
```
在这个例子中,我们将“Gender”列转换为了“Female”和“Male”两个虚拟变量,并将其添加到原始DataFrame中。
pd.get_dummies用法
`pd.get_dummies()` 是 Pandas 库中的一个函数,用于将分类变量转换为哑变量(dummy variable),也称为指示变量(indicator variable)。
函数的语法为:
```python
pd.get_dummies(data, prefix=None, prefix_sep='_', dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)
```
其中,参数含义如下:
- `data`:要进行哑变量转换的 DataFrame 或 Series。
- `prefix`:新列名的前缀。
- `prefix_sep`:新列名前缀与分类名称之间的分隔符。
- `dummy_na`:是否为缺失值创建一个哑变量列。
- `columns`:要进行哑变量转换的列名列表,如果未指定,则将所有分类变量转换为哑变量。
- `sparse`:是否使用稀疏矩阵表示哑变量。
- `drop_first`:是否删除每个分类变量的第一个级别以避免共线性。
- `dtype`:哑变量的数据类型。
举个例子,如果有如下一个 DataFrame:
```python
import pandas as pd
df = pd.DataFrame({'A': ['x', 'y', 'z', 'x'], 'B': ['p', 'q', 'r', 'q']})
print(df)
```
输出:
```
A B
0 x p
1 y q
2 z r
3 x q
```
使用 `pd.get_dummies()` 将分类变量转换为哑变量:
```python
dummies = pd.get_dummies(df)
print(dummies)
```
输出:
```
A_x A_y A_z B_p B_q B_r
0 1 0 0 1 0 0
1 0 1 0 0 1 0
2 0 0 1 0 0 1
3 1 0 0 0 1 0
```
可以看到,`pd.get_dummies()` 将原始的 DataFrame 按照每个分类变量的取值转换为了哑变量。新列名的前缀为分类变量的名称,前缀和分类名称之间的分隔符默认为下划线。如果分类变量取值中存在缺失值,可以通过设置 `dummy_na=True` 创建一个哑变量列来表示缺失值。如果想要对指定列进行哑变量转换,可以通过设置 `columns` 参数来实现。如果想要使用稀疏矩阵表示哑变量,可以将 `sparse=True`。如果想要删除每个分类变量的第一个级别以避免共线性,可以将 `drop_first=True`。
阅读全文