pd get_dummies
时间: 2023-09-26 14:09:01 浏览: 85
pd.get_dummies()是pandas库中的一个函数,用于将分类变量转换为哑变量(dummy variable)。
简单来说,就是将一个包含分类变量的列拆分成多个列,每个列代表一个分类变量,如果该行数据属于该分类变量,就在该列上标记为1,否则为0。
例如,假设有一个包含性别分类变量的数据集,包含男性和女性两种分类。使用pd.get_dummies()函数可以将性别列拆分为两个列,分别代表男性和女性,如果该行数据为男性,则在男性列上标记为1,女性列上标记为0,反之亦然。
示例代码:
```
import pandas as pd
data = {'gender': ['male', 'female', 'male', 'male', 'female']}
df = pd.DataFrame(data)
dummies = pd.get_dummies(df['gender'])
df = pd.concat([df, dummies], axis=1)
```
运行结果:
```
gender female male
0 male 0 1
1 female 1 0
2 male 0 1
3 male 0 1
4 female 1 0
```
可以看到,原来的gender列被拆分成了female和male两列,并且每个列的值表示该行数据是否属于该分类变量。
相关问题
pd.get_dummies(data['等级']) data.join(pd.get_dummies(data['等级']))
这段代码的作用是将 DataFrame 数据中的 '等级' 列进行 one-hot 编码,并将编码结果添加到原 DataFrame 中作为新的列。其中,pd.get_dummies() 函数用于进行 one-hot 编码,data['等级'] 表示要进行编码的 DataFrame 列,data.join() 函数用于将编码结果添加到原 DataFrame 中。
data['sex'] = pd.get_dummies(data['sex'])['female']data['who'] = pd.get_dummies(data['who'])['man']这两行代码什么意思
这两行代码是针对 Pandas DataFrame 中的两列进行操作的。
第一行代码将 DataFrame 中的 'sex' 列转换为 one-hot 编码的形式,并且将 'female' 对应的值设为 1,其余的值设为 0。具体地,使用了 Pandas 提供的 get_dummies 函数,该函数会将指定的列进行 one-hot 编码,并且返回一个包含编码结果的 DataFrame。然后,通过使用 ['female'] 对编码结果进行了筛选,只保留了与 'female' 对应的那一列。最后,将结果重新赋值给原来的 'sex' 列。
第二行代码将 DataFrame 中的 'who' 列进行了类似的操作。不过,这里的编码方式是将 'man' 对应的值设为 1,其余的值设为 0。
阅读全文