用pandas.cut进行离散化处理的样例
时间: 2024-05-13 07:16:13 浏览: 76
假设我们有一个包含年龄的数据集,我们希望将年龄划分为几个年龄段(例如,18-30岁,31-40岁等等)。我们可以使用 pandas.cut 函数来实现这个目标。
下面是一个示例代码:
``` python
import pandas as pd
# 创建一个包含年龄的数据集
df = pd.DataFrame({'age': [22, 25, 31, 35, 39, 41, 46, 50, 55, 60]})
# 将年龄划分为四个年龄段
bins = [18, 30, 40, 50, 60]
labels = ['18-30', '31-40', '41-50', '51-60']
df['age_group'] = pd.cut(df['age'], bins=bins, labels=labels)
print(df)
```
输出结果如下:
```
age age_group
0 22 18-30
1 25 18-30
2 31 31-40
3 35 31-40
4 39 31-40
5 41 41-50
6 46 41-50
7 50 41-50
8 55 51-60
9 60 51-60
```
在上面的代码中,我们创建了一个包含年龄的数据集,并使用 `pd.cut` 函数将年龄划分为四个年龄段。参数 `bins` 是分段的边界,`labels` 是每个分段的标签。`pd.cut` 函数会返回一个包含每个数据点所属分段的 Series,我们将其添加到原数据集中作为新的一列。
阅读全文