python pandas统计一列词频出现的概率并放在新列中
时间: 2024-01-09 17:03:14 浏览: 235
可以使用 Pandas 的 value_counts() 方法来统计一列中每个元素出现的次数,然后再除以总数得到每个元素出现的概率。最后,将计算出的概率放在一个新列中即可。
下面是一个示例代码:
``` python
import pandas as pd
# 创建一个示例数据集
data = pd.DataFrame({'words': ['apple', 'banana', 'apple', 'cherry', 'banana', 'apple']})
# 统计词频并计算概率
counts = data['words'].value_counts(normalize=True)
probabilities = data['words'].map(counts)
# 将计算出的概率放在新列中
data['probabilities'] = probabilities
# 打印结果
print(data)
```
输出结果为:
```
words probabilities
0 apple 0.500000
1 banana 0.333333
2 apple 0.500000
3 cherry 0.166667
4 banana 0.333333
5 apple 0.500000
```
其中,probabilities 列就是每个单词在数据集中出现的概率。
阅读全文