dataframe有城市、类型、店名、点评、人均、口味、环境、服务共八列,采用jieba分词,对所有店名进行分词,找出出现频率最高10个词,词长度要大于1
时间: 2023-10-20 08:25:17 浏览: 91
pandas.DataFrame的pivot()和unstack()实现行转列
我理解您的问题了。对于这个问题,您可以按照以下步骤进行操作:
1. 首先将所有店名存储在一个数据框中,假设您已经将数据框存储在一个名为df的变量中。
2. 接下来,使用Python中的jieba库来对所有店名进行分词。您可以按照以下方式使用jieba库:
```
import jieba
# 使用精确模式分词
def jieba_cut(s):
return ' '.join(jieba.cut(s, cut_all=False))
# 对所有店名进行分词
df['店名分词'] = df['店名'].apply(jieba_cut)
```
3. 然后,您可以使用Python中的collections库中的Counter函数来计算每个单词在所有店名中出现的频率。代码如下:
```
from collections import Counter
# 计算所有单词出现的频率
words_freq = Counter(" ".join(df['店名分词']).split())
```
4. 最后,您可以使用most_common函数来找到出现频率最高的10个单词。代码如下:
```
# 找到出现频率最高的10个单词(长度大于1)
words_top_10 = [w for w in words_freq.most_common() if len(w[0]) > 1][:10]
```
这样,您就可以找到出现频率最高的10个单词了。希望能够帮到您!
阅读全文