怎么用Python统计已读取Excel表格中出现的中文频次?请给出代码
时间: 2023-12-27 14:03:05 浏览: 93
统计文本词频并输出为Excel表格形式——Python实现
5星 · 资源好评率100%
你可以使用Python中的pandas库和jieba库来读取Excel表格并统计中文频次。下面是一个简单的例子:
```python
import pandas as pd
import jieba
# 读取Excel表格
df = pd.read_excel('example.xlsx')
# 将所有中文分词并统计出现次数
word_count = {}
for i in range(len(df)):
text = df.iloc[i]['text'] # 假设Excel表格中有一列名为'text',存储中文文本
words = jieba.cut(text)
for word in words:
if len(word) > 1: # 只统计长度大于1的中文词语
if word in word_count:
word_count[word] += 1
else:
word_count[word] = 1
# 按频次从高到低排序并打印结果
sorted_word_count = sorted(word_count.items(), key=lambda x:x[1], reverse=True)
for word, count in sorted_word_count:
print(word, count)
```
上述代码会读取名为`example.xlsx`的Excel表格,并将所有中文文本分词并统计出现次数。然后按照频次从高到低排序并打印结果。你可以根据自己的需要对数据进行更复杂的统计和分析。需要注意的是,在使用jieba库之前,需要先安装并下载jieba的中文词典文件。
阅读全文