python实现中文词频统计
时间: 2023-07-31 08:10:21 浏览: 56
要实现中文词频统计,可以使用Python中的jieba库和collections库。
首先需要安装jieba库,可以使用以下命令进行安装:
```
pip install jieba
```
接下来,我们可以编写以下代码来进行中文文本词频统计:
```python
import jieba
from collections import Counter
# 读取文本文件
with open("text.txt", "r", encoding="utf-8") as f:
text = f.read()
# 分词
words = jieba.cut(text)
# 统计词频
word_counts = Counter(words)
# 输出前10个高频词
for word, count in word_counts.most_common(10):
print(word, count)
```
其中,text.txt是需要统计词频的文本文件,可以根据实际情况进行修改。执行以上代码后,即可输出前10个高频词及其出现次数。
相关问题
python 实现中文词频统计 源代码
当然可以,以下是一个简单的 Python 代码:
```
import jieba
from collections import Counter
# 将文本读入内存
with open('input.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 使用 jieba 分词
words = list(jieba.cut(text))
# 统计词频并排序
freq_dict = Counter(words)
sorted_freq_dict = sorted(freq_dict.items(), key=lambda x: x[1], reverse=True)
# 输出前 10 个词及其出现次数
for word, freq in sorted_freq_dict[:10]:
print(word, freq)
```
注意,这里使用了 jieba 库进行中文分词。你可以将上面的代码保存为一个.py 文件并在命令行中运行,前提是已经安装了 jieba 库。
python实现EXCEL中文词频统计
在Python中实现Excel中文词频统计可以使用第三方库openpyxl来读取和写入Excel文件,以及使用jieba库进行中文分词和词频统计。下面是一个简单的示例代码:
```python
import openpyxl
import jieba
from collections import Counter
# 打开Excel文件
workbook = openpyxl.load_workbook('data.xlsx')
sheet = workbook.active
# 读取Excel中的中文文本
text = ''
for row in sheet.iter_rows():
for cell in row:
if cell.value:
text += str(cell.value)
# 使用jieba进行中文分词
words = jieba.cut(text)
# 统计词频
word_count = Counter(words)
# 将词频结果写入Excel文件
result_sheet = workbook.create_sheet('result')
result_sheet.append(['词语', '词频'])
for word, count in word_count.items():
result_sheet.append([word, count])
# 保存Excel文件
workbook.save('result.xlsx')
print("词频统计完成!")
```
上述代码首先使用openpyxl库打开Excel文件,然后读取其中的中文文本。接下来使用jieba库对文本进行分词,并使用Counter类进行词频统计。最后,将词频结果写入新的Excel文件,并保存。