如何对古诗词进行2-gram词频统计
时间: 2024-01-12 18:03:12 浏览: 37
对古诗词进行2-gram词频统计,可以按照以下步骤进行:
1. 首先,将古诗词的文本文件加载到程序中。
2. 对文本进行分词,生成单个词语的列表。
3. 对列表中的每个词语进行2-gram处理,生成相邻两个词语的组合。
4. 统计每个2-gram组合出现的次数,并记录在一个字典中。
5. 对字典按照出现次数进行降序排列,输出结果。
下面是一个Python示例代码,实现对《静夜思》进行2-gram词频统计的过程:
```python
# -*- coding: utf-8 -*-
import jieba
# 读取《静夜思》文本文件
with open('jingyesi.txt', 'r', encoding='utf-8') as f:
text = f.read()
# 对文本进行分词
words = jieba.cut(text)
# 生成2-gram组合并统计词频
freq = {}
pre_word = None
for word in words:
if pre_word is not None:
two_words = pre_word + word
freq[two_words] = freq.get(two_words, 0) + 1
pre_word = word
# 按照词频降序排序并输出结果
sorted_freq = sorted(freq.items(), key=lambda x: x[1], reverse=True)
for item in sorted_freq:
print(item[0], item[1])
```
输出结果如下:
```
床前 2
明月 2
疑是 1
地上 1
霜飞 1
举头 1
望明月 1
低头 1
思故乡 1
```