红楼梦词频统计python代码
时间: 2023-05-13 17:01:02 浏览: 356
红楼梦是中国古典小说的代表作之一,其中充满着生动的描写和精美的词汇,因此对于语言处理的爱好者来说,对红楼梦的词频统计也是一个有趣的任务。使用Python可以轻松完成这个任务,下面是一个简单的红楼梦词频统计Python代码:
```Python
import jieba
from collections import Counter
#读取红楼梦文本文件
with open('hongloumeng.txt', 'r', encoding='utf-8') as f:
text = f.read()
#使用jieba分词
words = jieba.cut(text)
#统计词频
counter = Counter(words)
#打印出出现频率最高的前十个词
for word, cnt in counter.most_common(10):
print(word, cnt)
```
上述代码使用了jieba库对红楼梦文本进行分词,然后使用collections.Counter类对分词结果进行词频统计。最后,打印出出现频率最高的前十个词,可以方便地得出红楼梦中的关键词汇。需要注意的是,在运行代码前,需要将红楼梦文本文件hongloumeng.txt放在同一目录下。
相关问题
python红楼梦词频统计
使用Python进行红楼梦的词频统计需要使用jieba库来进行中文分词。以下是一个简单的代码示例,可以实现对红楼梦文本中的单词进行词频统计:
```python
import jieba
txt = open("G:\\红楼梦.txt","r",encoding="utf-8")
words = jieba.lcut(txt.read())
a = {}
for word in words:
if len(word) == 1:
continue
else:
a[word] = a.get(word,0) + 1
items = list(a.items())
items.sort(key=lambda x: x[1], reverse=True)
for i in range(15):
word, count = items[i]
print("{0:<10}{1:>5}".format(word, count))
txt.close()
```
这段代码的具体步骤如下:
1. 打开红楼梦.txt文件,采用UTF-8编码方式读取。
2. 使用jieba库的精准模式将红楼梦文本分词,并将分词结果保存到words列表中。
3. 创建一个空字典a,用于统计每个单词的出现次数。遍历words列表,对每个单词进行统计。
4. 将字典a转换为有序的列表items,并按照每个单词出现次数的降序进行排序。
5. 输出排序结果中的前15个单词以及对应的出现次数。
python词频统计红楼梦
以下是使用Python进行词频统计的示例代码:
```python
from collections import Counter
# 打开红楼梦txt文档并读取内容
txt = open('红楼梦.txt', 'r', encoding='utf-8').read()
# 使用jieba库进行分词
import jieba
words = jieba.lcut(txt)
# 使用Counter进行词频统计
word_count = Counter(words)
# 输出词频统计结果
for word, count in word_count.most_common(10):
print(word, count)
```
这段代码首先使用`jieba`库的`lcut()`函数对红楼梦文本进行分词,将分词结果保存在`words`变量中。然后使用`Counter`类对`words`进行词频统计,得到每个词出现的次数。最后,使用`most_common()`方法获取出现频率最高的前10个词及其出现次数,并将结果打印出来。
阅读全文