把已经分好词的新闻数据文件“new_test_seg.txt”做成一个词频词典存到文件里。词典形式是按照单词出现次数,将整个词典从大到小排序。
时间: 2023-04-15 13:03:28 浏览: 217
可以使用Python编程语言来实现这个功能。具体步骤如下:
1. 读取已经分好词的新闻数据文件“new_test_seg.txt”,将每个单词存储到一个列表中。
2. 遍历列表,统计每个单词出现的次数,将单词和出现次数存储到一个字典中。
3. 将字典按照单词出现次数从大到小排序。
4. 将排序后的字典存储到文件中,每行一个单词和出现次数,用空格分隔。
下面是Python代码实现:
```python
# 读取文件,将每个单词存储到列表中
with open('new_test_seg.txt', 'r', encoding='utf-8') as f:
words = []
for line in f:
line = line.strip()
if line:
words.extend(line.split())
# 统计每个单词出现的次数,存储到字典中
word_count = {}
for word in words:
if word in word_count:
word_count[word] += 1
else:
word_count[word] = 1
# 按照单词出现次数从大到小排序
sorted_word_count = sorted(word_count.items(), key=lambda x: x[1], reverse=True)
# 将排序后的字典存储到文件中
with open('word_freq_dict.txt', 'w', encoding='utf-8') as f:
for word, count in sorted_word_count:
f.write(word + ' ' + str(count) + '\n')
```
执行完上述代码后,就会生成一个名为“word_freq_dict.txt”的文件,其中存储了按照单词出现次数从大到小排序的词频词典。
阅读全文