统计此文件出现频率最高的10个单词,存入单词库列表中并显示在屏幕上
时间: 2024-03-25 14:40:34 浏览: 56
好的,我可以帮您完成这个任务。这个任务可以分成两个步骤:首先,我们需要读取"data.txt"文件并将其内容转换为单词列表;然后,我们需要对单词列表进行统计并找出出现频率最高的10个单词。
下面是完整的Python代码:
```python
import re
from collections import Counter
def RedTxt():
with open('data.txt', 'r') as f:
data = f.read()
return data
def GetWordList(text):
# 将文本转换为单词列表
word_list = re.findall(r'\b\w+\b', text.lower())
return word_list
def Top10Words(word_list):
# 统计单词出现的频率,并找出出现频率最高的10个单词
word_count = Counter(word_list)
top_words = word_count.most_common(10)
return [word[0] for word in top_words]
# 读取"data.txt"文件
text = RedTxt()
# 将文本转换为单词列表
word_list = GetWordList(text)
# 找出出现频率最高的10个单词
top_words = Top10Words(word_list)
# 输出结果
print("出现频率最高的10个单词:")
for word in top_words:
print(word)
```
这个程序会将"data.txt"文件中的内容读取到变量"text"中,然后将"text"转换为单词列表"word_list"。接下来,程序将统计"word_list"中每个单词出现的频率,并找出出现频率最高的10个单词。最后,程序将这10个单词存储在"top_words"列表中,并在屏幕上输出这些单词。
请注意,这个程序中的"GetWordList()"函数使用了正则表达式来将文本转换为单词列表。这个函数会将文本转换为小写,并忽略标点符号和其他非字母字符。如果您的文件中包含其他非字母字符,您可能需要修改这个函数以确保程序能够正确地统计单词的出现频率。
阅读全文