读取新闻文本(flightnews.txt)语料并提取文本中出现频率最高的10个词语 步骤: 1.读取flightnews.txt文件(15分) 2.加载停用词文件stopword.txt,对新闻内容进行jieba分词(15分) 3.提取出现频率最高的前10个词语(15分)
时间: 2023-05-21 17:05:23 浏览: 267
中文文本分类_新闻语料库.zip
5星 · 资源好评率100%
答案:
1. 以下是读取文件代码:
```python
import os
# 获取当前文件所在的目录
file_dir = os.path.dirname(os.path.abspath(__file__))
# 读取文件内容
with open(os.path.join(file_dir, 'flightnews.txt'), 'r', encoding='utf-8') as f:
text = f.read()
```
2. 使用 jieba 分词进行中文分词,并去除停用词:
```python
import jieba
# 加载停用词表
with open(os.path.join(file_dir, 'stopword.txt'), 'r', encoding='utf-8') as f:
stopword = set([line.strip() for line in f])
# 分词
word_list = jieba.cut(text)
word_list = list(filter(lambda x: x not in stopword, word_list))
```
3. 统计词频,并提取前 10 个词语:
```python
from collections import Counter
# 统计词频
word_count = Counter(word_list)
# 提取前 10 个出现频率最高的词语
top_10_words = word_count.most_common(10)
# 打印结果
for word, frequency in top_10_words:
print("{}: {}".format(word, frequency))
```
阅读全文