编写Python程序,从网上获取中文时事文本素材(保存为txt文本),利用第三方库jieba分词后统计词频并输出(从高到低)。
时间: 2023-06-19 07:02:52 浏览: 122
以下是示例代码:
```python
import requests
import jieba
from collections import Counter
# 从网上获取中文时事文本素材,这里以新浪新闻为例
url = 'https://news.sina.com.cn/china/'
response = requests.get(url)
text = response.text
# 保存为txt文本
with open('news.txt', 'w', encoding='utf-8') as f:
f.write(text)
# 读取文本内容并进行分词
with open('news.txt', 'r', encoding='utf-8') as f:
text = f.read()
words = jieba.cut(text)
# 统计词频并输出结果
word_counts = Counter(words)
top_words = word_counts.most_common(20) # 只输出出现频率最高的前20个词语
for word, count in top_words:
print(f'{word}\t{count}')
```
解释一下代码的各部分:
1. 使用requests库获取中文时事文本素材,并保存为txt文本。
2. 使用jieba库进行分词。
3. 使用collections库的Counter类统计词频。
4. 输出出现频率最高的前20个词语及其出现次数。
需要注意的是,jieba库需要提前安装。可以使用以下命令进行安装:
```
pip install jieba
```
阅读全文