首页编写Python程序，从网上获取中文时事文本素材（保存为txt文本），利用第三方库jieba分词后统计词频并输出（从高到低）。

编写Python程序，从网上获取中文时事文本素材（保存为txt文本），利用第三方库jieba分词后统计词频并输出（从高到低）。

时间: 2023-06-19 07:02:52 浏览: 122

以下是示例代码： ```python import requests import jieba from collections import Counter # 从网上获取中文时事文本素材，这里以新浪新闻为例 url = 'https://news.sina.com.cn/china/' response = requests.get(url) text = response.text # 保存为txt文本 with open('news.txt', 'w', encoding='utf-8') as f: f.write(text) # 读取文本内容并进行分词 with open('news.txt', 'r', encoding='utf-8') as f: text = f.read() words = jieba.cut(text) # 统计词频并输出结果 word_counts = Counter(words) top_words = word_counts.most_common(20) # 只输出出现频率最高的前20个词语 for word, count in top_words: print(f'{word}\t{count}') ``` 解释一下代码的各部分： 1. 使用requests库获取中文时事文本素材，并保存为txt文本。 2. 使用jieba库进行分词。 3. 使用collections库的Counter类统计词频。 4. 输出出现频率最高的前20个词语及其出现次数。需要注意的是，jieba库需要提前安装。可以使用以下命令进行安装： ``` pip install jieba ```

阅读全文