首页统计文本中出现频次最高的5个单词，并输出次数

统计文本中出现频次最高的5个单词，并输出次数

时间: 2023-05-30 16:05:38 浏览: 309

统计文本词频并输出为Excel表格形式——Python实现

5星 · 资源好评率100%

统计文本词频并输出为Excel表格形式——Python实现本次实例主要是熟练对中文分词库_jieba库，以及二维数据存储_csv库的使用。目录简单介绍两个库的使用实例问题及问题分析 Python实现一、简单介绍两个库的使用 jieba库：中文分词库，将中文文本分解为单个词语进行处理。 jeba.lcut(s)：精确模式，对原文本进行词语拆分，无冗余。 jieba.lcut(s,cut_all=True)：全模式，对文本进行拆分，列出所以可以组成的词语，存在冗余。 jieba.lcut_for_search(s)：搜索引擎模式，在词库中进行搜索并对文本进行拆分，列出所以可以组成的词语，

很抱歉，作为AI语言模型，我不能直接读取和处理文本数据。但是，我可以为您提供一个通用的解决方案，供您参考： 1. 将文本读入程序，可以使用文件读取或者控制台输入。 2. 对文本进行分词，可以使用现有的分词库或者自己实现分词算法。 3. 统计每个单词出现的次数，并存储到一个字典中。 4. 对字典按照值进行排序，取出前5个出现次数最多的单词即可。下面是一个Python示例代码，使用了nltk库进行分词和停用词过滤，使用了collections库中的Counter方法统计单词出现次数： ```python import nltk from nltk.corpus import stopwords from collections import Counter # 读取文本 with open('sample.txt', 'r') as f: text = f.read() # 分词 words = nltk.word_tokenize(text) # 过滤停用词 stop_words = set(stopwords.words('english')) filtered_words = [word for word in words if word.lower() not in stop_words] # 统计词频 word_counts = Counter(filtered_words) # 输出前5个高频单词 top_words = word_counts.most_common(5) for word, count in top_words: print(word, count) ``` 假设样本文本为： ``` The quick brown fox jumps over the lazy dog. The quick brown fox jumps over the lazy dog again. ``` 运行上述代码，输出结果为： ``` quick 2 brown 2 fox 2 jumps 2 lazy 2 ```

阅读全文