首页p ython文本词频统计

p ython文本词频统计

时间: 2024-01-17 15:02:39 浏览: 96

统计文本词频并输出为Excel表格形式——Python实现

5星 · 资源好评率100%

统计文本词频并输出为Excel表格形式——Python实现本次实例主要是熟练对中文分词库_jieba库，以及二维数据存储_csv库的使用。目录简单介绍两个库的使用实例问题及问题分析 Python实现一、简单介绍两个库的使用 jieba库：中文分词库，将中文文本分解为单个词语进行处理。 jeba.lcut(s)：精确模式，对原文本进行词语拆分，无冗余。 jieba.lcut(s,cut_all=True)：全模式，对文本进行拆分，列出所以可以组成的词语，存在冗余。 jieba.lcut_for_search(s)：搜索引擎模式，在词库中进行搜索并对文本进行拆分，列出所以可以组成的词语，

可以使用Python中的collections模块中的Counter类来进行文本词频统计。以下是一个简单的示例代码： ```python from collections import Counter # 读取文本文件 with open("text.txt", "r", encoding="utf-8") as f: text = f.read() # 将文本分割成单词 words = text.split() # 统计词频 word_count = Counter(words) # 输出结果 print(word_count.most_common()) ``` 在这个示例中，我们首先使用`open()`函数读取一个文本文件，并将其保存在`text`变量中。然后，我们使用`split()`方法将文本分割成单词，并将其保存在`words`变量中。接下来，我们使用`Counter()`函数来统计每个单词出现的次数，并将结果保存在`word_count`变量中。最后，我们使用`most_common()`方法来输出按照出现次数从高到低排列的单词列表。需要注意的是，这个示例代码中的文本文件应该是以空格或换行符为分隔符的，如果文本文件中的单词是以其它符号或标点符号分隔的，需要在`split()`方法中指定相应的分隔符。

阅读全文