循环遍历文件夹的每个文本文档并且统计每个文档的词频

时间: 2024-05-08 17:19:25 浏览: 9
好的,这个问题很适合我。你可以使用Python程序实现遍历文件夹并统计每个文档的词频。以下是一个示例代码: ```python import os from collections import Counter # 遍历文件夹 folder_path = "your/folder/path/" for filename in os.listdir(folder_path): if filename.endswith(".txt"): # 统计词频 with open(os.path.join(folder_path, filename), "r", encoding="utf-8") as f: word_counts = Counter(f.read().split()) print(f"文件 {filename} 的词频统计结果为:") print(word_counts) ``` 希望这个代码可以帮到你!
相关问题

读取文本数据,并将每个文档转化为词频向量表示。

要读取文本数据,并将每个文档转化为词频向量表示,你可以使用 Python 中的 CountVectorizer 类。这个类可以将一个文本集合转换成一个词频矩阵,每一行表示一个文档,每一列表示一个单词,矩阵中的每个元素表示对应单词在对应文档中出现的次数。 下面是一个简单的例子: ```python from sklearn.feature_extraction.text import CountVectorizer # 定义文本集合 corpus = [ "This is the first document.", "This is the second document.", "And this is the third one.", "Is this the first document?", ] # 创建一个 CountVectorizer 对象 vectorizer = CountVectorizer() # 将文本集合转换为词频矩阵 X = vectorizer.fit_transform(corpus) # 输出词频矩阵 print(X.toarray()) # 输出单词列表 print(vectorizer.get_feature_names()) ``` 输出结果如下: ``` [[1 1 0 0 1 0 1 0] [1 1 0 0 1 0 0 1] [0 0 1 1 1 1 0 0] [1 1 0 0 1 0 1 0]] ['and', 'document', 'first', 'is', 'one', 'second', 'the', 'third', 'this'] ``` 在这个例子中,我们首先定义了一个文本集合,然后创建了一个 CountVectorizer 对象并将文本集合转换为词频矩阵。最后我们输出了词频矩阵和单词列表。你可以根据这个例子来修改你的代码,实现将文档转化为词频向量表示。

帮我写个文本词频统计代码

### 回答1: 吧 嗯,这样吧: # 导入必要的库 import collections # 读取文本 with open("text.txt") as f: text = f.read() # 统计词频 words = text.split() counter = collections.Counter(words) # 打印统计结果 for word, count in counter.most_common(): print(word, count) ### 回答2: 当然可以帮你写一个文本词频统计的代码。下面是一个简单的Python代码示例: ```python def word_freq(text): words = text.split() # 将文本拆分成单词列表 freq = {} # 用字典存储每个单词的频率 for word in words: if word in freq: freq[word] += 1 else: freq[word] = 1 return freq text = input("请输入文本:") result = word_freq(text) print("词频统计结果:") for word, freq in result.items(): print(f"{word}: {freq}") ``` 这个代码定义了一个`word_freq`函数,它接受一个字符串类型的文本作为参数,并返回一个字典,其中包含了每个单词及其对应的词频。 代码首先使用`split`方法将文本拆分成单词列表。然后通过遍历单词列表,对每个单词进行词频统计。使用字典`freq`来存储每个单词的频率,如果某个单词已经在字典中存在,就将其频率加1;如果不存在,就将其初始频率设为1。 最后,打印出词频统计的结果,遍历字典中的每个键值对,输出对应的单词及其频率。 你只需运行这段代码并输入你想要进行词频统计的文本,它会给出每个单词的词频统计结果。

相关推荐

最新推荐

recommend-type

Python 合并多个TXT文件并统计词频的实现

主要介绍了Python 合并多个TXT文件并统计词频的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧
recommend-type

C语言实现英文文本词频统计

主要为大家详细介绍了C语言实现英文文本词频统计,文中示例代码介绍的非常详细,具有一定的参考价值,感兴趣的小伙伴们可以参考一下
recommend-type

python 文本单词提取和词频统计的实例

今天小编就为大家分享一篇python 文本单词提取和词频统计的实例,具有很好的参考价值,希望对大家有所帮助。一起跟随小编过来看看吧
recommend-type

基于hadoop的词频统计.docx

基于hadoop的词频统计,通过空格作为词频切分,简单统计了哈姆雷特节选的词频数量。
recommend-type

大数据技术实践——Spark词频统计

本次作业要完成在Hadoop平台搭建完成的基础上,利用Spark组件完成文本词频统计的任务,目标是学习Scala语言,理解Spark编程思想,基于Spark 思想,使用IDEA编写SparkWordCount程序,并能够在spark-shell中执行代码和...
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

MATLAB取整函数与Web开发的作用:round、fix、floor、ceil在Web开发中的应用

![MATLAB取整函数与Web开发的作用:round、fix、floor、ceil在Web开发中的应用](https://img-blog.csdnimg.cn/2020050917173284.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2thbmdqaWVsZWFybmluZw==,size_16,color_FFFFFF,t_70) # 1. MATLAB取整函数概述** MATLAB取整函数是一组强大的工具,用于对数值进行
recommend-type

我想做python的算法工程师,我应该学什么?学习的顺序是什么?网上有什么推荐的免费课程吗?回答具体精确一点不要太笼统

对于想要成为 Python 算法工程师的人来说,他们应该先从掌握 Python 的基础语法开始,然后学习数据结构和算法,并且要深入了解 Python 中的一些科学计算和数据处理库,比如 NumPy、Pandas 等。 学习的顺序可以是先学习基础语法和编程技巧,然后再学习数据结构和算法相关的知识,最后深入了解数据处理和科学计算相关的库。 对于免费课程的推荐,我建议你可以先去 Coursera、edX、Udacity 等网站上寻找相关课程,这些网站上有很多优质的 Python 编程和算法课程,你可以根据自己的需求和学习进度进行选择。此外,还可以考虑一些在线编程网站,如 HackerRank、L
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。