Python文件 文本词频统计代码

时间: 2023-11-19 19:56:39 浏览: 28
以下是Python实现文本词频统计的代码: ```python import re # 定义函数,传入文件名和要统计的单词个数 def word_count(file_name, num): # 打开文件 with open(file_name, 'r') as f: # 读取文件内容 content = f.read() # 将单词转换为小写,并去掉标点符号 words = re.findall(r'\b[a-z]+\b', content.lower()) # 统计单词出现的次数 word_dict = {} for word in words: if word not in word_dict: word_dict[word] = 1 else: word_dict[word] += 1 # 排序并输出结果 sorted_word_dict = sorted(word_dict.items(), key=lambda x: x[1], reverse=True) for i in range(num): print(sorted_word_dict[i][0], sorted_word_dict[i][1]) # 调用函数进行测试 word_count('test.txt', 10) ``` 代码解释: 1. `re.findall(r'\b[a-z]+\b', content.lower())` 用正则表达式匹配文件内容中的单词,`\b` 表示单词的边界,`[a-z]+` 表示一个或多个小写字母。 2. `word_dict` 用字典来保存单词出现的次数,如果单词不存在则添加到字典中,否则将出现次数加一。 3. `sorted_word_dict` 将字典按照值进行排序,`key=lambda x: x[1]` 表示按照值进行排序,`reverse=True` 表示降序排列。 4. `for i in range(num)` 只输出前面 num 个单词和出现次数。

相关推荐

最新推荐

Python 合并多个TXT文件并统计词频的实现

主要介绍了Python 合并多个TXT文件并统计词频的实现,文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

单片机C语言Proteus仿真实例K1-K4分组控制LED

单片机C语言Proteus仿真实例K1-K4 分组控制LED本资源系百度网盘分享地址

beautifulsoup4-4.12.0-py3-none-any.whl

py依赖包

无线传感器网络相关仿真 基于RSSI测距的多边定位法仿真 生成五种网络拓扑结构 语言:Python3、MATLAB.zip

使用说明在zip压缩包 README 文件中,请仔细阅读。

matlab绘图txt目标数据文件

matlab绘图txt目标数据文件

信息系统集成管理工程项目师必考重点内部资料.doc

信息系统集成管理工程项目师必考重点内部资料.doc

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire

扎实基础工具:Maya在二维动画中的应用

# 1. Maya简介 ## 1.1 Maya软件概述 Maya是Autodesk公司推出的一款专业三维动画制作软件,被广泛应用于影视、游戏、动画等领域。它拥有强大的建模、动画、渲染等功能,是影视特效行业的主流软件之一。 ## 1.2 Maya在动画制作中的应用领域 Maya在动画制作中的应用非常广泛,可以用于制作影视特效、三维动画、角色动画、游戏动画等。其丰富的工具和功能使得动画制作更加高效和精确。 ## 1.3 Maya在二维动画制作中的优势 虽然Maya主打三维动画制作,但在二维动画制作中也有独特的优势。通过Maya的工具和功能,可以实现丰富多彩的二维动画效果,为动画制作带来

一个IP地址是用四个字节(每个字节8个位)的二进制码组成。请将32位二进制码表示的IP地址转换为十进制格式表示的IP地址输出。 输入格式: 输入在一行中给出32位二进制字符串。 输出格式: 在一行中输出十进制格式的IP地址,其由4个十进制数组成(分别对应4个8位的二进制数),中间用“.”分隔开。 输入样例: 11001100100101000001010101110010 输出样例: 204.148.21.114做题

好的,这是一个简单的二进制转十进制的问题。以下是一个C++代码示例,可以实现该功能: ```cpp #include <iostream> #include <bitset> // 二进制转十进制需要使用bitset库 using namespace std; int main() { string binary; cin >> binary; // 将二进制字符串转换为bitset类型 bitset<32> bits(binary); // 依次输出四个字节的十进制数 cout << bits.to_ulong() >> 24 << "

工程项目预算与管理讲义.doc

工程项目预算与管理讲义.doc