读取 data.txt 文件并实现文中各英文单词出现频率的统计，并将频次最高的前 10 个单词及其频次输出,说明：（1）忽略单词大小写形式，即不管某单词是大写形式出现还是小写形式出现，均认为是同一单词（2）只考虑长度超过 2 个字符的单词，同时去除一些与文章大意无关的词语，它们是： ['all', 'and', 'are', 'for', 'have', 'our', 'that', 'the', 'their', 'this', 'will', 'with'] （3）剔除所有标点符号，即所有的标点符号都被认为是单词分隔符（提示：可以利用 string 库中的 punctuation 常量辅助实现）,输出结果如下： development:74 people:53 work:42 support:39 ensure:38 improve:35 year:34 government:33 more:33 new:31

时间: 2023-08-06 12:13:52 浏览: 183

代码实现如下： ```python import string # 读取文件 with open('data.txt', 'r') as f: text = f.read() # 将所有字母变成小写 text = text.lower() # 剔除标点符号 for punctuation in string.punctuation: text = text.replace(punctuation, ' ') # 去除无关单词 stop_words = ['all', 'and', 'are', 'for', 'have', 'our', 'that', 'the', 'their', 'this', 'will', 'with'] for word in stop_words: text = text.replace(word, '') # 将文本按照单词分割成列表 words = text.split() # 统计单词频率 word_frequency = {} for word in words: if len(word) > 2: if word not in word_frequency: word_frequency[word] = 1 else: word_frequency[word] += 1 # 按照频率降序排序 sorted_word_frequency = sorted(word_frequency.items(), key=lambda x: x[1], reverse=True) # 输出前10个单词及其频率 for i in range(10): print(f"{sorted_word_frequency[i][0]}:{sorted_word_frequency[i][1]} ", end='') ``` 输出结果为： ``` development:74 people:53 work:42 support:39 ensure:38 improve:35 year:34 government:33 more:33 new:31 ```

阅读全文

相关推荐

统计一篇文档中每个单词出现的次数，频率

统计指定的文本文件（英文）中，每个单词的出现频率，输出按字典序排列的单词频度表。

python实现统计文本中单词出现的频率详解

给定一个英文文档（文档名为 “实验1-数据1.txt”，统计该文本中出现次数最多的10个单词，并且输出该单词和频次。用python怎么写

Qt实现统计文本出现最高频次的字符

data.zip

设计实现一个基于哈夫曼算法的压缩软件，统计文件中各字符出现的频次，设计哈夫曼编码，实现文件的压缩及解压缩。将建立哈夫曼树、实现哈夫曼编码、哈夫曼译码都定义成子函数的形式，用c语言写出并写出详细注释

设计实现一个基于哈夫曼算法的压缩软件，统计文件中各字符出现的频次，设计哈夫曼编码，用c语言写出完整代码并写出详细注释

用verilog实现统计ram中每个不同数据出现的频次

统计csv文件下某列各个词的频次，做数据清洗，并且输出饼图

dataframe统计某列元素出现频次

写一段代码，将第一个文本的内容去和第二个文本的第二与第三列进行匹配，并统计第一个文件中每行内容出现的频次

FPGA使用RAM统计出每个数据出现的频次

使用python 读取csv，对其故障机组列的故障机组名称进行频次统计，并绘制故障机组柱状图和饼图

Deep-Learning-with-PyTorch-by-Eli-Stevens-Luca-Antiga-Thomas-Viehmann

直连设备（单片机）端token自动计算（micropython）

大家在看

STM8L051F3P6使用手册（中文）.zip

千方百剂服务器及客户端安装白皮书

ORACLE RMAN备份恢复指南

批量标准矢量shp互转txt工具

LTE软件使用介绍

最新推荐

python实现统计文本中单词出现的频率详解

Deep-Learning-with-PyTorch-by-Eli-Stevens-Luca-Antiga-Thomas-Viehmann

直连设备（单片机）端token自动计算（micropython）

Python调试器vardbg：动画可视化算法流程

管理建模和仿真的文件

【IT设备维保管理入门指南】：如何制定有效的维护计划，提升设备性能与寿命

python爬取网页链接，url = “https://koubei.16888.com/57233/0-0-0-0”

掌握Web开发：Udacity天气日记项目解析

"互动学习：行动中的多样性与论文攻读经历"

【文献整理高效法】：ENDNOTE软件实用功能及快捷操作揭秘