请编写py3程序，对一段英文文本，统计其中所有不同单词的个数，以及词频最大的前10%的单词。所谓“单词”，是指由不超过80个单词字符组成的连续字符串，但长度超过15的单词将只截取保留前15个单词字符。而合法的“单词字符”为大小写字母、数字和下划线，其它字符均认为是单词分隔符。输入格式: 输入给出一段非空文本，最后以符号#结尾。输入保证存在至少10个不同的单词。输出格式: 在第一行中输出文本中所有不同单词的个数。注意“单词”不区分英文大小写，例如“PAT”和“pat”被认为是同一个单词。随后按照词频递减的顺序，按照词频:单词的格式输出词频最大的前10%的单词。若有并列，则按递增字典序输出。

时间: 2024-03-24 13:36:57 浏览: 82

以下是对应的Python3代码实现： ```python import re # 读入文本 text = '' while True: line = input() if line == '#': break text += line # 将文本转化为单词列表 words = re.findall(r'\w{1,80}', text.lower()) # 统计不同单词的个数 word_count = {} for word in words: word = word[:15] # 截取前15个字符 if word not in word_count: word_count[word] = 1 else: word_count[word] += 1 # 输出不同单词的个数 print(len(word_count)) # 计算词频最大的前10%的单词 top_count = int(len(word_count) * 0.1) sorted_words = sorted(word_count.items(), key=lambda x: (-x[1], x[0])) top_words = sorted_words[:top_count] # 输出词频最大的前10%的单词 for word, count in top_words: print(str(count) + ":" + word) ``` 注意：在读入文本时，我们将所有单词都转化为小写，并且截取长度超过15的单词的前15个字符。在计算词频最大的前10%的单词时，我们使用lambda表达式来定义排序规则，先按照词频递减排序，若词频相同，则按照字典序递增排序。

阅读全文

相关推荐

Java开发的小程序用于统计一句话中的单词数量

Java单词树优化的词频统计算法

英语文本单词提取工具：从文档到anki学习计划

请编写程序，对一段英文文本，统计其中所有不同单词的个数，以及词频最大的前10%的单词。

实现一个完整的程序，该程序能够对一个英文文本文件，统计文件中所有不同单词的个数，以及词频最大的前10%的单词。

Python编写一段程序对文本文件进行处理，统计所有单词数量，统计所有不同单词的数量，找出词频最大的前10%的单词

使用python代码编写一个对一段不带符号文本的不同单词个数以及输出词频最大的前五个词的程序

标题\n给定一个英文文本文件，统计文件中所有单词出现的频率，并输出词频最大的前10%的单词及词频。假设单词字符定义为大小写字母、数字和下划线，其他字符均认为是单词分隔符。给出算法的实现思路。

利用Map集合进行单词词频的统计，扩展程序功能，要求统计输出输入单词的个数、每个单词的词频

利用Map集合进行单词词频的统计，扩展程序功能，要求统计输出输入单词的个数、每个单词的词频。

C++链表实现英文单词频率统计方法

基于哈希表实现英文文本的词频统计与查找

博途1200恒压供水程序，恒压供水，一拖三，PID控制，3台循环泵，软启动工作，带超压，缺水保护，西门子1200+KTP1000触摸屏

大家在看

HN8145XR-V5R021C00S260

基2，8点DIT-FFT，三级流水线verilog实现

IBM DS4700磁盘阵列安装配置指南

中南大学943数据结构1997-2020真题&解析

DELPHI7+superobject 1.25

最新推荐

python 文本单词提取和词频统计的实例

C语言实现英文文本词频统计

Python 合并多个TXT文件并统计词频的实现

博途1200恒压供水程序，恒压供水，一拖三，PID控制，3台循环泵，软启动工作，带超压，缺水保护，西门子1200+KTP1000触摸屏

基于PLC的立体车库，升降横移立体车库设计，立体车库仿真，三层三列立体车库，基于s7-1200的升降横移式立体停车库的设计，基于西门子博图S7-1200plc与触摸屏HMI的3x3智能立体车库仿真控制

海康无插件摄像头WEB开发包(20200616-20201102163221)

PCNM空间分析新手必读：R语言实现从入门到精通

生成一个自动打怪的脚本

CarMarker-Animation: 地图标记动画及转向库

5G核心网元性能瓶颈揭秘