请编写程序，对一段文本（不带符号），统计其中所有不同单词的个数，以及词频最大的前5个词。输入格式: 输入给出一段非空文本，可以是中文或者英文，词间空格或分行隔开。输出格式: 输出词的总数和词频最大的前5个词。注意“不区分英文大小写，例如“PAT”和“pat”被认为是同一个词。随后按照词频递减的顺序，按照“单词:词频”的格式输出词频最大的前5个词。若有并列，则按递增字典序输出。输入样例1: 在这里给出一组输入。例如： This is a test so is considered as the same as long But this_8 is different than this 输出样例1: 在这里给出相应的输出。例如： 14 is:3 as:2 this:2 a:1 but:1 输入样例2: 在这里给出一组输入。例如：双儿洪七公赵敏赵敏逍遥子鳌拜殷天正金轮法王乔峰杨过洪七公郭靖杨逍鳌拜殷天正段誉杨逍慕容复阿紫慕容复郭芙乔峰令狐冲郭芙金轮法王小龙女杨过乔峰杨逍乔峰慕容复输出样例2: 在这里给出相应的输出。例如： 17 乔峰:4 慕容复:3 杨逍:3 杨过:2 殷天正:2

时间: 2024-02-27 18:55:08 浏览: 179

以下是Python的代码实现： ```python import re # 读入文本 text = input() # 将文本中的非字母数字字符替换为空格，并转换为小写 text = re.sub(r'\W+', ' ', text).lower() # 将文本划分为单词列表 words = text.split() # 统计不同单词的个数 word_count = len(set(words)) # 统计每个单词出现的次数 word_freq = {} for word in words: if word in word_freq: word_freq[word] += 1 else: word_freq[word] = 1 # 按照词频递减的顺序，按照“单词:词频”的格式输出词频最大的前5个词 top_words = sorted(word_freq.items(), key=lambda x: (-x[1], x[0]))[:5] for word, freq in top_words: print('{}:{}'.format(word, freq)) # 输出不同单词的个数 print(word_count) ``` 思路解析： 1. 读入文本。 2. 将文本中的非字母数字字符替换为空格，并转换为小写。 3. 将文本划分为单词列表。 4. 统计不同单词的个数。 5. 统计每个单词出现的次数。 6. 按照词频递减的顺序，按照“单词:词频”的格式输出词频最大的前5个词。 7. 输出不同单词的个数。注意事项： 1. 单词的定义：由字母或数字组成，不含标点符号和空格。 2. 不区分英文大小写：将所有单词都转换为小写进行统计。 3. 使用正则表达式 re.sub(r'\W+', ' ', text) 将文本中的非字母数字字符替换为空格。 4. 使用字典 word_freq 统计每个单词出现的次数。 5. 使用 sorted 函数将字典按照词频递减的顺序排序，并选出前5个词。 6. 输出格式为“单词:词频”的形式。

阅读全文

相关推荐

编写一个程序，用于统计文件中单词的总数，不同单词的数目。（假设输入文件中只包含字母和空格）

编写一个对输入的英文单词按照字典排序的程序，界面如图，当在一个文本域输入若干个英文字单词，单击字典排序按钮，另一个文本域

人工智能-项目实践-信息检索-基于不同策略的英文单词的词频统计和检索系统

python 文本单词提取和词频统计的实例

单词词频统计

英文文本单词词频统计（C++实现）

英文单词词频统计

C++ 单词词频统计

词频统计程序

用C对英文单词进行词频统计

文本词频统计.docx

webservice程序统计词频

Java词频统计程序

文本高频词统计、词云图和词频共现分析

英语单词词频统计C++实现

统计中英文文章中汉字个数字频或单词个数词频.html

数据存储实验5-编写MapReduce程序实现词频统计.doc（实验报告）

C#英文词频统计-统计单词出现次数

词频统计程序(包含英文单词和数字double,int)

中文分词用统计词频词典，一词一行

大家在看

电法正反演方法和软件使用介绍(“反演”文档)共33张.pptx

IBM DS4700磁盘阵列安装配置指南

Spi_int.rar_dsp spi初始化_spi dsp

海思芯片规格对比.pdf

中南大学943数据结构1997-2020真题&解析

最新推荐

python 文本单词提取和词频统计的实例

C语言实现英文文本词频统计

Python 合并多个TXT文件并统计词频的实现

大数据技术实践——Spark词频统计

基于hadoop的词频统计.docx

免费下载可爱照片相框模板

【IE11停用倒计时】：无缝迁移到EDGE浏览器的终极指南（10大实用技巧）

STC8H8K64U 精振12MHZ T0工作方式1 50ms中断 输出一秒方波

易语言中线程启动并传递数组的方法

【PCB设计速成】：零基础到专家的电路板设计全面攻略

STC8H8K64U 精振12MHZ T0工作方式1 50ms中断输出一秒方波