实验要求2: 1、实现对中文文本文件的读取(三国演义.txt); 2、实现对中文文本文件的单词抽取; 3、实现对中文文本文件中出现频次最高的前10个词语的抽取,并降序输出; 4、(选做)实现对中文文本文件中出现频次最高的前5个人物的抽取,并降序输出;(提示:该实验需要安装jieba库, 安装命令: pip install -U jieba --user) 请独立完成该实验。 实验报告写作要点: 写出整个实验的的基本步骤,辅以相应文字说明,并提交相应的源代码.py文件。将创建的程序运行结果截图,分析讨论实验过程中的心得与体会。

时间: 2024-02-23 16:57:55 浏览: 19
下面是实验要求2的完整Python代码,实现了对中文文本文件的读取、单词抽取、对中文文本文件中出现频次最高的前10个词语的抽取及降序输出、对中文文本文件中出现频次最高的前5个人物的抽取及降序输出。 ```python import jieba from collections import Counter # 读取文件 with open('三国演义.txt', 'r', encoding='utf-8') as file: text = file.read() # 单词抽取 words = jieba.cut(text) # 统计词语出现次数 word_count = Counter(words) # 排序并输出前10个词语及其出现次数 sorted_word_count = sorted(word_count.items(), key=lambda item: item[1], reverse=True) print('Top 10 words:') for i in range(10): print(sorted_word_count[i][0], sorted_word_count[i][1]) # 提取人物 with open('人物.txt', 'r', encoding='utf-8') as file: characters = file.read().splitlines() character_count = {} for character in characters: character_count[character] = 0 for word in jieba.cut(text): if word in character_count: character_count[word] += 1 # 排序并输出前5个人物及其出现次数 sorted_character_count = sorted(character_count.items(), key=lambda item: item[1], reverse=True) print('Top 5 characters:') for i in range(5): print(sorted_character_count[i][0], sorted_character_count[i][1]) ``` 在上面的代码中,我们首先使用jieba库进行中文单词抽取,并统计词语出现次数,使用Python内置的Counter类进行统计,并进行降序排序。然后,我们提取出所有人物名字,并遍历文本中的单词,统计人物出现次数。最后,我们同样进行降序排序,并输出前5个人物及其出现次数。 在实验过程中,需要注意jieba库的安装和使用,以及中文文本的编码问题。同时,需要对提取的人物名字进行筛选和去重,以避免重复统计。

相关推荐

最新推荐

recommend-type

用C语言实现从文本文件中读取数据后进行排序的功能

是一个十分可靠的程序,这个程序的查错能力非常强悍。程序包含了文件操作,归并排序和字符串输入等多种技术。对大家学习C语言很有帮助,有需要的一起来看看。
recommend-type

C#读取文本文件到listbox组件的方法

主要介绍了C#读取文本文件到listbox组件的方法,涉及C#操作文本文件及listbox组件的相关技巧,具有一定参考借鉴价值,需要的朋友可以参考下
recommend-type

Java实现读取键盘输入保存到txt文件,再统计并输出每个单词出现次数的方法

主要介绍了Java实现读取键盘输入保存到txt文件,再统计并输出每个单词出现次数的方法,涉及java文件I/O操作及字符串遍历、运算实现统计功能相关技巧,需要的朋友可以参考下
recommend-type

C# 创建文本文件写入读取实现代码

C# 创建文本文件写入读取,可以用来做系统日志或程序操作日志或者错误记录,需要的朋友可以参考下。
recommend-type

Python实现读取txt文件中的数据并绘制出图形操作示例

主要介绍了Python实现读取txt文件中的数据并绘制出图形操作,涉及Python文件读取、数值运算及基于pylab库的图形绘制相关操作技巧,需要的朋友可以参考下
recommend-type

zigbee-cluster-library-specification

最新的zigbee-cluster-library-specification说明文档。
recommend-type

管理建模和仿真的文件

管理Boualem Benatallah引用此版本:布阿利姆·贝纳塔拉。管理建模和仿真。约瑟夫-傅立叶大学-格勒诺布尔第一大学,1996年。法语。NNT:电话:00345357HAL ID:电话:00345357https://theses.hal.science/tel-003453572008年12月9日提交HAL是一个多学科的开放存取档案馆,用于存放和传播科学研究论文,无论它们是否被公开。论文可以来自法国或国外的教学和研究机构,也可以来自公共或私人研究中心。L’archive ouverte pluridisciplinaire
recommend-type

MATLAB取整函数与Web开发的作用:round、fix、floor、ceil在Web开发中的应用

![MATLAB取整函数与Web开发的作用:round、fix、floor、ceil在Web开发中的应用](https://img-blog.csdnimg.cn/2020050917173284.png?x-oss-process=image/watermark,type_ZmFuZ3poZW5naGVpdGk,shadow_10,text_aHR0cHM6Ly9ibG9nLmNzZG4ubmV0L2thbmdqaWVsZWFybmluZw==,size_16,color_FFFFFF,t_70) # 1. MATLAB取整函数概述** MATLAB取整函数是一组强大的工具,用于对数值进行
recommend-type

我想做python的算法工程师,我应该学什么?学习的顺序是什么?网上有什么推荐的免费课程吗?回答具体精确一点不要太笼统

对于想要成为 Python 算法工程师的人来说,他们应该先从掌握 Python 的基础语法开始,然后学习数据结构和算法,并且要深入了解 Python 中的一些科学计算和数据处理库,比如 NumPy、Pandas 等。 学习的顺序可以是先学习基础语法和编程技巧,然后再学习数据结构和算法相关的知识,最后深入了解数据处理和科学计算相关的库。 对于免费课程的推荐,我建议你可以先去 Coursera、edX、Udacity 等网站上寻找相关课程,这些网站上有很多优质的 Python 编程和算法课程,你可以根据自己的需求和学习进度进行选择。此外,还可以考虑一些在线编程网站,如 HackerRank、L
recommend-type

JSBSim Reference Manual

JSBSim参考手册,其中包含JSBSim简介,JSBSim配置文件xml的编写语法,编程手册以及一些应用实例等。其中有部分内容还没有写完,估计有生之年很难看到完整版了,但是内容还是很有参考价值的。