指定任意英文文章的文本文件（本次实验使用“Youth.txt”），使用pandas统计文章中每个单词出现的次数，单词统计时，保留形如“60”的数字、形如“self-distrust”中间的连字符、形如“isn't”中间的撇号，统计结果先按照单词出现次数降序再按照单词字典序排序，将统计结果保存到csv文件“Youth.csv”中，并使用水平柱状图显示出现次数最多的10个单词。根据这些要求写出Python代码

时间: 2024-02-06 08:09:18 浏览: 53

统计文本文件中一段英文中某个单词出现的次数及其出现的位置

4星 · 用户满意度95%

统计文本文件中一段英文中某个单词出现的次数及其出现的位置本知识点介绍了一个使用 C++ 编程语言编写的程序，旨在统计给定英文文本文件中某个英文单词的出现次数及其出现的位置。下面是对该程序的详细解释：程序结构该程序主要由四个部分组成： 1. 头文件包含与宏定义：该部分包含了必要的头文件 `stdio.h` 和 `string.h`，并且定义了一个宏 `MAX_size`，用于限制字符串的最大长度。 2. 函数 `_hke` 和 `_loHKE`：这两个函数用于判断字符是否为英文字符（包括小写和大写）和将大写字符转换为小写字符。 3. 函数 `Index`：该函数是程序的核心部分，负责统计给定单词在文本文件中的出现次数及其出现的位置。 4. 主函数 `main`：该函数负责读取文本文件，获取用户输入的单词，并调用 `Index` 函数来统计单词的出现次数及其出现的位置。统计单词出现次数及其出现的位置函数 `Index` 负责统计给定单词在文本文件中的出现次数及其出现的位置。该函数的参数包括： * `str`：文本文件中的字符串 * `word`：用户输入的单词 * `position`：用于存储单词出现的位置函数 `Index` 的执行过程可以分为以下步骤： 1. 初始化变量 `word_number`，用于统计文本文件中的单词数量。 2. 遍历文本文件中的每个字符，使用函数 `_hke` 判断字符是否为英文字符。 3. 如果字符为英文字符，则将其加入到 `str` 中，并将 `word_number` 加 1。 4. 对于每个单词，使用函数 `_loHKE` 将其转换为小写字符，以便与用户输入的单词进行比较。 5. 如果发现单词与用户输入的单词相同，则将其出现的位置存储到 `position` 数组中，并将 `times` 加 1。 6. 如果单词不相同，则继续遍历文本文件中的下一个字符。主函数主函数 `main` 负责读取文本文件，获取用户输入的单词，并调用 `Index` 函数来统计单词的出现次数及其出现的位置。该函数的执行过程可以分为以下步骤： 1. 打开文本文件并读取其内容到 `str` 中。 2. 获取用户输入的单词。 3. 调用 `Index` 函数来统计单词的出现次数及其出现的位置。 4. 如果单词未出现，则输出提示信息“ There is no such word you entered in the article.”。 5. 否则，输出单词的出现次数及其出现的位置。总结本程序使用 C++ 编程语言，统计给定英文文本文件中某个英文单词的出现次数及其出现的位置。该程序使用了两个函数 `_hke` 和 `_loHKE` 来判断字符是否为英文字符和将大写字符转换为小写字符，并使用函数 `Index` 来统计单词的出现次数及其出现的位置。该程序可以应用于文本分析、信息检索等领域。

以下是实现这个任务的Python代码： ```python import pandas as pd import re import matplotlib.pyplot as plt # 读取文章内容 with open('Youth.txt', 'r') as f: text = f.read() # 去除非字母、数字、连字符、撇号的字符 text = re.sub(r'[^\w\-\'\d]+', ' ', text) # 将所有字母转换为小写，以便统一计数 text = text.lower() # 将形如"60"的数字、形如"self-distrust"中间的连字符、形如"isn't"中间的撇号保留 text = re.sub(r'(\d+)|(\w+\-\w+)|(\w+\'\w+)', r'\1\2\3 ', text) # 将文章内容拆分为单词列表 words_list = text.split() # 使用pandas统计单词出现次数 words_df = pd.DataFrame(words_list, columns=['word']) word_count = words_df.groupby('word').size().reset_index(name='count') # 按照单词出现次数降序再按照单词字典序排序 word_count = word_count.sort_values(by=['count', 'word'], ascending=[False, True]) # 将统计结果保存到csv文件中 word_count.to_csv('Youth.csv', index=False) # 取出现次数最多的10个单词，绘制水平柱状图 top_10 = word_count.head(10) plt.barh(top_10['word'], top_10['count']) plt.show() ``` 这段代码首先使用`re`模块去除文章中的非字母、数字、连字符、撇号的字符，然后将所有字母转换为小写，以便统一计数。接下来，将形如"60"的数字、形如"self-distrust"中间的连字符、形如"isn't"中间的撇号保留，然后使用`pandas`统计单词出现次数，按照要求排序并保存到csv文件中。最后，取出现次数最多的10个单词，绘制水平柱状图。

阅读全文

相关推荐

文章中单词出现次数统计代码

Python统计单词出现的次数

怎么用pandas统计文章中每个单词出现的次数

Modin.pandas使用多核CPU加速pandas？Modin.pandas可以代替pandas？看看就知道了

如何使用pandas读取txt文件中指定的列(有无标题)

MT4ForexParser:以MetaTrader 4 .hst格式读取外汇数据，并将其转换为.csv文件和pandas数据框

pandas.zip_pandas_pandas 速查手册_pandas开发手册

pandas数据统计.pptx

掌握Pandas：数据科学中的关键步骤.txt

浅谈pandas.cut与pandas.qcut的使用方法及区别

Python使用Pandas.docx

pandas综合实验.ipynb

Pandas 使用手册.pdf

pandas使用手册.pdf

pyspark.sql.DataFrame与pandas.DataFrame之间的相互转换实例

pandas_csv_dog_movie.txt

最新推荐

如何使用pandas读取txt文件中指定的列(有无标题)

Python 合并多个TXT文件并统计词频的实现

浅谈pandas.cut与pandas.qcut的使用方法及区别

使用matlab或python将txt文件转为excel表格

Python连接HDFS实现文件上传下载及Pandas转换文本文件到CSV操作

Aspose资源包：转PDF无水印学习工具

管理建模和仿真的文件

【R语言高性能计算秘诀】：代码优化，提升分析效率的专家级方法

在构建视频会议系统时，如何通过H.323协议实现音视频流的高效传输，并确保通信的稳定性？

Go语言控制台输入输出操作教程