首页制定任意英文文章的文本文件，使用pandas统计文章中每个单词出现的次数，保留数字，连字符，撇号，统计结果按照出现次数降序再按照单词字典序排序，将统计结果保存到csv文件中，并使用水平柱状图显示出现次数最多的十个单词

制定任意英文文章的文本文件，使用pandas统计文章中每个单词出现的次数，保留数字，连字符，撇号，统计结果按照出现次数降序再按照单词字典序排序，将统计结果保存到csv文件中，并使用水平柱状图显示出现次数最多的十个单词

时间: 2023-11-28 20:09:01 浏览: 82

以下是一个例子，可以根据需要进行修改： ```python import pandas as pd import matplotlib.pyplot as plt # 读取文本文件 with open('example.txt', 'r') as f: text = f.read() # 将文本转换为小写并移除标点符号 text = text.lower() text = text.replace('-', ' ') text = text.replace("'", '') text = ''.join(c for c in text if c.isalnum() or c.isspace()) # 将文本拆分为单词列表 words = text.split() # 统计每个单词出现的次数 word_counts = {} for word in words: if word in word_counts: word_counts[word] += 1 else: word_counts[word] = 1 # 将统计结果转换为DataFrame并按照要求排序 df = pd.DataFrame.from_dict(word_counts, orient='index', columns=['count']) df = df.sort_values(by=['count', df.index.name], ascending=[False, True]) # 保存统计结果到csv文件 df.to_csv('word_counts.csv') # 绘制水平柱状图 top_words = df.head(10) plt.barh(top_words.index, top_words['count']) plt.xlabel('Count') plt.ylabel('Word') plt.title('Top 10 Words by Count') plt.show() ``` 注意，这只是一个简单的例子，实际使用时可能需要考虑更多的情况，例如处理缩写、停用词等。

阅读全文