编写程序统计一个英文文本文件中每个单词的出现次数(词频统计),并将统计结果按单词字典序输出到屏幕上。
时间: 2024-05-03 11:02:14 浏览: 185
好的,可以使用 Python 编写程序来实现该功能。以下是一个示例代码:
```python
import re
# 读取文本文件
with open('example.txt', 'r') as f:
text = f.read()
# 将所有非单词字符替换为空格
text = re.sub(r'\W+', ' ', text)
# 将文本转换为小写
text = text.lower()
# 将文本分割为单词列表
words = text.split()
# 统计每个单词出现的次数
word_count = {}
for word in words:
if word not in word_count:
word_count[word] = 0
word_count[word] += 1
# 按单词字典序排序并输出结果
sorted_words = sorted(word_count.keys())
for word in sorted_words:
print(word, word_count[word])
```
在上面的代码中,我们使用正则表达式将所有非单词字符替换为空格,然后将文本转换为小写,最后将文本分割为单词列表。接着,我们使用一个字典来统计每个单词出现的次数。最后,我们按单词字典序排序并输出结果。
你可以将上述代码保存为一个 Python 文件,并将需要统计的英文文本文件放在与该 Python 文件同一目录下,然后在命令行中运行该 Python 文件即可。
相关问题
用c语言编写程序统计一个英文文本文件中每个单词的出现次数(词频统计),并将统计结果按单词字典序输出到屏幕上。
以下是一个简单的C语言程序,可以实现指定英文文本文件的单词词频统计,并按字典序输出结果。
```c
#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <ctype.h>
#define MAX_WORD_LEN 100
struct node {
char word[MAX_WORD_LEN];
int count;
struct node *left;
struct node *right;
};
struct node *root = NULL;
void insert_word(char *word) {
struct node *p = root, *prev = NULL;
int res;
while (p != NULL) {
prev = p;
res = strcmp(word, p->word);
if (res < 0) {
p = p->left;
} else if (res > 0) {
p = p->right;
} else {
p->count++;
return;
}
}
struct node *new_node = (struct node *)malloc(sizeof(struct node));
strcpy(new_node->word, word);
new_node->count = 1;
new_node->left = new_node->right = NULL;
if (prev == NULL) {
root = new_node;
} else if (res < 0) {
prev->left = new_node;
} else {
prev->right = new_node;
}
}
void traverse(struct node *p) {
if (p == NULL) {
return;
}
traverse(p->left);
printf("%s: %d\n", p->word, p->count);
traverse(p->right);
}
void free_tree(struct node *p) {
if (p == NULL) {
return;
}
free_tree(p->left);
free_tree(p->right);
free(p);
}
int main(int argc, char *argv[]) {
if (argc != 2) {
fprintf(stderr, "Usage: %s <file>\n", argv[0]);
exit(1);
}
FILE *fp = fopen(argv[1], "r");
if (fp == NULL) {
fprintf(stderr, "Can't open %s\n", argv[1]);
exit(1);
}
char word[MAX_WORD_LEN];
int c;
int len = 0;
while ((c = fgetc(fp)) != EOF) {
if (isalpha(c)) {
if (len < MAX_WORD_LEN - 1) {
word[len++] = tolower(c);
}
} else {
if (len > 0) {
word[len] = '\0';
insert_word(word);
len = 0;
}
}
}
if (len > 0) {
word[len] = '\0';
insert_word(word);
}
traverse(root);
free_tree(root);
fclose(fp);
return 0;
}
```
程序使用二叉搜索树来统计单词的出现次数,每读取一个单词,就在二叉搜索树中查找该单词是否已经存在,如果存在,则增加它的计数器,如果不存在,则插入一个新节点,并将计数器设为1。最后,使用中序遍历来按字典序输出所有单词及其出现次数,并释放二叉搜索树所占用的内存。
程序运行时需要指定一个文本文件的路径作为参数,例如:
```
$ ./wordcount book.txt
```
其中`book.txt`是要统计的文本文件。
拓展训练:请编写程序,对一段英文文本,统计其中所有不同单词的个数,以及词频最大的前10%的单词。 所谓“单词”,是指由不超过80个单词字符组成的连续字符串,但长度超过15的单词将只截取保留前15个单词字符。而合法的“单词字符”为大小写字母、数字和下划线,其它字符均认为是单词分隔符。 输入格式: 输入给出一段非空文本,最后以符号#结尾。输入保证存在至少10个不同的单词。 输出格式: 在第一行中输出文本中所有不同单词的个数。注意“单词”不区分英文大小写,例如“PAT”和“pat”被认为是同一个单词。 随后按照词频递减的顺序,按照词频:单词的格式输出词频最大的前10%的单词。若有并列,则按递增字典序输出。 输入样例: This is a test. The word "this" is the word with the highest frequency. Longlonglonglongword should be cut off, so is considered as the same as longlonglonglonee. But this_8 is different than this, and this, and this...# this line should be ignored. 输出样例:(注意:虽然单词the也出现了4次,但因为我们只要输出前10%(即23个单词中的前2个)单词,而按照字母序,the排第3位,所以不输出。) 23 5:this 4:is
下面是Python实现的代码:
```python
import re
# 读入文本
text = ''
while True:
line = input().strip()
if line == '#':
break
text += line.lower() + ' '
# 用正则表达式提取单词
words = re.findall(r'\b\w{1,80}\b', text)
# 统计单词频数
word_dict = {}
for word in words:
if len(word) > 15:
word = word[:15]
if word in word_dict:
word_dict[word] += 1
else:
word_dict[word] = 1
# 输出不同单词数
print(len(word_dict))
# 输出词频最大的前10%的单词
n = int(len(word_dict) * 0.1)
top_words = sorted(word_dict.items(), key=lambda x: (-x[1], x[0]))[:n]
for i, (word, freq) in enumerate(top_words):
print(f"{i+1}:{word}:{freq}")
```
代码思路:
首先读入文本,将所有的单词转换为小写,并用正则表达式提取出单词。然后遍历单词列表,统计每个单词的频数,存储在字典中。接下来,按照字典序和词频排序,输出前10%的单词。注意,题目要求词频相同的单词按字典序递增输出,所以在排序时要同时考虑词频和字典序。
阅读全文