使用数组法统计英文文件单词及百分比

5星 · 超过95%的资源需积分: 50 34 浏览量更新于2024-09-22 2 收藏 2KB TXT 举报

本篇文章主要介绍了如何使用C语言中的数组方法从英文文本文件（如"english.txt"）中读取单词并统计单词出现的次数。以下是详细的步骤和关键知识点： 1. **文件操作**: - 首先，作者导入了`stdio.h`库，这是C语言标准输入输出库，用于文件操作。 - 定义了两个文件指针变量`fp`和`result`，分别用于读取输入文件和写入结果文件。 - 使用`fopen()`函数尝试打开文件，如果文件打开失败，则提示错误并退出程序。 2. **数组定义**: - `char word[1000][20]`是一个二维字符数组，用来存储读取到的单词，最多能容纳1000个单词，每个单词最多20个字符。 - `int count_word[1000]`是一个一维数组，用于记录每个单词出现的次数，长度与`word`数组相同。 3. **单词读取与处理**: - 通过`fgetc()`函数逐个读取文件中的字符。 - 当遇到字母（大写或小写）时，将其转换为小写并存储在`word`数组中，同时`flag`计数器清零。 - 当遇到非字母字符时，`flag`加1，表示单词结束。当`flag`等于1时，统计总单词数，更新当前单词计数，并进行去重处理：遍历`word`数组，如果找到相同的单词，增加对应计数，然后回溯数组直到找到第一个不重复的单词，将`count_word`清零并跳出循环。 4. **计算百分比**: - 计算每个单词在整个文本中的出现频率（即百分比），使用公式`percent = 100.0 * count_word[k] / total`。 5. **结果输出**: - 在完成读取后，使用`fprintf()`函数将单词列表、计数和百分比写入到`result.txt`文件中，包括标题行和分割线。 6. **错误处理**: - 如果在任何阶段无法打开或操作文件，程序会显示错误信息，并让用户按任意键退出。本文档展示了如何利用C语言的数组和文件操作功能来有效地处理文本数据，对单词进行计数和分析，是编程初学者学习文件读取和数据处理的好例子。通过这个过程，读者可以了解文件I/O的基本操作、数组的动态管理和数据处理算法。

/*
本程序由Turbo C2.0编译通过。英文文章请命名为english.txt并放在Turbo C所在目录下。运行结果以文件方式输出，输出文件result.txt也在Turbo C所在目录下。
word是不同的单词；
count是该单词在文章中出现的次数；
percent是文章中各单词出现的频率。
*/

#include "stdio.h"
main()
{
FILE *fp,*result;
char ch='\0';
char word[1000][20]; /* 最多存1000个不同单词，每个单词在20个字符内。 */
int count_word[1000]={0}; /* 每个单词对应个数 */
int i=0,j=0,k=0,flag=2,total=0;
float percent; /* 每个单词出现频率 */
clrscr();

if(((fp=fopen("english.txt","r"))&&(result=fopen("result.txt","w")))==NULL)
{
printf("Can't open file\n");
printf("Press any key to exit...");
getch();
exit(0);
}

printf("\nPlease wait...");
while(!feof(fp))
{
ch=fgetc(fp);

下载后可阅读完整内容，剩余2页未读，立即下载

zou819911

粉丝: 9
资源: 14

使用数组法统计英文文件单词及百分比

C++实现文件单词动态多维数组存储

C++文件读取方法详解：逐词、逐行与字符数组处理

C语言实现统计单词数与合并连续数字

c语言统计数组中单词个数

Java编程使用Scanner类和正则表达式统计一篇英文中的单词，要求如下：从文件中读取英文， 统计一共出现了多少个单词。 统计有多少个互不相同的单词。 按单词出现频率的大小输出单词，频率显示为三位小数

如何使用C++实现一个命令行猜单词游戏，其中包含从文件中读取单词、处理随机数以及实现用户输入和字母猜测的功能？

C语言用数组实现输入一行英文句子，统计其中有多少个单词，单词之间用空格分开，单独的数值不计入单词数。

最新资源

Java编程使用Scanner类和正则表达式统计一篇英文中的单词，要求如下：从文件中读取英文，统计一共出现了多少个单词。统计有多少个互不相同的单词。按单词出现频率的大小输出单词，频率显示为三位小数