文件操作：统计文本文件单词频次

需积分: 10 178 浏览量更新于2024-09-13 1 收藏 3KB TXT 举报

本篇文档主要讲述了如何使用C语言处理文件"case1.in"中的文本内容，实现对文章中单词出现次数的统计，并输出出现次数最多的前5个单词。以下是关键知识点的详细解析： 1. **文件操作**: - 使用`fopen()`函数打开文件"case1.in"，检查是否成功。如果失败，则输出错误信息并返回。 - 使用`fgetc()`逐个读取文件中的字符，直到遇到EOF（End Of File）标志。 2. **字符处理**: - 遇到大写字母时，将其转换为小写，以确保单词不区分大小写。 - 分割单词： - 空格、标点符号和回车符被视为单词的分隔符。 - 对于可能存在的连字符（-），如果它连接的是两个单词，如"word1-"和"word2"，则将这两个字符串视为一个单词。 - 名词缩写作为一个单词处理，数字不算作单词。 3. **数组和结构体**: - 使用`charstr[10000][20]`和`charstr1[200000]`存储处理后的单词。 - 定义`struct Passage`结构体，包含`word`数组（存储单词）和`num`变量（存储单词出现次数）。 4. **函数定义**: - `cut(charstr2[], charstr3[], intm)`：这个函数用于分割输入的字符串str1，并将单词放入数组`str3`。 - `swap(chars[][20], intm)`：用于交换数组中的元素，可能是由于处理连字符后的数组调整。 - `calculate(charstr1[][20], intm)`：计算每个单词出现的次数，并根据出现次数和字典顺序排序。 5. **主函数逻辑**: - 初始化变量如`n`、`i`、`j`等。 - 通过`for`循环遍历文件内容，进行字符处理和单词切割。 - 通过`if`条件判断处理连字符，合并或移动数组中的元素。 - 调用`swap()`函数更新数组结构。 - 最后调用`calculate()`函数完成统计和排序，并输出结果。 6. **输出结果**: - 输出出现次数最多的前5个单词及其出现次数，若不足5个，则按序输出所有单词，且单词全为小写形式。这段代码的核心是通过文件操作读取文本，然后利用字符串处理技术分析和统计单词出现次数，最后按照指定规则输出结果。在实际编写过程中，注意检查边界条件和错误处理，以确保程序的健壮性。

#include<stdio.h>
#include<string.h>
char str[10000][20];
char str1[200000];

struct Passage
{
char word[20];
int num;
}stu[10000];

main()
{
FILE *fp;
void cut(char str2[],char str3[],int m);
void swap(char s[][20],int m);
void calculate(char str1[][20],int m);
int n=0,i=0,j=0,k=0,a=0,b=0;
if((fp=fopen("case1.in","r"))==NULL)
{
printf("can't open file!\n");
return 0;
}
while((str1[n]=fgetc(fp))!=EOF)
{
if(str1[n]>='A'&&str1[n]<='Z')
str1[n]=str1[n]+32;
n++;
}
str1[n]='\0';

剩余5页未读，继续阅读

zhuabinge

粉丝: 0
资源: 2

文件操作：统计文本文件单词频次

移动机器人与头戴式摄像头RGB-D多人实时检测和跟踪系统

小学低年级汉语拼音教学的问题与对策

帝国CMS7.5仿《酷酷游戏网》源码/帝国CMS手游综合门户网站模板

Everything-1.5.0.1390a.x64.zip

c语言实现如果cmd中的ping.zip

证件照处理的Python脚本

建荣蓝牙AX2227+CW6639模块使用说明书

C++多线程同步机制与条件变量的类实例化应用

小学低年级识字教学现状与策略探究-基于文献分析、观察及访谈

基于opencv的信用卡数字识别（完整代码python）

最新资源