用C++语言 编制C语言子集的词法分析程序(编译原理)
时间: 2024-04-29 12:23:46 浏览: 137
词法分析程序,编译原理,C++
5星 · 资源好评率100%
以下是一个简单的C语言子集词法分析程序的示例:
```c
#include <stdio.h>
#include <ctype.h>
#define MAX_TOKEN_LEN 100 // token最大长度
// token类型枚举
typedef enum {
TOK_INT, // 整数
TOK_OP, // 运算符
TOK_EOL, // 行末
TOK_ERR, // 错误
TOK_EOF // 文件结束
} TokenType;
// token结构体
typedef struct {
TokenType type; // token类型
char value[MAX_TOKEN_LEN + 1]; // token值
} Token;
// 获取下一个字符
char next_char(void) {
return getchar();
}
// 预读下一个字符
char peek_char(void) {
char c = getchar();
ungetc(c, stdin);
return c;
}
// 跳过空白字符
void skip_whitespace(void) {
char c;
do {
c = next_char();
} while (isspace(c));
ungetc(c, stdin);
}
// 识别整数
Token get_int_token(void) {
Token token = { TOK_INT, "" };
char c = next_char();
int i = 0;
while (isdigit(c) && i < MAX_TOKEN_LEN) {
token.value[i++] = c;
c = next_char();
}
ungetc(c, stdin);
return token;
}
// 识别运算符
Token get_op_token(void) {
Token token = { TOK_OP, "" };
char c = next_char();
if (c == '+' || c == '-' || c == '*' || c == '/') {
token.value[0] = c;
} else {
token.type = TOK_ERR;
token.value[0] = c;
token.value[1] = '\0';
}
return token;
}
// 获取下一个token
Token get_token(void) {
skip_whitespace();
char c = next_char();
Token token = { TOK_ERR, "" };
switch (c) {
case '\n':
token.type = TOK_EOL;
break;
case '+':
case '-':
case '*':
case '/':
token = get_op_token();
break;
default:
if (isdigit(c)) {
token = get_int_token();
} else if (c == EOF) {
token.type = TOK_EOF;
} else {
token.value[0] = c;
token.value[1] = '\0';
}
break;
}
return token;
}
// 输出token
void print_token(Token token) {
switch (token.type) {
case TOK_INT:
printf("TOK_INT: %s\n", token.value);
break;
case TOK_OP:
printf("TOK_OP: %s\n", token.value);
break;
case TOK_EOL:
printf("TOK_EOL\n");
break;
case TOK_ERR:
printf("TOK_ERR: %s\n", token.value);
break;
case TOK_EOF:
printf("TOK_EOF\n");
break;
}
}
int main(void) {
Token token;
do {
token = get_token();
print_token(token);
} while (token.type != TOK_EOF);
return 0;
}
```
以上程序可以识别整数和四则运算符,并输出对应的token。程序中使用了getchar()和ungetc()函数来获取字符和预读字符,使用isspace()函数来判断空白字符,使用isdigit()函数来判断数字字符。程序的主要逻辑在get_token()函数中,根据不同的字符类型返回不同的token。程序中使用了Token结构体来表示token,结构体中包含了token类型和token值两个成员。程序还定义了TokenType枚举来表示不同的token类型,以及一些常量来表示最大token长度和不同的token类型。程序使用了print_token()函数来输出token。
阅读全文