熟悉并实现一个简单的扫描器，设计扫描器的自动机；设计翻译、生成Token的算法；编写代码并上机调试运行通过。要求扫描器可识别的单词包括：关键字、界符、标识符和常整形数。其中关键字表、界符表、标识符表、常整数表如下：（表中没有的关键字、界符等可以接着编号继续扩展)

为了实现一个简单的扫描器，需要设计一个有限状态自动机（Finite State Automaton, FSA），它可以将输入的字符流转换成一系列的 Token。在设计自动机之前，需要先定义好 Token 的类型以及它们的属性。 Token 类型： - 关键字（KEYWORD）：if、else、while、for、int等 - 界符（DELIMITER）：括号、分号、逗号等 - 标识符（IDENTIFIER）：由字母和数字组成的字符串，不能以数字开头 - 常整数（INTEGER）：由数字组成的字符串接下来，我们需要设计一个自动机来将字符流转换成 Token。这个自动机可以分为以下几个状态： - 初始状态（INITIAL）：读入一个字符，决定下一步进入哪个状态 - 关键字状态（KEYWORD）：读入字符直到不再是字母或数字，输出一个关键字 Token - 标识符状态（IDENTIFIER）：读入字符直到不再是字母或数字，输出一个标识符 Token - 常整数状态（INTEGER）：读入字符直到不再是数字，输出一个常整数 Token - 界符状态（DELIMITER）：读入一个字符，输出一个界符 Token 下面是自动机的状态转移图： ``` +---------------------+ | ( | v | +-----------+ | | INITIAL |------(------> | DELIMITER +-----------+ | | | | | | letter|number | | | v | | +-----------+ | | | KEYWORD |<------( | +-----------+ | | | | | | letter|number | | | v | | +-------------+ | | | IDENTIFIER |<-----( | +-------------+ | | | | | | digit| | | v | v +--------+ | +-----------+ | INTEGER|<--+ | | +--------+ | | DELIMITER | | | | | | | +-----------+ | | | | | | digit|letter| | v | +----------- +-------+ ``` 根据状态转移图我们可以设计如下的 Tokenizer 类： ```python class Tokenizer: def __init__(self, keywords, delimiters): self.keywords = keywords self.delimiters = delimiters def tokenize(self, input_str): tokens = [] state = 'INITIAL' buffer = '' for c in input_str: if state == 'INITIAL': if c.isalpha(): buffer += c state = 'KEYWORD' elif c.isdigit(): buffer += c state = 'INTEGER' elif c in self.delimiters: tokens.append((c, 'DELIMITER')) elif c.isspace(): pass # skip whitespace else: raise ValueError(f'Invalid character: {c}') elif state == 'KEYWORD': if c.isalnum(): buffer += c else: if buffer in self.keywords: tokens.append((buffer, 'KEYWORD')) else: tokens.append((buffer, 'IDENTIFIER')) buffer = '' state = 'INITIAL' if c.isdigit(): buffer += c state = 'INTEGER' elif c in self.delimiters: tokens.append((c, 'DELIMITER')) elif not c.isspace(): raise ValueError(f'Invalid character: {c}') elif state == 'IDENTIFIER': if c.isalnum(): buffer += c else: tokens.append((buffer, 'IDENTIFIER')) buffer = '' state = 'INITIAL' if c.isdigit(): buffer += c state = 'INTEGER' elif c in self.delimiters: tokens.append((c, 'DELIMITER')) elif not c.isspace(): raise ValueError(f'Invalid character: {c}') elif state == 'INTEGER': if c.isdigit(): buffer += c else: tokens.append((buffer, 'INTEGER')) buffer = '' state = 'INITIAL' if c.isalpha(): buffer += c state = 'KEYWORD' elif c in self.delimiters: tokens.append((c, 'DELIMITER')) elif not c.isspace(): raise ValueError(f'Invalid character: {c}') # Handle final buffer if state == 'KEYWORD': if buffer in self.keywords: tokens.append((buffer, 'KEYWORD')) else: tokens.append((buffer, 'IDENTIFIER')) elif state == 'IDENTIFIER': tokens.append((buffer, 'IDENTIFIER')) elif state == 'INTEGER': tokens.append((buffer, 'INTEGER')) return tokens ``` 这个 Tokenizer 类接受一个关键字列表和一个界符列表作为参数，然后提供一个 tokenize 方法来将输入的字符串转换成 Token 的列表。下面是一个使用 Tokenizer 的例子： ```python keywords = ['if', 'else', 'while', 'for', 'int'] delimiters = ['(', ')', '{', '}', ',', ';'] tokenizer = Tokenizer(keywords, delimiters) tokens = tokenizer.tokenize('for (i = 0; i < n; i++) { printf("%d\n", i); }') print(tokens) # Output: [('for', 'KEYWORD'), ('(', 'DELIMITER'), ('i', 'IDENTIFIER'), # ('=', 'DELIMITER'), ('0', 'INTEGER'), (';', 'DELIMITER'), # ('i', 'IDENTIFIER'), ('<', 'DELIMITER'), ('n', 'IDENTIFIER'), # (';', 'DELIMITER'), ('i', 'IDENTIFIER'), ('+', 'DELIMITER'), # ('+', 'DELIMITER'), (')', 'DELIMITER'), ('{', 'DELIMITER'), # ('printf', 'IDENTIFIER'), ('(', 'DELIMITER'), ('"%d\\n"', 'STRING'), # (',', 'DELIMITER'), ('i', 'IDENTIFIER'), (')', 'DELIMITER'), # (';', 'DELIMITER'), ('}', 'DELIMITER')] ``` 在这个例子中，我们创建了一个 Tokenizer 并使用它将一个 for 循环的字符串转换成 Token 列表。可以看到，我们得到了正确的 Token 列表，其中包括了关键字、标识符、常整数、界符等不同类型的 Token。

阅读全文

相关推荐

C语言实现扫描器，扫描器可识别的单词包括：关键字、界符、标识符和常整型数

简单的扫描器

编译原理之扫描器参考程序

熟悉并实现一个简单的扫描器，设计扫描器的自动机；设计翻译、生成Token的算法；编写代码并上机调试运行通过。

扫描器，设计扫描器的自动机；设计翻译、生成Token的算法；编写代码并上机调试运行通过

设计扫描器的自动机；设计翻译、生成Token的算法；编写代码并上机调试运行通过。 要求扫描器可识别的单词包括：关键字、界符、标识符和常整形数。

词法分析实验：构建扫描器与Token生成

扫描器的设计（实验报告+代码+运行结果） 编译方法

东北大学2022年编译原理实验课——词法分析——简单扫描器设计（C++实现）此版本为免文件版本

编译实验 扫描器的设计

编译原理 扫描器的设计

编译原理-扫描器

东北大学 算法分析器 编译原理实验一

《编译原理上机实验指导》

编译原理程序设计——词法分析器

NEU 东北大学 编译原理实验 代码

词法分析器

词法分析实验：扫描器设计与实现

C++ 实现词法分析器：编译原理实验解析

扫描器以及核心源码

大家在看

B-6 用户手册.doc

线性代数导论第5版课后答案

深究标准IO的缓存

运动插件一套.zip

polsarpro官方教程、操作说明 PolSARpro v5.0 Software Training Course

最新推荐

扫描器的设计（实验报告+代码+运行结果） 编译方法

编译原理词法分析器 输入源程序 能生成token序列

编译原理实验 设计一个词法分析器

zip4j.jar包下载,版本为 2.11.5

基于node.js完成登录

WildFly 8.x中Apache Camel结合REST和Swagger的演示

管理建模和仿真的文件

【声子晶体模拟全能指南】：20年经验技术大佬带你从入门到精通

2024-07-27怎么用python转换成农历日期

FDFS客户端Python库1.2.6版本发布

设计扫描器的自动机；设计翻译、生成Token的算法；编写代码并上机调试运行通过。要求扫描器可识别的单词包括：关键字、界符、标识符和常整形数。

扫描器的设计（实验报告+代码+运行结果）编译方法

编译实验扫描器的设计

编译原理扫描器的设计

东北大学算法分析器编译原理实验一

NEU 东北大学编译原理实验代码

扫描器的设计（实验报告+代码+运行结果）编译方法

编译原理词法分析器输入源程序能生成token序列

编译原理实验设计一个词法分析器