词法分析详解:从源程序到单词符号串

需积分: 9 1 下载量 192 浏览量 更新于2024-08-02 收藏 1.44MB PPT 举报
"本资源详细介绍了编译原理中的词法分析过程,以及词法分析器的主要任务和功能。" 在编程语言的编译过程中,词法分析是一个至关重要的步骤。词法分析,又称为扫描(Scanner)或词法分析器,它的主要任务是从源代码文本中识别出一个个有意义的单元,即单词符号,这些单词符号是构成程序语言的基本语法元素。词法分析通常是从左到右逐个字符地扫描源程序,然后根据预定义的规则将源程序转换为单词符号串。 单词符号是程序语言的基本构建块,它们可以分为五类: 1. **关键字**:这是由编程语言本身定义的具有特定含义的标识符,例如Pascal中的`begin`, `end`, `if`等。它们的数量是固定的,并且在语言规范中明确规定。 2. **标识符**:标识符用于表示变量、数组、过程等名称,数量是无限的,由用户自定义。 3. **常数**:包括整型、实型、布尔型和文字型等不同类型的值,数量也是无限的。 4. **运算符**:如算术运算符`+`, `-`, `*`, `/`等,它们的种类是固定的。 5. **界符**:如逗号、分号、括号、注释符等,它们在源代码中起到分隔和标记作用,数量和类型也是固定的。 单词符号的表示通常采用二元式,即(单词种别,单词自身的值)。单词种别可以使用整数值来表示,比如1代表关键字,2代表标识符。而单词自身的值可能是一个常量的二进制表示,或者是符号表中的地址码。对于标识符,它们通常被归为同一类别,常数按其类型划分,关键字可以单独一类,也可以每个关键字一个类别。运算符处理方式类似,可以每个运算符一个类别,或者根据共性归类。界符通常是一符一种。如何划分和编码取决于实现的便利性和效率。 举例来说,一个简单的词法分析过程可能是:对于FORTRAN语言的源代码串`IF(5·EQ·M)GOTO100`,词法分析器会将其分解为一系列的单词符号,如逻辑关键字`IF`(34,_),数字常数`5`,等号运算符`EQ`,标识符`M`,控制语句`GOTO`,以及整数常数`100`。 词法分析阶段结束后,产生的单词符号串将成为下一步语法分析的基础,从而继续构建抽象语法树,最终生成目标代码。这个过程是编译器工作的基石,对程序的正确编译至关重要。