Python技巧：使用re模块创建简单tokenizer

版权申诉

2 浏览量更新于2024-08-07 收藏 1.42MB DOC 举报

"这篇文档介绍了如何使用Python的re模块创建一个简单的tokenizer，用于处理字符串并将其分解成一系列标记，这是编程语言解析中的基础步骤。文档中提到的tokenizer能将表达式字符串转化为由元组组成的序列，每个元组包含标记类型和对应的值。" 在Python中，`re`模块是用于处理正则表达式的标准库，它提供了丰富的功能来匹配、查找、替换和分割字符串。在这个特定的示例中，我们关注的是如何利用正则表达式进行分词，即tokenization。分词是将输入文本分解成最小有意义的单元，这些单元通常被称为标记（tokens），在编程语言解析中，这些标记可以是变量名、运算符、常量等。文档中提到了几个关键的正则表达式模式，用于匹配不同的标记： 1. **NAME**：匹配变量名或标识符。模式`r'(?P[a-zA-Z_][a-zA-Z_0-9]*)'`使用了命名捕获组`(?P<name>)`，其中`[a-zA-Z_]`代表任何字母或下划线，`[a-zA-Z_0-9]*`表示其后的任何数量的字母、下划线或数字。 2. **EQ**：匹配等号。模式`r'(?P=)'`用于匹配单个等号。 3. **NUM**：匹配数字。模式`r'(?P\d+)'`中的`\d`代表数字，`+`表示至少一个数字。 4. **PLUS**：匹配加号。模式`r'(?P\+)'`用`\+`来转义加号，因为加号在正则表达式中具有特殊含义。 5. **TIMES**：匹配乘号。模式`r'(?P\*)'`同样使用转义，使星号成为匹配的字符。 6. **WS**：匹配空格。模式`r'(?P\s+)'`中的`\s`代表任何空白字符，`+`表示一个或多个空格。为了组合这些模式，它们被连接成一个大的正则表达式`master_pat`，使用`|`字符表示“或”操作，这样正则表达式就能匹配任何一个模式。然后通过`re.compile()`函数编译这个模式，生成一个正则对象，可以用于`match`或`findall`方法来处理输入的表达式字符串。例如，对于给定的表达式`text='foo=12+5*6'`，经过tokenizer处理后，我们将得到一个元组列表，每个元组表示一个标记及其类型，如下所示： ```python tokens = [('NAME', 'foo'), ('EQ', '='), ('NUM', '12'), ('PLUS', '+'), ('NUM', '5'), ('TIMES', '*'), ('NUM', '6')] ``` 这个tokenizer的实现简单但基础，适用于教学或简单表达式处理场景。在实际的编程语言解析或更复杂的文本处理任务中，可能需要更强大的工具，如词法分析器（lexer）或完整的解析器（parser）。例如，Python的`ply`库就提供了用于创建词法分析器和解析器的工具，可以生成更复杂、更健壮的语言解析器。

Python 技法：用 re 模块实现简易 tokenizer

分词（tokenization）任务是 Python 字符串处理中最为常见任务了。我们这里讲

解用正则表达式构建简单的表达式分词器（tokenizer），它能够将表达式字符串从左到右解

析为标记(tokens)流。要完成这样的分词操作，我们首先需要定义出所有可能的标记模式（所

谓模式（pattern），为用来描述或者匹配/系列匹配某个句法规则的字符串，这里我们用正则

表达式来做为模式），注意此处要包括空格 whitespace，否则字符串中出现任何模式中没有

的字符后，扫描就会停止。因为我们还需要给标记以 NAME、EQ 等名称，我们采用正则表

达式中的命名捕获组来实现。

一个简单的 tokenizer

分词（tokenization）任务是 Python 字符串处理中最为常见任务了。我们这里讲解用正则

表达式构建简单的表达式分词器（tokenizer），它能够将表达式字符串从左到右解析为标记

(tokens)流。

给定如下的表达式字符串：

text = ‘foo = 12 + 5 * 6’

我们想要将其转换为下列以序列对呈现的分词结果：

tokens = [(‘NAME’, ‘foo’), (‘EQ’, ‘=‘), (‘NUM’, ‘12’), (‘PLUS’, ‘+’),\

(‘NUM’, ‘5’), (‘TIMES’, ‘*’), (‘NUM’, ‘6’)]

要完成这样的分词操作，我们首先需要定义出所有可能的标记模式（所谓模式（pattern），

为用来描述或者匹配/系列匹配某个句法规则的字符串，这里我们用正则表达式来做为模

下载后可阅读完整内容，剩余3页未读，立即下载

书博教育

粉丝: 1
资源: 2837

Python技巧：使用re模块创建简单tokenizer

llama3-8b tokenizer.model 《llama3-8b tokenizer.model：理解和应用》

llama3-8b tokenizer.model

请解释Python的报错：Asking to pad but the tokenizer does not have a padding token. Please select a token to use as `pad_token` `(tokenizer.pad_token = tokenizer.eos_token e.g.)` or add a new pad token via `tokenizer.add_special_tokens({'pad_token': '[PAD]'})`. add Codeadd Markdown

node_tokenizer:在nodejs中实现的tf.keras令牌生成器

chop:适用于Python的中文Tokenizer模块

ValueError: Asking to pad but the tokenizer does not have a padding token. Please select a token to use as `pad_token` `(tokenizer.pad_token = tokenizer.eos_token e.g.)` or add a new pad token via `tokenizer.add_special_tokens({'pad_token': '[PAD]'})`

ModuleNotFoundError: No module named 'tokenizer.ptbtokenizer'

from keras.preprocessing.text import Tokenizer from keras.preprocessing.sequence import pad_sequences tokenizer = Tokenizer() tokenizer.fit_on_texts(poems) poems_digit = tokenizer.texts_to_sequences(poems) vocab_size = len(tokenizer.word_index) + 1 vocab_size

最新资源