什么是tokenizer
时间: 2023-09-13 18:11:10 浏览: 96
node_tokenizer:在nodejs中实现的tf.keras令牌生成器
Tokenizer是一种将原始文本分割成Token的工具,它是自然语言处理中的一个重要预处理步骤。Tokenizer通常会将原始文本分割成单词、标点符号、数字等基本单元,并将它们转化成一个Token序列。Tokenizer的目的是为了将文本数据转化为机器学习模型可以处理的数据格式。在深度学习中,Tokenizer通常是将Token转化成固定长度的向量表示,这个向量可以被送入模型进行训练或者推理。常见的Tokenizer有基于规则的Tokenizer、基于统计的Tokenizer以及基于深度学习的Tokenizer等。
阅读全文