keras.preprocessing.text.tokenizer
时间: 2023-05-01 22:07:39 浏览: 62
'b'keras.preprocessing.text.tokenizer''是Keras中的一个文本预处理工具,可用于将文本转换为数字序列,以供神经网络训练使用。它可以进行词汇表的构建、文本编码、截断和填充等预处理操作。
相关问题
tf.keras.preprocessing.text.tokenizer
b'tf.keras.preprocessing.text.tokenizer' 是一个基于 TensorFlow 的文本预处理库,用于将文本转换成数字序列,方便进行机器学习等操作。其中 tokenizer 是其中一个类,用于对文本进行分词处理,并将每个词映射成一个唯一的整数。
tf.keras.preprocessing.text.Tokenizer的参数
tf.keras.preprocessing.text.Tokenizer是用来将文本转化成数字序列的工具,它的常用参数如下:
- num_words:int,处理的最大单词数量。只有最常出现的num_words个单词会被保留。
- filters:str,默认为'!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',表示需要过滤掉的字符。
- lower:bool,默认为True,表示是否将文本转换为小写。
- split:str,默认为' ',表示单词的分隔符。
- char_level:bool,默认为False,表示是否将每个字符视为一个标记。
- oov_token:None或str,默认为None,表示如果为非None,则在序列中插入一个新的“未知”单词的标记,并将该单词的索引设置为num_words + 1。
- document_count:int,表示参与训练的文本数量。
- word_docs:dict,表示每个单词在多少个文档中出现过的字典。
- index_docs:dict,表示每个单词在哪些文档中出现过的字典。
- word_index:dict,表示单词到索引之间的映射字典。