tf.keras.preprocessing.text.Tokenizer的参数
时间: 2024-01-28 11:59:42 浏览: 68
tf.keras.preprocessing.text.Tokenizer是用来将文本转化成数字序列的工具,它的常用参数如下:
- num_words:int,处理的最大单词数量。只有最常出现的num_words个单词会被保留。
- filters:str,默认为'!"#$%&()*+,-./:;<=>?@[\\]^_`{|}~\t\n',表示需要过滤掉的字符。
- lower:bool,默认为True,表示是否将文本转换为小写。
- split:str,默认为' ',表示单词的分隔符。
- char_level:bool,默认为False,表示是否将每个字符视为一个标记。
- oov_token:None或str,默认为None,表示如果为非None,则在序列中插入一个新的“未知”单词的标记,并将该单词的索引设置为num_words + 1。
- document_count:int,表示参与训练的文本数量。
- word_docs:dict,表示每个单词在多少个文档中出现过的字典。
- index_docs:dict,表示每个单词在哪些文档中出现过的字典。
- word_index:dict,表示单词到索引之间的映射字典。
相关问题
tf.keras.preprocessing.text.tokenizer
b'tf.keras.preprocessing.text.tokenizer' 是一个基于 TensorFlow 的文本预处理库,用于将文本转换成数字序列,方便进行机器学习等操作。其中 tokenizer 是其中一个类,用于对文本进行分词处理,并将每个词映射成一个唯一的整数。
tf.contrib.learn.preprocessing.VocabularyProcessor报错module 'tensorflow' has no attribute 'contrib'
这个错误的原因是在 TensorFlow 2.x 版本中,`tf.contrib` 已经被移除了。如果你正在使用 TensorFlow 2.x 版本,可以考虑使用 `tf.keras.preprocessing.text.Tokenizer` 来代替 `tf.contrib.learn.preprocessing.VocabularyProcessor`。
如果你一定要使用 `VocabularyProcessor`,可以考虑使用 TensorFlow 1.x 版本,或者在 TensorFlow 2.x 版本中使用 `tf.compat.v1` 来调用 `contrib` 模块:
```
import tensorflow as tf
tf.compat.v1.disable_eager_execution()
vocab_processor = tf.compat.v1.contrib.learn.preprocessing.VocabularyProcessor(max_document_length)
```
这样可以在 TensorFlow 2.x 版本中使用 `VocabularyProcessor`,但不建议这么做,因为 `tf.compat.v1` 只是 TensorFlow 1.x 的兼容层,可能会影响到代码的可读性和可维护性。
阅读全文