transformers.AutoTokenizer.from_pretrained不加载本地权重
时间: 2024-11-30 11:19:03 浏览: 6
Python库 | transformers-4.1.0.tar.gz
5星 · 资源好评率100%
`transformers.AutoTokenizer.from_pretrained` 是 Hugging Face Transformers 库中的一个功能,用于从预训练模型的仓库下载并加载预训练的 tokenizer。如果你不想直接从远程加载权重(即不加载本地权重),你可以按照以下步骤操作:
1. 首先,使用 `from_pretrained` 函数获取 tokenizer 对象,但不下载模型文件到本地。这通常会下载配置文件(config.json)和词汇表(vocab.txt):
```python
tokenizer = AutoTokenizer.from_pretrained('bert-base-chinese', local_files_only=True)
```
这里的 `local_files_only=True` 表示只使用已经存在的文件,不会下载新的权重。
2. 如果你想加载特定版本或者自定义的权重,可以提供 `model_file` 参数指向特定的模型文件路径:
```python
tokenizer = AutoTokenizer.from_pretrained('path/to/my/custom/model', model_file='my_model.bin')
```
这里假设你已经有了 `my_model.bin` 文件,它是经过训练后的权重文件。
但是请注意,如果你不提供任何权重文件,那么调用 `tokenizer.encode()` 或者 `tokenizer.decode()` 等方法时,只会使用预训练模型的默认初始化。
阅读全文