tokenizer.encode
时间: 2023-09-03 14:14:02 浏览: 69
引用\[1\]:tokenizer.tokenize() 返回词列表 默认首尾不加 \[CLS\] \[SEP\] okenizer.encode() 返回词id列表 默认首尾加 \[CLS\] \[SEP\]对应的词id。引用\[2\]:tokenizer.encode_plus返回所有的编码信息,包括input_ids、token_type_ids和attention_mask。其中input_ids是单词在词典中的编码,token_type_ids用于区分两个句子的编码,attention_mask指定对哪些词进行self-Attention操作。当add_special_tokens设置为False时,不会在编码中加入开头和结尾的标记\[CLS\]和\[SEP\]。引用\[3\]:tokenizer.encode直接输出词的id,可以通过convert_tokens_to_ids方法将词转换为id。在使用tokenizer.encode时,如果add_special_tokens设置为True,则会在编码中加入开头和结尾的标记\[CLS\]和\[SEP\]。
#### 引用[.reference_title]
- *1* [tokenizer.tokenize(), tokenizer.encode() , tokenizer.encode_plus() 方法介绍及其区别](https://blog.csdn.net/qq_45056135/article/details/127748482)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
- *2* *3* [tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异](https://blog.csdn.net/qq_41900846/article/details/128185135)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item]
[ .reference_list ]