首页tokenizer.encode

tokenizer.encode

时间: 2023-09-03 14:14:02 浏览: 69

引用\[1\]:tokenizer.tokenize() 返回词列表默认首尾不加 \[CLS\] \[SEP\] okenizer.encode() 返回词id列表默认首尾加 \[CLS\] \[SEP\]对应的词id。引用\[2\]:tokenizer.encode_plus返回所有的编码信息，包括input_ids、token_type_ids和attention_mask。其中input_ids是单词在词典中的编码，token_type_ids用于区分两个句子的编码，attention_mask指定对哪些词进行self-Attention操作。当add_special_tokens设置为False时，不会在编码中加入开头和结尾的标记\[CLS\]和\[SEP\]。引用\[3\]:tokenizer.encode直接输出词的id，可以通过convert_tokens_to_ids方法将词转换为id。在使用tokenizer.encode时，如果add_special_tokens设置为True，则会在编码中加入开头和结尾的标记\[CLS\]和\[SEP\]。 #### 引用[.reference_title] - *1* [tokenizer.tokenize(), tokenizer.encode() , tokenizer.encode_plus() 方法介绍及其区别](https://blog.csdn.net/qq_45056135/article/details/127748482)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] - *2* *3* [tokenizer.encode、tokenizer.tokenize、tokenizer.encode_plus的用法差异](https://blog.csdn.net/qq_41900846/article/details/128185135)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v91^control_2,239^v3^insert_chatgpt"}} ] [.reference_item] [ .reference_list ]