ik-analyzers 自定义字典的例子
时间: 2023-10-02 17:10:18 浏览: 215
ik-analyzers 是一个基于 Elasticsearch 的中文分词插件。如果你想在 ik-analyzers 中添加自定义词典,可以按照以下步骤进行操作:
1. 在 Elasticsearch 安装目录下的 config 目录中创建一个名为 ik 文件夹。
2. 在 ik 文件夹中创建一个名为 user_dict.txt 的文件,用来存放自定义词典。
3. 在 user_dict.txt 中添加你想要添加的词汇,每行一个词汇,格式为:词汇 词频(可选) 词性(可选)。
例如:
```
自然语言处理 10 n
机器学习 5 n
```
4. 在 Elasticsearch 的配置文件 elasticsearch.yml 中添加以下配置:
```
index:
analysis:
analyzer:
ik_smart:
type: "custom"
tokenizer: "ik_smart"
filter: ["my_synonym"]
ik_max_word:
type: "custom"
tokenizer: "ik_max_word"
filter: ["my_synonym"]
filter:
my_synonym:
type: "synonym"
synonyms_path: "ik/user_dict.txt"
```
5. 重启 Elasticsearch。
6. 在索引数据之前需要先创建索引,并设置使用 ik_smart 或 ik_max_word 分词器。
7. 如果你使用的是 ik_smart 分词器,那么你输入的文本会首先尝试使用词库中的词汇进行匹配,如果没有匹配到则使用智能分词器进行分词。如果你使用的是 ik_max_word 分词器,则会直接使用词库中的词汇进行匹配。
以上就是在 ik-analyzers 中添加自定义词典的步骤。需要注意的是,自定义词典的词汇会影响分词的结果,因此需要谨慎添加。
阅读全文