elasticsearch jieba分词
时间: 2023-07-12 10:03:22 浏览: 57
Elasticsearch支持使用jieba分词器进行中文分词。具体操作如下:
1. 在Elasticsearch的config目录下创建一个名为"jieba"的目录,并在该目录下创建一个名为"dict.txt"的文件,用于存放jieba分词所需的字典。
2. 在Elasticsearch的config目录下的elasticsearch.yml文件中添加以下配置:
```
index:
analysis:
analyzer:
jieba_analyzer:
type: custom
tokenizer: jieba_tokenizer
tokenizer:
jieba_tokenizer:
type: jieba
user_dict: jieba/dict.txt
```
3. 创建一个索引,并使用上述配置中定义的分词器进行分词。例如:
```
PUT /my_index
{
"settings": {
"analysis": {
"analyzer": {
"default": {
"type": "jieba_analyzer"
}
}
}
},
"mappings": {
"properties": {
"content": {
"type": "text"
}
}
}
}
POST /my_index/_doc
{
"content": "我爱北京天安门"
}
```
以上操作完成后,"我爱北京天安门"会被使用jieba分词器进行分词,生成的分词结果为"我 爱 北京 天安门"。