elasticsearch 主词词库,停词词库,同义词词库
时间: 2023-11-18 13:27:51 浏览: 45
Elasticsearch 是一个开源的搜索引擎,它支持多种语言的分词器,同时也提供了一些词库,包括主词词库、停词词库和同义词词库,用于优化搜索结果。
1. 主词词库(Main word dictionary):主词词库包含了一些常见的词汇,这些词汇通常会出现在搜索引擎的查询语句中,如“a”、“an”、“the”等冠词、介词、连词等。
2. 停词词库(Stop words dictionary):停词词库包含了一些无意义的词汇,这些词汇通常会被搜索引擎忽略,因为它们对搜索结果没有任何帮助,如“的”、“是”、“和”等词语。
3. 同义词词库(Synonym dictionary):同义词词库包含了一些同义词或近义词,这些词语可以帮助搜索引擎更好地理解用户的查询意图,从而提高搜索结果的准确性。例如,“汽车”和“轿车”就是两个近义词。
这些词库都可以在 Elasticsearch 中配置和使用,以优化搜索结果的质量。
相关问题
es 使用ik停词_es-ik自定义词库步骤
下面是使用 Elasticsearch 中的 IK 分词器进行停词和自定义词库的步骤:
1. 安装 Elasticsearch 和 IK 分词器插件。
2. 创建自定义词库文件,格式如下:
```
# 单个词语
词语1
词语2
...
# 带有词性的词语
词语1,词性1
词语2,词性2
...
```
注:词性可以不写,用逗号隔开。
3. 将自定义词库文件放置在 Elasticsearch 安装目录下的 `plugins/ik/config/` 目录下。
4. 修改 IK 分词器配置文件,指定停用词文件和自定义词库文件,示例如下:
```
{
"index": {
"analysis": {
"analyzer": {
"my_analyzer": {
"type": "custom",
"tokenizer": "ik_max_word",
"filter": [
"my_stopwords",
"my_synonyms"
]
}
},
"filter": {
"my_stopwords": {
"type": "stop",
"stopwords_path": "stopwords.txt"
},
"my_synonyms": {
"type": "synonym",
"synonyms_path": "synonyms.txt"
}
}
}
}
}
```
注:上面示例中使用了停用词文件和同义词文件,可以根据需要自行配置。
5. 创建索引并指定使用自定义分词器。
```
PUT /my_index
{
"settings": {
"analysis": {
"analyzer": {
"my_analyzer": {
"type": "custom",
"tokenizer": "ik_max_word",
"filter": [
"my_stopwords",
"my_synonyms"
]
}
},
"filter": {
"my_stopwords": {
"type": "stop",
"stopwords_path": "stopwords.txt"
},
"my_synonyms": {
"type": "synonym",
"synonyms_path": "synonyms.txt"
}
}
}
},
"mappings": {
"properties": {
"my_field": {
"type": "text",
"analyzer": "my_analyzer"
}
}
}
}
```
6. 测试分词效果。
可以使用以下命令测试分词效果:
```
GET /my_index/_analyze
{
"analyzer": "my_analyzer",
"text": "自定义分词器测试"
}
```
上述命令会返回分词结果,可以根据需要调整自定义词库和停用词文件。
elasticsearch 中文词库
elasticsearch中文词库可以通过使用ik中文分词器来实现。首先,你需要下载ik包,可以从https://github.com/medcl/elasticsearch-analysis-ik/releases 下载。下载完成后,将ik包安装到elasticsearch中。
安装完成后,你可以在elasticsearch的配置文件中配置ik中文分词器。具体的配置方法可以参考ik中文分词器的官方文档。
一旦配置完成,你就可以在elasticsearch中使用ik中文分词器进行中文分词了。ik中文分词器支持动态扩展词库,你可以根据需要添加自定义的词汇到词库中。
通过使用ik中文分词器,elasticsearch可以更好地处理中文文本的索引和搜索。它可以将中文文本按照合适的方式进行分词,提高搜索的准确性和效率。
相关推荐
![-](https://csdnimg.cn/download_wenku/file_type_column_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)