solr 9.2.0版本 配置中文分词
时间: 2024-05-14 20:17:42 浏览: 310
solr环境搭建和中文分词器IK配置
Solr 9.2.0默认使用Lucene 8.6.0,其自带了一个中文分词器SmartChineseAnalyzer。
在Solr中配置中文分词器的步骤如下:
1. 在solrconfig.xml中配置分词器
在schema.xml中定义field时,需要指定使用的分词器,例如:
```
<field name="text" type="text_cn" indexed="true" stored="true"/>
```
在solrconfig.xml中,需要配置text_cn类型的分词器,例如:
```
<fieldType name="text_cn" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.apache.lucene.analysis.cn.smart.SmartChineseTokenizerFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.apache.lucene.analysis.cn.smart.SmartChineseTokenizerFactory"/>
</analyzer>
</fieldType>
```
其中,tokenizer指定了使用的分词器,这里使用的是SmartChineseTokenizerFactory,它是SmartChineseAnalyzer的底层分词器。
2. 配置停用词
在solrconfig.xml中,可以配置停用词,在分词时将停用词过滤掉,例如:
```
<filter class="solr.StopFilterFactory" words="stopwords.txt" ignoreCase="true" />
```
其中,words指定了停用词文件的路径,可以自己定义。
3. 配置同义词
在solrconfig.xml中,可以配置同义词,在分词时将同义词替换掉,例如:
```
<filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true" />
```
其中,synonyms指定了同义词文件的路径,可以自己定义。expand指定是否将同义词扩展,例如"中国, 中国人, 中国人民",如果expand=true,则搜索"中国"时会将其扩展为"中国 中国人 中国人民"。
以上就是在Solr 9.2.0中配置中文分词器的基本步骤。
阅读全文