ik-analyzer 自定义词汇配置
时间: 2023-10-06 16:06:13 浏览: 144
Solr4.7-IKAnalyzer-分词配置-自定义IKTokenizerFactory
ik-analyzer 是一个基于 java 的中文分词器,它的词汇表是通过词典文件进行配置的。如果想要自定义词汇,可以按照以下步骤操作:
1. 定义自定义词典文件,格式为每行一个词汇,每行词汇由三个部分组成,用空格分隔:词汇、词性、权重。例如:
```
自定义词汇1 n 0.5
自定义词汇2 v 0.8
```
2. 将自定义词典文件放置到 ik-analyzer 的配置文件目录下(默认为 `classpath:config`),并在 `IKAnalyzer.cfg.xml` 配置文件中添加以下内容:
```xml
<property name="ext_dict" value="自定义词典文件名"/>
```
在这里,`自定义词典文件名` 是指自定义词典文件的文件名,不包括路径和扩展名。
3. 重新加载词典,这可以通过在代码中调用 `IKSegmentation.reload() `方法来实现。
```java
IKSegmentation.reload();
```
这样就可以使用自定义词典了。在分词时,如果分词器遇到了自定义词汇,就会将其作为一个词汇进行处理,其词性和权重也会被相应地记录下来。
阅读全文