java结巴分词停用词
时间: 2023-11-10 22:02:29 浏览: 89
Java结巴分词是一个常用的中文分词工具,可以用于将中文文本进行切分。在使用结巴分词时,可以添加自定义的停用词来过滤掉一些常见但无实际意义的词语。
以下是一个示例代码,演示如何使用Java结巴分词并添加自定义的停用词:
```java
import com.huaban.analysis.jieba.JiebaSegmenter;
import com.huaban.analysis.jieba.SegToken;
import java.util.ArrayList;
import java.util.Arrays;
import java.util.List;
public class JiebaDemo {
public static void main(String[] args) {
// 创建结巴分词对象
JiebaSegmenter segmenter = new JiebaSegmenter();
// 待分词的文本
String text = "我爱Java编程";
// 自定义停用词列表
List<String> stopWords = Arrays.asList("我", "编程");
// 分词结果列表
List<SegToken> segTokens = segmenter.process(text, JiebaSegmenter.SegMode.SEARCH);
// 过滤停用词
List<String> result = new ArrayList<>();
for (SegToken segToken : segTokens) {
String word = segToken.word;
if (!stopWords.contains(word)) {
result.add(word);
}
}
// 打印分词结果
System.out.println(result);
}
}
```
在上述代码中,我们首先创建了一个JiebaSegmenter对象,然后指定待分词的文本。接着,我们定义了一个自定义的停用词列表,其中包含了"我"和"编程"这两个词。然后,我们调用JiebaSegmenter的process方法对文本进行分词,并指定分词模式为SEARCH。最后,我们遍历分词结果,过滤掉停用词,并将非停用词添加到结果列表中,最终打印出分词结果。
阅读全文