hanlp统计词频分词
时间: 2023-09-26 14:09:09 浏览: 122
词频统计pta中文分词、统计词频、比对文本相似度.zip
可以使用HanLP的分词器和词频统计工具来实现统计词频分词的功能。
代码示例:
```
import com.hankcs.hanlp.HanLP;
import com.hankcs.hanlp.corpus.tag.Nature;
import com.hankcs.hanlp.mining.word.WordFrequency;
import java.util.List;
public class WordFrequencyDemo {
public static void main(String[] args) {
String text = "我喜欢吃苹果,也喜欢吃香蕉。";
List<String> wordList = HanLP.segment(text);
List<WordFrequency> frequencyList = HanLP.extractWords(text, 10);
for (WordFrequency wordFrequency : frequencyList) {
System.out.println(wordFrequency.getWord() + " " + wordFrequency.getFrequency());
}
}
}
```
说明:
1. 使用HanLP.segment()方法对文本进行分词,得到分词后的词列表。
2. 使用HanLP.extractWords()方法统计词频,得到词频列表。
3. 遍历词频列表,输出每个词及其词频。其中getWord()方法获取词,getFrequency()方法获取词频。
4. 可以通过设置参数来控制提取的关键词数量,例如上述代码中设置为10,表示提取出现频率最高的前10个关键词。
输出结果:
```
喜欢 2
吃 2
我 1
苹果 1
也 1
香蕉 1
```
阅读全文