python实现中文文本关键词提取
时间: 2023-10-05 08:07:36 浏览: 193
Python中有很多中文文本关键词提取的库,其中比较常用的有jieba和hanlp。
1. jieba库
jieba是一个中文分词库,可以用来对中文文本进行分词,并提取关键词。使用方法如下:
```python
import jieba.analyse
# 设置停用词
jieba.analyse.set_stop_words("stopwords.txt")
# 加载文本
text = "这是一段中文文本,可以用来测试jieba的关键词提取功能。"
# 提取关键词
keywords = jieba.analyse.extract_tags(text, topK=10, withWeight=True)
# 输出关键词及权重
for keyword, weight in keywords:
print(keyword, weight)
```
2. hanlp库
hanlp是一个自然语言处理库,其中包括了中文分词和关键词提取等功能。使用方法如下:
```python
from pyhanlp import *
# 加载文本
text = "这是一段中文文本,可以用来测试hanlp的关键词提取功能。"
# 分词
segment = HanLP.segment(text)
term_list = [term.word for term in segment]
# 提取关键词
keywords = HanLP.extractKeyword(text, 10)
# 输出关键词
for keyword in keywords:
print(keyword)
```
以上是两种常用的中文文本关键词提取方法,具体选择哪种方法可以根据实际需求来确定。
阅读全文