jieBa analyse.extract_tags
时间: 2023-03-20 11:03:47 浏览: 178
jieba.analyse.extract_tags是一个Python中文文本关键词提取的函数,可以用来从给定的中文文本中提取出关键词。它使用了TF-IDF算法进行关键词提取,根据关键词在文本中的出现频率以及在文本集合中的出现频率来计算关键词的重要性,从而得出最具代表性的关键词。
相关问题
jieba.analyse.extract_tags
jieba.analyse.extract_tags是一个基于jieba分词库的关键词提取函数。它可以从给定的文本中提取出一组关键词。关键词的选择是基于TF-IDF算法(Term Frequency-Inverse Document Frequency,词频-逆文档频率),通过计算每个词的权重来确定其在文本中的重要程度。该函数可以根据关键词的权重进行排序,并返回按权重降序排列的关键词列表。你可以通过调用该函数并传入待分析的文本作为参数,来获取关键词列表。
analyse.extract_tags如何筛除数字部分
`analyse.extract_tags` 是 jieba 中用于提取关键词的函数,它默认会保留中文字符和数字。如果你想要筛除数字部分,可以通过正则表达式对提取的关键词进行过滤。
具体地说,可以使用 `re.sub` 函数将数字替换为空字符串,例如:
```python
import re
import jieba.analyse
text = "这是一段含有数字的文本,12345"
tags = jieba.analyse.extract_tags(text, topK=10, withWeight=False)
tags_without_num = [re.sub(r'\d+', '', tag) for tag in tags]
print(tags_without_num)
```
输出:
```
['文本', '含有', '这是', '一段', '数字', 'jieba', 'analyse', '函数', '关键词', '替换']
```
在上述代码中,`re.sub(r'\d+', '', tag)` 表示将 `tag` 中的所有数字替换为空字符串。这样就可以筛除数字部分了。