analyse.extract_tags如何筛除不需要的部分
时间: 2024-05-13 07:14:47 浏览: 11
`analyse.extract_tags`函数可以通过设置`stop_words`参数来筛除不需要的部分。`stop_words`参数是一个列表,包含需要被过滤的词语。比如,如果你想要过滤掉英文单词"the"和"and",可以这样设置:
```python
import jieba.analyse
text = "这是一段需要提取关键词的文本。"
keywords = jieba.analyse.extract_tags(text, topK=10, stop_words=["这是", "需要", "的", "关键词"])
print(keywords)
```
输出:
```
['提取', '文本']
```
在这个例子中,我们通过设置`stop_words`参数来筛除了"这是"、"需要"、"的"和"关键词"这几个词语。
相关问题
analyse.extract_tags如何筛除数字部分
`analyse.extract_tags` 是 jieba 中用于提取关键词的函数,它默认会保留中文字符和数字。如果你想要筛除数字部分,可以通过正则表达式对提取的关键词进行过滤。
具体地说,可以使用 `re.sub` 函数将数字替换为空字符串,例如:
```python
import re
import jieba.analyse
text = "这是一段含有数字的文本,12345"
tags = jieba.analyse.extract_tags(text, topK=10, withWeight=False)
tags_without_num = [re.sub(r'\d+', '', tag) for tag in tags]
print(tags_without_num)
```
输出:
```
['文本', '含有', '这是', '一段', '数字', 'jieba', 'analyse', '函数', '关键词', '替换']
```
在上述代码中,`re.sub(r'\d+', '', tag)` 表示将 `tag` 中的所有数字替换为空字符串。这样就可以筛除数字部分了。
jieba.analyse.extract_tags 和 jieba.analyse.textrank区别
jieba.analyse.extract_tags和jieba.analyse.textrank都是jieba库中的关键词提取方法,但它们的算法和使用场景有所不同。
jieba.analyse.extract_tags是基于TF-IDF算法的关键词提取方法,它根据词频和文档频率计算关键词的重要性。它可以设置topK参数来限制返回的关键词数量,并且可以指定使用停用词列表和指定词性的词语进行提取。
jieba.analyse.textrank是基于PageRank算法的关键词提取方法,它将文本中的词语看作是节点,根据它们之间的共现关系构建图,利用PageRank算法进行计算,得出关键词的重要性。它可以设置topK参数来限制返回的关键词数量,并且可以指定使用停用词列表和指定词性的词语进行提取。
总的来说,如果要提取一篇文档中的关键词,可以先使用jieba.analyse.extract_tags进行初步提取,再使用jieba.analyse.textrank进行筛选和排序,以得到更加准确的关键词。但是如果要处理的文本比较长,比如一篇长篇小说或者一篇新闻报道,建议直接使用jieba.analyse.textrank进行关键词提取,因为它能够充分利用文本中的信息,得到更加准确的关键词。
相关推荐
![docx](https://img-home.csdnimg.cn/images/20210720083331.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![zip](https://img-home.csdnimg.cn/images/20210720083736.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)
![](https://csdnimg.cn/download_wenku/file_type_ask_c1.png)