jieba分词筛掉无关词语
时间: 2024-06-13 18:01:59 浏览: 71
jieba 分词
jieba是一个非常流行的中文自然语言处理库,主要用于中文文本的分词,即将连续的汉字序列切分成有意义的词语。在进行分词时,jieba提供了多种模式来满足不同的需求,包括精确模式、全模式和搜索引擎模式等。
如果你想筛掉无关词语,jieba本身并不直接提供筛选功能,但你可以结合其他方法来过滤。例如:
1. 自定义词典:在jieba的词典中添加或更新你需要保留的词语,不包含在词典中的会被自动过滤。
```python
jieba.set_dict('your_custom_dict.txt') # 假设你有一个自定义词典文件
```
2. 正则表达式:通过正则表达式匹配规则,过滤出不符合特定模式的词语。
```python
import re
def filter_words(words):
pattern = r'你不关心的词语'
return [word for word in words if not re.match(pattern, word)]
filtered_words = filter_words(jieba.lcut('文本内容'))
```
3. 高级用法:使用`jieba.analyse`模块的`TF-IDF停用词表`,它可以排除一些常见的无意义词语。
```python
from jieba.analyse import extract_tags, TfidfModel, idf
filtered_words = [word for word in jieba.lcut('文本内容') if word not in stop_words]
```
阅读全文