csv中文分词去除停用词代码
时间: 2023-11-12 22:06:10 浏览: 361
去除停用词.c
5星 · 资源好评率100%
以下是一个用 Python 实现的简单的中文分词和去除停用词的代码:
```python
import jieba
import re
# 加载停用词表
stopwords = set()
with open('stopwords.txt', 'r', encoding='utf-8') as f:
for line in f:
stopwords.add(line.strip())
# 定义中文分词函数
def chinese_word_cut(text):
# 使用正则表达式去除非中文字符
text = re.sub('[^\u4e00-\u9fa5]', '', text)
# 分词
words = jieba.lcut(text)
# 去除停用词
words = [word for word in words if word not in stopwords]
# 返回分词结果
return words
# 测试代码
text = '这是一段中文文本,包含了一些常见的停用词。'
words = chinese_word_cut(text)
print(words)
```
其中 `jieba` 是一个常用的中文分词库,需要使用 `pip install jieba` 命令安装。停用词表可以自己制作,也可以从网上下载。
阅读全文