生成代码:用jieba分词进行文本预处理,使用自定义词典
时间: 2024-05-25 15:17:42 浏览: 186
分词文本处理代码
import jieba
# 加载自定义词典
jieba.load_userdict('custom_dict.txt')
# 文本预处理
def text_preprocessing(text):
# 分词
seg_list = jieba.cut(text)
# 去除停用词等无用词汇
filtered_words = []
for word in seg_list:
if word.strip() and word not in stopwords_list:
filtered_words.append(word)
# 返回处理后的文本
return ' '.join(filtered_words)
阅读全文