import jieba import jieba.analyse import re def preHandel(path): st = time.time() num = 0 sentences = [] with open(path) as f: for line in f.readlines(): if line.strip() != "": # `[^\w\s]` 匹配除了字母、数字和空格之外的所有字符 content = re.sub('[^\w\s]', '', line.strip()) # jieba 分词获取词语序列 content_seq = list(jieba.cut(content)) sentences.append(content_seq) num += 1 end = time.time() print("PreHandel End Num:%s Cost:%ss" % (num, (end - st))) return sentences # 1.数据预处理 path = "./all.txt" sentences = preHandel(path)
时间: 2023-06-14 11:05:13 浏览: 131
预处理数据
这段代码是一个数据预处理的函数,用于将文件中的文本进行分词处理,并去除其中的标点符号。具体实现步骤如下:
1. 读取文件内容,逐行进行处理。
2. 使用正则表达式`[^\w\s]` 去除标点符号。
3. 使用 jieba 库对每一行文本进行分词处理,得到词语序列。
4. 将处理后的词语序列添加到 sentences 列表中。
5. 最终返回 sentences 列表。
需要注意的是,这段代码需要先安装 jieba 库,并且需要将需要处理的文本放在当前目录下的 all.txt 文件中。
阅读全文