用re.sub()方法，去掉不是 ‘中文字符和标点’ 的内容

可以使用正则表达式来匹配中文字符和标点，然后使用re.sub()方法将非中文字符和标点替换为空字符串即可。具体代码如下： ```python import re text = "Hello, 你好啊！123" pattern = re.compile(r'[^\u4e00-\u9fa5。，！？]') # 匹配非中文字符和标点 result = re.sub(pattern, '', text) # 将非中文字符和标点替换为空字符串 print(result) # 输出：你好啊！ ``` 在上面的代码中，我们首先使用正则表达式r'[^\u4e00-\u9fa5。，！？]'来匹配非中文字符和标点，然后使用re.sub()方法将其替换为空字符串。最终输出结果为“你好啊！”

s = re.sub("[A-Za-z0-9\：\·\—\，\。\“ \”]", "", s) 解释它

这段代码使用正则表达式 `re.sub()` 函数将字符串 `s` 中的英文字母、数字和一些特殊字符替换为空字符串。具体要替换的字符包括大写字母 A-Z、小写字母 a-z、数字 0-9，以及冒号、点、中文标点符号等。这段代码的作用是去除字符串 `s` 中的所有英文字母、数字和一些特殊字符，只保留汉字和一些重要的标点符号。

import jieba import jieba.analyse import re def preHandel(path): st = time.time() num = 0 sentences = [] with open(path) as f: for line in f.readlines(): if line.strip() != "": # `[^\w\s]` 匹配除了字母、数字和空格之外的所有字符 content = re.sub('[^\w\s]', '', line.strip()) # jieba 分词获取词语序列 content_seq = list(jieba.cut(content)) sentences.append(content_seq) num += 1 end = time.time() print("PreHandel End Num:%s Cost:%ss" % (num, (end - st))) return sentences # 1.数据预处理 path = "./all.txt" sentences = preHandel(path)

这段代码是一个数据预处理的函数，用于将文件中的文本进行分词处理，并去除其中的标点符号。具体实现步骤如下： 1. 读取文件内容，逐行进行处理。 2. 使用正则表达式`[^\w\s]` 去除标点符号。 3. 使用 jieba 库对每一行文本进行分词处理，得到词语序列。 4. 将处理后的词语序列添加到 sentences 列表中。 5. 最终返回 sentences 列表。需要注意的是，这段代码需要先安装 jieba 库，并且需要将需要处理的文本放在当前目录下的 all.txt 文件中。

阅读全文

用re.sub()方法，去掉不是 ‘中文字符和标点’ 的内容

s = re.sub("[A-Za-z0-9\：\·\—\，\。\“ \”]", "", s) 解释它

相关推荐

Python正则表达式re.sub处理HTML标签的完整解决方案

Javascript数组、字符串和日期对象的属性和方法

sub.js：探索JavaScript中的字符串模板函子

对python数据清洗容易遇到的函数-re.sub bytes string详解

python如何使用正则表达式去除第一个左括号及在左括号后面的所有字符和标点

写一个正则表达式，将一个句子中的特殊字符和标点符号去除

python字符串分割去除标点

python re去除标点符号

Python计划. 基础语法精讲时Python字符串实践学习资料2-2.zip

如何有效地清理和预处理文本数据，以便删除无关的字符、标点符号以及其他无用内容？

使用Python的正则表达式来去除只含有中英文标点符号的字符串元素

编写程序，输入一段英文字符串，利用正则表达式将其中的空格和标点符号去除后，再判断该字符串是不是回文字符串，若是输出yes，否则输出no

余弦相似度算法怎么去掉标点符号、括号以及特殊字符

python去除中文标点符号

如何对名为new_data的list类型数据做如下处理：去除特殊字符：去除除了中英文、数字、空格、标点符号以外的所有字符。

大家在看

【微电网】基于Matlab实现孤岛和并网的状态下的微电网潮流计算 上传.zip

FAST FACTORIZED_FFBP论文_FFBP_后向投影.zip

威布尔参数估计，可靠性与寿命预测方向，机械工程,威布尔分布寿命预测,matlab源码.rar

东华his表结构新版.docx

aldec active 9.x基本使用说明

最新推荐

【岗位说明】酒店各个岗位职责.doc

GitHub Classroom 创建的C语言双链表实验项目解析

管理建模和仿真的文件

【三态RS锁存器CD4043的秘密】：从入门到精通的电路设计指南（附实际应用案例）

霍夫曼四元编码matlab

MATLAB在AWS上的自动化部署与运行指南

"互动学习：行动中的多样性与论文攻读经历"

铁路售票系统用例图：异常流处理的黄金法则

MySQL的jar包拷贝到sqoop/lib下的代码

Windows系统上运行Hadoop解决方案

【微电网】基于Matlab实现孤岛和并网的状态下的微电网潮流计算上传.zip