正则匹配所有汉字,包括生僻字
时间: 2023-08-10 09:10:38 浏览: 226
匹配中文汉字的正则表达式介绍
要匹配所有汉字,包括生僻字,可以使用 Unicode 编码。Unicode 是一种用于表示字符的标准编码系统,其中包含了所有世界上已知的字符,包括汉字和生僻字。
在正则表达式中,可以使用 `\p{Han}` 来匹配所有汉字。`\p` 是 Unicode 属性的缩写,`{Han}` 表示汉字的属性。
下面是一个例子,可以匹配所有汉字:
```
import re
text = "汉字abc生僻字𠀀𠀁"
pattern = re.compile(r'\p{Han}+')
matches = pattern.findall(text)
print(matches)
```
输出结果为:
```
['汉字', '生僻字', '𠀀', '𠀁']
```
其中,`'𠀀'` 和 `'𠀁'` 是两个生僻字。
阅读全文