Python 如何匹配中文字符
时间: 2023-11-05 22:07:35 浏览: 56
Python使用中文正则表达式匹配指定中文字符串的方法示例
Python 中匹配中文字符需要使用 Unicode 编码,具体方法如下:
1.使用 re 模块进行正则匹配,同时在正则表达式前加上 `u`,表示使用 Unicode 编码。
例如,匹配中文字符的正则表达式可以写成:`u'[\u4e00-\u9fa5]'`,其中 `\u4e00` 表示汉字的起始编码,`\u9fa5` 表示汉字的终止编码。
示例代码:
```
import re
s = 'Hello 你好'
p = re.compile(u'[\u4e00-\u9fa5]+')
r = p.findall(s)
print(r) # ['你好']
```
2.使用 Python 内置的 unicodedata 模块进行字符编码转换和字符分类。
示例代码:
```
import unicodedata
s = 'Hello 你好'
for c in s:
if unicodedata.category(c) == 'Lo':
print(c) # 你 好
```
其中,`unicodedata.category(c)` 返回字符 c 的分类,'Lo' 表示汉字。
阅读全文