首页用Python获取一个文件中通用规范汉字(8105个)每个字的部首

用Python获取一个文件中通用规范汉字(8105个)每个字的部首

时间: 2023-05-30 08:01:57 浏览: 223

我们可以使用Python的中文字符集库中已经定义好的通用规范汉字集合，然后使用部首库进行匹配，最后输出每个汉字对应的部首。以下是示例代码： ```python import unicodedata # 获取通用规范汉字集合 chinese_chars = [chr(i) for i in range(0x4e00, 0x9fa6)] # 加载部首数据 with open('radicals.txt', 'r') as f: radicals = f.read().splitlines() # 获取每个汉字的部首 for char in chinese_chars: # 使用unicodedata库获取汉字的unicode名称 name = unicodedata.name(char) if 'CJK UNIFIED IDEOGRAPH' in name: # 获取汉字的unicode编码 code = int(name.split()[-1], 16) # 查找汉字对应的部首 for r in radicals: if chr(code) in r: print(char, r[0]) break ``` 在上面的代码中，我们首先使用`range()`函数生成通用规范汉字集合，然后加载部首数据文件`radicals.txt`。接下来，我们遍历每个汉字，获取其对应的unicode名称，然后从中提取出汉字的unicode编码。最后，我们在部首数据中查找对应汉字的部首，并输出汉字和对应的部首。需要注意的是，部首数据文件`radicals.txt`中每行包含一个部首以及其包含的汉字列表，因此我们需要遍历每行，查找包含当前汉字的部首。在部首数据文件中，每个部首的第一个汉字即为该部首的代表字，因此我们只输出部首的第一个汉字作为代表字。

阅读全文