"大五码编码表及特点:双字节高位低位编码,13060繁体中文字,包含重复编码。"

5星 · 超过95%的资源 需积分: 46 8 下载量 27 浏览量 更新于2024-01-23 收藏 259KB DOC 举报
BIG5编码表又称大五码,是繁体中文字符集编码标准,共收录13060个中文字。BIG5编码采用双字节编码,使用两个字节来表示一个字符。高位字节使用了0x81-0xFE,低位字节使用了0x40-0x7E及0xA1-0xFE。 在BIG5的编码范围中,8140-A0FE保留给使用者自定义字符(造字区),A140-A3BF收录了标点符号、希腊字母及特殊符号。其中,在A259-A261收录了度量衡单位用字,如兙、兛、兞等。A3C0-A3FE保留,没有开放作为造字区用。A440-C67E收录了常用汉字,按笔划再按部首排序。C6A1-F9DC收录了其他汉字,F9DD-F9FE则用于制表符。 需要注意的是,BIG5重复地收录了两个相同的字:“兀、兀”(A461及C94A)和“嗀、嗀”(DCD1及DDFC)。 BIG5编码表是为了适应繁体中文的需求而制定的编码标准。繁体中文在使用上与简体中文有所不同,繁体中文字符较多,字形复杂,因此需要一个能够准确编码和表示这些字符的编码标准。BIG5编码表的制定就满足了这一需求。 BIG5采用双字节编码,每个字符使用两个字节表示。通过将高位字节和低位字节组合,即可表示一个字符。高位字节的范围是0x81-0xFE,低位字节的范围是0x40-0x7E及0xA1-0xFE。这样的编码方式可以保证大部分繁体中文字符都能够准确地被表示出来。 在BIG5编码表中,有一些特殊的编码范围。其中,8140-A0FE是保留给使用者自定义字符的区域,也即是造字区。这意味着用户可以根据需要自行定义字符,并将其编码在这个范围内。A140-A3BF则收录了一些标点符号、希腊字母和特殊符号。在A259-A261中,还收录了一些度量衡单位用字,如兙、兛、兞等。A3C0-A3FE保留,没有开放作为造字区用。A440-C67E是收录了常用汉字的区域,按照笔划和部首进行了排序。C6A1-F9DC收录了其他汉字。F9DD-F9FE则是用于表示制表符。 需要指出的是,BIG5编码表中有一些重复的字符。例如,“兀、兀”在A461和C94A两个位置都有编码,“嗀、嗀”在DCD1和DDFC两个位置都有编码。这种重复编码可能是为了满足一些特殊需求而设定的,但在使用时需要注意。重复编码可能导致一些字符在解码时出现混淆。 总的来说,BIG5编码表是一个用于表示繁体中文字符的编码标准,通过将每个字符用两个字节编码,确保了繁体中文字符能够被准确地表示。在编码范围中,除了收录了大量的繁体中文字符外,还有一些特殊范围用于用户自定义字符和特殊符号。然而,需要注意的是,编码表中存在一些重复编码的情况,使用时需谨慎。
2013-04-13 上传