字符编码详解：ASCII到Unicode的转变

需积分: 10 100 浏览量更新于2024-07-27 收藏 277KB DOC 举报

"字符编码是计算机处理文字的基础，主要包括ASCII码和非ASCII编码。ASCII码是一种早期的字符编码标准，定义了128个字符，主要用于英语，其中空格的编码为32，大写A的编码为65。由于ASCII码不足以表示其他语言如法语中的特殊字符，非ASCII编码应运而生，如法语编码中130代表é，但不同国家的非ASCII编码在128—255范围内的符号含义各异。对于亚洲语言，如中文，由于字符数量庞大，单字节编码无法满足需求，GB2312等双字节编码方式被采用，最多可表示65536个符号。然而，这导致了不同编码系统间的兼容性问题。为了解决这个问题，Unicode应运而生，它是一个统一的字符集，包含全球几乎所有的文字，旨在消除编码冲突，使得数据交换更为顺畅。Unicode的存在是后续UTF-8等变长编码的基础，尽管GB类编码与Unicode和UTF-8在原理上不同，但Unicode和UTF-8的出现极大程度上解决了跨语言、跨平台的文本处理难题。" 字符编码是计算机科学中至关重要的一环，它规定了如何将字符转换为计算机可以理解和处理的二进制形式。在早期，ASCII码是国际上广泛接受的标准，它定义了128个字符，包括大小写字母、数字、标点符号和一些控制字符。每个字符通过一个字节的7位进行编码，最前面的一位固定为0。然而，ASCII码对于包含更多特殊字符或非拉丁字母的语言来说是不够的。非ASCII编码，如一些欧洲国家采用的编码方式，利用字节的最高位扩展到了256个符号，但这导致了编码混乱，因为在不同的语言编码中，同一数值可能代表不同的字符。例如，130在法语编码中表示é，但在希伯来语或俄语编码中则代表不同的字符。随着亚洲语言，特别是汉字的需求，单字节编码不再适用。GB2312等双字节编码方式成为解决方案，它们能够表示更多的字符，但同时也带来了更大的兼容性挑战，因为不同的编码系统之间不兼容，读取不同编码的文件时可能会出现乱码。 Unicode的出现是为了统一各种编码，它是一个庞大的字符集，包括几乎全球所有语言的字符。Unicode的存在解决了跨语言的编码冲突，确保了数据在不同系统间的准确交换。UTF-8是一种基于Unicode的变长编码，它可以适应从单字节到四字节的编码，根据字符的不同而变化，这样既节省空间又保持了与ASCII的兼容性。字符编码的发展历程从ASCII到非ASCII，再到Unicode和UTF-8，反映了计算机技术对处理全球多样化语言需求的适应和进步。理解字符编码对于编程、网络通信和数据存储等领域都至关重要。

3、UCS-2、UCS-4、BMP

　　UCS 有两种格式：UCS-2 和 UCS-4。顾名思义，UCS-2 就是用两个字

节编码，UCS-4 就是用 4 个字节（实际上只用了 31 位，最高位必须为 0）编码。

下面让我们做一些简单的数学游戏：

　　UCS-2 有 2^16=65536 个码位，UCS-4 有 2^31=2147483648 个码位。

　　UCS-4 根据最高位为 0 的最高字节分成 2^7=128 个 group。每个 group

再根据次高字节分为 256 个 plane。每个 plane 根据第 3 个字节分为 256 行

(rows)，每行包含 256 个 cells。当然同一行的 cells 只是最后一个字节不同，其

余都相同。

　　group 0 的 plane 0 被称作 Basic Multilingual Plane, 即 BMP。或者说

UCS-4 中，高两个字节为 0 的码位被称作 BMP。

　　将 UCS-4 的 BMP 去掉前面的两个零字节就得到了 UCS-2。在 UCS-2

的两个字节前加上两个零字节，就得到了 UCS-4 的 BMP。而目前的 UCS-4 规

范中还没有任何字符被分配在 BMP 之外。

4、UTF 编码

　　UTF-8 就是以 8 位为单元对 UCS 进行编码。从 UCS-2 到 UTF-8 的编码

方式如下：

UCS-2 编码(16 进制) UTF-8 字节流(二进制)

0000 - 007F

0xxxxxxx

0080 - 07FF 110xxxxx 10xxxxxx

0800 - FFFF 1110xxxx 10xxxxxx 10xxxxxx

　　例如“汉”字的 Unicode 编码是 6C49。6C49 在 0800-FFFF 之间，所以肯

剩余63页未读，继续阅读

某些人

粉丝: 36
资源: 27

字符编码详解：ASCII到Unicode的转变

中英文字符编码查询工具

字符编码转换，utf16 utf8 ascii unicode

调整中间件was字符编码

TextExchange，极小巧而极强大的字符编码转换工具

C++ Win32字符编码深度解析

深入理解Unicode与字符编码规范

ASCLL字符编码转换工具及源码发布

UTF8字符编码转换的实现与应用

Unity3D教程：MySQL字符编码转UTF8

GB2312转UTF8字符编码批量转换工具

最新资源