Unicode编码与双向算法(bidi)深度解析

需积分: 0 167 浏览量更新于2024-07-06 收藏 681KB PDF 举报

"Unicode编码和双向算法(bidi)详解" 本文深入浅出地介绍了Unicode编码以及Unicode的双向算法（bidi算法）。作者黄邦勇（原名黄勇）以易理解的方式，阐述了与字符编码相关的复杂概念，适合初学者和有一定经验的开发者阅读。首先，文章介绍了Unicode的基本概念和分类，包括不同平面的概念。Unicode是一种国际标准，旨在统一全球各种语言的文字编码，消除过去编码系统导致的乱码问题。它分为多个平面，如基本多文种平面（BMP）和其他辅助平面，用于容纳更多的字符。接下来，文章详细讨论了两种常见的Unicode编码形式：UTF-8和UTF-16。UTF-8是一种变长编码，每个Unicode字符用1到4个字节表示，兼容ASCII编码，广泛应用于网络传输和文件存储。UTF-16则通常使用2个字节表示字符，但对超出BMP的字符会使用代理对（surrogate pair）来编码。文中还提到了字节顺序标记（BOM）和字节序问题，这对于跨平台的数据交换至关重要。在UTF-16部分，作者讲解了代理机制，即如何通过两个16位的值来表示一个超平面字符。他还讨论了在Windows记事本中使用UTF-16编码的注意事项，以及UTF-16编码的优缺点，如内存占用和处理速度。随后，文章转向了Unicode双向算法（bidi算法），这是处理混合方向文本的关键。bidi算法主要用于解决从左到右（LTR）和从右到左（RTL）语言，如希伯来语和阿拉伯语，同时混杂在一起时的显示问题。作者首先解释了字符、字体和编码之间的关系，然后介绍了Unicode如何理解字符的属性。在bidi算法部分，文章详细阐述了文本显示顺序，字符分类，运行等级和隔离运行序列等概念。bidi算法的基本规则、字符类型的调整方法以及分段和定向格式化字符的解析过程都有清晰的介绍。通过一系列步骤，bidi算法能够确定文本中字符的正确排列顺序，从而确保混合方向文本的正确显示。本文是理解Unicode编码和双向算法的宝贵资料，不仅提供了理论知识，还包含了实用技巧，对于处理多语言环境下的文本处理具有很高的参考价值。无论你是开发多语言软件，还是在处理国际化的网页设计，都能从中受益。

之多，不过，UTF-32 就是使用的这种定长编码方式，字符统一用 4 字节编码。

 UTF-16 是介于 UTF-8 和 UTF-32 之间的一种编码方式，使用两个或四个字节来编码。

四、Unicode 编码的重要概念

1、码元(Code Unit，或译为代码单元，编码单元)

1)、码元可理解为对码点值进行编码时的最小基本单元，类似于字的概念，所以，应把码

元当作一个整体来看待。UTF-8 是 8 位的单字节码元，UTF-16 是 16 位的双字节码元，

UTF-32 是 32 位的四字节码元。多字节码元存在字节序问题，单字节码元不存在字节

序问题。

2)、下表为 Unicode 编码方式的简略比较

表 4 Unicode 编码方式简略比较

编码方式码元编码后字节数字节序备注

UTF-8

8 位变长字节无字节序问题扩展性好，理论上可支持字节数无上限

UTF-16

16 位双字节或四字节有字节序问题扩展性差，目前最多支持四字节

UTF-32

32 位四字节有字节序问题扩展性差，目前最多支持四字节

2、理解码元

1)、码元在某种程度上对应于高级语言中的数据类型，也就是说，码元在某种程度上可理

解为“不同的码元表示不同的数据类型”。为了讲清楚这个问题，下面以示例进行讲解

2)、“汉”的 Unicode 的码点是 U+6C49 (110 1100 0100 1001 )，三种 UTF 编码如下

 UTF-8 编码为 0xE6 B1 89

 UTF-16 编码为 0x6C49

 UTF-32 编码为 0x00006C49

3)、由于 UTF-8 编码的码元为 1 字节，在高级语言中，需要长度为一个字节的变量来存

储，同理，UTF-16 是双字节码元，需要长度为两个字节的变量来存储，UTF-32 需要

4 个字节的变量来存储。

4)、以 C++为例，假设 char 类型占据一字节长度，short 占据两字节，long 占据 4 字节，

则可使用如下类型来存储 UTF 的三种编码

 unsigned char (即无符号 char 型)存储 UTF-8 编码

 unsigned short 存储 UTF-16 编码

 unsigned long 存储 UTF-32 编码

因此，可使用以下方式来模拟存储 UTF 的三种编码

 unsigned char [] = {0xE6, 0xB1, 0x89} //UTF-8编码的“汉”字



unsigned short[] = {0x6C49} //UTF-16编码的“汉”字

 unsigned long [] = {0x00006C49} //UTF-32 编码的“汉”字

5)、注意：虽然从容量上来讲，两个字节长度的变量能够容纳下 1 个字节码元的 UTF-8

编码，但是，在处理该变量时，是以两个字节为长度进行处理的，而 UTF-8 需要以 1

个字节为单位处理，这就会出现问题。

6)、由以上讲解可知，由不同方式编码的字符需要不同的数据类型的变量来存储。

3、码元序列与字节序列

1.3 UTF-8 编码

1、UTF-8 编码方式是目前使用最广泛的一种 Unicode 编码方式，但不是最早出现的，UTF-16

比 UTF-8 早。

2、UTF-8 使用的是 8 位码元的变长码元序列编码方式，说简单点就是，使用变长字节来编码

(即，编码后形成的二进制串长度不是固字的)。注意，UTF-8 的码元长度是固定的 8 位，

但编码后形成的码元序列长度不是固定的。UTF-8 一般使用 1 到 4 个字节编码，当然也可

以更长。

3、UTF-8 编码方式的算法

首字节用于区分编码的字节数，即，从首字节就能判断出编码后有多少个字节。规则为：

除单字节编码以 0 开头外，多字节编码首字节 1 的个数用于判断编码后的字节长度，然后

紧接着以数字 0 作为终结标志，除首字节外，多字节编码的后续字节以 10 开头，具体规

则如表 5 所示

表 5 UTF-8 编码方式的算法

有效比特位码点范围(16 进制) 编码最终结果(2 进制)

+0000

+007F 0xxx xxxx

+0080

+07FF 110xxxxx 10xxxxxx

+0800

+FFFF 1110xxxx 10xxxxxx 10xxxxxx

+10000

+1FFFFF 11110xxx 10xxxxxx 10xxxxxx 10xxxxxx

+200000

+3FFFFFF 111110xx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

+4000000

+7FFFFFFF 1111110x 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx 10xxxxxx

说明：目前整个 Unicode字符集的码点空间为 U+000000~U+10FFFF，也就是说，码点值最大为U+10FFFF，

这意味着，使用 4 字节的 UTF-8 即可编码完目前所有的 Unicode 字符，可见 UTF-8 编码方式的可扩展

性是非常强的

4、UTF-8 编码方法

①、在表 5 中查找字符的码点所在的码点范围，以确定应使用几个字节编码该字符

②、将字符的码点转换为二进制

③、将转换后的二进制数值从右到左(即从最后一位低位开始)依次按相同顺序填充表 5 中

的 x，多出的 x 填充 0。

④、示例：“汉”的 Unicode 的码点是 U+6C49 (110 1100 0100 1001 ) ，其编码过程如下：

 6C49 在表 5 的码点范围为 U+0800 ~ U+FFFF，所以应使用 3 个字节编码

 将 6C49 的二进制数 110 1100 0100 1001 从最后一位开始，按从右向左的顺序填充

表 5 中的 x，最终得到“汉”字的 UTF-8 编码为 1110 0110 1011 0001 1000 1001(0xE6

B189)，如图 2 所示

110 1100 01 00 1001 (0x6C49)

图 2 “汉”字的 UTF-8 编码过程

1110 0 110 10 110001 10 001001 (0xE6 B189)

剩余74页未读，继续阅读

hyongilfmmm

粉丝: 813
资源: 3

Unicode编码与双向算法(bidi)深度解析

通用规范汉字表（8105字）及化学元素周期表（118字）UNICODE编码（文本可复制）.pdf

CTF中那些脑洞大开的编码和加密[汇编].pdf

高效Unicode／GB编码转换算法的设计和实现.pdf

用java输出汉字"我""你"他"在Unicode表中的位置

unicode编码表 pdf

C#如何实现unicode编码转换为中文

unicode编码规则实例

如何查询Unicode编码

查询所有emoji的Unicode编码

GB18030与unicode编码转换C++算法

最新资源