字符编码：从ASCII到Unicode

5星 · 超过95%的资源需积分: 31 30 浏览量更新于2024-09-15 收藏 31KB DOC 举报

"字符编码学习" 字符编码是计算机科学领域中的基本概念，它定义了不同字符与二进制数字之间的映射关系。本资源主要涵盖了ASCII码、非ASCII编码以及Unicode编码三个主要方面。 1. ASCII码：ASCII（American Standard Code for Information Interchange，美国信息交换标准代码）是最早广泛使用的字符编码标准。它定义了128个字符的编码，包括英文字符、数字、标点符号和控制字符。每个ASCII字符占用一个字节，其中7位用于存储字符信息，最高位固定为0。例如，空格的ASCII值是32（二进制00100000），大写字母A的ASCII值是65（二进制01000001）。 2. 非ASCII编码：随着多语言需求的出现，ASCII码的128个字符不足以表示所有语言的字符，如法语中的带音调符号的字母。因此，一些国家和地区采用了扩展ASCII码，利用字节的最高位来增加编码范围，最多可表示256个字符。然而，这导致了不同国家和地区的编码体系之间存在冲突，因为128之后的编码对应不同的字符。 3. Unicode：为了解决多语言编码的冲突，Unicode字符集应运而生。Unicode是一种国际标准，旨在涵盖世界上几乎所有的字符和符号，包括汉字、拉丁字母、希腊字母等。Unicode通常使用16位编码，这意味着它可以表示大约65,536个不同的字符。在某些情况下，为了表示更多的字符，Unicode也使用32位编码。Unicode的一个关键特性是字符编码的长度是固定的，这简化了处理和比较操作，使得跨语言的信息处理成为可能。尽管Unicode的初衷是解决字符编码不兼容问题，但它并不直接兼容ASCII或非ASCII的编码方式，如GB2312。在计算机软件开发中，Unicode常被用作内部编码，如Java语言默认使用Unicode。它允许程序以统一的方式处理各种语言的文本，而不会遇到编码转换的问题。Unicode编码的广泛采用，如UTF-8，已经成为互联网和现代计算中的标准，确保了全球信息交流的畅通无阻。

1. ASCII 码

我们知道，在计算机内部，所有的信息最终都表示为一个二进制的字符串。每一个二进制

位（bit）有 0 和 1 两种状态，因此八个二进制位就可以组合出 256 种状态，这被称为一个

字节（byte）。也就是说，一个字节一共可以用来表示 256 种不同的状态，每一个状态对

应一个符号，就是 256 个符号，从 0000000 到 11111111。

上个世纪 60 年代，美国制定了一套字符编码，对英语字符与二进制位之间的关系，做了统

一规定。这被称为 ASCII 码，一直沿用至今。

ASCII 码一共规定了 128 个字符的编码，比如空格“SPACE”是 32（二进制 00100000），大

写的字母 A 是 65（二进制 01000001）。这 128 个符号（包括 32 个不能打印出来的控制符

号），只占用了一个字节的后面 7 位，最前面的 1 位统一规定为 0。

2、非 ASCII 编码

英语用 128 个符号编码就够了，但是用来表示其他语言，128 个符号是不够的。比如，在

法语中，字母上方有注音符号，它就无法用 ASCII 码表示。于是，一些欧洲国家就决定，

利用字节中闲置的最高位编入新的符号。比如，法语中的 é 的编码为 130（二进制

10000010）。这样一来，这些欧洲国家使用的编码体系，可以表示最多 256 个符号。

但是，这里又出现了新的问题。不同的国家有不同的字母，因此，哪怕它们都使用 256 个

符号的编码方式，代表的字母却不一样。比如，130 在法语编码中代表了 é，在希伯来语编

码中却代表了字母 Gimel ()，在俄语编码中又会代表另一个符号。但是不管怎样，所有这

些编码方式中，0—127 表示的符号是一样的，不一样的只是 128—255 的这一段。

至于亚洲国家的文字，使用的符号就更多了，汉字就多达 10 万左右。一个字节只能表示

256 种符号，肯定是不够的，就必须使用多个字节表达一个符号。比如，简体中文常见的

编码方式是 GB2312 ，使用两个字节表示一个汉字，所以理论上最多可以表示

256x256=65536 个符号。

中文编码的问题需要专文讨论，这篇笔记不涉及。这里只指出，虽然都是用多个字节表示

一个符号，但是 GB 类的汉字编码与后文的 Unicode 和 UTF-8 是毫无关系的。

3、Unicode

下载后可阅读完整内容，剩余6页未读，立即下载

君莫傲

粉丝: 4098
资源: 95

字符编码：从ASCII到Unicode

tabby:一个更现代的终端（以前的 Terminus）

易语言字符编码转换

字符编码

字符编码ASCII编码表

字符编码字符互转

字符集和字符编码详解

字符编码 自动识别 编码类型

学习电脑信息UltraEdit引出的字符编码问题

Java字符编码及获取文件编码

JAVA_字符编码

最新资源

字符编码自动识别编码类型