ASCII到Unicode的演变：字符编码的故事

需积分: 16 21 浏览量更新于2024-08-31 2 收藏 20KB DOCX 举报

"这篇文章以故事的形式讲解了字符编码的发展历程，包括ASCII、Unicode以及UTF-8编码。通过这部分内容，我们可以深入理解字符集和编码在计算机中的应用。字符编码是计算机处理文本的基础，它规定了如何用二进制数据表示各种字符。ASCII编码是最早广泛使用的字符编码，它定义了128个字符，包括英文大小写字母、数字、标点符号和控制字符。ASCII使用7位二进制数来表示，因此一个字节的前7位就足够了，剩下的1位通常设为0，形成8位的字节格式。随着全球化的发展，单一的ASCII编码无法满足所有语言的需求，特别是在非拉丁字母表的国家，如中国，需要更多的字符来表示汉字和其他特殊符号。这就催生了扩展ASCII编码，使用了128到255的字节范围，每个国家或地区根据自身需求定义了不同的扩展字符集。面对全球多语言的挑战，Unicode应运而生，它是一个统一的字符集，旨在包含全世界所有语言的字符。Unicode使用16位或更高位数的编码，可以表示超过10万的字符。在Unicode中，ASCII字符仍然保留原有的编码，这样既兼容了旧的ASCII编码系统，又能处理更广泛的字符。然而，由于网络传输和存储效率的考虑，16位的Unicode编码并不理想。UTF-8编码是一种变长的Unicode编码方式，它可以以1到4个字节来表示一个Unicode字符。对于ASCII字符，UTF-8使用单个字节，与ASCII兼容；对于其他Unicode字符，UTF-8使用多个字节，且每个字节的最高位设置为1，以便区分单字节的ASCII字符和多字节的Unicode字符。这种方式使得UTF-8在处理多语言文本时，英文字符只需要1字节，而其他语言的字符则根据需要使用更多字节，兼顾了效率和兼容性。在中国，由于ASCII和扩展ASCII无法容纳大量的汉字，于是出现了GB2312、GBK等编码，它们在ASCII的基础上扩展了汉字编码。而现代的中文编码通常是UTF-8，它能够表示全部的Unicode字符，包括简体和繁体汉字，以及其他中文地区的特殊字符。字符编码的发展是一个逐步适应全球多元化需求的过程。从最初的ASCII，到扩展ASCII，再到Unicode和UTF-8，编码技术的进步使得计算机可以处理世界上各种语言的文字，促进了信息的全球化交流。了解这些基础知识，对于我们理解和处理跨语言的文本数据至关重要。"

随便说说字符集和编码

Part one

很久很久以前，有一群人，他们决定用 8 个可以开合的晶体管来组合成不同的状态，以表

示世界上的万物。他们看到 8 个开关状态是好的，于是他们把这称为”字节”。

再后来，他们又做了一些可以处理这些字节的机器，机器开动了，可以用字节来组合出很

多状态，状态开始变来变去。他们看到这样是好的，于是它们就这机器称为”计算机”。

开始计算机只在美国用。八位的字节一共可以组合出 256(2 的 8 次方)种不同的状态。

他们把其中的编号从 0 开始的 32 种状态分别规定了特殊的用途，一但终端、打印机遇上

约定好的这些字节被传过来时，就要做一些约定的动作。遇上 00x10, 终端就换行，遇上

0x07, 终端就向人们嘟嘟叫。他们看到这样很好，于是就把这些 0x20 以下的字节状态称

为”控制码”。

他们又把所有的空格、标点符号、数字、大小写字母分别用连续的字节状态表示，一直编

到了第 127 号，这样计算机就可以用不同字节来存储英语的文字了。大家看到这样，都感

觉很好，于是大家都把这个方案叫做 ANSI 的”Ascii”编码（American Standard Code

for Information Interchange，美国信息互换标准代码）。当时世界上所有的计算机都

用同样的 ASCII 方案来保存英文文字。

后来，就像建造巴比伦塔一样，世界各地的都开始使用计算机，但是很多国家用的不

是英文，他们的字母里有许多是 ASCII 里没有的，为了可以在计算机保存他们的文字，他

们决定采用 127 号之后的空位来表示这些新的字母、符号，还加入了很多画表格时需要用

下到的横线、竖线、交叉等形状，一直把序号编到了最后一个状态 255。从 128 到 255

这一页的字符集被称”扩展字符集”。从此之后，贪婪的人类再没有新的状态可以用了，美

帝国主义可能没有想到还有第三世界国家的人们也希望可以用到计算机吧！

Part two

等中国人们得到计算机时，已经没有可以利用的字节状态来表示汉字，况且有 6000

多个常用汉字需要保存呢。但是这难不倒智慧的中国人民，我们不客气地把那些 127 号之

后的奇异符号们直接取消掉, 规定：一个小于 127 的字符的意义与原来相同，但两个大于

127 的字符连在一起时，就表示一个汉字，前面的一个字节（他称之为高字节）从 0xA1

用到 0xF7，后面一个字节（低字节）从 0xA1 到 0xFE，这样我们就可以组合出大约

7000 多个简体汉字了。在这些编码里，我们还把数学符号、罗马希腊的字母、日文的假

名们都编进去了，连在 ASCII 里本来就有的数字、标点、字母都统统重新编了两个字节长

的编码，这就是常说的”全角”字符，而原来在 127 号以下的那些就叫”半角”字符了。

全角是字母和数字等与汉字占等宽位置的字符；半角是 ASCII 方式的字符，在没有汉字输

入法起作用的时候输入的字母数字和字符都是半角。

中国人民看到这样很不错，于是就把这种汉字方案叫做 “GB2312”。GB2312 是对 ASCII

的中文扩展。

但是中国的汉字太多了，我们很快就发现有许多人的人名没有办法在这里打出来，于是干

脆不再要求低字节一定是 127 号之后的内码，只要第一个字节是大于 127 就固定表示这

下载后可阅读完整内容，剩余3页未读，立即下载

bensonrachel

粉丝: 1832
资源: 2

ASCII到Unicode的演变：字符编码的故事

ASCII 及UTF-8 与字符互相转换

conv_gbk_ibm1388:GBKIBM1388字符集转换

ibm大型机中文资料

字符编码笔记：ASCII-Unicode和UTF-8

字符编码 ASCII，Unicode和UTF-8 介绍

字符编码笔记 ASCII，Unicode和UTF-8

字符编码笔记：ASCII，Unicode和UTF-8

ASCII到Unicode与UTF-8的字符编码探索

字符编码解析：ASCII，Unicode与UTF-8

字符串编码与字符集：ASCII、Unicode、UTF-8详解

最新资源