ASCII码与字符编码详解

需积分: 10 126 浏览量更新于2024-09-23 收藏 547KB DOC 举报

"字符编码详解" 字符编码是计算机处理文本的基础，看似微不足道，实则至关重要，一旦处理不当，就可能导致各种乱码问题。本文主要介绍了字符编码的基本知识，特别是ASCII码的历史及其演变。 ASCII码，全称为美国信息交换标准代码，是最早的字符编码标准之一。它的诞生源于计算机早期只能理解和处理数字，而要处理文本，就需要一种方式将字符与数字对应。ASCII码定义了128个字符，包括大写字母、小写字母、数字和一些常见符号，这些字符用7个二进制位就能表示。由于8位字节是最常见的存储单元，ASCII码的每个字符占用一个字节，其中最高位通常用于奇偶校验或其他通信目的。随着计算机的普及，单一的ASCII码不足以应对全球各地的多语言需求，特别是在非英语国家。这就催生了各种OEM（Original Equipment Manufacturer）字符集，它们是在ASCII码基础上扩展的，增加了更多特定区域的字符，如德语的umlauts或法语的重音符。然而，这些扩展字符集并不统一，导致跨平台或跨地域的文本交流时出现问题。为了统一字符编码，国际标准化组织ISO推出了ISO 8859系列标准，提供了多个字符集，覆盖了拉丁语系、希伯来语、阿拉伯语等。但这些依然无法满足亚洲语言，如中文、日文、韩文等含有大量字符的语言需求。于是，Unicode应运而生，它是一个包含几乎世界上所有字符的字符集，旨在为每个字符提供一个唯一的编码。Unicode最初采用16位编码，可以表示65536个字符，即Unicode的UCS-2版本。随着更多字符的加入，Unicode进一步发展为UTF-16编码，通过添加字节顺序标记(BOM)来处理大端序和小端序的差异。此外，还有更节省空间的UTF-8编码，它对ASCII字符保持不变，使用1-4个字节来编码其他字符，这使得ASCII兼容性得到保留，同时也能表示Unicode中的所有字符。字符编码的转换和处理是软件开发中的常见任务。在编程语言中，字符串通常会明确指定编码方式，如Java的`String`类就包含了字符编码的概念。而在网络传输中，HTTP协议默认使用UTF-8编码，而XML和JSON等数据格式也推荐使用UTF-8。在处理网页时，HTML的`meta`标签可以用来声明页面的字符编码，以避免浏览器解析错误。了解字符编码对于解决乱码问题至关重要，尤其是在处理多语言环境或历史遗留数据时。正确理解字符编码的工作原理，能帮助我们编写出更健壮的代码，确保文本在各种系统间无缝传递。因此，无论你是新手还是经验丰富的开发者，都应该对字符编码有深入的认识，避免因为字符编码问题而引发的诸多困扰。



字符编码的问题看似很小，经常被技术人员忽视，但是很容易导致一些莫名其妙的问题。这里总结了一下字符

编码的一些普及性的知识，希望对大家有所帮助。

还是得从

ASCII

码说起

说到字符编码，不得不说 ASCII 码的简史。计算机一开始发明的时候是用来解决数字计算的问题，后来人们发

现，计算机还可以做更多的事，例如文本处理。但由于计算机只识“数”，因此人们必须告诉计算机哪个数字来

代表哪个特定字符，例如 65 代表字母‘A’，66 代表字母‘B’，以此类推。但是计算机之间字符-数字的对应关系

必须得一致，否则就会造成同一段数字在不同计算机上显示出来的字符不一样。因此美国国家标准协会 ANSI

制定了一个标准，规定了常用字符的集合以及每个字符对应的编号，这就是 ASCII 字符集（Character

Set），也称 ASCII 码。

当时的计算机普遍使用 8 比特字节作为最小的存储和处理单元，加之当时用到的字符也很少，26 个大小写英

文字母还有数字再加上其他常用符号，也不到 100 个，因此使用 7 个比特位就可以高效的存储和处理 ASCII

码，剩下最高位 1 比特被用作一些通讯系统的奇偶校验。

注意，字节代表系统能够处理的最小单位，不一定是 8 比特。只是现代计算机的事实标准就是用 8 比特来代表

一个字节。在很多技术规格文献中，为了避免产生歧义，更倾向于使用 8 位组（Octet）而不是字节（Byte）

这个术语来强调 8 个比特的二进制流。下文中为了便于理解，我会延用大家熟悉的“字节”这个概念。

ASCII 字符集由 95 个可打印字符（0x20-0x7E）和 33 个控制字符（0x00-0x19，0x7F）组成。可打印字

符用于显示在输出设备上，例如荧屏或者打印纸上，控制字符用于向计算机发出一些特殊指令，例如 0x07 会

让计算机发出哔的一声，0x00 通常用于指示字符串的结束，0x0D 和 0x0A 用于指示打印机的打印针头退到

行首（回车）并移到下一行（换行）。

那时候的字符编解码系统非常简单，就是简单的查表过程。例如将字符序列编码为二进制流写入存储设备，只

需要在 ASCII 字符集中依次找到字符对应的字节，然后直接将该字节写入存储设备即可。解码二进制流的过程

也是类似。

OEM

字符集的衍生

当计算机开始发展起来的时候，人们逐渐发现，ASCII 字符集里那可怜的 128 个字符已经不能再满足他们的需

求了。人们就在想，一个字节能够表示的数字（编号）有 256 个，而 ASCII 字符只用到了 0x00~0x7F，也

就是占用了前 128 个，后面 128 个数字不用白不用，因此很多人打起了后面这 128 个数字的主意。可是问题

在于，很多人同时有这样的想法，但是大家对于 0x80-0xFF 这后面的 128 个数字分别对应什么样的字符，却

有各自的想法。这就导致了当时销往世界各地的机器上出现了大量各式各样的 OEM 字符集。

下面这张表是 IBM-PC 机推出的其中一个 OEM 字符集，字符集的前 128 个字符和 ASCII 字符集的基本一致

（为什么说基本一致呢，是因为前 32 个控制字符在某些情况下会被 IBM-PC 机当作可打印字符解释），后面

128 个字符空间加入了一些欧洲国家用到的重音字符，以及一些用于画线条画的字符。

下载后可阅读完整内容，剩余8页未读，立即下载

张明云

粉丝: 271
资源: 51

ASCII码与字符编码详解

常用字符编码详解.doc

JAVA中文字符编码问题详解.doc

JAVA编码详解.doc

BSTR详解.doc

深入UTF8字符编码.doc

WebConfig配置详解.doc

Modbus协议详解.doc

HTMLParser使用详解.doc

AT指令详解.doc

FTP命令详解.doc

最新资源