字符编码解析：ASCII到Unicode

4星 · 超过85%的资源需积分: 10 96 浏览量更新于2024-10-15 收藏 55KB DOC 举报

"字符集——几种编码.doc" 在计算机科学领域，字符集是用于表示文本的一组符号及其对应的编码。字符集对于数据存储、文本处理和信息传输至关重要。本文件主要探讨了几种常见的字符集，包括ASCII码和Unicode。首先，ASCII码（American Standard Code for Information Interchange，美国信息交换标准代码）是一种基于拉丁字母的一套电脑编码系统，最初设计为7位二进制数，能够表示128个不同的字符。32至127之间的数字代表可打印的ASCII字符，如字母、数字和常见符号。32表示空格，而0到31以及127则代表控制字符，主要用于设备控制而非文本显示。由于7位只能表示128个字符，对于包含更多字符的语言（如非英文的欧洲语言或亚洲语言）就显得不够用了。为了扩展ASCII，有的系统使用了第8位，创建了不同的codepages，即不同的字符映射表，以支持更多的字符，但这导致了跨平台和跨系统的兼容性问题。随着互联网的发展，这种不统一的编码方式带来了挑战。Unicode应运而生，它是一个大胆的尝试，旨在统一全球所有语言的文字系统。Unicode不仅仅是一个字符集，更是一个字符编码标准，它提供了一个统一的方式来表示世界上几乎所有的字符和符号。Unicode不是固定16位的，虽然早期版本（Unicode 1.0）使用16位编码空间，但现在的Unicode已经发展到了多个平面（planes），每个平面可以容纳65536个字符，使得总的字符数量远超过65536。在Unicode中，每个字符对应一个称为code point的数值，而不是直接的位模式。例如，大写字母A在Unicode中的code point是U+0041。Unicode的设计考虑了向前和向后遍历字符串的复杂性，特别是在处理双字节字符集（DBCS，Double-Byte Character Set）如简体中文GB2312或日文Shift-JIS时。在DBCS中，某些字符由一个字节表示，而其他字符则需要两个字节，这增加了处理的难度。为了避免这些问题，开发人员通常会使用特定的函数，如Windows中的AnsiNext和AnsiPrev，以正确地处理字符串操作。 Unicode的出现解决了跨平台和跨语言的兼容性问题，它促进了全球化信息交流的标准化。然而，Unicode的实现方式有UTF-8、UTF-16等多种，每种都有其优缺点，选择合适的编码方式取决于具体的应用场景。例如，UTF-8是最常用的一种，因为它具有良好的向前兼容性，并且在处理大部分英文文本时效率较高。字符集和编码是计算机处理文本的基础，从ASCII到Unicode的发展体现了技术与文化交流的融合，以及对全球信息共享需求的响应。理解这些基本概念对于任何涉及文本处理的IT专业人士来说都是至关重要的。

ASCII 码

------------------------------------------------------------------------------------

7 位（00～7F）。 32 ~ 127 表示字符。32 是空格， 32 以下是控制字符（不可见）。

第 8 位没有被使用。全世界很多人同时对这个位的含义发展了不同的用处。比如 IBM PC

中的 OEM 字符集。

最后就 128 位以下的用处达成共识，制定了 ASCII 标准。

而 128 位以上的可能有不同的解释，这些不同的解释就叫做 code pages.

甚至有用于在同一台电脑上解释多种语言的 code page.

同时，在亚洲发生了更加疯狂的事情。亚洲语言的字符集通常数以千计， 8 位已经不足以

表达，这通常用一种

很凌乱的，叫做 DBCS（双字节字符集,double byte character set）的系统来解决。

这种系统中，有些字符占用 1 字节，有些 2 字节。这样一来，在字符串中向前解析很容易，

而倒退却很麻烦。

程序员们被建议，不要使用 s++ 或 s-- 来前进和后退，而使用一些函数，比如 Windows 的

AnsiNext 和

AnsiPrev. 因为这些函数知道是怎么回事。

这些不同的假设（code page）在单个的机器上没有问题。而随着 Internet 的发展，字符串

要从一个机器上移到另一个机器上，这就产生了问题。于是， Unicode 出现了。

Unicode

---------------------------------------------------------------------------------------

Unicode 是一个勇敢的成就。它把在这个星球上的每一个合理的文字系统整合成了一个单

一的字符集。

很多人还存在这样的误解： Unicode 仅仅是 16 位的这么简单，每个字符占 16 位，所以一

共有 65536 个可能的字符。

然而，这是错误的。不过不要紧，因为这是大部分人都会犯的一个普遍的错误。

实际上，Unicode 理解字符的方式是截然不同的，而这是我们必须了解的。

到目前为止，我们都曾经认为：一个字符对应到一些在磁盘上或内存中储存的位（ bits）.

如： A -> 0100 0001

而在 Unicode 中，一个字符实际上对应一种叫做 code point 的东西。

比如 A 这个字符，是抽象的（原文：platonic,柏拉图式的，理想的）一个概念。

无论是 Times New Roman 或者 Helvetica 或者其他的什么字体中，都代表同一个字符。但

是它和小写的字母 a 不同。

但是在其他的语言，比如希伯莱语（Hebrew）或者德语（German）, 阿拉伯语（Arabian）

中，同一个字母的不同的字形代表的含义是否

相同，是有争议的。经过长时间的争论，这些也终于被确定了。

每一个字母表中的每一个抽象的字母，都被赋予了一个数字，比如 U+0645. 这个叫做 code

point.

U+ 表示： Unicode, 数字是 16 进制的。

下载后可阅读完整内容，剩余7页未读，立即下载

泊海漫谷

粉丝: 0
资源: 20

字符编码解析：ASCII到Unicode

实习报告-哈夫曼编码.doc

数据结构课程设计哈夫曼编码.doc

基于GSM控制的LED显示控制系统设计——软件设计.doc

哈夫曼编码实验报告.doc

哈夫曼树编码实验报告.doc

哈夫曼编码译码课程设计报告.doc

哈夫曼编码-数据结构-C程序.doc

数据结构试验报告.doc

五个有用的过滤器.doc

2019数据结构课程设计报告-1820552.doc

最新资源