字符集编码原理与ASCII与ISO8859的发展

需积分: 1 144 浏览量更新于2024-07-23 收藏 69KB DOCX 举报

字符集是计算机科学中至关重要的概念，它允许我们用数字编码来表示各种字符，从而在数字化环境中有效地存储和处理文本信息。字符集的发展历程反映了不同地区和时代的特定需求，早期的ASCII（American Standard Code for Information Interchange）编码表是基础，它为英语和其他西欧语言提供了128个符号的对应关系，包括字母、数字和标点符号，使用7位二进制表示。 ASCII编码的特点是每个字符都有一个独特的数字代号，例如，空格用数字32表示，大写字母A的代号为65，小写字母a的代号为97。这种编码设计使得英文字符的存储和处理变得直观，同时也奠定了后续字符集设计的基础。尽管ASCII广泛应用于早期的计算机系统，但它并不涵盖所有语言，尤其是对于包含非拉丁字母的多语言环境，如法语。为了解决多语言字符的编码问题，ISO8859系列标准被创建，它扩展了ASCII的范围，使用8位二进制（256种可能的组合）来表示字符，确保与ASCII的兼容性同时支持更多种类的字符。这些扩展字符集中，从0-127的代码继续保留ASCII的传统，而128-255的范围则被用来表示额外的语言特有字符和符号，如法语中的特殊字符。随着信息技术的进步，后续出现了Unicode这样的全球统一字符集，它能够编码几乎世界上所有已知的文字，使用16位或32位的数字编码。Unicode不仅包含了ASCII和ISO8859的字符，还涵盖了亚洲字符集（如汉字、日文、韩文）、阿拉伯语、希伯来语等多种语言的字符，实现了真正意义上的全球字符处理。总结来说，字符集的发展是一个不断演进的过程，从最初的ASCII到后来的ISO8859系列，再到现代的Unicode，它们都是为了适应和满足不同文化和语言对字符编码的需求，推动了信息时代的交流与进步。在编程和数据处理中，理解字符集的概念及其历史变迁对于正确处理和解读文本数据至关重要。

 个汉字显然不能表示全部的汉字，但是这个标准是在  年制定的，那时候，计算

机的处理能力，存储能力都还很有限，所以在制定这个标准的时候，实际上只包含了常用

的汉字，这些汉字是通过对日常生活中的报纸，电视，电影等使用的汉字进行统计得出的

大概占常用汉字的 7。因此，我们时常会碰到一些名字中的特殊汉字无法输入到计算机

中的问题，就是由于这些生僻的汉字不在 的常用汉字之中的缘故。

由于 规定的字符编码实际上与 是冲突的，所以，当我们在中文环境下看

一些西文的文章，使用一些西文的软件的时候，时常就会发现许多古怪的汉字出现在屏幕

上，实际上就是因为西文中使用了与汉字编码冲突的字符，被我们的系统生硬的翻译成中

文造成的。

不过，统一了中文字符编码的使用，我们现在所使用的各种电子产品实际上都

是基于 来处理中文的。

 仅收汉字  个，这大大少于现有汉字，随着时间推移及汉字文化的不断

延伸推广，有些原来很少用的字，现在变成了常用字，例如：朱镕基的“镕”字，未收入

，现在大陆的报业出刊只得使用（金8容）、（金容）、（左金右容）等来表示，

形式不一而同，这使得表示、存储、输入、处理都非常不方便，而且这种表示没有统一标

准。

为了解决这些问题，全国信息技术化技术委员会于  年  月  日《汉字内码扩展规

范》。9 向下与  完全兼容，向上支持  国际标准，在前者向后者过渡过

程中起到的承上启下的作用。9亦采用双字节表示，总体编码范围为  之间，高

字节在  之间，低字节在  之间，不包括 。在 9中共收录了  个符号，

汉字有  个。

9 共收入  个汉字和图形符号，包括：

 中的全部汉字、非汉字符号。

 中的全部汉字。

与  相应的国家标准  中的其它 %9 汉字，以上合计  个汉字。

其它汉字、部首、符号，共计  个。

微软公司自 ) 3:简体中文版开始支持 9 代码，但目前的许多软件都不能很好地支

持 9 汉字。

9 编码区分三部分：

汉字区　包括

9;："/收录  汉字  个，按原序排列；

9;："，收录 %9 汉字  个；

9;："，收录 %9 汉字和增补的汉字  个。

图形符号区　包括

9;："，除  的符号外，还增补了其它符号

9;："，扩除非汉字区。

用户自定义区

即 9 区域中的空白区，用户可以自己定义字符。

是最新的汉字编码字符集国家标准/向下兼容 9和 标准。 编

码是一二四字节变长编码。一字节部分从 <=< 与 编码兼容。二字节部分/首字

节从 <=</尾字节从 <=<以及 <=</与 9 标准基本兼容。四字节部分/

第一字节从 <=</第二字节从 <=</第三和第四字节的范围和前两个字节分别相

剩余20页未读，继续阅读

u010039632

粉丝: 0
资源: 2

字符集编码原理与ASCII与ISO8859的发展

Web开发字符集相关知识

字符集和字符编码相关知识文档

有关字符集的知识

MySQL字符集与标识符的知识点

pb9字符集如何修改

sap 打印机 增加字符集

server2022系统默认字符集如何查看

字符集utf8和utf8mb4的区别

mysql处理零宽空白_c#转码后出现？字符码为8203的零宽空白 - 小众知识

最新资源

sap 打印机增加字符集