是从网上 down 的,共享一下。
字符集编码 问题研究
1. 概述
本文主要包括以下几个方面:编码基本知识,,系统软件,,工具软件等。
在下面的描述中,将以中文两个字为例,经查表可以知道其 编码是
, 编码为, 编码就是。注意,这两个字没有
编码,但可以用 编码来表示。
2. 编码基本知识
最早的编码是 ,和 编码相似。但为了方便表示各种各样的语言,逐渐出
现了很多标准编码,重要的有如下几个。
2.1. iso8859-1
属于单字节编码,最多能表示的字符范围是 ,应用于英文系列。比如,字母!!的
编码为 "#。
很明显, 编码表示的字符范围很窄,无法表示中文字符。但是,由于是单字
节编码,和计算机最基础的表示单位一致,所以很多时候,仍旧使用 编码来表示。
而且在很多协议上,默认使用该编码。比如,虽然中文两个字不存在 编码,以
$ 编码为例,应该是两个字符,使用 编码的时候则将它拆开为
个字节来表示:(事实上,在进行存储的时候,也是以字节为单位处理的)。
而如果是 编码,则是 个字节。很明显,这种表示方法还需要以另
一种编码为基础。
2.2. GB2312/GBK
这就是汉子的国标码,专门用来表示汉字,是双字节编码,而英文字母和 一
致(兼容 编码)。其中 $% 编码能够用来同时表示繁体字和简体字,而 $
只能表示简体字,$% 是兼容 $ 编码的。
2.3. unicode
这是最统一的编码,可以用来表示所有语言的字符,而且是定长双字节(也有四字节
的)编码,包括英文字母在内。所以可以说它是不兼容 编码的,也不兼容任何编
码。不过,相对于 编码来说, 编码只是在前面增加了一个 字节,比如
字母!!为。