UTF-8编码详解：国际通用与GBK差异 - CSDN文库

需积分: 49 156 浏览量更新于2023-03-16 收藏 39KB DOC 举报

身份认证购VIP最低享 7 折!

领优惠券(最高得80元）

字符编码是计算机系统用于表示文本数据中的文字、符号和其他字符的标准方式，其中GBK、GB2312、UTF-8以及GB18030是中国常用的几种编码格式。这些编码在设计时考虑了中文字符的复杂性和国际化需求。首先，UTF-8是一种8位编码，由Unicode Transformation Format命名，其设计初衷是为了支持全球范围内的字符集。UTF-8的一个显著特点是它可以对英文字符使用单字节编码（8位），而对于中文字符，尤其是常用汉字，使用多字节编码，通常是3个字节。这种设计使得UTF-8具有高度的通用性，能够在各种支持UTF-8的环境中正确显示文本，包括不同语言背景的浏览器，例如英文环境下的IE浏览器，无需额外安装中文语言支持包即可显示中文。相比之下，GBK编码是在GB2312的基础上扩展而来，也是双字节编码，中文字符的最高位被设为1以区分。GBK编码包含了所有中文字符，是中国的国家标准，但在国际应用中可能不如UTF-8广泛。UTF-8在占用存储空间方面更节省，尤其是在处理大量英文字符时。 GB18030是中国制定的一个兼容GB2312和GBK的编码标准，它不仅包含汉字，还增加了更多的符号和特殊字符，进一步扩大了字符集的覆盖范围。Unicode则是一个字符集，定义了世界上几乎所有的字符的统一编号，它是UTF-8、UTF-16和UTF-32的基础，其中UTF-8是最常用的互联网实现方式。在网页编码方面，ANSI、GBK、GB2312、UTF-8和GB18030是常见的选项。尽管它们都是为了处理中文而设计，但每个编码有不同的优缺点和适用场景。例如，对于中文内容为主的网站或论坛，如果考虑到字符的完整性和兼容性，UTF-8可能是首选；而如果存在大量英文字符或者为了节省存储空间，UTF-8可能会被替换为ANSI或GB2312。然而，需要注意的是，不同编码格式之间不能直接互换，需要通过Unicode作为中介进行转换，如GBK到UTF-8的转换就需要经过Unicode的桥梁。选择哪种编码取决于具体的应用需求，考虑到全球化的趋势和互联网的广泛接受度，UTF-8因其强大的兼容性和通用性在现代信息技术中占据主导地位。同时，了解这些编码之间的关系和差异，有助于开发者和用户在实际操作中正确处理字符编码问题。

资源详情

资源推荐

字符编码：GBK、GB2312、UTF-8

UTF-8：Unicode TransformationFormat-8bit，允许含 BOM，但通常不含 BOM。是用以解决国际上字符的一种

多字节编码，它对英文使用 8 位（即一个字节），中文使用 24 为（三个字节）来编码。UTF-8 包含全世界所

有国家需要用到的字符，是国际编码，通用性强。UTF-8 编码的文字可以在各国支持 UTF8 字符集的浏览器上

显示。如，如果是 UTF8 编码，则在外国人的英文 IE 上也能显示中文，他们无需下载 IE 的中文语言支持包。

GBK 是国家标准 GB2312 基础上扩容后兼容 GB2312 的标准。GBK 的文字编码是用双字节来表示的，即不论

中、英文字符均使用双字节来表示，为了区分中文，将其最高位都设定成 1。GBK 包含全部中文字符，是国家

编码，通用性比 UTF8 差，不过 UTF8 占用的数据库比 GBK 大。

GBK、GB2312 等与 UTF8 之间都必须通过 Unicode 编码才能相互转换：

GBK、GB2312<===>Unicode<===>UTF8

对于一个网站、论坛来说，如果英文字符较多，则建议使用 UTF-8 节省空间。不过现在很多论坛的插件一般

只支持 GBK。

简单来说，unicode、gbk 和大五码就是编码的值，而 utf-8、uft-16 之类就是这个值的表现形式。而前面那三种

编码是不兼容的，同一个汉字，那三个码值是完全不一样的。如"汉"的 uncode 值与 gbk 就是不一样的，假设

unicode 为 a040、gbk 为 b030，而 uft-8 码，就是把那个值表现的形式。utf-8 码完全只针对 uncode 来组织的，

如果 gbk 要转 urf-8 必须先转 uncode 码，再转 utf-8 就 OK 了。

需要注意的是，Unicode 只是一个符号集，它只规定了符号的二进制代码，却没有规定这个二进制代码应该如

何存储，互联网的普及，强烈要求出现一种统一的编码方式。 UTF-8 就是在互联网上使用最广的一种 unicode

的实现方式。其他实现方式还包括 UTF-16 和 UTF-32，不过在互联网上基本不用。重复一遍，这里的关系是，

UTF-8 是 Unicode 的实现方式之一。

二、网页编码就是那点事

1、ANSI、GBK、GB2312、UTF-8、GB18030 和 UNICODE

这几个编码关键词是比较常见的，虽然我把我们放在了一起说，但并不意味这这几个东西是平级的关系。本部

分的内容，引用自网络略有修改，不知原文出处，故无法署名。

很久很久以前，有一群人，他们决定用 8 个可以开合的晶体管来组合成不同的状态，以表示世界上的万物，他

们把这称为”字节”。再后来，他们又做了一些可以处理这些字节的机器，机器开动了，可以用字节来组合出很

多状态，状态开始变来变去，他们就把这机器称为”计算机”。

开始计算机只在美国用。八位的字节一共可以组合出 256(2 的 8 次方)种不同的状态。他们把其中的编号从 0 开

始的 32 种状态分别规定了特殊的用途，一但终端、打印机遇上约定好的这些字节被传过来时，就要做一些约

定的动作。遇上 00×10, 终端就换行，遇上 0×07, 终端就向人们嘟嘟叫，例好遇上 0x1b, 打印机就打印反白的字，

或者终端就用彩色显示字母。他们看到这样很好，于是就把这些 0×20 以下的字节状态称为”控制码”。

本内容试读结束，登录后可阅读更多

下载后可阅读完整内容，剩余3页未读，立即下载

chengdegong

粉丝: 1
资源: 22

会员权益专享

图片转文字

全年可省5，000元立即开通

最新资源

资源上传下载、课程学习等过程中有任何疑问或建议，欢迎提出宝贵意见哦~我们会及时处理！点击此处反馈