Python3的Unicode编码与解码：原理与函数应用

需积分: 0 181 浏览量更新于2024-08-04 收藏 173KB DOCX 举报

在"20180530_Python编码及中文乱码1"这篇资料中，主要讲解了Python编程语言中的编码和解码原理，以及在不同历史阶段字符编码的发展和变迁。首先，介绍了编码的起源，从ASCII编码的7位二进制表示256个字符，到无法满足多语言需求时的Unicode编码，它通常由一个或多个字节组成，以便容纳全球范围内的字符，包括中文。Unicode支持ASCII向下兼容，但为了节省空间和保持向后兼容，UTF-8编码诞生，它根据字符的使用频率分配字节数，例如英文字符一个字节，中文字符通常三个字节，生僻字则可能六个字节。 Python版本间的差异对编码处理有所影响：Python2中存在str（字节字符串）和unicode（Unicode字符串）的区分，而Python3中则统一为str（用于表示文本，包含Unicode字符）和bytes（二进制数据）。在Python2中，需要通过strtounicode函数将str转换为unicode，通过unicodetostr将unicode转换回str。在Python3中，encode()和decode()函数分别用于编码和解码字符串，确保在不同环境下的数据兼容性。此外，资料还提到了GB2312和GBK是中国制定的编码标准，尽管大部分情况下使用UTF-8，以及ISO-8859-1这种单字节编码，常见于欧洲国家。Python3的默认编码设置使得开发者无需过多关注字符编码问题，但在实际操作中，理解和正确处理编码问题对于处理非ASCII字符尤其重要，以避免出现乱码现象。为了帮助理解这些概念，文章还配以了图1（编码流程）、图2（Python2字符序列类型转换）和图3（Python3中的编码和解码示例），通过视觉化的方式展示了编码和解码的过程，有助于读者更好地掌握编码策略在Python中的应用。这篇文章深入浅出地讲解了Python中字符编码的关键知识点，无论是初学者还是进阶开发者，都能从中受益匪浅。

一、编码原理及区别

·第一阶段：编码的由来：大家都知道计算机的母语是英语，英语是由 26 个字母组成的。

所以最初的计算机字符编码是通过 ASCII 来编码的，也是现今最通用的单字节编码系统，使

用 7 位二进制数来表示所有的字母、数字、标点符号及一些特殊控制字符，作为美国编码标

准来使用。

·第二阶段：由于计算机的不断普及，计算机进入了不同的国家和地区。很快表现出了众多

的水土不服的症状。比如：中国人就表示不服，就不能让计算机说中文吗？但是 ASCII 编码

用上浑身解数 256 个字符也不够中文用啊。

因此后来出现了 Unicode 编码。Unicode 编码通常由两个字节组成，共表示 256*256 个字符，

即所谓的 UCS-2。某些生僻的字还会用到四个字节，即 UCS-4。Unicode 向下兼容 ASCII。

·第三个阶段：在 Unicode 中，很快，美国人不高兴了，原本用一个字节就够了，现在却要

用两个字节来表示，非常浪费存储空间和传输速度。人们再发挥聪明才智，于是出现了 UTF-8

编码。主要针对空间浪费的问题。UTF-8 从英文字母的一个字节，到中文的通常的三个字节，

再到某些生僻字的六个字节。解决了空间浪费的问题，并且兼容老大哥 ASCII 编码。这样一

些老古董软件在 UTF-8 编码中可以继续工作了。

另外需要注意的是汉字在 Unicode 编码和 UTF-8 编码中通常是不同的。

·第四个阶段：同样我们祖国也制定了自己的一套标准。那就是 GB2312 和 GBK。但是大多

数还是直接用的 UTF-8。UTF-8/UTF-16 等是对 Unicode 进行了编码，是其一种实现方式。

另外还有 ISO-8859-1，ISO-8859-1 是单字节编码，向下兼容 ASCII，是许多欧洲国家使用的编

码标准。

Unicode 是国际通用的编码标准，可以表示全世界的字符，但其字符集也是最复杂、占用空

间最大的。开发者可以根据需要进行选择编码方式。

·我们的 Python3 默认就是 Unicode 编码

二、编码与解码

·Python 关于编码和解码对应的函数分别是 encode()和 decode()，对应编码和解码

·python2 中有 str 和 unicode 之分

·Python3 中有 str 和 bytes 之分

·str to unicode，使用 decode()；unicode to str，使用 encode()

用图片来说明

下载后可阅读完整内容，剩余5页未读，立即下载

城北伯庸

粉丝: 35
资源: 315

Python3的Unicode编码与解码：原理与函数应用

Python 文件处理 02_编码知识_中文乱码问题解决.mp4

python 中文乱码 问题深入分析.docx

Python字符编码_中文乱码.pdf

zwbmxj.zip_UTF8_gb2312 utf8_utf8-unicode_汉字 编码_汉字编码

python2 print 中文_python2中 print()中文乱码怎么办

python to_csv中文乱码的解决方法,解决python中 .to_csv() 的乱码问题

python3打包成exe运行后中文乱码_Python和py2exe的中文乱码问题解决方法

python将excel转csv乱码_python解决csv文件用excel打开乱码问题

sheet_to_json中文乱码

ciuxmx_python_

最新资源

python 中文乱码问题深入分析.docx

zwbmxj.zip_UTF8_gb2312 utf8_utf8-unicode_汉字编码_汉字编码