Python爬虫解析库详解：编码解码与常用格式

158 浏览量更新于2024-08-29 收藏 556KB PDF 举报

在【python爬虫系列】的第五节中，主要讲解了Python解析库中的文本清洗部分，特别是编码解码的相关概念。首先，编码和解码是信息处理的关键步骤，它们互为逆过程，确保数据在不同格式之间正确传输。当遇到乱码问题，通常是由于编码不匹配导致的，只有在编码和解码时采用相同的规则才能得到正确的显示。文本在计算机内部通常以二进制形式存储，一个字节由8位组成，可表示256种状态，ASCII编码就是基于这一原理，它将256个符号与二进制数值一一对应，例如空格是ASCII码中的32，大写字母A是65。ASCII编码适用于英文字符，但其只支持128个字符，对于非拉丁字母和汉字等多语言符号，存在空间效率低下的问题。为了解决这个问题，Python引入了Unicode编码，尤其是Python 2中的Unicode，它可以编码超过100万个符号，包括各种语言的字符，每个符号都有唯一的编码。然而，Unicode的二进制表示可能占用多个字节，例如汉字“严”的UTF-16编码需要两个字节，这可能导致文件大小显著增加。为减小空间浪费并提高效率，UTF-8编码被广泛采用，它是Unicode的一种变体。UTF-8编码规则是：单字节字符的前一位为0，英文字母仍保持ASCII编码；多字节字符的第一位为1，后续字节的前两位固定为10，其余位根据需要填充Unicode码。例如，“严”在UTF-8中的编码为11100000100111000100101，即十六进制的E4B8A5。在Python中进行编码和解码操作时，需要确保使用的库函数与目标格式匹配。例如，读取文本文件时，可能需要先了解文件的编码类型（如UTF-8），然后使用相应的decode()函数将其转换为Python能处理的字符串，反之则用encode()函数将字符串编码为指定格式。理解这些编码规则对爬虫处理文本数据至关重要，尤其是在处理多语言内容时，避免出现乱码或数据丢失的问题。

【【python爬虫爬虫系列】系列】5.python解析库解析库

第五节：第五节：python解析库解析库

5.1文本清洗文本清洗

1）编码解码：

编码是信息从一种形式或格式转换为另一种形式的过程，解码则是编码的逆过程

乱码的诞生就是编解码不一样造成的，只有编码和解码的方式一样才会正常显示

编码：Encode

解码：Decode

比如你新建一个文本文档，就可以在下方看到编码，如图

2）常见格式：

ASCII(补码形式)

计算机内部，所有信息最后都是一个二.进制

一个字节byte是8位二进制，二进制有0和1两种状态，所以一个字节有256种状态，每个状态对应一个符号。 asci-共256个符号。

上个世纪，美国制定了这套编码，英语字符和二进制一一对应，沿用到现在。

比如空格是32，大写字母A是65。字符一共128个，这些字符只占用一个字节的后边7位，最前边统一为0

Unicode（python2）（被称为上帝的馈赠）：

100多万个符号，把世界上所有的符号融入其中，每个符号都有独一无二的编码。

比如U+0639代表阿拉伯字母Ain，U+4E25代表汉字严。

不过存在的问题是，unicode转化为二进制需要很多空间，比如严的16进制4E25转化为二进制有15位(100111000100101) ，至少两个字节。其他更大的符号可能有5一-6个字节。

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38571544

粉丝: 3
资源: 895

Python爬虫解析库详解：编码解码与常用格式

Python爬虫教程与biaoqingbao.zip文件解析

Python爬虫入门教程：基础案例解析

Python爬虫项目代码及作业示例解析

Python爬虫学习仓库.zip

常用Python爬虫库汇总.pdf

常用Python爬虫库汇总.docx

weibo_spider_爬虫python_关键词爬虫_python_python爬虫_spider.zip

Python图片爬虫服务..zip

Python 爬虫代码文件.rar

python爬虫基础知识.zip

最新资源