Python3 HTML主内容提取教程：requests与lxml实战

118 浏览量更新于2024-09-01 收藏 222KB PDF 举报

"这篇教程是关于使用Python3来实现HTML主要内容的提取，主要涉及requests、lxml和json这三个Python库的运用。通过学习，你可以掌握如何利用这些工具从网页中抽取所需信息。" 在Web抓取领域，Python是一种常用的语言，而Python3则提供了更加现代和便捷的语法。本教程重点讲解了如何使用Python3来提取HTML页面的主要内容，这对于数据分析、网站自动化或者建立网络爬虫都极其重要。首先，我们要介绍的是`requests`库。`requests`是一个非常强大的Python第三方库，用于处理HTTP请求。它使得发送GET、POST以及其他HTTP方法变得异常简单。相比Python内置的`urllib`模块，`requests`提供了更加人性化和直观的API。例如，获取网页内容时，`urllib`需要多行代码来构建请求参数并发送请求，而`requests`只需一行代码即可完成相同任务： ```python # urllib示例 import urllib2 import urllib URL_GET = "https://api.douban.com/v2/event/list" params = urllib.urlencode({'loc': '108288', 'day_type': 'weekend', 'type': 'exhibition'}) response = urllib2.urlopen('?'.join([URL_GET, '%s']) % params) # requests示例 import requests URL_GET = "https://api.douban.com/v2/event/list" params = {'loc': '108288', 'day_type': 'weekend', 'type': 'exhibition'} response = requests.get(URL_GET, params=params) ``` 接下来是`lxml`库，这是一个高效的XML和HTML处理库。在HTML内容提取中，`lxml`提供了XPath和CSS选择器，可以方便地定位和解析HTML元素。比如，我们可以用`lxml`的`html.fromstring()`方法将HTML字符串转换成可操作的对象，然后通过XPath表达式找到我们需要的元素： ```python from lxml import html tree = html.fromstring(response.text) title = tree.xpath('//h1/text()')[0] # 通过XPath获取HTML中的标题 ``` 最后，`json`库在处理JSON数据时不可或缺。很多API返回的数据格式是JSON，`json`库提供了加载和序列化JSON数据的函数。例如，如果你从API收到一个JSON响应，你可以这样解析它： ```python data = json.loads(response.text) print(data['key']) # 如果JSON数据中有一个名为'key'的键 ``` 在实际的HTML内容提取中，你可能还需要结合正则表达式（`re`模块）或者其他文本处理技术来清洗和格式化数据。通过组合使用这些工具，你可以有效地从HTML页面中提取出有价值的信息。总结起来，本教程将带你一步步了解如何利用Python3、requests、lxml和json来提取HTML页面的主要内容。无论你是初学者还是有经验的开发者，这篇文章都能为你提供实用的指导和技巧，帮助你在数据抓取和处理的道路上更进一步。

用用python3教你任意教你任意Html主内容提取功能主内容提取功能

主要介绍了用python3教你任意Html主内容提取功能，主要使用到了requests、lxml、json等模块，文中逐一对

这几个模块做了介绍,需要的朋友可以参考下

本文将和大家分享一些从互联网上爬取语料的经验。

0x1 工具准备工具准备

工欲善其事必先利其器，爬取语料的根基便是基于python。

我们基于python3进行开发，主要使用以下几个模块：requests、lxml、json。

简单介绍一个各模块的功能

01｜｜requests

requests是一个Python第三方库，处理URL资源特别方便。它的官方文档上写着大大口号：HTTP for Humans(为人类使用

HTTP而生)。相比python自带的urllib使用体验，笔者认为requests的使用体验比urllib高了一个数量级。

我们简单的比较一下：

urllib:

import urllib2

import urllib

URL_GET = "https://api.douban.com/v2/event/list"

#构建请求参数

params = urllib.urlencode({'loc':'108288','day_type':'weekend','type':'exhibition'})

#发送请求

response = urllib2.urlopen('?'.join([URL_GET,'%s'])%params)

#Response Headers

print(response.info())

#Response Code

print(response.getcode())

#Response Body

print(response.read())

requests：

import requests

URL_GET = "https://api.douban.com/v2/event/list"

#构建请求参数

params = {'loc':'108288','day_type':'weekend','type':'exhibition'}

#发送请求

response = requests.get(URL_GET,params=params)

#Response Headers

print(response.headers)

#Response Code

print(response.status_code)

#Response Body

print(response.text)

我们可以发现，这两种库还是有一些区别的：

1. 参数的构建：urllib需要对参数进行urlencode编码处理，比较麻烦；requests无需额外编码处理，十分简洁。

2. 请求发送：urllib需要额外对url参数进行构造，变为符合要求的形式；requests则简明很多，直接get对应链接与参数。

3. 连接方式：看一下返回数据的头信息的“connection”，使用urllib库时，"connection":"close"，说明每次请求结束关掉socket

通道，而使用requests库使用了urllib3，多次请求重复使用一个socket，"connection":"keep-alive"，说明多次请求使用一个连

接，消耗更少的资源

4. 编码方式：requests库的编码方式Accept-Encoding更全，在此不做举例

综上所诉，使用requests更为简明、易懂，极大的方便我们开发。

02｜｜lxml

BeautifulSoup是一个库，而XPath是一种技术，python中最常用的XPath库是lxml。

当我们拿到requests返回的页面后，我们怎么拿到想要的数据呢？这个时候祭出lxml这强大的HTML/XML解析工具。python从

不缺解析库，那么我们为什么要在众多库里选择lxml呢？我们选择另一款出名的HTML解析库BeautifulSoup来进行对比。

下载后可阅读完整内容，剩余4页未读，立即下载

weixin_38526914

粉丝: 7
资源: 909

Python3 HTML主内容提取教程：requests与lxml实战

Python-从StackOverflow导入任意代码作为Python模块

Python使用正则表达式去除(过滤)HTML标签提取文字功能

Python编程基础 Python语言程序教程 Python基础入门教程 共131页.pptx

python使用xslt提取网页数据的方法

python使用正则表达式提取网页URL的方法

完整版精品Python网络爬虫教程 数据采集 信息提取课程 07-Re(正则表达式)库入门（共51页）.pptx

Python爬虫教程：京东手机图片抓取

Python爬虫教程：正则表达式深度解析

静态网页漫画爬取专用Python爬虫教程

XPath教程：Python中HTML文档的查找与解析

最新资源

Python编程基础 Python语言程序教程 Python基础入门教程共131页.pptx

完整版精品Python网络爬虫教程数据采集信息提取课程 07-Re(正则表达式)库入门（共51页）.pptx