首页xpath爬取网页数据

xpath爬取网页数据

时间: 2023-07-27 11:07:51 浏览: 101

XPath是一种在XML文档中查找信息的语言，也可以用于HTML文档中的信息提取。在爬虫中，XPath能够非常灵活地定位和提取HTML文档中的数据。

使用XPath爬取网页数据的步骤如下：

安装XPath解析库，比如lxml库。
获取HTML文档，可以使用requests库发送HTTP请求获取HTML文档。
解析HTML文档，将HTML文档转化为XPath可以识别的格式。可以使用lxml库中的etree模块来解析HTML文档。
使用XPath表达式定位和提取数据。
处理数据，将提取的数据进行清洗和处理。

下面是一个简单的例子，使用XPath爬取豆瓣电影Top250中的电影名称和评分：

import requests
from lxml import etree

url = 'https://movie.douban.com/top250'
response = requests.get(url)
html = etree.HTML(response.text)

# 定位电影名称和评分
movies = html.xpath('//div[@class="info"]')
for movie in movies:
    name = movie.xpath('.//span[@class="title"]/text()')[0]
    rating = movie.xpath('.//span[@class="rating_num"]/text()')[0]
    print(name, rating)

在这个例子中，我们首先使用requests库获取豆瓣电影Top250的页面，然后使用lxml库的etree模块将HTML文档解析为XPath可以识别的格式。接着，我们使用XPath表达式定位电影名称和评分，并将其打印出来。

阅读全文