XPath解析:提取XML与HTML数据

需积分: 0 1 下载量 173 浏览量 更新于2024-08-05 收藏 72KB PDF 举报
"08.xpath解析1" XPath 是一种在 XML 和 HTML 文档中查找信息的语言。它被设计用来高效地选取 XML 数据,并且在 HTML 解析中也常被用于提取或操作页面元素。XPath 使用路径表达式来选取节点,这些路径表达式类似于文件系统的路径,用来定位文件系统中的文件。 在 XML 文档中,XPath 可以选取节点集,包括元素、属性、文本、命名空间和处理指令。XPath 的主要功能包括: 1. 选取节点:例如,`/book` 选取根元素下的所有 `book` 元素。 2. 查找特定属性:如 `@id` 用于选取属性,`//book/@id` 将选取文档中所有 `book` 元素的 `id` 属性。 3. 遍历子节点:`//book/author/nick` 选取所有 `book` 元素下的 `author` 元素中的 `nick` 子元素。 4. 过滤节点:XPath 支持使用条件表达式,如 `//book[price>10]` 选取价格大于 10 的 `book` 元素。 5. 计算节点数量:`count(//book)` 返回文档中 `book` 元素的数量。 6. 操作字符串、数值和布尔值:XPath 提供内置函数对节点内容进行处理,如 `concat(name, ' ', price)` 结合 `name` 和 `price` 的内容。 在给定的 Python 示例中,使用了 `lxml` 库来处理 HTML 文档和执行 XPath 查询。`lxml` 是一个强大的库,它提供了高效的 XML 和 HTML 处理能力。首先,通过 `pip install lxml` 安装库。接着,导入 `etree` 模块,然后可以将 HTML 字符串解析成 XML 树结构,使用 `etree.XML()` 函数。一旦有了树对象,就可以使用 `xpath()` 方法执行 XPath 查询,它会返回一个节点列表。 示例代码中展示了如何选取和打印 `book` 元素的不同部分,如 `id`、`name`、`price` 和 `author` 下的 `nick` 子元素。XPath 表达式如 `//book/id`、`//book/name` 等用于选取相应元素。此外,还演示了如何根据属性值选取 `nick` 元素,例如 `//book/author/nick[@id='10086']`。 XPath 的强大之处在于它的灵活性和表达能力,使得开发者能够方便地定位和操作 XML 或 HTML 文档中的任何部分。结合 Python 的 `lxml` 库,可以实现复杂的网页抓取和数据提取任务。

def parse(self, response): res = Selector(response) items = RenrenchesipderItem() items['id'] = res.xpath('//div[@class="detail-wrapper"]/@data-encrypt-id').extract()[0] # 标题 items['title'] = res.xpath('//div[@class="title"]/h1/text()').extract()[0] # 客户出价 items['price'] = res.xpath('//div[@class="middle-content"]/div/p[2]/text()').extract()[0] # 市场价 items['new_car_price'] = res.xpath('//div[@class="middle-content"]/div/div[1]/span/text()').extract()[0] # 首付款 down_payment = res.xpath('//div[@class="list"]/p[@class="money detail-title-right-tagP"]/text()') # 月供 monthly_payment = res.xpath('//[@id="basic"]/div[2]/div[2]/div[1]/div[3]/div[2]/p[5]/text()') # 判断是否可以分期购买 if down_payment and monthly_payment: items['staging_info'] = [down_payment.extract()[0], monthly_payment.extract()[0]] # 服务费 items['service_fee'] = res.xpath('///div[1]/p[2]/strong/text()').extract()[0] # 服务项 items['service'] = res.xpath('//[@id="js-box-service"]/table/tr/td/table/tr/td/text()').extract() # 车辆上牌时间 里程 外迁信息 items['info'] = res.xpath('///div[2]/div[2]/div[1]/div[4]/ul/li/div/p/strong/text()').extract() # 车辆排量 items['displacement'] = \ res.xpath('//[@id="basic"]/div[2]/div[2]/div[1]/div[4]/ul/li[4]/div/strong/text()').extract()[0] # 车辆上牌城市 items['registration_city'] = res.xpath('///@licensed-city').extract()[0] # 车源号 items['options'] = \ res.xpath('//*[@id="basic"]/div[2]/div[2]/div[1]/div[5]/p/text()').extract()[0].strip().split(":")[1] # 判断是都有图片 if res.xpath('//div[@class="info-recommend"]/div/img/@src'): # 车辆图片 items['car_img'] = res.xpath('//div[@class="info-recommend"]/div/img/@src').extract()[0] # 车辆所在城市 items['city'] = res.xpath('//div[@rrc-event-scope="city"]/a[@class="choose-city"]/text()').extract()[0].strip() # 车辆颜色 items['color'] = res.xpath('//div[@class="card-table"]/table/tr/td[2]/text()').extract()[0] ​ 解释一下每一句话

2023-06-13 上传