xpath sort

XPath是一种在XML文档中查找信息的语言，可以用来定位和选择XML文档中的节点。XPath提供了sort函数，可以对节点集合进行排序。sort函数接受一个可选的参数，用于指定排序方式，默认情况下按升序排列。以下是sort函数的示例： ``` <books> <book> <title>Java</title> <price>50</price> </book> <book> <title>Python</title> <price>30</price> </book> <book> <title>C++</title> <price>40</price> </book> </books> //按照价格升序排列 /books/book order by price //按照价格降序排列 /books/book order by price descending ```

解析下列代码的含义：def create_task_url(): lists = ['https://www.dingdian.info/sort/{}/1000000/'.format(types) for types in range(1, 9)] for url in lists: type_num = url.split('/')[-3] source = requests.get(url).text op = etree.HTML(source).xpath('//option/text()')[-1] demo = re.compile('\d+') max_page = demo.findall(op)[0] for page in range(1, int(max_page) + 1): every_page_url = 'https://www.dingdian.info/sort/{}/{}/'.format(type_num, page) every_page_source = requests.get(every_page_url).text chapter_urls = etree.HTML(every_page_source).xpath('//*[@id="newscontent"]/div[1]/ul/li/span[2]/a/@href') for chapter_url in chapter_urls: mysql_db.insert_tasks( 'https://www.dingdian.info'+chapter_url)

这是一个函数，函数名为 create_task_url，没有参数。函数的作用是爬取一个小说网站（https://www.dingdian.info/）中的所有小说章节，并将章节的 URL 存入到 MySQL 数据库中。具体的流程如下： 1.首先创建一个列表 lists，其中每个元素都是一个小说分类的 URL（https://www.dingdian.info/sort/{分类号}/1000000/），其中分类号从1到8。 2.遍历 lists 列表中的每个 URL，解析出分类号 type_num，并使用 requests 库的 get 方法请求该 URL，将返回的文本内容存入 source 变量中。 3.使用 lxml 库的 etree 模块将 HTML 的文本内容解析成树形结构，并使用 xpath 方法获取网页中最后一个 option 标签的文本内容，并使用正则表达式提取出其中的数字，得到该分类下小说的总页数 max_page。 4.接下来遍历该分类下的每一页，解析出每一页的 URL（https://www.dingdian.info/sort/{分类号}/{页码}/），并使用 requests 库的 get 方法请求该 URL，将返回的文本内容存入 every_page_source 变量中。 5.使用 xpath 方法获取每一页中所有小说章节的 URL，存入 chapter_urls 变量中。 6.遍历 chapter_urls 列表中的每个章节 URL，将其存入 MySQL 数据库中，其中章节 URL 为 'https://www.dingdian.info'+chapter_url。

import requests from lxml import etree import pandas as pd username_list=[] film_critic_list=[] useful_num_list=[] useless_num_list=[] assess_list=[] ttt_all_urls = [] for i in range(191): ttt_page_urls = f'https://movie.douban.com/subject/26430107/reviews?sort=hotest&start={i * 20}' headers={'user-agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/114.0.0.0 Safari/537.36 Edg/114.0.1823.41'} rq=requests.get(url=ttt_page_urls,headers=headers) dom1 = etree.HTML(rq.text) ttt_data = dom1.xpath('//[@id="content"]/div/div[1]/div[1]/div/@data-cid') for i in ttt_data: a=dom1.xpath(f'//[@id={i}]/div/h2/a/@href') ttt_all_urls.extend(a) for url1 in ttt_all_urls: for i in ttt_data: rq2 = requests.get(url=url1,headers=headers) dom2=etree.HTML(rq2.text) username= dom2.xpath(f'//[@id={i}]/header/a[1]/span/text()') print(username) film_critic = dom2.xpath(f'//[@id="link-report-{i}"]/div[1]/p/text()') useful_num = dom2.xpath(f'[@id="review-{i}-content"]/div[3]/button[1]/text()') useless_num= dom2.xpath(f'[@id="review-{i}-content"]/div[3]/button[2]/text()') assess = (dom2.xpath('//*[@id="content"]/div/div[1]/h1/span/text()')) username_list.extend(username) film_critic_list.extend(film_critic) useful_num_list.extend(useful_num) useless_num_list.extend(useless_num) assess_list.extend(assess) data={'username':username_list,'film_critic':film_critic_list,'useful_num':useful_num_list,'useless_num':useless_num_list,'assess':assess_list} df=pd.DataFrame(data) df.to_csv('fimldata.csv',encoding='utf-8',index=None)

这段代码的功能是爬取豆瓣电影《太空悍将》的影评信息，并将爬取到的数据保存到名为"fimldata.csv"的CSV文件中。具体来说，代码先构造了每一页的URL地址，然后通过requests库发送请求获取HTML页面。接着，使用lxml库中的etree模块对HTML页面进行解析，提取出每条影评的URL地址，并将这些地址保存到一个列表中。接下来，遍历所有影评的URL地址，再次使用requests和etree库对每个影评页面进行解析，提取出影评的作者、影评内容、有用数、无用数以及对应的电影名称。最后，将这些数据存储到一个字典中，并使用pandas库将字典转换为DataFrame格式后保存到CSV文件中。

阅读全文

相关推荐

Xpath筛选数据

xpath

Xpath

Xpath语法格式总结

DOM操作XML，XPATH技术

XSLT与XPath入门转换XML文档与数据

python数据爬取美食网站xpath解析并将美食数据存入csv文件按照人气数据分析可视化

SortSelect:建立在 jQuery 上的简单 UI 助手，它使一组 DOM 可选择和可排序

XSLT核心技术：XPath、XQuery与XML转换应用

XML全方位指南：语法、XSLT、XPath与DOM解析

XML排序指令详解：<xsl:sort>的使用

XSLT排序秘籍：使用<xsl:sort>对输出结果精细化控制

xpath 的语法

基于springboot+vue的体育馆管理系统的设计与实现（Java毕业设计，附源码，部署教程）.zip

二叉树的创建，打印，交换左右子树，层次遍历，先中后遍历，计算树的高度和叶子节点个数

大家在看

ISO 16845-1-Part 1-Data link layer and physical signalling-2016

RealityCapture中文教程

C/C++标准库函数速查手册

libomp140.x86-64.dll

Python tkinter模块弹出窗口及传值回到主窗口操作详解

最新推荐

Oracle 中XML处理函数介绍

基于springboot+vue的体育馆管理系统的设计与实现（Java毕业设计，附源码，部署教程）.zip

二叉树的创建，打印，交换左右子树，层次遍历，先中后遍历，计算树的高度和叶子节点个数

鸿蒙操作系统接入智能卡读写器SDK范例

【天线】基于matlab时域差分FDTD方法喇叭天线仿真（绘制电场方向图）【含Matlab源码 9703期】.zip

探索zinoucha-master中的0101000101奥秘

【Qt与OpenGL集成】：提升框选功能图形性能，OpenGL的高效应用案例

ffmpeg 指定屏幕输出

个人网站技术深度解析：Haskell构建、黑暗主题、并行化等

Qt框选功能的国际化实践：支持多语言界面的核心技术解析