print(selector.xpath("/html/body/div[2]/div[1]/ul/li[2]/a/text()")) print(selector.xpath("/html/body/div[2]/div[1]/ul/li[3]/a/text()")) print(selector.xpath("/html/body/div[2]/div[1]/ul/li[4]/a/text()")) print(selector.xpath("/html/body/div[2]/div[1]/ul/li[5]/a/text()"))请告诉我这4个代码有什么规律

这四个代码均使用了XPath语法，通过XPath路径获取HTML文档中特定元素的文本内容。其中，`/html/body/div[2]/div[1]/ul/li[2]/a/text()`表示获取HTML文档中第二个`li`元素下的`a`元素的文本内容，`/html/body/div[2]/div[1]/ul/li[3]/a/text()`表示获取HTML文档中第三个`li`元素下的`a`元素的文本内容，以此类推。它们的规律是通过XPath路径定位HTML文档中的特定元素，并获取其文本内容。

import requests from lxml import etree import os url = 'https://wallhaven.cc/search?q=id:2278&sorting=random&ref=fp/' page = requests.get(url) print(page) page.encoding = "utf-8" selector = etree.HTML(page.text) # 将网站中的html源码数据加载到tree里 print(selector) li_list = selector.xpath('//section[@class="thumb-listing-page"]/ul/li//@data-src') # 获取源码对应的图片列表 # li_list = selector.xpath("//*[@id='thumbs']/section/ul/li//@data-src") # li_list = selector.xpath("/html/body/main/div[1]/section/ul/li//@data-src") print(li_list) for ur in li_list: page = requests.get(ur) file_name = ur[35:42] + '.jpg' print(ur) print(file_name) with open(f'竖图/{file_name}', 'wb') as f: f.write(page.content)

这段代码是一个简单的 Python 爬虫程序，用于抓取 Wallhaven 网站上特定图片 ID 的随机图片，并将其保存到本地文件夹中。以下是每行代码的注释： ``` import requests # 导入 requests 库，用于向网站发送请求 from lxml import etree # 导入 etree 模块，用于解析 HTML import os # 导入 os 模块，用于创建文件夹和保存图片 url = 'https://wallhaven.cc/search?q=id:2278&sorting=random&ref=fp/' # 定义变量 url，表示待抓取的网页链接 page = requests.get(url) # 发送 GET 请求，获取网页的 HTML 源码 print(page) # 打印请求的状态码，用于调试代码 page.encoding = "utf-8" # 将网页的编码设置为 utf-8 selector = etree.HTML(page.text) # 将网站中的 HTML 源码数据加载到 tree 里 print(selector) # 打印 tree 对象，用于调试代码 li_list = selector.xpath('//section[@class="thumb-listing-page"]/ul/li//@data-src') # 获取源码对应的图片列表，该列表中的元素是图片的链接地址 print(li_list) # 打印图片链接列表，用于调试代码 for ur in li_list: # 遍历图片链接列表中的每个链接 page = requests.get(ur) # 发送 GET 请求，获取图片的二进制数据 file_name = ur[35:42] + '.jpg' # 构造文件名，包括图片的 ID 和扩展名 print(ur) # 打印图片链接，用于调试代码 print(file_name) # 打印文件名，用于调试代码 with open(f'竖图/{file_name}', 'wb') as f: # 打开文件，'wb' 表示以二进制写入模式打开文件 f.write(page.content) # 将图片的二进制数据写入文件 ``` 需要注意的是，这段代码针对特定的网页链接进行了编写，如果链接发生变化或者对应的图片不存在，程序将无法正常运行。另外，在使用爬虫程序时需要注意遵守相关法律法规和网站的使用协议，以免引发不必要的法律风险。

python如何使用 Xpath 或者 CSS Selector 来定位元素

在 Python 中可以使用 lxml 库或者 Beautiful Soup 库来使用 Xpath 或者 CSS Selector 来定位元素。 1. 使用 lxml 库： ```python from lxml import etree # 构建 HTML 树 html = """ <html> <body> <div class="content"> <ul> <li><a href="http://www.baidu.com">百度</a></li> <li><a href="http://www.google.com">谷歌</a></li> </ul> </div> </body> </html> """ tree = etree.HTML(html) # 使用 Xpath 定位元素 result = tree.xpath('//div[@class="content"]/ul/li/a/text()') print(result) # ['百度', '谷歌'] # 使用 CSS Selector 定位元素 result = tree.cssselect('div.content ul li a') for item in result: print(item.text) # 百度谷歌 ``` 2. 使用 Beautiful Soup 库： ```python from bs4 import BeautifulSoup # 构建 HTML 树 html = """ <html> <body> <div class="content"> <ul> <li><a href="http://www.baidu.com">百度</a></li> <li><a href="http://www.google.com">谷歌</a></li> </ul> </div> </body> </html> """ soup = BeautifulSoup(html, 'lxml') # 使用 CSS Selector 定位元素 result = soup.select('div.content ul li a') for item in result: print(item.text) # 百度谷歌 # 使用 Xpath 定位元素 # 需要安装 lxml 库 tree = etree.HTML(str(soup)) result = tree.xpath('//div[@class="content"]/ul/li/a/text()') print(result) # ['百度', '谷歌'] ```

阅读全文

python如何使用 Xpath 或者 CSS Selector 来定位元素

相关推荐

python的xpath得到含html标签的内容

python的xpath获取div标签内html内容,实现innerhtml功能的方法

探索Java I/O 模型的演进

xpath应用.docx

python神奇xpath

【Lxml.html中XPath技巧】：快速定位和提取HTML元素的5个高级应用

掌握XPath与CSS选择器：结构化数据提取技巧大公开

【Lxml.html中的CSS选择器】：简化你的HTML查询，提升代码效率

【Lxml.html扩展模块探索】：提升解析效率的5个高级工具，专家推荐

【Lxml.html与Scrapy框架的集成】：构建高效的爬虫应用，专家实战教程

HTML解析与Python网络爬虫

Python bs4深度解析：掌握HTML_XML文档高效解析的5大技巧

爬虫爬评书吧_爬虫学习：xpath爬取评书网

《COMSOL顺层钻孔瓦斯抽采实践案例分析与技术探讨》,COMSOL模拟技术在顺层钻孔瓦斯抽采案例中的应用研究与实践,comsol顺层钻孔瓦斯抽采案例 ,comsol;顺层钻孔;瓦斯抽采;案例,COM

MATLAB驱动的高尔夫模拟仿真系统：深度定制球杆与挥杆参数的互动体验,基于MATLAB的全方位高尔夫模拟仿真系统：精确设定球杆与天气因素，让用户享受个性化的挥杆力量与角度掌控体验,基于MATLAB的

双闭环控制策略在直流电机控制系统仿真中的应用研究,直流电机双闭环控制系统的仿真研究与性能优化分析,直流电机双闭环控制，有关直流电机控制系统仿真均 ,直流电机; 双闭环控制; 控制系统仿真,直流电机双闭

基于LCL滤波的光伏PV三相并网逆变器MATLAB仿真研究：集成MPPT控制、坐标变换与功率解耦控制技术实现高效同步输出,基于LCL滤波的光伏PV三相并网逆变器MATLAB仿真研究：MPPT控制与dq

校园健康管理系统（springboot + mysql）

大家在看

基于双流融合网络的单兵伪装偏振成像检测.docx

ABAP代码性能指导

CMOS反相器的掩膜版图-集成电路版图设计

读写通达信股票软件二进制dat文件

FAST FACTORIZED_FFBP论文_FFBP_后向投影.zip

最新推荐

小程序登录/注册页面设计的实现代码

PHP集成Autoprefixer让CSS自动添加供应商前缀

揭秘数字音频编码的奥秘：非均匀量化A律13折线的全面解析

arduino PAJ7620U2

网站啄木鸟：深入分析SQL注入工具的效率与限制

【GPStoolbox使用技巧大全】：20个实用技巧助你精通GPS数据处理

spring boot怎么配置maven

我的个人简历HTML模板解析与应用

3GPP架构深度解析：掌握网络功能与服务框架的关键

Failed to restart vntoolsd.service: Unit vntoolsd.service not found.