response = requests.get(url, headers=headers) html = response.text selector = etree.HTML(html) total_page_list = selector.xpath('//div[@class="content__pg"]/div/@data-totalpage') if len(total_page_list) > 0: total_page = total_page_list[0] print('总页数为:', total_page) else: print('未匹配到结果')解释每段代码含义

代码解释如下： ``` response = requests.get(url, headers=headers) # 发送 GET 请求，获取网页内容 html = response.text # 获取网页的 HTML 内容 selector = etree.HTML(html) # 将 HTML 文本转换成 XPath 可以解析的对象 total_page_list = selector.xpath('//div[@class="content__pg"]/div/@data-totalpage') # 使用 XPath 从 HTML 中匹配总页数信息 if len(total_page_list) > 0: # 如果匹配到了结果 total_page = total_page_list[0] # 取出总页数 print('总页数为:', total_page) # 输出总页数 else: # 如果没有匹配到结果 print('未匹配到结果') # 输出提示信息 ``` 具体解释如下： 1. `response = requests.get(url, headers=headers)`：使用 requests 库发送 GET 请求，获取网页内容。其中 `url` 是要获取的网页的链接，`headers` 是请求头，用于模拟浏览器发送请求。 2. `html = response.text`：获取网页的 HTML 内容，`response.text` 返回的是字符串形式的 HTML 内容。 3. `selector = etree.HTML(html)`：将 HTML 文本转换成 XPath 可以解析的对象，使用 `etree.HTML()` 方法将 HTML 内容转换成一个 Element 对象，之后就可以使用 XPath 语法来解析 HTML 内容了。 4. `total_page_list = selector.xpath('//div[@class="content__pg"]/div/@data-totalpage')`：使用 XPath 语法从 HTML 内容中匹配总页数信息，`//div[@class="content__pg"]/div/@data-totalpage` 表示匹配 `class` 属性为 `content__pg` 的 `div` 元素下的 `data-totalpage` 属性值，`@` 符号表示获取属性值。 5. `if len(total_page_list) > 0:`：如果匹配到了结果，即 `total_page_list` 非空。 6. `total_page = total_page_list[0]`：取出总页数，由于 `total_page_list` 是一个列表，因此需要使用索引 `[0]` 取出其中的第一个元素。 7. `print('总页数为:', total_page)`：输出总页数。 8. `else:`：如果没有匹配到结果。 9. `print('未匹配到结果')`：输出提示信息。

阅读全文

相关推荐

html_convert.zip_html conve_python 网页_python 网页_read text pytho

python requests.get带header

Python解析网页-XPath和requests-html.xmind

12行简单的Python代码,初窥爬虫的秘境.docx

【Lxml.html中XPath技巧】：快速定位和提取HTML元素的5个高级应用

【Lxml.html与Scrapy框架的集成】：构建高效的爬虫应用，专家实战教程

HTML解析与Python网络爬虫

Traceback (most recent call last): File "F:\pythonProject\mat2.py", line 13, in <module> total_page = selector.xpath('//div[@class="content__pg"]/div/@data-totalpage')[0] IndexError: list index out of range

python爬虫etree

用python的requests和xpath和正则表达式爬取豆瓣电影top250每一个详情页的代码

8.18发烧购物节活动SOP - 电商日化行业+电商引流转化（5张子表全案）.xlsx

网页设计期末大作业基于HTML+CSS的仿中国银行网站源代码.zip

ntu嵌入式所有周实验文件

WordPress子比AI自动发文章插件AI辅助写作随更版wapai-ai-create.zip

大家在看

yolo开发人工智能小程序经验和总结.zip

USB_HUB硬件电路引脚原理解析.docx

Keysight N6705C直流电源分析仪.pdf

AS400 自学笔记集锦

LQR与PD控制在柔性机械臂中的对比研究

最新推荐

HTML挑战：30天技术学习之旅

【CodeBlocks精通指南】：一步到位安装wxWidgets库（新手必备）

andorid studio 配置ERROR: Cause: unable to find valid certification path to requested target

VC++实现文件顺序读写操作的技巧与实践

【大数据时代必备：Hadoop框架深度解析】：掌握核心组件，开启数据科学之旅

opencv的demo程序

NeuronTransportIGA: 使用IGA进行神经元材料传输模拟

【Linux多系统管理大揭秘】：专家级技巧助你轻松驾驭

fofa和fofa viewer的区别

重新编码项目的探索：以Flur艺术作品为例