page_num1 = requests.get(url=url.format(1), headers=header) page_num1.encoding = ('utf-8') page_num = page_num1.text tree = etree.HTML(page_num) total_page_text = tree.xpath('//*[@id="content"]/div[1]/div[2]/div/@data-totalpage') total_page = int(total_page_text[0])超出列表索引范围

这个错误通常出现在 `total_page_text` 列表为空的时候，也就是 `tree.xpath()` 没有匹配到任何结果。你可以在使用 `total_page_text[0]` 之前，先判断一下 `total_page_text` 是否为空。例如： ```python total_page_text = tree.xpath('//*[@id="content"]/div[1]/div[2]/div/@data-totalpage') if total_page_text: total_page = int(total_page_text[0]) else: total_page = 0 # 或者其他默认值 ``` 这样就可以避免超出列表索引范围的错误。

import csv import requests from lxml import etree if name == "main": url = 'https://jn.lianjia.com/zufang/pg{}' header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.57' } # 爬取源码数据 headers = ["区域", "小区名称", "户型", "面积(㎡)", "价格(元/月)"] path = "链家济南租房数据.csv" with open(path, 'w', newline='') as f: csv_write = csv.writer(f) csv_head = ["区域", "小区名称", "户型", "面积(㎡)", "价格(元/月)"] csv_write.writerow(csv_head) for num in range: new_url = url.format(num) page_num1 = requests.get(url=new_url, headers=header) page_num1.encoding = ('utf-8') page_num = page_num1.text tree = etree.HTML(page_num) # 存储的就是标签对象 div_list = tree.xpath('//*[@id="content"]/div[1]/div[1]/div') with open(path, 'a', newline='') as f: csv_write = csv.writer(f) for div in div_list: quyu = div.xpath('./div/p[2]/a[1]//text()')[0] name = div.xpath('./div/p[2]/a[3]//text()')[0] area = div.xpath('./div/p[2]/text()')[4].split()[0] type = div.xpath('./div/p[2]/text()')[6].split()[0] place = div.xpath('./div//span/em/text()')[0] data_row = [quyu, name, type, area, place] csv_write.writerow(data_row) print("完成")改成获取全部信息

好的，针对您的需求，可以将代码修改如下： ``` import csv import requests from lxml import etree if __name__ == "__main__": url = 'https://jn.lianjia.com/zufang/pg{}' header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.57' } # 爬取源码数据 headers = ["区域", "小区名称", "户型", "面积(㎡)", "价格(元/月)"] path = "链家济南租房数据.csv" with open(path, 'w', newline='') as f: csv_write = csv.writer(f) csv_head = ["区域", "小区名称", "户型", "面积(㎡)", "价格(元/月)"] csv_write.writerow(csv_head) # 获取总页数 first_page = requests.get(url.format(1), headers=header) first_page.encoding = ('utf-8') first_tree = etree.HTML(first_page.text) total_page = int(first_tree.xpath('//*[@id="content"]/div[1]/div[2]/div/a[last()-1]/text()')[0]) # 爬取每一页的数据 with open(path, 'a', newline='') as f: csv_write = csv.writer(f) for num in range(1, total_page+1): new_url = url.format(num) page_num1 = requests.get(url=new_url, headers=header) page_num1.encoding = ('utf-8') page_num = page_num1.text tree = etree.HTML(page_num) # 存储的就是标签对象 div_list = tree.xpath('//*[@id="content"]/div[1]/div[1]/div') for div in div_list: quyu = div.xpath('./div/p[2]/a[1]//text()')[0] name = div.xpath('./div/p[2]/a[3]//text()')[0] area = div.xpath('./div/p[2]/text()')[4].split()[0] type = div.xpath('./div/p[2]/text()')[6].split()[0] place = div.xpath('./div//span/em/text()')[0] data_row = [quyu, name, type, area, place] csv_write.writerow(data_row) print("第{}页完成".format(num)) print("所有数据爬取完成") ``` 这样，代码就可以自动获取总页数，然后遍历每一页获取数据。在输出的时候，也会打印出当前爬取的页数，方便查看进度。

import csv import requests from lxml import etree if name == "main": url = 'https://heze.lianjia.com/zufang/pg%d' header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.57' } #爬取源码数据 headers = ["区域", "小区名称", "户型", "面积(㎡)", "价格(元/月)"] path = "链家菏泽租房数据.csv" with open(path, 'wb') as f: csv_write = csv.writer(f) csv_head = ["区域", "小区名称", "户型", "面积(㎡)", "价格(元/月)"] csv_write.writerow(csv_head) for num in range(85,101): new_url = format(url%num) page_num1 = requests.get(url=new_url, headers=header) page_num1.encoding = ('utf-8') page_num = page_num1.text tree = etree.HTML(page_num) # 存储的就是标签对象 div_list = tree.xpath('//*[@id="content"]/div[1]/div[1]/div') with open(path, 'a+') as f: for div in div_list: quyu = div.xpath('./div/p[2]/a[1]//text()')[0] name = div.xpath('./div/p[2]/a[3]//text()')[0] area = div.xpath('./div/p[2]/text()')[4].split()[0] type = div.xpath('./div/p[2]/text()')[6].split()[0] place = div.xpath('./div//span/em/text()')[0] csv_write = csv.writer(f) data_row = [quyu,name,type,area,place] csv_write.writerow(data_row) print("完成")改错

代码存在一些问题，需要进行改正。具体改正如下： 1. 缺少了第一行的 `#!/usr/bin/env python` 或者 `#!/usr/bin/python3`，用于指定解释器。 2. 缺少了一些必要的空格和换行，导致代码可读性不佳。 3. 缺少了导入 `csv` 模块所需的空格。 4. 在第 13 行和第 14 行，重复定义了 `headers` 变量，应该删掉一行。 5. 在第 17 行，应该以 `w` 模式打开文件，而不是 `wb` 模式。 6. 在第 21 行，应该使用 `format` 函数替换 `%` 运算符，以避免可能存在的格式化字符串漏洞。 7. 在第 27 行，应该以 `a` 模式打开文件，以便在文件末尾添加新的数据。 8. 在第 34 行，应该使用 `csv_write.writerow` 函数写入数据，而不是 `csv_write.writerows` 函数。 9. 在第 39 行，应该使用 `print("完成")` 命令来提示爬虫进度，而不是将其放在写入 CSV 文件的循环内。修改后的代码如下所示： ``` #!/usr/bin/env python # -*- coding: utf-8 -*- import csv import requests from lxml import etree if __name__ == "__main__": url = 'https://heze.lianjia.com/zufang/pg{}' header = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/113.0.0.0 Safari/537.36 Edg/113.0.1774.57' } # 爬取源码数据 headers = ["区域", "小区名称", "户型", "面积(㎡)", "价格(元/月)"] path = "链家菏泽租房数据.csv" with open(path, 'w', newline='') as f: csv_write = csv.writer(f) csv_head = ["区域", "小区名称", "户型", "面积(㎡)", "价格(元/月)"] csv_write.writerow(csv_head) for num in range(85, 101): new_url = url.format(num) page_num1 = requests.get(url=new_url, headers=header) page_num1.encoding = ('utf-8') page_num = page_num1.text tree = etree.HTML(page_num) # 存储的就是标签对象 div_list = tree.xpath('//*[@id="content"]/div[1]/div[1]/div') with open(path, 'a', newline='') as f: csv_write = csv.writer(f) for div in div_list: quyu = div.xpath('./div/p[2]/a[1]//text()')[0] name = div.xpath('./div/p[2]/a[3]//text()')[0] area = div.xpath('./div/p[2]/text()')[4].split()[0] type = div.xpath('./div/p[2]/text()')[6].split()[0] place = div.xpath('./div//span/em/text()')[0] data_row = [quyu, name, type, area, place] csv_write.writerow(data_row) print("完成") ```

阅读全文

page_num1 = requests.get(url=url.format(1), headers=header) page_num1.encoding = ('utf-8') page_num = page_num1.text tree = etree.HTML(page_num) total_page_text = tree.xpath('//*[@id="content"]/div[1]/div[2]/div/@data-totalpage') total_page = int(total_page_text[0])超出列表索引范围

相关推荐

python requests.get带header

URL.rar_url_动态网页下载_网页 取 图片

python爬虫常见异常共1页.pdf.zip

01.requests进阶_headers1

python_requests快速入门归纳.pdf

使用Python爬虫库requests发送请求、传递URL参数、定制headers

解决Pytorch在Pycharm没有代码提示的文件__init__.pyi（2019.4.21）

Yum中报错：“pycurl.so: undefined symbol: CRYPTO_num_locks”的问题排查

mini-server-http.zip_delphi linux_it_linux http get post_respons

基于springboot+vue的体育馆管理系统的设计与实现（Java毕业设计，附源码，部署教程）.zip

二叉树的创建，打印，交换左右子树，层次遍历，先中后遍历，计算树的高度和叶子节点个数

鸿蒙操作系统接入智能卡读写器SDK范例

【天线】基于matlab时域差分FDTD方法喇叭天线仿真（绘制电场方向图）【含Matlab源码 9703期】.zip

QT 下拉菜单设置参数 起始端口和结束端口

基于springboot+vue的大学生就业招聘系统的设计与实现（Java毕业设计，附源码，部署教程）.zip

java学生学籍管理系统设计与实现(源代码+论文+开题报告+外文翻译+答辩PPT)

基于HTML、JavaScript、CSS的PublicCMS官网2019版响应式静态化设计源码

大家在看

【微电网】基于Matlab实现孤岛和并网的状态下的微电网潮流计算 上传.zip

FAST FACTORIZED_FFBP论文_FFBP_后向投影.zip

威布尔参数估计，可靠性与寿命预测方向，机械工程,威布尔分布寿命预测,matlab源码.rar

东华his表结构新版.docx

aldec active 9.x基本使用说明

最新推荐

基于springboot+vue的体育馆管理系统的设计与实现（Java毕业设计，附源码，部署教程）.zip

探索zinoucha-master中的0101000101奥秘

【Qt与OpenGL集成】：提升框选功能图形性能，OpenGL的高效应用案例

ffmpeg 指定屏幕输出

个人网站技术深度解析：Haskell构建、黑暗主题、并行化等

Qt框选功能的国际化实践：支持多语言界面的核心技术解析

内网如何运行docker pull mysql:5.7

ImgToString开源工具：图像转字符串轻松实现

Qt框选功能安全性增强指南：防止恶意操作的有效策略

在ros平台中实现人脸识别

URL.rar_url_动态网页下载_网页取图片

解决Pytorch在Pycharm没有代码提示的文件init.pyi（2019.4.21）

QT 下拉菜单设置参数起始端口和结束端口

【微电网】基于Matlab实现孤岛和并网的状态下的微电网潮流计算上传.zip