import requests from lxml import etree import time import random path = r'D:\test\伏天氏\ ' headers = { "Referer": "https://www.ibiquges.com/0/951/", "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/21.0.1180.89 Safari/537.1" } def get_urls(): url = "https://www.ibiquges.com/0/951/" response = requests.get(url, headers=headers) response.encoding = 'utf-8' html = etree.HTML(response.text) # 所有章节的url列表 url_list = ['https://www.ibiquges.com' + x for x in html.xpath('//div[@id="list"]/dl/dd/a/@href')] return url_list def get_text(url): rep = requests.get(url, headers=headers) rep.encoding = 'utf-8' dom = etree.HTML(rep.text) name = dom.xpath('//div[@class="bookname"]/h1/text()')[0] text = dom.xpath('//div[@id="content"]/text()') with open(path + f'{name}.txt', 'w', encoding='utf-8') as f: for con in text: f.write(con) print(f'{name} 下载完成') def main(): urls = get_urls() for url in urls: get_text(url) time.sleep(random.randint(1, 3)) if name == 'main': main() 怎么限制下载数量

时间: 2024-04-19 22:23:40 浏览: 197

要限制下载数量，你可以在`main`函数中设置一个计数器，当计数器达到指定数量时，跳出循环停止下载。下面是修改后的代码示例： ```python def main(limit): urls = get_urls() count = 0 # 初始化计数器 for url in urls: get_text(url) count += 1 # 每次下载完成后计数器加一 if count >= limit: # 当计数器达到指定数量时，跳出循环 break time.sleep(random.randint(1, 3)) if __name__ == '__main__': limit = 10 # 设置下载数量限制为10 main(limit) ``` 在这个示例中，我设置了下载数量限制为10。你可以根据需求修改`limit`变量的值来设置你想要的下载数量。当计数器`count`达到`limit`时，循环会被中断，停止下载。

代码如下： import requestsfrom lxml import etreeimport numpy as npheaders = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36", "Referer": "https://www.5iai.com/", "Origin": "https://www.5iai.com"}url = "https://www.5iai.com/api/job/list"response = requests.get(url, headers=headers)response.encoding = 'utf8'html = response.textroot = etree.HTML(html)node_list = root.xpath('//div[@class="jobInfo"]/a/text()')print(node_list)np.savetxt('daijing_list.txt', node_list, fmt='%s')

在你的代码中，你使用了requests和lxml库，向https://www.5iai.com/api/job/list发送了一个GET请求，以获取一个JSON格式的响应。然后，你将响应文本转换为了HTML文本，并使用XPath表达式从中提取了一些文本信息。最后，你将这些文本信息保存到了名为daijing_list.txt的文件中。然而，根据你提供的代码，我无法确定为什么不能成功爬取数据。有几个可能的原因是： 1. URL不正确：确保URL链接正确，没有任何拼写错误或其他错误。 2. 网站反爬虫机制：网站可能已经采取了反爬虫机制，例如IP封锁、验证码、用户代理检测等。你可以尝试更改请求头来模拟正常的用户行为，以规避这些机制。 3. 爬取的数据不存在：检查XPath表达式是否正确，以确保你正在正确地解析HTML文本，并且正在获取正确的数据。 4. 网络连接问题：在某些情况下，网络连接可能会中断或失败，导致你无法成功爬取数据。你可以尝试使用try-except语句来处理这些异常情况，并重新尝试请求。希望这些提示可以帮助你找到问题所在。

帮我将以下代码写注释# coding=gbk # -- coding:uft-8 -- # 贝壳网小区 import requests from lxml import etree from time import sleep import hashlib from urllib import parse import pandas as pd def getPosi(tar): try: ak = 'C8rQZy1askzzMtdY3ChAZUer1P0PRjI0' sk = 'shShi1VLCkH1gGR4v75d2LTnrn2Vm5Mg' add = f'/geocoding/v3/?address={tar}&output=json&ak={ak}&city=大连市' add = parse.quote(add, safe="/:=&?#+!$,;'@()*[]") sn = hashlib.md5(parse.quote_plus(add + sk).encode('utf-8')).hexdigest() url = f'https://api.map.baidu.com{add}&sn={sn}' dic = requests.get(url).json() lat = dic['result']['location']['lat'] lng = dic['result']['location']['lng'] return lat, lng except: return None, None def collect(): items = { 'ganjingzi': 22, 'zhongshan': 19, 'shahekou': 14, 'xigang': 12 } resLs = [] for key in items: for page in range(items[key]): page += 1 url = f'https://dl.ke.com/xiaoqu/{key}/pg{page}/' headers = { 'User-Agent': ua, 'Referer': url } while True: try: res = requests.get(url=url, headers=headers, timeout=(5, 5)).content.decode('utf-8') break except: print('again') tree = etree.HTML(res) for li in tree.xpath('//ul[@class="listContent"]/li'): href = li.xpath('./a/@href')[0] while True: try: res = requests.get(url=href, headers=headers, timeout=(5, 5)).content.decode('utf-8') break except: print('again') tree = etree.HTML(res) dic = { 'href': href, 'key': key, 'name': tree.xpath('//h1/@title')[0], 'price': (tree.xpath('//span[@class="xiaoquUnitPrice"]/text()') + [''])[0], 'property': tree.xpath('//span[@class="xiaoquInfoContent"]/text()')[1].strip(), 'building': tree.xpath('//span[@class="xiaoquInfoContent"]/text()')[4].strip(), 'house': tree.xpath('//span[@class="xiaoquInfoContent"]/text()')[5].strip() } dic['lat'], dic['lng'] = getPosi(dic['name']) print(dic) resLs.append(dic) sleep(3) df = pd.DataFrame(resLs) df.to_excel('贝壳网小区.xlsx', encoding='utf-8', index=False) if name == 'main': ua = 'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/91.0.4472.106Safari/537.36' collect()

# coding=gbk # 设置文件编码为 gbk # -- coding:uft-8 -- # 设置文件编码为 utf-8 # 贝壳网小区 # 注释，说明文件内容为贝壳网小区相关代码 import requests # 导入 requests 模块 from lxml import etree # 导入 lxml 中的 etree 模块 from time import sleep # 导入 time 模块中的 sleep 函数 import hashlib # 导入 hashlib 模块 from urllib import parse # 导入 urllib 中的 parse 模块 import pandas as pd # 导入 pandas 模块 # 定义获取位置信息的函数 def getPosi(tar): try: ak = 'C8rQZy1askzzMtdY3ChAZUer1P0PRjI0' # 百度地图开放平台中的AK sk = 'shShi1VLCkH1gGR4v75d2LTnrn2Vm5Mg' # 百度地图开放平台中的SK add = f'/geocoding/v3/?address={tar}&output=json&ak={ak}&city=大连市' # 构造请求地址 add = parse.quote(add, safe="/:=&?#+!$,;'@()*[]") # 对地址进行URL编码 sn = hashlib.md5(parse.quote_plus(add + sk).encode('utf-8')).hexdigest() # 对地址进行签名 url = f'https://api.map.baidu.com{add}&sn={sn}' # 构造完整的请求URL dic = requests.get(url).json() # 发送请求，获取位置信息 lat = dic['result']['location']['lat'] # 获取纬度 lng = dic['result']['location']['lng'] # 获取经度 return lat, lng # 返回位置信息中的纬度与经度 except: return None, None # 若获取位置信息失败，则返回 None # 定义数据收集函数 def collect(): # 定义小区名称与页数的字典 items = { 'ganjingzi': 22, 'zhongshan': 19, 'shahekou': 14, 'xigang': 12 } resLs = [] # 定义空列表，用于存储收集到的数据 for key in items: # 遍历小区名称与页数的字典 for page in range(items[key]): # 遍历每个小区的每一页 page += 1 # 页码从1开始 url = f'https://dl.ke.com/xiaoqu/{key}/pg{page}/' # 构造请求URL headers = { 'User-Agent': ua, # 设置请求头中的User-Agent 'Referer': url # 设置请求头中的Referer } while True: # 循环发送请求，直到成功或超时 try: res = requests.get(url=url, headers=headers, timeout=(5, 5)).content.decode('utf-8') break except: print('again') tree = etree.HTML(res) # 解析HTML文本 for li in tree.xpath('//ul[@class="listContent"]/li'): # 遍历每个小区的信息块 href = li.xpath('./a/@href')[0] # 获取小区详情页的URL while True: # 循环发送请求，直到成功或超时 try: res = requests.get(url=href, headers=headers, timeout=(5, 5)).content.decode('utf-8') break except: print('again') tree = etree.HTML(res) # 解析HTML文本 dic = { # 构造数据字典 'href': href, # 小区详情页的URL 'key': key, # 小区名称 'name': tree.xpath('//h1/@title')[0], # 小区名称 'price': (tree.xpath('//span[@class="xiaoquUnitPrice"]/text()') + [''])[0], # 房价 'property': tree.xpath('//span[@class="xiaoquInfoContent"]/text()')[1].strip(), # 物业类型 'building': tree.xpath('//span[@class="xiaoquInfoContent"]/text()')[4].strip(), # 建筑年代 'house': tree.xpath('//span[@class="xiaoquInfoContent"]/text()')[5].strip() # 房屋总数 } dic['lat'], dic['lng'] = getPosi(dic['name']) # 获取小区位置信息 print(dic) # 输出小区信息 resLs.append(dic) # 将小区信息添加到列表中 sleep(3) # 休眠3秒，防止请求过于频繁 df = pd.DataFrame(resLs) # 将列表中的数据转换为DataFrame格式 df.to_excel('贝壳网小区.xlsx', encoding='utf-8', index=False) # 将DataFrame中的数据保存为Excel文件 if name == 'main': # 如果文件被直接执行，则执行以下代码块 ua = 'Mozilla/5.0(WindowsNT10.0;Win64;x64)AppleWebKit/537.36(KHTML,likeGecko)Chrome/91.0.4472.106Safari/537.36' # 设置请求头中的User-Agent collect() # 调用数据收集函数

阅读全文

相关推荐

from lxml import etree

python调试文件时发生import requests报错.doc

pyimport：管理从Emacs的Python导入！

【lxml.etree在Web Scraping中的应用】：爬虫开发者的利器

网络爬虫：使用Python进行网页抓取

HTTP协议与网络爬虫：如何正确地请求网页数据

Python爬虫入门：初步了解网络爬虫的概念与原理

Python爬虫专家养成记：urllib的高级使用技巧全解析

【Basic】Image Scraping and Downloading: Methods for Handling Image Resources

【Python爬虫技术详解】：提升抢票工具效率的实战技巧

【动态内容解析大师】：使用PyQuery解析动态加载的数据

【Python网络爬虫实战】：60分钟学会抓取网页数据的策略与技巧

【反爬虫技术全攻略】：深圳大学羽毛球场预约脚本的防御技巧

【Python爬虫进阶】：反爬技术分析与绕过方法（专家指南）

【数据抓取效率探讨】：深入剖析同花顺level-2数据抓取效率

参考上述代码，爬取下面网页的数据： https://www.5iai.com/#/jobList

爬虫代码进入古诗文网（https://www.gushiwen.cn），选择在导航栏选择推荐页面，采集该页面内所有古诗词。要求采集包括诗词标题、作者、朝代、内容，代码详解

如何利用Python的requests模块与lxml库高效爬取豆瓣电影数据，同时规避反爬虫措施？

大家在看

ICCV2019无人机集群人体动作捕捉文章

100万+商品条形码库Excel+SQL

BUPT神经网络与深度学习课程设计

计算机网络_自顶向下方法_第四版_课后习题答案

关于初始参数异常时的参数号-无线通信系统arm嵌入式开发实例精讲

最新推荐

无需编写任何代码即可创建应用程序：Deepseek-R1 和 RooCode AI 编码代理.pdf

Heric拓扑并网离网仿真模型：PR单环控制，SogIPLL锁相环及LCL滤波器共模电流抑制技术解析,基于Heric拓扑的离网并网仿真模型研究与应用分析：PR单环控制与Sogipll锁相环的共模电流抑

培训机构客户管理系统 2024免费JAVA微信小程序毕设

基于SMIC 40nm工艺库的先进芯片技术,SMIC 40nm工艺库技术细节揭秘：引领半导体产业新革命,smic40nm工艺库 ,smic40nm; 工艺库; 芯片制造; 纳米技术,SMIC 40nm

2013年上半年软件设计师上午题-真题及答案解析

QML实现多功能虚拟键盘新功能介绍

揭秘交通灯控制系统：从电路到算法的革命性演进

rk3588 istore

React购物车项目入门及脚本使用指南

交通信号控制系统优化全解析：10大策略提升效率与安全性