import scrapy class WeatherSpider(scrapy.Spider): name = 'weather' allowed_domains = ['tianqi.com'] start_urls = ['https://www.tianqi.com/'] def parse(self, response): city = 'beijing' # 自选城市 url = f'https://tianqi.com/{city}/' yield scrapy.Request(url, callback=self.parse_weather) def parse_weather(self, response): date = response.css('.week>p::text').get() weather = response.css('.weather span::text').get() temperature = response.css('.weather .temp::text').get() humidity = response.css('.weather .shidu::text').get() wind = response.css('.weather .zi .name::text').get() with open('weather.txt', 'a', encoding='utf-8') as f: f.write(f'{date} {weather} {temperature} {humidity} {wind}\n'上面的代码运行后在cmd中显示<403https://www.tianqi.com/>:HTTP status code is not handled or not allowed如何解决)

时间: 2024-04-05 22:35:43 浏览: 121

在你的代码中，你请求的 URL 是 https://tianqi.com/beijing/，而不是 https://www.tianqi.com/，这可能是引起 403 错误的原因之一。此外，你需要在请求头中添加一个 User-Agent 字段，模拟一个浏览器的请求，以避免被网站反爬虫机制拦截。你可以在请求头中添加类似以下代码的字段： ``` headers = { 'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3' } yield scrapy.Request(url, headers=headers, callback=self.parse_weather) ``` 这里模拟的 User-Agent 是 Chrome 的一个版本，你可以根据需要更改。最后，你可以添加一个错误处理函数，用于处理发生错误时的情况。你可以在 Spider 类中添加以下代码： ``` def handle_error(self, failure): self.logger.error(repr(failure)) ``` 然后在 Request 中添加 errback 参数，将错误处理函数传入即可： ``` yield scrapy.Request(url, headers=headers, callback=self.parse_weather, errback=self.handle_error) ``` 这样就可以在发生错误时打印出错误信息了。

阅读全文

相关推荐

Scrapy实战：爬取books.toscrape.com书籍信息至CSV

Scrapy爬虫教程：抓取books.toscrape.com书籍信息并存入CSV

网络爬虫软件源代码：zhizhu.zip_spider学习交流

用python实现对https://lishi.tianqi.com/beijing/202211.html的运用scrapy框架的爬虫并将数据存入数据库

scrapy爬取某城市天气预报www.tianqi.com

python使用scrapy在tianqi.com爬取南京天气预报

用scrapy实现天气爬虫可视化

scrapy爬取宁波的三十天天气预报并用sqlite存储爬取数据

Python Scrapy入门：自定义start_request与qidian爬虫示例

scrapy.FormRequest实战：嵌套字典formdata解析与处理

基于springboot的酒店管理系统源码（java毕业设计完整源码+LW）.zip

蓄电池与超级电容混合储能并网matlab simulink仿真模型 （1）混合储能采用低通滤波器进行功率分配，可有效抑制功率波动，并对超级电容的soc进行能量管理，soc较高时多放电，较低时少放电

017 - 搞笑一句话台词.docx

基于微信小程序的购物系统+php后端毕业源码案例设计全部资料+详细文档.zip

基于APS.net的办公物品管理系统全部资料+详细文档.zip

大家在看

任务分配基于matlab拍卖算法多无人机多任务分配【含Matlab源码 3086期】.zip

python大作业基于python实现的心电检测源码+数据+详细注释.zip

遗传算法改进粒子群算法优化卷积神经网络，莱维飞行改进遗传粒子群算法优化卷积神经网络，lv-ga-pso-cnn网络攻击识别

轮轨接触几何计算程序-Matlab-2024.zip

台达变频器资料.zip

最新推荐

基于springboot的酒店管理系统源码（java毕业设计完整源码+LW）.zip

蓄电池与超级电容混合储能并网matlab simulink仿真模型 （1）混合储能采用低通滤波器进行功率分配，可有效抑制功率波动，并对超级电容的soc进行能量管理，soc较高时多放电，较低时少放电

017 - 搞笑一句话台词.docx

基于微信小程序的购物系统+php后端毕业源码案例设计全部资料+详细文档.zip

基于APS.net的办公物品管理系统全部资料+详细文档.zip

WildFly 8.x中Apache Camel结合REST和Swagger的演示

管理建模和仿真的文件

【声子晶体模拟全能指南】：20年经验技术大佬带你从入门到精通

2024-07-27怎么用python转换成农历日期

FDFS客户端Python库1.2.6版本发布

蓄电池与超级电容混合储能并网matlab simulink仿真模型（1）混合储能采用低通滤波器进行功率分配，可有效抑制功率波动，并对超级电容的soc进行能量管理，soc较高时多放电，较低时少放电

蓄电池与超级电容混合储能并网matlab simulink仿真模型（1）混合储能采用低通滤波器进行功率分配，可有效抑制功率波动，并对超级电容的soc进行能量管理，soc较高时多放电，较低时少放电