import scrapy from yg.items import YgItem #引入定义好的item class YgspiderSpider(scrapy.Spider): name="ygspider" alllowed_domains=["sun0769.com"] start_urls = ["https://wz.sun0769.com/political/index/politicsNewest?id=1&page=1"] def parse(self, response): lilist =response.xpath('//ul[@class="title-state-ul"]/li') for li in lilist: item =YgItem() item['id']= li.xpath('./span[1]/text()').extract_first() item['status']= li.xpath('./span[2]/text()').extract_first() item['title']= li.xpath('./span[3]/a/text()').extract_first() infohref='https://wz.sun0769.com'+li.xpath('./span[3]/a/@href').extract_first() item['retime']= li.xpath('./span[4]/text()').extract_first() item['asktime']= li.xpath('./span[5]/text()').extract_first() #解析详情页 yield scrapy.Request(url=infohref,callback=self.parseinfo,meta={'item':item}) # print(item) #翻页 next_page='https://wz.sun0769.com'+response.xpath('//[@class="arrow-page prov_rota"]/@href').extract_first() if next_page: yield scrapy.Request(url=next_page,callback=self.parse) print(next_page) pass def parseinfo(self, response): item =response.meta['item'] pass上述代码报错，希望改正一下

时间: 2024-03-08 15:45:06 浏览: 172

根据你提供的代码和报错信息，我猜测可能是你的项目结构和文件命名有问题。建议你按照 Scrapy 官方文档的要求进行项目创建和文件命名，比如： 1. 项目名应该是一个有效的 Python 标识符，建议使用小写字母和下划线，比如 `myproject`。 2. Spider 类的文件名应该与 Spider 类的 `name` 属性相同，比如 `ygspider.py`。 3. Items 类的文件名应该是 `items.py`。具体的代码实现如下： `myproject/spiders/ygspider.py` ```python import scrapy from myproject.items import YgItem class YgSpider(scrapy.Spider): name = "ygspider" allowed_domains = ["sun0769.com"] start_urls = ["https://wz.sun0769.com/political/index/politicsNewest?id=1&page=1"] def parse(self, response): lilist = response.xpath('//ul[@class="title-state-ul"]/li') for li in lilist: item = YgItem() item['id'] = li.xpath('./span[1]/text()').extract_first() item['status'] = li.xpath('./span[2]/text()').extract_first() item['title'] = li.xpath('./span[3]/a/text()').extract_first() infohref = 'https://wz.sun0769.com' + li.xpath('./span[3]/a/@href').extract_first() item['retime'] = li.xpath('./span[4]/text()').extract_first() item['asktime'] = li.xpath('./span[5]/text()').extract_first() # 解析详情页 yield scrapy.Request(url=infohref, callback=self.parseinfo, meta={'item': item}) # 翻页 next_page = response.xpath('//[@class="arrow-page prov_rota"]/@href').extract_first() if next_page: next_page = 'https://wz.sun0769.com' + next_page yield scrapy.Request(url=next_page, callback=self.parse) def parseinfo(self, response): item = response.meta['item'] yield item ``` `myproject/items.py` ```python import scrapy class YgItem(scrapy.Item): id = scrapy.Field() status = scrapy.Field() title = scrapy.Field() retime = scrapy.Field() asktime = scrapy.Field() content = scrapy.Field() ``` 建议你按照上述方式进行代码重构，然后再运行一下看看是否能够正常抓取数据。

阅读全文

相关推荐

第八章：scrapy框架_第八章：scrapy框架.zip_

Scrapy框架爬虫.rar_scrapy_爬虫

scrapy_project.zip

Visual_scraping_for_Scrapy_portia.zip

python_scrapy_douban.rar

zhidao_scrapy:zhidao.baidu.com刮板项目

scrapy_anjuke.zip

scrapy_pipelines.py

scrapy_settings.py

Scrapy_qiushibaike.rar

word源码java-baidu_paper_spider::spider:论文搜索引擎（含Scrapy-Redis分布式爬虫、Elasticsearch

scrapy_store.steampowered.com:一个在http上检索游戏信息的项目

美团爬虫，基于scrapy_redis.zip

zhihu_scrapy-master.zip

Python基于Scrapy爬取www.rkpass.cn题目_rkpassScrapy.zip

Scrapy爬取dome.html_python爬虫_

scrapy_goods_name.py

爬虫学习代码，包含beatifulSoup，scrapy框架....

image_spider:基于scrapy的图像蜘蛛

大家在看

东华his表结构新版.docx

CMOS反相器的掩膜版图-集成电路版图设计

低温制冷机产品汇总.pdf

CAN分析仪 解析 DBC uds 源码

中国移动5G规模试验测试规范--核心网领域--SA基础网元性能测试分册.pdf

最新推荐

海康无插件摄像头WEB开发包(20200616-20201102163221)

PCNM空间分析新手必读：R语言实现从入门到精通

生成一个自动打怪的脚本

CarMarker-Animation: 地图标记动画及转向库

5G核心网元性能瓶颈揭秘

stm32连接红外传感器并将gsm900a短信收发实现报警

C语言时代码的实现与解析

5G SA核心网元性能问题分析

数据集yorkurban怎么跑

掌握plugin-grc: 为Shell常用命令启用GRC色彩

CAN分析仪解析 DBC uds 源码