用scrapy 采集https://www.whfdcjy.cn:8065/website/app/Esf/index网站前十页的数据
时间: 2023-09-19 08:07:43 浏览: 131
【Scrapy爬虫项目】爬取books.toscrape.com上书籍的相关信息并存储为csv文件
好的,这里是一个示例代码,可以用来爬取 https://www.whfdcjy.cn:8065/website/app/Esf/index 网站前十页的数据:
```python
import scrapy
class WhfdcjySpider(scrapy.Spider):
name = 'whfdcjy'
allowed_domains = ['www.whfdcjy.cn']
start_urls = ['https://www.whfdcjy.cn:8065/website/app/Esf/index']
def parse(self, response):
# 获取当前页的数据
for item in response.css('.list li'):
yield {
'title': item.css('.title a::text').get(),
'price': item.css('.price em::text').get(),
'area': item.css('.area em::text').get(),
'address': item.css('.address::text').get(),
}
# 获取下一页的链接,继续爬取
next_page = response.css('.page a:last-child::attr(href)').get()
if next_page:
yield response.follow(next_page, self.parse)
```
这个代码使用了 Scrapy 框架,首先在 `start_urls` 中指定了要爬取的网站首页,然后在 `parse` 方法中解析了当前页面的数据,并使用 `response.follow()` 方法继续爬取下一页的链接。在每一页的数据爬取完毕后,会自动跳转到下一页并继续爬取,直到爬取了前十页的数据。
请注意,由于目标网站使用了 HTTPS 协议,需要在 `settings.py` 中进行相关配置才能正常爬取。具体的配置方法可以参考 Scrapy 官方文档。
阅读全文