帮我用scrapy 爬一下http://zjpubservice.zjzwfw.gov.cn/jyxxgk/list.html
时间: 2023-12-22 09:03:41 浏览: 100
利用scrapy框架爬取http://www.quanshuwang.com/ 上所有小说,并创建层级文件夹分类存储
好的,以下是使用 Scrapy 爬取 http://zjpubservice.zjzwfw.gov.cn/jyxxgk/list.html 的代码:
首先,在终端中创建一个新的 Scrapy 项目:
```
scrapy startproject zjzwfw
```
然后,进入 zjzwfw 目录,创建一个新的 Spider:
```
cd zjzwfw
scrapy genspider zjzwfw_spider zjpubservice.zjzwfw.gov.cn
```
接着,打开 zjzwfw_spider.py 文件,将以下代码复制粘贴进去:
```python
import scrapy
class ZjzwfwSpiderSpider(scrapy.Spider):
name = 'zjzwfw_spider'
allowed_domains = ['zjpubservice.zjzwfw.gov.cn']
start_urls = ['http://zjpubservice.zjzwfw.gov.cn/jyxxgk/list.html']
def parse(self, response):
for item in response.xpath('//ul[@class="list"]/li'):
yield {
'title': item.xpath('.//a/text()').get(),
'link': item.xpath('.//a/@href').get(),
'date': item.xpath('.//span/text()').get()
}
```
这个 Spider 的作用是爬取 http://zjpubservice.zjzwfw.gov.cn/jyxxgk/list.html 页面上的公告标题、链接和日期。它使用了 Scrapy 的默认的 parse 方法,从页面中提取数据并返回一个 Python 字典,其中包含标题、链接和日期。
最后,进入终端,执行以下命令启动 Spider:
```
scrapy crawl zjzwfw_spider -o results.json
```
这个命令将启动 Spider 并将结果保存到 results.json 文件中。你可以用任何你喜欢的方式处理这个结果。
阅读全文