写一段代码,爬取杭州的专利信息
时间: 2023-08-06 13:25:56 浏览: 94
以下是一个简单的 Python 代码示例,可以使用爬虫框架 Scrapy 爬取杭州的专利信息:
首先,安装 Scrapy:
```
pip install scrapy
```
然后,在终端中输入以下命令创建一个 Scrapy 项目:
```
scrapy startproject hz_patent
```
接下来,进入项目目录并创建一个爬虫:
```
cd hz_patent
scrapy genspider hz_patent_spider example.com
```
打开 hz_patent_spider.py 文件,修改 start_urls 和 parse 方法:
```python
import scrapy
class HzPatentSpider(scrapy.Spider):
name = "hz_patent"
allowed_domains = ["example.com"]
start_urls = [
"http://example.com/hz_patent",
]
def parse(self, response):
for patent in response.xpath('//div[@class="patent"]'):
yield {
'title': patent.xpath('a/text()').get(),
'link': patent.xpath('a/@href').get(),
'date': patent.xpath('span/text()').get(),
}
```
这个示例代码使用了 Scrapy 的 Selector API 来解析 HTML 页面。在 parse 方法中,我们通过 XPath 来提取每个专利的标题、链接和日期。然后,使用 yield 语句将这些信息作为字典返回。
最后,在终端中运行以下命令启动爬虫:
```
scrapy crawl hz_patent
```
这段代码将会爬取 http://example.com/hz_patent 页面中的专利信息,并将其保存在字典中。你可以根据实际需求,修改 URL 和选择器来爬取其他网站中的专利信息。
阅读全文