写一个裁判文书网的爬虫
时间: 2023-06-27 10:01:01 浏览: 171
以下是一个简单的裁判文书网(http://wenshu.court.gov.cn/)爬虫的示例代码,使用Python语言和requests库实现。
```python
import requests
from lxml import etree
# 构造请求头信息
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 定义爬虫函数
def get_data(page):
# 构造请求参数
params = {
'pageId': page,
's8': '02',
'sorttype': '1',
'number': '',
'guid': ''
}
# 发送请求
url = 'http://wenshu.court.gov.cn/List/ListContent'
response = requests.post(url, headers=headers, data=params)
# 解析响应内容
html = etree.HTML(response.text)
data_list = html.xpath('//div[@id="resultList"]/div')
for data in data_list:
title = data.xpath('./a[1]/text()')[0]
case_id = data.xpath('./a[1]/@href')[0].split(',')[1].strip('"')
print('标题:', title)
print('案件ID:', case_id)
# 调用函数获取数据
for page in range(1, 6):
get_data(page)
```
注意,裁判文书网有反爬机制,需要在代码中添加合适的反爬措施,例如添加随机User-Agent、使用代理IP等。此外,对于裁判文书网的数据使用有一些限制,需要遵守相关规定。
阅读全文