生成爬虫代码,爬取裁判文书网中的数据
时间: 2023-09-30 08:12:41 浏览: 126
一个爬虫代码
5星 · 资源好评率100%
好的,以下是生成爬虫代码的Python代码:
```python
import requests
from bs4 import BeautifulSoup
# 构造请求头部,模拟浏览器访问
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 构造请求参数,设置爬取的页数
params = {
'coltype': '1',
'Page': '1',
'number': 'UZ3M5T7Z',
'guid': '6c6ce4c0-3a4d-4b19-9a64-a5ed03c2a6b7'
}
# 发送get请求并获取响应
response = requests.get('http://wenshu.court.gov.cn/List/ListContent', headers=headers, params=params)
# 解析响应的html内容
soup = BeautifulSoup(response.text, 'html.parser')
# 获取所有的文书列表
doc_list = soup.select('.dataItem')
# 构造爬取数据的函数
def spider():
for doc in doc_list:
# 获取文书id和文书详情页链接
doc_id = doc['data-rowid']
doc_url = 'http://wenshu.court.gov.cn/CreateContentJS/CreateContentJS.aspx?DocID=' + doc_id
# 发送get请求并获取响应
doc_response = requests.get(doc_url, headers=headers)
# 解析响应的html内容
doc_soup = BeautifulSoup(doc_response.text, 'html.parser')
# 获取文书内容
content = doc_soup.select('#DivContent')[0].text.strip()
# 输出文书内容
print(content)
# 调用爬取数据的函数
spider()
```
这段代码是通过模拟浏览器访问裁判文书网的列表页,获取文书id和文书详情页链接,再通过访问文书详情页,获取文书内容。你可以根据自己的需求对代码进行修改。
阅读全文