生成爬取企业信用信息公示网站年报的代码
时间: 2023-10-01 15:09:10 浏览: 53
好的,以下是一个简单的Python代码示例,用于爬取企业信用信息公示网站年报PDF文件:
```python
import requests
import os
# 设置爬取的年份范围
start_year = 2019
end_year = 2021
# 设置要爬取的企业信用公示网站的URL
url = 'http://www.gsxt.gov.cn/corp-query-annual-report-pdf.html'
# 设置请求头部信息
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 循环遍历每一年的PDF文件
for year in range(start_year, end_year + 1):
# 构造POST请求的参数
data = {
'year': str(year),
'authType': 'CORP_INFO_ANNUAL_REPORT',
'sourceType': 'jsgsj.gov.cn'
}
# 发送POST请求,获取PDF文件的URL
response = requests.post(url, data=data, headers=headers)
pdf_url = response.json()['data']
# 下载PDF文件
pdf_file = f'annual_report_{year}.pdf' # 设置PDF文件名
with open(pdf_file, 'wb') as f:
f.write(requests.get(pdf_url).content)
print(f'{pdf_file} 下载成功!')
```
需要注意的是,该代码仅供参考,您需要根据实际情况进行修改和调整。同时,为了遵守相关法律法规,您需要在使用该代码进行爬取之前,先了解相关规定,并严格遵守。