写一段爬取企业年报的代码
时间: 2023-03-06 19:58:07 浏览: 72
代码如下:import requests
from bs4 import BeautifulSoup url = 'http://www.example.com/company/annualreport.html'
response = requests.get(url) soup = BeautifulSoup(response.text, 'html.parser') annual_reports = soup.find_all('div', class_ = 'annual-report') for report in annual_reports:
report_title = report.find('h3').text
report_text = report.find('p').text print(f'Report title: {report_title}')
print(f'Report text: {report_text}')
相关问题
生成爬取企业信用信息公示网站年报的代码
好的,以下是一个简单的Python代码示例,用于爬取企业信用信息公示网站年报PDF文件:
```python
import requests
import os
# 设置爬取的年份范围
start_year = 2019
end_year = 2021
# 设置要爬取的企业信用公示网站的URL
url = 'http://www.gsxt.gov.cn/corp-query-annual-report-pdf.html'
# 设置请求头部信息
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 循环遍历每一年的PDF文件
for year in range(start_year, end_year + 1):
# 构造POST请求的参数
data = {
'year': str(year),
'authType': 'CORP_INFO_ANNUAL_REPORT',
'sourceType': 'jsgsj.gov.cn'
}
# 发送POST请求,获取PDF文件的URL
response = requests.post(url, data=data, headers=headers)
pdf_url = response.json()['data']
# 下载PDF文件
pdf_file = f'annual_report_{year}.pdf' # 设置PDF文件名
with open(pdf_file, 'wb') as f:
f.write(requests.get(pdf_url).content)
print(f'{pdf_file} 下载成功!')
```
需要注意的是,该代码仅供参考,您需要根据实际情况进行修改和调整。同时,为了遵守相关法律法规,您需要在使用该代码进行爬取之前,先了解相关规定,并严格遵守。
python生成公司年报爬取代码
好的,以下是一个简单的Python爬虫代码,可以用于从国家企业信用信息公示系统(http://www.gsxt.gov.cn)获取公司年报信息:
```python
import requests
from bs4 import BeautifulSoup
# 公司年报URL
url = 'http://www.gsxt.gov.cn/corp-query-annualreport-info-xxgg-100000.html'
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 发送HTTP请求并获取响应
response = requests.get(url, headers=headers)
html = response.content
# 解析HTML并获取所需信息
soup = BeautifulSoup(html, 'html.parser')
table = soup.find('table', {'class': 'detailsList'})
headers = [header.text.strip() for header in table.find_all('th')]
rows = []
for row in table.tbody.find_all('tr'):
rows.append([cell.text.strip() for cell in row.find_all('td')])
# 输出数据
for row in rows:
print(row)
```
你需要将URL替换为你要爬取的公司年报的URL。此代码使用了requests和BeautifulSoup库进行网络请求和HTML解析。它会输出表格中的所有行,并将它们格式化为一个列表。你可以根据需要进行修改和扩展。