python生成公司年报爬取代码
时间: 2023-07-23 12:43:30 浏览: 137
python代码实现—爬取知乎神回复
5星 · 资源好评率100%
好的,以下是一个简单的Python爬虫代码,可以用于从国家企业信用信息公示系统(http://www.gsxt.gov.cn)获取公司年报信息:
```python
import requests
from bs4 import BeautifulSoup
# 公司年报URL
url = 'http://www.gsxt.gov.cn/corp-query-annualreport-info-xxgg-100000.html'
# 设置请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 发送HTTP请求并获取响应
response = requests.get(url, headers=headers)
html = response.content
# 解析HTML并获取所需信息
soup = BeautifulSoup(html, 'html.parser')
table = soup.find('table', {'class': 'detailsList'})
headers = [header.text.strip() for header in table.find_all('th')]
rows = []
for row in table.tbody.find_all('tr'):
rows.append([cell.text.strip() for cell in row.find_all('td')])
# 输出数据
for row in rows:
print(row)
```
你需要将URL替换为你要爬取的公司年报的URL。此代码使用了requests和BeautifulSoup库进行网络请求和HTML解析。它会输出表格中的所有行,并将它们格式化为一个列表。你可以根据需要进行修改和扩展。
阅读全文