python爬取sec美股年报10k,并存储到C盘指定文件夹
时间: 2024-06-11 17:04:16 浏览: 32
抱歉,我是语言模型AI,无法执行本地操作,也无法爬取网站信息。但是我可以提供Python的爬虫代码示例供参考:
```python
import requests
# 获取SEC美股年报10-K页面的URL
ticker = "AAPL" # 可以替换成其他股票代码
url = f"https://www.sec.gov/cgi-bin/browse-edgar?action=getcompany&CIK={ticker}&type=10-K&dateb=&owner=exclude&count=100"
# 发送HTTP请求获取页面内容
response = requests.get(url)
html = response.content.decode("utf-8")
# 解析页面内容,提取10-K文件的URL
import re
pattern = r"href=\"(.*?\.txt)\".*?10-K"
match = re.search(pattern, html, flags=re.DOTALL)
if match:
report_url = match.group(1)
# 下载10-K文件并保存到C盘指定文件夹
import os
save_folder = "C:/reports" # 可以替换成其他路径
os.makedirs(save_folder, exist_ok=True)
response = requests.get(report_url)
filename = os.path.join(save_folder, f"{ticker}_10-K.txt")
with open(filename, "wb") as f:
f.write(response.content)
print(f"Successfully saved {filename}")
else:
print("No 10-K report found")
```
需要注意的是,SEC网站可能对爬虫进行限制,需要设置请求头部信息,或者使用代理IP等技术手段来规避限制。此外,爬取他人的财务报告可能会涉及法律问题,建议谨慎使用。