python 爬取附件
时间: 2023-07-17 07:05:21 浏览: 87
你可以使用Python中的`requests`库和`beautifulsoup`库来爬取网页上的附件。首先,使用`requests`库发送HTTP请求获取网页的内容。然后,使用`beautifulsoup`库解析网页内容,找到附件的链接。最后,使用`requests`库下载附件到本地。
以下是一个简单的示例代码:
```python
import requests
from bs4 import BeautifulSoup
def download_attachments(url):
# 发送HTTP请求获取网页内容
response = requests.get(url)
# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到附件的链接
attachments = soup.find_all('a', {'class': 'attachment'})
# 下载附件
for attachment in attachments:
attachment_url = attachment['href']
attachment_name = attachment.text
# 发送HTTP请求下载附件
attachment_response = requests.get(attachment_url)
# 将附件保存到本地
with open(attachment_name, 'wb') as f:
f.write(attachment_response.content)
print("附件下载完成!")
# 调用函数并传入要爬取的网页URL
download_attachments('http://example.com')
```
请注意,这只是一个简单的示例代码,具体的实现方式可能因网站结构和附件链接的特点而有所不同。你需要根据实际情况进行适当的修改和调整。
阅读全文