爬取https://bbs.zol.com.cn/dcbbs/d15.html 里面的图片
时间: 2023-06-23 21:03:08 浏览: 184
爬取网站内容需要使用爬虫技术,可以使用 Python 的 requests 库和 BeautifulSoup 库来实现。
首先,使用 requests 库向目标网址发送一个请求,获取网页的 HTML 文档。然后,使用 BeautifulSoup 库来解析 HTML 文档,找到图片的链接,最后使用 requests 库下载图片并保存到本地。
以下是一个简单的示例代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://bbs.zol.com.cn/dcbbs/d15.html'
# 发送请求并获取 HTML 文档
response = requests.get(url)
html_doc = response.text
# 使用 BeautifulSoup 解析 HTML 文档
soup = BeautifulSoup(html_doc, 'html.parser')
# 找到所有图片的链接
img_tags = soup.find_all('img')
# 遍历图片链接,下载并保存图片
for img in img_tags:
img_url = img['src']
img_name = img['alt'] + '.' + img_url.split('.')[-1]
with open(img_name, 'wb') as f:
f.write(requests.get(img_url).content)
print(f'{img_name} saved successfully')
```
需要注意的是,该代码只是个示例,实际爬取时需要加入合适的异常处理和反爬虫机制。此外,爬取网站内容需要遵守相关法律法规,不得侵犯他人权益。
阅读全文