用python正则表达式语言爬取网页中10张图片的代码及注释
时间: 2024-12-11 09:35:32 浏览: 18
在Python中,我们可以使用BeautifulSoup库配合正则表达式来抓取网页中的图片。这里有一个基本的示例,假设我们想从HTML页面中的`<img>`标签抓取图片链接,并且限制抓取前10个:
```python
import requests
from bs4 import BeautifulSoup
import re
# 第一步:发送请求获取网页内容
url = 'http://example.com' # 将此处替换为你想要抓取的网页地址
response = requests.get(url)
# 第二步:检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 定义正则表达式匹配<img>标签中的src属性
img_pattern = r'<img[^>]+src=["\']([^"\'>]+)["\'][^>]*>'
# 使用find_all查找所有匹配的img标签
img_tags = soup.find_all(re.compile(img_pattern))
# 提取并存储前10个图片链接
images = [tag['src'] for tag in img_tags[:10]]
if images:
print("前10张图片链接:")
for i, image in enumerate(images):
print(f"{i+1}. {image}")
else:
print("抱歉,未能找到图片链接。")
else:
print(f"无法访问URL,状态码:{response.status_code}")
#
阅读全文