首页用python正则表达式语言爬取网页中10张图片的代码及注释

用python正则表达式语言爬取网页中10张图片的代码及注释

时间: 2024-12-11 09:35:32 浏览: 18

在Python中，我们可以使用BeautifulSoup库配合正则表达式来抓取网页中的图片。这里有一个基本的示例，假设我们想从HTML页面中的`<img>`标签抓取图片链接，并且限制抓取前10个： ```python import requests from bs4 import BeautifulSoup import re # 第一步：发送请求获取网页内容 url = 'http://example.com' # 将此处替换为你想要抓取的网页地址 response = requests.get(url) # 第二步：检查请求是否成功 if response.status_code == 200: # 使用BeautifulSoup解析HTML内容 soup = BeautifulSoup(response.text, 'html.parser') # 定义正则表达式匹配<img>标签中的src属性 img_pattern = r'<img[^>]+src=["\']([^"\'>]+)["\'][^>]*>' # 使用find_all查找所有匹配的img标签 img_tags = soup.find_all(re.compile(img_pattern)) # 提取并存储前10个图片链接 images = [tag['src'] for tag in img_tags[:10]] if images: print("前10张图片链接：") for i, image in enumerate(images): print(f"{i+1}. {image}") else: print("抱歉，未能找到图片链接。") else: print(f"无法访问URL，状态码：{response.status_code}") #

阅读全文