python爬虫获取网页图片链接
时间: 2023-08-16 17:43:09 浏览: 68
可以使用Python的requests和BeautifulSoup库来获取网页图片链接。以下是一个示例代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.example.com' # 网页链接
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
# 找到所有图片标签
img_tags = soup.find_all('img')
# 提取图片链接
img_urls = [img['src'] for img in img_tags]
print(img_urls)
```
这段代码会输出该网页中所有图片的链接。你可以根据需要进一步处理这些链接,例如下载图片或者保存到数据库中。
相关问题
python爬虫抓取网页图片正则匹配
Python爬虫是一种用于自动化获取网页数据的技术,而抓取网页图片则是其中的一种常见应用。正则表达式是一种强大的文本匹配工具,可以用于从网页源代码中提取出所需的图片链接。
以下是使用Python爬虫抓取网页图片并进行正则匹配的基本步骤:
1. 导入所需的库:首先需要导入Python的requests库和re库,分别用于发送HTTP请求和进行正则表达式匹配。
2. 发送HTTP请求:使用requests库发送GET请求,获取目标网页的源代码。
3. 正则匹配图片链接:使用re库中的正则表达式函数,编写合适的正则表达式来匹配图片链接。
4. 下载图片:根据匹配到的图片链接,使用requests库发送GET请求,并将响应内容保存为图片文件。
下面是一个示例代码,演示了如何使用Python爬虫抓取网页图片并进行正则匹配:
```python
import requests
import re
# 目标网页URL
url = "https://example.com"
# 发送HTTP请求,获取网页源代码
response = requests.get(url)
html = response.text
# 正则匹配图片链接
pattern = r'<img.*?src="(.*?)".*?>'
image_urls = re.findall(pattern, html)
# 下载图片
for image_url in image_urls:
response = requests.get(image_url)
with open("image.jpg", "wb") as f:
f.write(response.content)
```
python爬虫抓取网页li图片
以下是一个简单的Python爬虫示例,用于抓取网页中的图片并保存到本地:
```python
import requests
from bs4 import BeautifulSoup
import os
# 目标站点信息
url = "http://www.netbian.com/"
# 发送请求获取页面内容
response = requests.get(url)
html = response.text
# 使用BeautifulSoup解析页面内容
soup = BeautifulSoup(html, "html.parser")
# 获取页面中的所有图片链接
img_tags = soup.find_all("img")
img_urls = [img["src"] for img in img_tags]
# 创建保存图片的文件夹
if not os.path.exists("images"):
os.makedirs("images")
# 下载图片并保存到本地
for img_url in img_urls:
img_data = requests.get(img_url).content
img_name = img_url.split("/")[-1]
img_path = os.path.join("images", img_name)
with open(img_path, "wb") as f:
f.write(img_data)
print("图片下载完成!")
```
这个爬虫示例使用了requests库发送HTTP请求,使用BeautifulSoup库解析HTML页面,然后通过找到页面中的所有img标签,获取图片的链接。接着,创建一个名为"images"的文件夹用于保存图片,并将每个图片下载到本地。