python爬谷歌图片
时间: 2023-09-28 07:02:35 浏览: 170
使用Python爬取谷歌图片可以通过以下步骤实现:
1. 导入必要的库:使用Python中的requests库来发送HTTP请求,使用BeautifulSoup库来解析网页内容。
2. 定义搜索关键词:设置要搜索的关键词。
3. 发送HTTP请求:使用requests库发送HTTP GET请求到谷歌图片的搜索页面,并传入搜索关键词作为参数。
4. 解析网页内容:使用BeautifulSoup库解析返回的HTML页面内容,通过查找相关的标签和类来提取出图片的URL地址。
5. 下载图片:使用requests库发送GET请求获取图片的URL,并将图片保存到本地。
以下为一个简单的示例代码:
```python
import requests
from bs4 import BeautifulSoup
def download_google_images(keyword, num_images):
url = f'https://www.google.com/search?q={keyword}&tbm=isch'
response = requests.get(url)
soup = BeautifulSoup(response.content, 'html.parser')
images = soup.find_all('img')
image_urls = [img['src'] for img in images]
for i, image_url in enumerate(image_urls[:num_images]):
response = requests.get(image_url)
with open(f'image_{i}.jpg', 'wb') as f:
f.write(response.content)
keyword = "猫咪"
num_images = 5
download_google_images(keyword, num_images)
```
在上述代码中,我们定义了一个`download_google_images`函数,该函数接受两个参数:`keyword`表示要搜索的关键词,`num_images`表示要下载的图片数量。函数内部首先构建了谷歌图片搜索的URL,然后发送HTTP请求获取搜索结果页面。接着使用BeautifulSoup库解析网页内容,查找所有的图片标签,并提取出图片的URL。最后,使用requests库发送GET请求获取图片,并将图片保存到本地。
注意:谷歌的图像搜索可能对爬虫做了限制,需要通过访问频率控制等方式避免被封禁。另外,爬取他人的内容请遵守法律和道德准则。
阅读全文