爬取网易汽车首页内容,包括文本信息和图片
时间: 2023-11-29 07:07:13 浏览: 48
为了爬取网易汽车首页的内容,我们需要使用Python中的一些库。具体步骤如下:
1. 使用requests库发送HTTP请求,获取网页内容。
2. 使用BeautifulSoup库解析HTML文档,找到需要的信息。
3. 将信息保存到本地文件中。
下面是代码示例:
```python
import requests
from bs4 import BeautifulSoup
# 发送HTTP请求,获取网页内容
url = 'https://auto.163.com/'
res = requests.get(url)
html_doc = res.text
# 解析HTML文档,获取需要的信息
soup = BeautifulSoup(html_doc, 'html.parser')
news_list = soup.find_all('div', class_='mod_news')
# 遍历新闻列表,获取标题、链接和图片
for news in news_list:
title = news.find('h3').text.strip()
link = news.find('a')['href']
img = news.find('img')['src']
# 下载图片并保存到本地文件
res = requests.get(img)
with open(title+'.jpg', 'wb') as f:
f.write(res.content)
```
上述代码中,我们使用了requests库发送HTTP请求,并将返回的HTML文档传递给BeautifulSoup库进行解析。我们找到所有class属性为`mod_news`的div元素,这些元素包含了每条新闻的标题、链接和图片。接着,我们遍历这些元素,使用find方法获取标题、链接和图片的具体信息。最后,我们使用requests库下载图片,并将其保存到本地文件中。
阅读全文