python爬虫爬取网页数据
时间: 2023-09-02 12:13:46 浏览: 100
python爬虫爬取网页数据并解析数据
5星 · 资源好评率100%
Python爬虫可以使用多种库和框架,比如requests、beautifulsoup4、scrapy等。其中requests库可以发送HTTP/HTTPS请求,beautifulsoup4可以解析HTML/XML等网页标记语言,scrapy则是一个完整的爬虫框架,可以进行高效的数据采集和处理。
以下是一个简单的使用requests和beautifulsoup4的Python爬虫示例,用于爬取百度搜索结果页面的标题和链接:
```python
import requests
from bs4 import BeautifulSoup
# 发送HTTP请求,获取网页内容
url = 'https://www.baidu.com/s?wd=python'
response = requests.get(url)
# 解析HTML,获取标题和链接
soup = BeautifulSoup(response.text, 'html.parser')
results = soup.find_all('h3', class_='t')
for result in results:
title = result.a.get_text()
link = result.a['href']
print(title, link)
```
这个示例中,我们使用requests库发送HTTP GET请求,获取百度搜索结果页面的HTML内容;然后使用beautifulsoup4库解析HTML内容,提取出所有class属性为"t"的<h3>标签,再从中获取每个结果的标题和链接。
阅读全文