Python爬取百度搜索结果
时间: 2024-01-04 07:10:57 浏览: 79
要爬取百度搜索结果,首先需要安装requests和BeautifulSoup库。然后可以按照以下步骤来实现:
1. 构造URL链接:以搜索关键词“Python编程”为例,构造URL链接为:https://www.baidu.com/s?wd=Python编程
2. 发送HTTP请求:使用requests库发送GET请求,获取百度搜索结果页面的HTML代码。
3. 解析HTML代码:使用BeautifulSoup库解析HTML代码,提取出搜索结果的标题、摘要、链接等信息。
下面是具体的代码实现:
```Python
import requests
from bs4 import BeautifulSoup
url = 'https://www.baidu.com/s'
params = {'wd': 'Python编程'}
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, params=params, headers=headers)
soup = BeautifulSoup(response.text, 'html.parser')
results = soup.find_all('div', class_='result c-container ')
for result in results:
title = result.h3.a.text.strip()
summary = result.find('div', class_='c-abstract').text.strip()
link = result.h3.a['href']
print(title)
print(summary)
print(link)
print('\n')
```
在上面的代码中,我们使用requests库发送GET请求,将搜索关键词作为参数传递给百度搜索的URL链接。然后使用BeautifulSoup库解析HTML代码,查找所有class为“result c-container”的div元素,提取出标题、摘要和链接。最后打印出搜索结果。
阅读全文