使用python实现一个爬虫脚本,获取百度搜索中的查询到的信息
时间: 2023-09-03 07:25:04 浏览: 152
### 回答1:
好的,下面是一个简单的爬虫脚本,使用 Python 的 requests 和 BeautifulSoup 库来获取百度搜索结果页面中的内容。
```python
import requests
from bs4 import BeautifulSoup
# 要搜索的关键词
keyword = 'Python'
# 构造搜索请求的URL
url = f'https://www.baidu.com/s?wd={keyword}'
# 发送请求并获取响应
response = requests.get(url)
# 解析响应内容
soup = BeautifulSoup(response.text, 'html.parser')
# 查找所有的搜索结果标题和链接
results = soup.find_all('h3', class_='t')
# 输出搜索结果标题和链接
for result in results:
title = result.a.get_text()
link = result.a['href']
print(title)
print(link)
```
运行上述代码,即可在控制台中看到搜索结果的标题和链接。注意,由于百度的网页结构可能会随时更改,上述代码可能不适用于所有情况。
### 回答2:
使用Python编写一个爬虫脚本获取百度搜索结果的信息是相对简单的任务。首先,我们需要导入相关的模块,如requests和BeautifulSoup。然后,通过发送HTTP请求,获取百度搜索结果页面的内容。接着,使用BeautifulSoup对结果页面进行解析,提取出需要的信息。
下面是一个简单的实现示例:
```
import requests
from bs4 import BeautifulSoup
def baidu_search(query):
url = 'https://www.baidu.com/s'
params = {'wd': query}
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
response = requests.get(url, params=params, headers=headers)
if response.status_code == 200:
soup = BeautifulSoup(response.text, 'html.parser')
results = soup.find_all('div', class_='result')
for result in results:
title = result.h3.get_text()
link = result.h3.a['href']
summary = result.find('div', class_='c-abstract').get_text()
print('标题:', title)
print('链接:', link)
print('摘要:', summary)
print('------')
# 在这里调用函数,并传入需要查询的关键字
baidu_search('Python爬虫')
```
这个脚本首先定义了一个`baidu_search`函数,接受用户输入的关键字作为参数。然后,通过构造URL和Headers,发送GET请求获取百度搜索结果页面的内容。接下来,使用BeautifulSoup对页面进行解析,并通过CSS选择器提取标题、链接和摘要等信息。最后,打印出这些信息。
当运行这个脚本并传入关键字"Python爬虫"时,将会输出搜索结果的标题、链接和摘要等信息。当然,你还可以根据自己的需要,进一步对这些信息进行处理或存储。
阅读全文