用python代码抓取百度搜索结果并提取“Python爬虫“相关的前10个标题和链接
时间: 2024-10-08 10:17:21 浏览: 56
在Python中抓取百度搜索结果并提取“Python爬虫”相关的标题和链接通常需要借助网络请求库如`requests`和解析HTML的库如`BeautifulSoup`。以下是一个基本示例,但请注意这只是一个基础版本,实际的网页结构可能会有所不同,可能导致部分信息无法准确提取:
```python
import requests
from bs4 import BeautifulSoup
# 目标关键词
keyword = "Python爬虫"
# 百度搜索URL,替换为你想要的具体搜索引擎和搜索项
search_url = f"https://www.baidu.com/s?wd={keyword}"
# 发送GET请求
response = requests.get(search_url)
# 检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到包含搜索结果的部分,这个可能因百度的页面结构变化而变化,这里假设是div class="result c-container"
search_results = soup.find_all("div", class_="result c-container")
# 提取前10个标题和链接
titles_and_links = []
for result in search_results[:10]:
title = result.find('a', class_='c-title').text
link = "https://www.baidu.com" + result.find('a', class_='c-title')['href']
titles_and_links.append((title, link))
# 输出提取的信息
for i, (title, link) in enumerate(titles_and_links, start=1):
print(f"{i}. 标题: {title}")
print(f"{i}. 链接: {link}\n")
else:
print(f"请求失败,状态码:{response.status_code}")
阅读全文