用python代码抓取百度搜索结果并提取“Python爬虫”相关的前10个标题和l链接
时间: 2024-09-14 09:10:29 浏览: 112
在Python中抓取百度搜索结果并提取相关结果通常需要结合`requests`库获取网页内容,然后使用`BeautifulSoup`库解析HTML。这里是一个简单的示例,展示如何抓取"Python爬虫"相关的搜索结果,并提取前10个标题和链接。请注意,这只是一个基础示例,实际操作可能会因为百度搜索引擎的反爬策略而受限:
```python
import requests
from bs4 import BeautifulSoup
import re
# 设置要搜索的关键字
keyword = "Python爬虫"
# 百度搜索URL
base_url = "https://www.baidu.com/s"
search_url = f"{base_url}?wd={keyword}"
# 发送GET请求
response = requests.get(search_url)
soup = BeautifulSoup(response.text, "html.parser")
# 查找搜索结果列表
result_list = soup.find_all("li", class_="c-container")
# 提取前10个结果
titles_and_links = []
for i in range(min(10, len(result_list))):
title = result_list[i].find("a", class_="c-title").text
link = base_url + result_list[i].find("a", class_="c-title")["href"]
# 有时链接可能是相对路径,转换为绝对路径
if not link.startswith("http"):
link = response.url + link
titles_and_links.append((title, link))
# 输出结果
for i, (title, link) in enumerate(titles_and_links, start=1):
print(f"第{i}个结果:标题 - {title}\n链接 - {link}\n")
#
阅读全文