首页用python代码抓取百度搜索结果并提取“Python爬虫”相关的前10个标题和l链接

用python代码抓取百度搜索结果并提取“Python爬虫”相关的前10个标题和l链接

时间: 2024-09-14 09:10:29 浏览: 112

在Python中抓取百度搜索结果并提取相关结果通常需要结合`requests`库获取网页内容，然后使用`BeautifulSoup`库解析HTML。这里是一个简单的示例，展示如何抓取"Python爬虫"相关的搜索结果，并提取前10个标题和链接。请注意，这只是一个基础示例，实际操作可能会因为百度搜索引擎的反爬策略而受限： ```python import requests from bs4 import BeautifulSoup import re # 设置要搜索的关键字 keyword = "Python爬虫" # 百度搜索URL base_url = "https://www.baidu.com/s" search_url = f"{base_url}?wd={keyword}" # 发送GET请求 response = requests.get(search_url) soup = BeautifulSoup(response.text, "html.parser") # 查找搜索结果列表 result_list = soup.find_all("li", class_="c-container") # 提取前10个结果 titles_and_links = [] for i in range(min(10, len(result_list))): title = result_list[i].find("a", class_="c-title").text link = base_url + result_list[i].find("a", class_="c-title")["href"] # 有时链接可能是相对路径，转换为绝对路径 if not link.startswith("http"): link = response.url + link titles_and_links.append((title, link)) # 输出结果 for i, (title, link) in enumerate(titles_and_links, start=1): print(f"第{i}个结果：标题 - {title}\n链接 - {link}\n") #

阅读全文