首页使用urllib抓取百度搜索结果并提取“Python爬虫“相关的前10个标题和链接代码示例

使用urllib抓取百度搜索结果并提取“Python爬虫“相关的前10个标题和链接代码示例

时间: 2024-09-17 08:04:52 浏览: 74

在Python中，我们可以使用`requests`库配合`BeautifulSoup`来抓取网页内容，并通过`urllib.parse`处理URL。以下是一个简单的示例，展示如何抓取百度搜索结果页面上的前10个包含“Python爬虫”关键词的结果的标题和链接。请注意，实际的网页结构可能会有所变化，这里假设结果列表是在HTML中的div标签内。 ```python import requests from bs4 import BeautifulSoup import urllib.parse # 百度搜索 URL search_query = "Python 爬虫" url = f"https://www.baidu.com/s?wd={urllib.parse.quote(search_query)}" # 发送GET请求 response = requests.get(url) # 检查请求状态码 if response.status_code == 200: # 解析HTML内容 soup = BeautifulSoup(response.text, 'html.parser') # 查找包含结果的区域，比如搜索结果列表部分 result_divs = soup.find_all('div', class_='result c-container')[:10] # 取前10个结果 for i, div in enumerate(result_divs): title = div.find('a', class_='c-abstract-title').text # 标题 link = div.find('a')['href'] # 链接 print(f"第{i+1}条：标题 - {title}, 链接 - {link}") else: print(f"请求失败，状态码：{response.status_code}") ```

阅读全文