使用urllib抓取百度搜索结果并提取“Python爬虫“相关的前10个标题和链接代码示例
时间: 2024-09-17 15:04:52 浏览: 58
Python爬虫获取整个站点中的所有外部链接代码示例
在Python中,我们可以使用`requests`库配合`BeautifulSoup`来抓取网页内容,并通过`urllib.parse`处理URL。以下是一个简单的示例,展示如何抓取百度搜索结果页面上的前10个包含“Python爬虫”关键词的结果的标题和链接。请注意,实际的网页结构可能会有所变化,这里假设结果列表是在HTML中的div标签内。
```python
import requests
from bs4 import BeautifulSoup
import urllib.parse
# 百度搜索 URL
search_query = "Python 爬虫"
url = f"https://www.baidu.com/s?wd={urllib.parse.quote(search_query)}"
# 发送GET请求
response = requests.get(url)
# 检查请求状态码
if response.status_code == 200:
# 解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 查找包含结果的区域,比如搜索结果列表部分
result_divs = soup.find_all('div', class_='result c-container')[:10] # 取前10个结果
for i, div in enumerate(result_divs):
title = div.find('a', class_='c-abstract-title').text # 标题
link = div.find('a')['href'] # 链接
print(f"第{i+1}条:标题 - {title}, 链接 - {link}")
else:
print(f"请求失败,状态码:{response.status_code}")
```
阅读全文