利用GET请求通用代码爬取百度一下首页,网址为:http://www.baidu.com 在GET请求通用代码的基础上,加入一个网页解析函数parse(),解析百度一下主页左上角导航栏中的文本和链接
时间: 2024-10-04 09:02:04 浏览: 74
python学习笔记.txt
首先,利用Python的requests库可以发送GET请求并获取网页内容,BeautifulSoup库则用于解析HTML文档。以下是一个简单的示例,展示了如何编写GET请求代码,并包含一个基本的网页解析函数`parse()`,用于提取百度首页导航栏的信息:
```python
import requests
from bs4 import BeautifulSoup
# 发送GET请求到百度首页
def get_html(url):
response = requests.get(url)
if response.status_code == 200:
return response.text
else:
print(f"请求失败,状态码:{response.status_code}")
return None
# 解析导航栏文本和链接
def parse(html_content):
soup = BeautifulSoup(html_content, 'html.parser')
# 寻找导航栏区域,这里假设是class名为navbar的部分
navbar = soup.find('div', {'class': 'navbar'})
# 提取文本和链接
texts = [a.text for a in navbar.find_all('a')] # 文本
links = [a['href'] for a in navbar.find_all('a')] # 链接
return texts, links
# 使用上述函数
url = "http://www.baidu.com"
html_content = get_html(url)
if html_content:
text_links = parse(html_content)
print("导航栏文本:", text_links[0])
print("导航栏链接:", text_links[1])
阅读全文