python爬虫401
时间: 2023-08-27 10:06:31 浏览: 108
Python爬虫是利用Python编写的程序,用于自动化地从网页中提取数据。下面是一个简单的Python爬虫示例:
```
import requests
from bs4 import BeautifulSoup
# 发起HTTP GET请求
response = requests.get('http://example.com')
# 检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 提取需要的数据
title = soup.title.text
links = soup.find_all('a')
# 打印提取的数据
print('页面标题:', title)
print('页面链接:')
for link in links:
print(link['href'])
else:
print('请求失败')
```
在这个示例中,我们使用了requests库发送HTTP GET请求,并获取了一个网页的内容。然后,我们使用BeautifulSoup库解析网页的HTML内容。
在解析完成后,我们可以使用各种方法从解析后的HTML中提取数据。在示例中,我们提取了网页的标题和所有链接,并打印出来。
请注意,爬取网页数据时应尊重网站的使用规则和版权,遵守相关法律法规。在实际应用中,可能需要添加适当的请求头信息、处理网页的动态加载、处理反爬机制等。
这只是一个简单的Python爬虫示例,在实际应用中,你可能需要更复杂的逻辑和技术来处理不同的爬取需求。
阅读全文