python3 抓取网页
时间: 2024-10-05 13:02:11 浏览: 5
在Python中抓取网页通常使用的是第三方库,如requests和BeautifulSoup(或者更高级的Selenium)。以下是一个基础示例,展示了如何使用这两个库来获取HTML内容:
```python
import requests
from bs4 import BeautifulSoup
# 定义目标URL
url = 'https://www.example.com'
# 使用requests库发送GET请求获取网页内容
response = requests.get(url)
# 判断请求是否成功(状态码200表示成功)
if response.status_code == 200:
# 解析HTML内容为BeautifulSoup对象
soup = BeautifulSoup(response.text, 'html.parser')
# 通过BeautifulSoup对解析出的内容进行遍历和提取所需的信息
title = soup.find('title').text # 提取页面标题
content = soup.find('div', {'class': 'content'}) # 根据CSS选择器提取内容区域
# 打印提取的数据
print("标题:", title)
print("内容:", content)
else:
print("请求失败,状态码:", response.status_code)
```
在这个例子中,首先发送一个HTTP GET请求到指定URL,然后解析返回的HTML文档。BeautifulSoup帮助我们解析复杂结构的HTML,通过标签名或属性找到我们需要的内容。