python爬虫获取网页数据
时间: 2023-07-31 17:08:04 浏览: 139
基于Python爬虫技术的网页解析与数据获取研究.pdf
5星 · 资源好评率100%
Python爬虫获取网页数据的一般步骤如下:
1. 导入 requests 库,发送 HTTP 请求,获取网页源代码。
2. 解析网页源代码,提取所需的数据。可以使用 Python内置的 re 模块或第三方库如 Beautiful Soup、PyQuery 等。
3. 将提取到的数据存储到本地文件或数据库中,也可以直接在控制台输出。
下面是一个简单的示例代码,用于获取百度首页的标题:
```python
import requests
from bs4 import BeautifulSoup
# 发送 HTTP 请求,获取页面源代码
response = requests.get('https://www.baidu.com/')
html = response.text
# 解析页面源代码,提取标题
soup = BeautifulSoup(html, 'html.parser')
title = soup.title.string
# 输出标题
print(title)
```
在这个例子中,我们使用了 requests 库发送了 HTTP 请求,获取了百度首页的源代码。接着,使用 BeautifulSoup 解析了源代码,并提取了页面标题。最后,将页面标题输出到控制台。
阅读全文