python爬取网页数据
时间: 2023-09-02 13:08:20 浏览: 110
python 爬取网页
使用 Python 爬取网页数据可以使用多种库,其中比较常用的有 Requests 和 BeautifulSoup。
以下是一个使用 Requests 和 BeautifulSoup 爬取网页数据的示例代码:
```python
import requests
from bs4 import BeautifulSoup
# 发送 GET 请求
url = 'https://www.example.com'
response = requests.get(url)
# 解析 HTML
soup = BeautifulSoup(response.text, 'html.parser')
# 获取标签内容
title = soup.title.text
print(title)
# 获取所有链接
links = soup.find_all('a')
for link in links:
print(link.get('href'))
```
在上述代码中,首先使用 `requests.get()` 方法发送 GET 请求获取网页内容,然后使用 BeautifulSoup 对 HTML 进行解析,可以使用 `soup.title` 获取网页标题,使用 `soup.find_all('a')` 获取所有链接。
需要注意的是,在爬取网页时需要遵守网站的爬虫规则,不得进行恶意爬取和攻击行为,以免造成不必要的麻烦。同时,也需要注意保护自己的网络安全,防范恶意网站和网页上的钓鱼链接。
阅读全文