python如何爬取网页信息
时间: 2023-11-06 20:07:41 浏览: 55
python 爬取网页
Python有很多第三方库可以用来爬取网页信息,其中比较常用的有Requests和BeautifulSoup。
使用Requests库可以发送HTTP请求,获取网页的HTML代码。例如,以下代码可以获取百度首页的HTML代码:
```
import requests
url = 'https://www.baidu.com'
response = requests.get(url)
html = response.text
```
使用BeautifulSoup库可以解析HTML代码,提取所需的信息。例如,以下代码可以提取百度首页的所有链接:
```
from bs4 import BeautifulSoup
soup = BeautifulSoup(html, 'html.parser')
links = soup.find_all('a')
for link in links:
print(link.get('href'))
```
需要注意的是,爬取网页信息时需要遵守相关法律法规和网站的使用协议,不得进行非法爬取和滥用。
阅读全文