python爬取网页内容
时间: 2023-07-12 16:00:22 浏览: 79
python 爬取网页上的相关内容,下载到本地,并生成excel
Python爬取网页内容可以使用第三方库requests和BeautifulSoup。首先,使用requests库发送HTTP请求获取网页内容,然后使用BeautifulSoup解析HTML文档,从而提取需要的信息。
以下是一个简单的Python代码示例,用于爬取百度首页的标题和链接:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.baidu.com/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
title = soup.title.string
link = soup.find_all('a')[0].get('href')
print('Title:', title)
print('Link:', link)
```
在这个示例中,我们首先使用requests库发送一个GET请求,获取百度首页的HTML文档。然后,我们使用BeautifulSoup库解析这个文档,使用soup.title.string获取标题,使用soup.find_all('a')[0].get('href')获取第一个链接的URL地址。最后,我们打印出这些信息。
需要注意的是,网站所有者可能会设置反爬虫机制,因此在爬取网页内容时需要遵守爬虫规则,不要过于频繁地请求同一个网站,否则可能会被封禁IP地址。
阅读全文