python爬取静态页面
时间: 2023-11-12 15:56:25 浏览: 72
python简单实现从静态网页爬取数据
在Python中,可以使用第三方库如requests和BeautifulSoup来爬取静态页面。首先,你需要安装这两个库,可以使用以下命令:
```python
pip install requests
pip install beautifulsoup4
```
接下来,你可以使用以下代码来获取静态页面的内容:
```python
import requests
from bs4 import BeautifulSoup
url = "https://example.com" # 要爬取的页面的URL
# 发送HTTP GET请求获取页面内容
response = requests.get(url)
# 使用BeautifulSoup解析页面内容
soup = BeautifulSoup(response.text, "html.parser")
# 打印页面标题
print(soup.title.text)
# 打印页面所有的链接
for link in soup.find_all("a"):
print(link.get("href"))
```
以上代码中,我们首先使用requests库发送HTTP GET请求来获取页面的内容。然后,我们使用BeautifulSoup库来解析页面内容,并通过调用soup对象的方法和属性来提取所需的信息。在这个例子中,我们打印了页面的标题和所有的链接。
阅读全文