以上例子是在pytharm中爬取静态网页,运用requests,lxml进行,请写出代码
时间: 2024-11-17 15:30:56 浏览: 4
pycharm+django创建一个搜索网页实例代码
5星 · 资源好评率100%
在Python中,使用`requests`库处理HTTP请求以及`lxml`库解析HTML内容来爬取静态网页是一个常见的做法。下面是一个简单的示例,展示如何使用这两个库爬取网页并提取数据:
```python
import requests
from bs4 import BeautifulSoup
# 发送GET请求获取网页内容
url = "http://example.com" # 替换为你想要爬取的网页地址
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, 'lxml')
# 找到特定标签并提取数据
title = soup.find('title') # 提取页面标题
print("页面标题:", title.string if title else "未找到")
# 如果有需要,提取更多内容,如所有链接
links = soup.find_all('a', href=True)
for link in links:
print("链接:", link['href'])
else:
print(f"请求失败,状态码: {response.status_code}")
阅读全文