具体 python 爬虫例子
时间: 2024-09-28 14:02:47 浏览: 44
Python 爬虫的一个典型例子是使用 `requests` 库获取网页内容,然后使用 `BeautifulSoup` 或 `lxml` 解析HTML结构,最后提取所需数据。这里以爬取简单网页上的新闻标题为例:
```python
# 导入必要的库
import requests
from bs4 import BeautifulSoup
# 定义要爬取的网页 URL
url = 'https://www.example.com/news'
# 发送GET请求获取网页内容
response = requests.get(url)
# 检查请求状态码,确认成功
if response.status_code == 200:
# 将响应内容转化为BeautifulSoup对象
soup = BeautifulSoup(response.text, 'html.parser')
# 找到包含新闻标题的标签,比如class="news-title"
news_titles = soup.find_all('div', class_='news-title')
# 遍历每个标题元素并打印
for title in news_titles:
print(title.get_text()) # 获取文本内容
else:
print(f"无法连接到网页,状态码:{response.status_code}")
```
这个例子假设目标网页的结构已知,我们可以定位到标题元素。实际操作中,页面结构可能会更复杂,需要根据实际情况调整选择器。
阅读全文