写一段爬虫的python代码
时间: 2024-09-24 21:08:27 浏览: 34
爬虫 代码 里面有详尽的注释
当然,这里是一个简单的Python爬虫示例,使用了requests库发送HTTP请求,BeautifulSoup库解析HTML内容,并提取数据。这个例子假设我们要抓取一个包含标题的简单网页(例如"https://www.example.com"):
```python
import requests
from bs4 import BeautifulSoup
# 发送GET请求
url = "https://www.example.com"
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 提取所有标题(默认为h1元素)
titles = soup.find_all('h1')
for title in titles:
print(title.text) # 打印标题文本
else:
print(f"请求失败,状态码:{response.status_code}")
```
注意,实际使用时你需要根据目标网站的具体结构调整HTML标签选择器。此外,如果你要频繁或大规模爬取数据,可能还需要考虑反爬虫机制,如设置User-Agent、使用代理IP等。同时,务必遵守网站的Robots协议,尊重版权。
阅读全文