Python3.12爬虫代码
时间: 2024-10-26 08:02:14 浏览: 35
Python 3.12并没有特别的改动影响到爬虫编程,但是如果你想知道如何使用Python编写基本的爬虫,通常我们会用到`requests`库来发送HTTP请求,`BeautifulSoup`或`lxml`处理HTML文档,以及`pandas`来数据清洗和分析。
以下是一个简单的使用`requests`和`BeautifulSoup`进行网页抓取的例子:
```python
import requests
from bs4 import BeautifulSoup
# 发送GET请求
url = "https://www.example.com" # 替换为你想要爬取的网站地址
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML响应
soup = BeautifulSoup(response.text, 'html.parser')
# 找到特定的元素,例如所有标题
titles = soup.find_all('h1')
# 遍历并打印标题
for title in titles:
print(title.text)
else:
print(f"请求失败,状态码: {response.status_code}")
```
请注意,实际爬虫可能涉及到更复杂的逻辑,如处理反爬机制(设置User-Agent、cookies、代理等)、动态加载的内容、网络延迟控制等。同时,确保遵守网站的robots.txt规则和法律法规。
阅读全文