python爬虫代码完整
时间: 2024-10-08 14:05:14 浏览: 24
Python爬虫通常涉及使用一些库,如BeautifulSoup、Requests和Scrapy等,这里是一个基本的Python爬虫代码示例,用于抓取网页内容:
```python
# 导入需要的库
import requests
from bs4 import BeautifulSoup
def spider(url):
# 发送GET请求获取网页内容
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 使用BeautifulSoup解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到并提取你需要的信息(比如所有链接)
links = [a['href'] for a in soup.find_all('a', href=True)]
# 打印结果
for link in links:
print(link)
else:
print(f"请求失败,状态码:{response.status_code}")
# 调用函数,传入目标网址
spider("https://example.com")
```
这个例子非常基础,实际的爬虫可能需要处理更复杂的页面结构、处理cookies和session、模拟登录、反爬机制等等。
阅读全文