请帮我用Python写一个CSDN的公开源码爬取爬虫
时间: 2024-05-08 07:15:24 浏览: 111
以下是一个简单的Python爬虫代码,可以用来爬取CSDN公开源码页面上的所有源码:
```python
import requests
from bs4 import BeautifulSoup
# 设置请求头,模拟浏览器请求
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0;Win64) AppleWebkit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 访问CSDN公开源码页面
url = 'https://code.csdn.net/explore/public'
response = requests.get(url, headers=headers)
# 使用BeautifulSoup解析网页内容
soup = BeautifulSoup(response.text, 'html.parser')
# 查找所有源码链接
links = soup.find_all('a', class_='title')
# 遍历所有链接并输出链接标题和URL
for link in links:
title = link.text.strip() # 获取链接标题
url = link['href'] # 获取链接URL
print(title, url)
```
这个代码使用了requests库来发送HTTP请求并获取网页内容,使用了BeautifulSoup库来解析HTML文档,并查找所有源码链接。最后,遍历所有链接并输出链接标题和URL。
阅读全文