写一个爬CSDN页面的爬虫
时间: 2024-06-12 21:07:18 浏览: 119
由于CSDN网站有反爬虫机制,为了避免被封IP,我们需要使用一些技巧来爬取页面。
首先,我们需要安装一些库:requests、beautifulsoup4、fake_useragent。
```python
pip install requests
pip install beautifulsoup4
pip install fake_useragent
```
然后,我们可以编写以下爬虫代码:
```python
import requests
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
# 设置请求头
headers = {
"User-Agent": UserAgent().chrome
}
# 爬取页面
url = "https://blog.csdn.net/"
response = requests.get(url, headers=headers)
# 解析页面
soup = BeautifulSoup(response.content, "html.parser")
articles = soup.find_all("div", class_="article-item-box")
# 输出结果
for article in articles:
title = article.find("h4").text.strip()
author = article.find("a", class_="nickname").text.strip()
views = article.find("span", class_="read-num").text.strip()
comments = article.find("span", class_="comments").text.strip()
print(title, author, views, comments)
```
这个爬虫代码可以爬取CSDN首页上的所有文章,并输出文章的标题、作者、阅读量和评论数。
需要注意的是,CSDN网站有反爬虫机制,如果频繁请求会被封IP。因此,我们需要设置请求头,使用随机的User-Agent来模拟不同的浏览器,让请求看起来更像是人类在浏览网页。此外,我们还可以设置代理IP来进行爬取。
阅读全文