爬取csdn官网数据代码
时间: 2023-10-05 21:08:54 浏览: 213
以下是使用Python的 requests 和 BeautifulSoup 库来爬取 CSDN 官网文章列表的代码:
```python
import requests
from bs4 import BeautifulSoup
url = 'https://www.csdn.net/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
articles = soup.find_all('a', class_='title')
for article in articles:
title = article.get_text().strip()
link = article['href']
print(title, link)
```
这个代码会首先发送 GET 请求到 CSDN 官网,然后使用 BeautifulSoup 库来解析 HTML 。我们使用 `find_all()` 方法来查找所有的文章标题链接,然后迭代这些链接并打印出标题和链接。
相关问题
生成爬取csdn数据的代码
以下是一个使用 Python 和 requests 库爬取 CSDN 数据的示例代码:
```python
import requests
from bs4 import BeautifulSoup
url = "https://blog.csdn.net/"
response = requests.get(url)
soup = BeautifulSoup(response.text, "html.parser")
articles = soup.find_all("div", {"class": "article-item-box csdn-tracking-statistics"})
for article in articles:
title = article.find("h4").text.strip()
author = article.find("a", {"class": "nickname"}).text.strip()
date = article.find("span", {"class": "date"}).text.strip()
views = article.find("span", {"class": "read-num"}).text.strip()
print(f"Title: {title}\nAuthor: {author}\nDate: {date}\nViews: {views}\n")
```
该代码将获取 CSDN 首页上的所有文章,并打印出每篇文章的标题、作者、日期和阅读量。你可以根据自己的需要修改代码,例如更改 URL 来爬取其他页面,或者使用正则表达式来提取更多信息。请注意,尊重网站的使用条款和隐私政策,不要过度爬取数据。
给我一段完整的python爬虫爬取CSDN网页数据的代码
好的,这是一个简单的示例代码,可以爬取CSDN某个用户的博客列表:
```python
import requests
from bs4 import BeautifulSoup
# 设置请求头,模拟浏览器请求
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3'}
# 要爬取的CSDN博客首页链接
url = 'https://blog.csdn.net/username'
# 发送请求并获取响应内容
response = requests.get(url, headers=headers)
html = response.content
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html, 'html.parser')
# 获取博客列表中的所有文章标题
titles = []
for title in soup.select('.article-title'):
titles.append(title.text.strip())
# 打印结果
print(titles)
```
需要注意的是,爬取网站数据需要遵守相关法律法规和网站规定,不得进行侵犯隐私、破坏网站功能等违法行为。
阅读全文