python爬取csdn上的包含整人关键词的阅读量并且存入表格里。完整代码
时间: 2023-02-08 16:42:05 浏览: 112
请注意,爬取他人网站的数据可能违反网站的条款和条件。在进行爬虫操作之前,请确保获得网站的授权。
下面是一个使用 Python 爬取 CSDN 上所有包含 "整人" 关键词文章的阅读量并存入表格的示例代码:
```python
import requests
from bs4 import BeautifulSoup
import csv
# 定义请求头
headers = {
'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.183 Safari/537.36'
}
# 定义关键词
keyword = '整人'
# 定义爬取页数
page_num = 10
# 创建 csv 文件并写入表头
with open('CSDN_articles.csv', 'w', newline='', encoding='utf-8') as f:
writer = csv.writer(f)
writer.writerow(['标题', '阅读量', '链接'])
# 循环爬取每一页
for i in range(1, page_num + 1):
# 拼接网页地址
url = f'https://so.csdn.net/so/search/s.do?q={keyword}&t=blog&p={i}'
res = requests.get(url, headers=headers)
soup = BeautifulSoup(res.text, 'html.parser')
# 找到所有文章
articles = soup.find_all(class_='search-list-con')
# 遍历所有文章
for article in articles:
title = article.find('h2').get_text()
link = article.find('a')['href']
view_str = article.find(class_='so-icon zhan').get_text()
view = int(view_str.replace('阅读数:', ''))
# 写入 csv 文件
with open('CSDN_articles.csv', 'a', newline='', encoding='utf-8') as f:
writer = csv.writer(f)
writer.writerow([title, view, link])
```
这段代码使用了requ
阅读全文