python爬取csdn上的包含整人关键词的阅读量并且存入表格里
时间: 2023-02-08 14:42:05 浏览: 83
首先需要安装第三方库beautifulsoup4和pandas。然后可以使用python中的requests库获取网页源码,再使用beautifulsoup4解析网页源码,找到包含“整人”关键词的文章的阅读量。最后使用pandas库将阅读量存入表格中。
具体代码如下:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
url = 'https://blog.csdn.net/'
response = requests.get(url)
soup = BeautifulSoup(response.text, 'html.parser')
data = []
for item in soup.find_all('span', class_='read-count'):
if '整人' in item.text:
data.append(item.text)
df = pd.DataFrame(data, columns=['阅读量'])
df.to_excel('阅读量.xlsx', index=False)
```
上面代码中的url可以替换为需要爬取的网页地址,可以在代码中通过改变find_all()函数的参数来爬取不同的信息。
注意爬虫技术需要遵循网站的相关规则,否则可能会被封禁,请谨慎使用。
相关问题
python爬取CSDN中有关键词整人的链接和阅读量并输出。代码
首先需要安装爬虫库requests和BeautifulSoup,可以使用pip进行安装。
代码如下:
```python
import requests
from bs4 import BeautifulSoup
keyword = "整人"
url = "https://so.csdn.net/so/search/s.do?p=1&q=" + keyword
res = requests.get(url)
soup = BeautifulSoup(res.text, "html.parser")
for item in soup.select(".search-list .search-item-info"):
title = item.select(".title")[0].text
link = item.select(".title")[0]["href"]
views = item.select(".views")[0].text
print(title, link, views)
```
这段代码爬取了CSDN中关键词为"整人"的文章的标题、链接和阅读量,并输出。
请注意,爬取网页内容需遵循网站的协议,请不要滥用爬虫,导致网站流量压力过大,或者违反网站的协议。
阅读全文