爬取https://news.sina.cn/zt_d/yiqing0121中全国疫情全部累计并且输出保存在excel
时间: 2024-01-03 17:03:03 浏览: 143
好的,我会使用Python的爬虫库和数据处理库来实现你的需求。其中,爬虫库我会使用requests和BeautifulSoup,数据处理库我会使用pandas。
首先,我们需要安装requests、BeautifulSoup和pandas这三个库,你可以在终端或命令提示符中使用以下命令进行安装:
```
pip install requests beautifulsoup4 pandas
```
安装完成后,我们就可以开始编写代码了。以下是完整的代码:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
url = 'https://news.sina.cn/zt_d/yiqing0121'
# 发送HTTP请求
r = requests.get(url)
# 解析HTML页面
soup = BeautifulSoup(r.content, 'html.parser')
# 获取表格中的数据
table = soup.find('div', {'class': 'data_warp'})
rows = table.find_all('tr')
data = []
for row in rows:
cols = row.find_all('td')
cols = [col.text.strip() for col in cols]
data.append(cols)
# 将数据保存到Excel中
df = pd.DataFrame(data[1:], columns=data[0])
df.to_excel('疫情数据.xlsx', index=False)
```
代码解释:
1. 首先,我们定义了要爬取的网址。
2. 然后,使用requests库发送HTTP请求,并使用BeautifulSoup库解析HTML页面。
3. 接下来,我们找到页面中的数据表格,并获取其中的所有行和列。
4. 最后,将数据保存到Excel中,使用pandas库的DataFrame数据结构来处理数据,并使用to_excel()方法保存到Excel文件中。
运行代码之后,你就可以在当前目录下找到一个名为“疫情数据.xlsx”的Excel文件,里面包含了全国疫情的累计数据。
阅读全文