使用python爬虫或自动化实现)爬取2024到excel:https://www.shanghairanking.cn/rankings/bcur/2024
时间: 2024-10-11 21:15:07 浏览: 38
c#操作xml文件示例
在Python中,可以使用一些强大的库如BeautifulSoup、requests和pandas来爬取网页数据并将其保存到Excel文件中。以下是一个简化的步骤示例:
1. 安装必要的库:
```
pip install requests beautifulsoup4 pandas openpyxl
```
2. 编写Python脚本,使用`requests`获取网页内容,`beautifulsoup4`解析HTML:
```python
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 请求URL
url = "https://www.shanghairanking.cn/rankings/bcur/2024"
# 发送GET请求
response = requests.get(url)
html_content = response.text
# 使用BeautifulSoup解析HTML
soup = BeautifulSoup(html_content, 'lxml')
# 找到需要的数据部分,并提取数据
data_rows = soup.find_all('div', class_='rank-cell') # 根据实际HTML结构修改class名
# 创建空列表存储数据
data_list = []
for row in data_rows:
data = [cell.text.strip() for cell in row.find_all(['span', 'a'])] # 提取所需字段
data_list.append(data)
# 将数据转换为pandas DataFrame
df = pd.DataFrame(data_list, columns=['Rank', 'University', 'Country'])
# 写入Excel文件
file_name = 'shanghai_ranking_2024.xlsx'
with pd.ExcelWriter(file_name) as writer:
df.to_excel(writer, sheet_name='Sheet1', index=False)
```
**注意**:以上代码假设了HTML结构已知并且数据位于指定的`<div>`标签内。实际操作中,你需要根据目标网站的实际HTML结构进行调整。
阅读全文