jupyter开发环境中爬取奥林匹克奖牌数据分析全部代码
时间: 2024-10-01 11:07:56 浏览: 40
在Jupyter Notebook环境下分析奥林匹克奖牌数据通常涉及几个步骤,包括数据获取、数据清洗、数据分析以及可视化。这里是一个简化的Python爬虫示例,用于从网站抓取数据并基本处理,假设我们要从"olympics.org"获取前几届奥运会的奖牌榜信息。请注意,实际操作时需要遵守网站的robots.txt文件规定,并尊重数据隐私。
```python
# 导入必要的库
import requests
from bs4 import BeautifulSoup
import pandas as pd
# 定义要抓取的数据URL
url = "https://www.olympic.org/mens-medal-table"
# 发送GET请求
response = requests.get(url)
# 检查请求是否成功
if response.status_code == 200:
# 解析HTML内容
soup = BeautifulSoup(response.text, 'html.parser')
# 找到奖牌榜表格
table = soup.find('table', {'class': 'medalTable'})
# 提取数据(假设表头是固定的)
headers = [th.text for th in table.find_all('th', {'scope': 'col'})]
data = []
# 遍历行并提取数据
rows = table.find_all('tr')
for row in rows[1:]: # 跳过表头
cols = row.find_all('td')
cols_data = [col.text.strip() for col in cols]
data.append(cols_data)
# 将数据转换成DataFrame
medals_df = pd.DataFrame(data, columns=headers)
# 可能还需进行数据清洗和进一步处理
# ...
# 查看数据前几行
print(medals_df.head())
else:
print(f"请求失败,状态码:{response.status_code}")
#
阅读全文